Nous allons utiliser un ensemble de données provenant de l’enquête sur la santé dans les collectivités canadiennes (ESCC). Vous pouvez le trouver dans le dossier . Avant de commencer, regardons la description de chaque variable:

Tabulate

Une simple tabulation devrait toujours être votre premier coup de poignard sur vos données. La commande tabulate renvoie un tableau de fréquence et de distribution cumulative dans le visualiseur Stata. Disons que vous voulez connaître la proportion de répondant dans l’échantillon qui a déjà reçu un vaccin contre la grippe :

Notez que vous pouvez combiner la commande tabulate avec le préfixe by (ou bysort) pour regarder la tabulation pour les sous-groupes dans votre ensemble de données. Le préfixe « bysort » est une combinaison de « by » et « sort » ; vous pourriez de manière équivalente le décomposer en deux commandes, mais il est généralement plus simple d’utiliser « bysort » Stata va d’abord trier les données, puis retourner les informations par catégorie. Par exemple, voyons ici si les schémas de vaccination contre la grippe semblent différents pour chaque province:

Si vous êtes intéressé par un seul sous-groupe, vous pouvez également utiliser le qualificatif « if » avec la commande tabulate. Ici, disons que nous voulons connaître la fréquence des vaccins contre la grippe dans l’échantillon pour l’Ontario :

Enfin, vous pouvez utiliser la commande tabulate pour effectuer un simple tableau croisé en utilisant des variables catégorielles. Disons que vous voulez savoir combien de femmes de l’échantillon ont fumé plus de 100 cigarettes au cours de leur vie :

Summarize

Une fois que vous avez tabulé vos données, vous pouvez commencer à examiner des statistiques sommaires autres que la fréquence. La commande summarize renvoie la moyenne, l’écart type, le minimum, le maximum et la fréquence.

L’exemple est construit de la même manière que l’exemple tabulate. Nous examinons d’abord les statistiques sommaires pour l’ensemble de l’échantillon, puis nous examinons les statistiques pour les sous-échantillons (chaque province).

L’utilisation du qualificateur « if » renvoie les statistiques sommaires pour un sous-groupe spécifique.

Dans ces exemples, nous nous sommes concentrés sur la division de l’échantillon par province, mais toute variable catégorielle peut être utilisée. Dans les exemples suivants, nous examinerons les hommes et les femmes, les fumeurs et les non-fumeurs, les personnes physiquement actives ou non. La façon dont vous regardez vos données dépend du type de questions que vous voulez poser ; plus votre question est claire, plus votre analyse peut être spécifique.

Tabulate, Summarize()

Cette combinaison de commandes vous permet de créer des tableaux simples de statistiques sommaires à une et deux voies dans Stata.

La première partie de la commande (tabulate) divisera vos données selon une variable catégorielle (ici, nous utiliserons le sexe). La seconde partie donnera des statistiques sommaires pour une autre variable (de préférence quantitative). Disons que vous voulez savoir comment (si) les hommes et les femmes diffèrent dans leur consommation quotidienne de fruits et légumes :

Ce tableau nous donnera la moyenne, l’écart type et la fréquence de la consommation quotidienne de fruits et légumes pour les hommes et les femmes de l’échantillon :

Si vous voulez savoir si les hommes et les femmes de différentes provinces ont des tendances différentes dans leur consommation quotidienne moyenne de fruits et légumes, vous pouvez utiliser à nouveau la commande bysort pour effectuer la même requête province par province :

Notez que vous pouvez également utiliser le qualificatif « si » ici (comme nous l’avons fait dans les commandes tabulate et summarize) pour examiner, par exemple, une seule province.

Vous pouvez également utiliser la commande tabulate, summarize() pour créer rapidement un tableau statistique récapitulatif à quatre voies. Par exemple, si vous vouliez examiner les modèles de consommation quotidienne de fruits et légumes pour les hommes et les femmes ayant des habitudes de tabagisme différentes, vous pourriez créer un tableau pour cela :

Le résultat semble montrer un certain modèle : les fumeurs semblent manger moins de fruits et légumes que les non-fumeurs, et les femmes semblent manger plus de fruits et légumes que les hommes, en moyenne.

Tabstat

La commande tabstat affiche des statistiques sommaires pour une série de variables numériques dans un tableau, éventuellement ventilées sur (conditionnées par) une autre variable. Sans l’option by(), tabstat est une alternative utile à summarize car elle vous permet de spécifier la liste des statistiques à afficher. Avec l’option by(), tabstat ressemble à tabulate utilisé avec son option summarize() en ce sens que les deux rapportent les statistiques de varlist pour les différentes valeurs de varname. La commande tabstat permet plus de flexibilité en termes de statistiques présentées et de format du tableau.

La première ligne renverra les statistiques (moyenne, écart type et fréquence) pour 4 variables (HWTGHTM HWTGWTK HWTGBMI PACFD) pour l’ensemble de l’échantillon. La fenêtre de résultat ressemble à ceci:

La deuxième ligne indique à Stata de faire la même chose, mais de diviser l’échantillon entre hommes et femmes. Voici le résultat :

Notez comment nous obtenons également le total, donc si vous êtes intéressé par les échantillons fractionnés et le total, pas besoin de faire les deux séparément.

Enfin, la troisième ligne de commande, avec le préfixe bysort, fera la même chose à son tour pour chaque province, et divisera chaque sous-échantillon en hommes et femmes. Les résultats sont dans le même format, cependant ceci renvoie le total du sous-échantillon (c’est-à-dire provincial) pour les hommes et les femmes combinés, mais pas le grand total pour toutes les provinces:

Notez que vous choisissez les statistiques qui sont rapportées dans le tableau. Les statistiques disponibles sont listées dans l’aide tabstat:

Table

La commande table calcule et affiche des tableaux de statistiques. Tout comme dans tabstat, vous pouvez choisir les statistiques que vous voulez rapporter, mais vous choisissez également la variable pour laquelle vous voulez que les statistiques soient rapportées, ainsi que les variables par lesquelles vous voulez que les informations soient croisées. La structure de la syntaxe est simple mais mérite un regard plus attentif:

Cela fera un tableau avec PACFD comme variable de ligne (mais seulement si la valeur de PACFD n’est pas .d), DHH_SEX comme variable de super-route, et le contenu de chaque cellule sera la moyenne, l’écart type et la fréquence de la variable FVCDTOT:

Pouvons-nous faire mieux ? Oui, on peut. On peut spécifier jusqu’à quatre variables dans le by(), donc avec les trois variables ligne, colonne et supercolonne, on peut afficher des tableaux à sept voies. Nous ne ferons pas un tableau à sept voies aujourd’hui, mais regardons un tableau à quatre voies avec supercolonne (un tableau à cinq voies si vous voulez):

La syntaxe est la même, elle a seulement l’air plus compliquée.

table rowvar ]

Dans notre exemple, la variable de ligne est à nouveau PACDFD, la variable de colonne est SMK_01B. Nous utilisons le qualificateur if pour nous restreindre à l’observation pour laquelle les valeurs des variables ligne et colonne est soit 0 soit 1, le contenu des cellules est à nouveau la moyenne, l’écart type et la fréquence de la variable FVCDTOT, et nous avons DHH_SEX comme variable superrow.

La façon de lire ce tableau est simple : une répondante qui ne pratique pas plus de 15 minutes d’activité quotidienne et n’a jamais fumé une cigarette entière mange en moyenne 5.1 unités de fruits et légumes par jour.

Maintenant, une dernière fioriture… Un tableau à quatre voies avec supercolonne et superligne… Voici la commande:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Et le résultat :

Maintenant, vous pouvez vous demander si j’ai vraiment besoin de faire tout cela juste pour regarder des statistiques sommaires ? La réponse variera en fonction de votre niveau de sophistication, de votre question de recherche ou du programme de recherche de votre superviseur… Pour certains, tabulate, summarize et peut-être tabulate, summarize() seront plus que suffisants. Pour d’autres, tabstat et table pourraient être des outils très utiles en effet.

Nous vous encourageons à jouer avec les données, et à acquérir une connaissance intime de votre ensemble de données avant de mener une analyse statistique plus formelle. Il existe de nombreuses bonnes sources Internet pour des lectures supplémentaires sur la création de statistiques sommaires dans Stata. Soyez spécifique lorsque vous entrez une requête dans un moteur de recherche et vous devriez trouver beaucoup de conseils écrits par les utilisateurs.

Reportez-vous aux guides sur l’obtention de données à partir de <odesi>, le nettoyage des données sur Stata

Vous remarquerez quelques commandes administratives avant la commande describe (ici raccourcie en « des »)

La syntaxe serait simplement : tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

Nous ne pouvons pas tirer d’inférence en regardant les moyennes ; nous aurions besoin de tester si oui ou non l’une de ces moyennes est statistiquement différente des autres. Cependant, l’examen de ces statistiques sommaires est un bon début pour étudier les modèles dans les données.

Dans cet ensemble de données, .d est un code de données manquantes

Tapez « help table » dans la fenêtre de commande de Stata pour une présentation détaillée des caractéristiques de cette commande.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.