Sammenfattende statistik i STATA | Kort- og databibliotek

Vi vil bruge et datasæt fra den canadiske undersøgelse af folkesundheden (CCHS). Du kan finde det i mappen . Inden vi går i gang, skal vi se på beskrivelsen af hver enkelt variabel:

Tabulér

En simpel tabulering bør altid være dit første forsøg med dine data. Kommandoen tabulate returnerer en frekvens- og kumulativ fordelingstabel i Stata-fremviseren. Lad os sige, at du ønsker at kende andelen af respondenter i stikprøven, der nogensinde har fået en influenzavaccination:

Bemærk, at du kan kombinere kommandoen tabulate med by (eller bysort) præfikset for at se på tabuleringen for undergrupper i dit datasæt. Præfikset “bysort” er en kombination af “by” og “sort”; du kunne tilsvarende opdele det i to kommandoer, men det er generelt enklere at bruge “bysort” Stata vil først sortere dataene og derefter returnere oplysningerne efter kategori. Lad os f.eks. her se, om mønstrene for influenzavaccinationer ser forskellige ud for hver provins:

Hvis du kun er interesseret i én undergruppe, kan du også bruge “if”-kvalificeringen med tabulate-kommandoen. Lad os her sige, at vi ønsker at kende hyppigheden af influenzavaccinationer i stikprøven for Ontario:

Sluttelig kan du bruge kommandoen tabulate til at foretage en simpel krydstabulering ved hjælp af kategoriske variabler. Lad os sige, at du vil vide, hvor mange af kvinderne i stikprøven der har røget over 100 cigaretter i deres liv:

Summariser

Når du har tabuleret dine data, kan du begynde at se på andre summariske statistikker end frekvens. Kommandoen summarize returnerer middelværdi, standardafvigelse, minimum, maksimum og frekvens.

Eksemplet er opbygget på samme måde som tabulate-eksemplet var. Først ser vi på den sammenfattende statistik for hele stikprøven, og derefter ser vi på statistikken for delprøver (hver provins).

Ved brug af “if”-kvalificeringen returneres den sammenfattende statistik for en specifik undergruppe.

I disse eksempler har vi fokuseret på at opdele stikprøven efter provins, men enhver kategorisk variabel kan bruges. I de efterfølgende eksempler vil vi se på mænd og kvinder, rygere og ikke-rygere, fysisk aktive eller ikke-fysisk aktive eller ikke-fysisk aktive. Den måde, du ser på dine data på, afhænger af den type spørgsmål, du ønsker at stille; jo klarere dit spørgsmål er, jo mere specifik kan din analyse være.

Tabulate, Summarize()

Denne kombination af kommandoer giver dig mulighed for at oprette enkle envejs- og tovejs-oversigtstabeller i Stata.

Den første del af kommandoen (tabulate) opdeler dine data efter en kategorisk variabel (her bruger vi køn). Den anden del vil give sammenfattende statistikker for en anden variabel (fortrinsvis kvantitativ). Lad os sige, at du vil vide, hvordan (om) mænd og kvinder adskiller sig fra hinanden med hensyn til deres daglige forbrug af frugt og grøntsager:

Denne tabel vil give os middelværdi, standardafvigelse og hyppighed af det daglige forbrug af frugt og grøntsager for mænd og kvinder i stikprøven:

Hvis du vil vide, om mænd og kvinder fra forskellige provinser har forskellige mønstre i deres gennemsnitlige daglige forbrug af frugt og grøntsager, kan du bruge bysort-kommandoen igen for at lave den samme forespørgsel provins for provins:

Bemærk, at du også kan bruge “if”-kvalificeringen her (som vi gjorde i tabulate- og summarize-kommandoerne) for at se på f.eks. kun én provins.

Du kan også bruge kommandoen tabulate, summarize() til at oprette en hurtig firevejs-oversigtsstatistiktabel. Hvis du f.eks. ønsker at se på mønstre for det daglige frugt- og grøntforbrug for mænd og kvinder med forskellige rygevaner, kan du oprette en tabel til det:

Resultatet synes at vise et bestemt mønster: Rygere ser ud til at spise mindre frugt og grønt end ikke-rygere, og kvinder ser ud til at spise mere frugt og grønt end mænd i gennemsnit.

Tabstat

Tabstat-kommandoen viser sammenfattende statistikker for en række numeriske variabler i en tabel, eventuelt opdelt på (betinget af) en anden variabel. Uden indstillingen by() er tabstat et nyttigt alternativ til summarize, fordi den giver dig mulighed for at angive den liste over statistikker, der skal vises. Med by()-indstillingen ligner tabstat tabulate brugt med dets summarize()-indstilling, idet begge rapporterer statistikker for varlist for de forskellige værdier af varname. Kommandoen tabstat giver større fleksibilitet med hensyn til de præsenterede statistikker og tabellens format.

Den første linje returnerer statistikkerne (gennemsnit, standardafvigelse og frekvens) for 4 variabler (HWTGHTM HWTGWWTK HWTGBMI PACFD) for hele stikprøven. Resultatvinduet ser således ud:

Den anden linje fortæller Stata, at den skal gøre det samme, men at stikprøven skal opdeles mellem mænd og kvinder. Dette er resultatet:

Bemærk, hvordan vi også får totalen, så hvis du er interesseret i de opdelte stikprøver og totalen, er det ikke nødvendigt at gøre begge dele separat.

Finalt vil den tredje kommandolinje, med bysort-præfikset, gøre det samme på skift for hver provins og opdele hver delprøve i mandlige og kvindelige. Resultaterne er i samme format, men denne returnerer delprøvens (dvs. provinsens) total for mænd og kvinder tilsammen, men ikke den samlede total for alle provinser:

Bemærk, at du vælger den statistik, der er rapporteret i tabellen. De tilgængelige statistikker er anført i hjælpefanebladetstat:

Tabel

Tabelkommandoen table beregner og viser tabeller af statistikker. Ligesom i tabstat kan du vælge den statistik, du vil have rapporteret, men du kan også vælge, hvilken variabel du vil have statistikken rapporteret for, samt hvilke variabler du vil have oplysningerne krydstabuleret efter. Syntaksens struktur er enkel, men fortjener et nærmere kig:

Dette vil lave en tabel med PACFD som rækkevariabel (men kun hvis værdien for PACFD ikke er .d), DHH_SEX som overrækkens variabel, og indholdet af hver celle vil være middelværdi, standardafvigelse og frekvens for variablen FVCDTOT:

Kan vi gøre det bedre? Ja, det kan vi. Der kan angives op til fire variabler i by(), så med de tre række-, kolonne- og superspaltevariabler kan der vises syv-vejs tabeller. Vi skal ikke lave en syv-vejs tabel i dag, men lad os se på en fire-vejs tabel med superrow (en fem-vejs tabel, hvis du vil):

Syntaksen er den samme, den ser bare mere kompliceret ud.

table rowvar ]

I vores eksempel er rækkevariablen igen PACDFD, kolonnevariablen er SMK_01B. Vi bruger if-kvalifikatoren til at begrænse til observationer, for hvilke værdierne af række- og kolonnevariablerne enten er 0 eller 1. Indholdet af cellerne er igen middelværdi, standardafvigelse og hyppighed af variablen FVCDTOT, og vi har DHH_SEX som en superrækkenvariabel.

Den måde at læse denne tabel på er enkel: En kvindelig respondent, som ikke har mere end 15 minutters daglig aktivitet og aldrig har røget en hel cigaret, spiser i gennemsnit 5.1 enhed frugt og grøntsager dagligt.

Nu en sidste finesse… En fire-vejs tabel med superkolonne og superrække… Her er kommandoen:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1))), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Og resultatet:

Nu spørger du måske dig selv, om jeg virkelig har brug for at gøre alt dette bare for at se på summariske statistikker? Svaret vil variere alt efter dit sofistikeringsniveau, dit forskningsspørgsmål eller din vejleders forskningsdagsorden… For nogle vil tabulate, summarize og måske tabulate, summarize() være mere end nok. For andre kan tabstat og table være meget nyttige værktøjer.

Vi opfordrer dig til at lege med data og til at få et indgående kendskab til dit datasæt, før du udfører mere formelle statistiske analyser. Der findes mange gode interenetkilder til supplerende læsning om oprettelse af sammenfattende statistikker i Stata. Vær specifik, når du indtaster en forespørgsel i en søgemaskine, og du bør finde mange brugerskrevne råd.

Se vejledninger om at hente data fra <odesi>, rensning af data i Stata

Du vil bemærke et par administrative kommandoer før kommandoen describe (her forkortet til “des”)

Syntaksen ville simpelthen være:

Tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

Vi kan ikke drage konklusioner ved at se på gennemsnit; vi ville være nødt til at teste, om et af disse gennemsnit er statistisk forskelligt fra de andre. Men at se på disse sammenfattende statistikker er en god start på at undersøge mønstre i dataene.

I dette datasæt er .d en kode for manglende data

Skriv “help table” i kommandovinduet i Stata for at få en detaljeret præsentation af funktionerne i denne kommando.

Skriv et svar Annuller svar