Sammanfattande statistik i STATA | Map and Data Library

Vi kommer att använda ett dataset från Canadian Community Health Survey (CCHS). Du hittar det i mappen . Innan vi börjar tittar vi på beskrivningen av varje variabel:

Tabulera

En enkel tabulering bör alltid vara ditt första försök med dina data. Kommandot tabulate returnerar en tabell över frekvens och kumulativ fördelning i Stata-visaren. Låt oss säga att du vill veta hur stor andel av respondenterna i urvalet som någonsin fått en influensavaccinering:

Notera att du kan kombinera tabulate-kommandot med prefixet by (eller bysort) för att titta på tabuleringen för undergrupper i ditt dataset. Prefixet ”bysort” är en kombination av ”by” och ”sort”; du skulle på motsvarande sätt kunna dela upp det i två kommandon, men det är i allmänhet enklare att använda ”bysort” Stata kommer först att sortera data och sedan återge informationen per kategori. Här kan vi till exempel se om mönstren för influensavaccinationer ser olika ut för varje provins:

Om du bara är intresserad av en undergrupp kan du också använda ”if”-kvalificeringskriteriet med tabulate-kommandot. Låt oss säga att vi vill veta hur ofta influensavaccinationer förekommer i urvalet för Ontario:

Slutligt kan du använda tabulate-kommandot för att göra en enkel korstabulering med hjälp av kategoriska variabler. Säg att du vill veta hur många av kvinnorna i urvalet som rökt över 100 cigaretter i sitt liv:

Summera

När du har tabulerat dina data kan du börja titta på annan sammanfattande statistik än frekvens. Kommandot summarize returnerar medelvärde, standardavvikelse, minimum, maximum och frekvens.

Exemplet är uppbyggt på samma sätt som exemplet tabulate. Först tittar vi på den sammanfattande statistiken för hela urvalet och sedan tittar vi på statistiken för delprov (varje provins).

Användning av ”if”-kvalificeringskriteriet returnerar den sammanfattande statistiken för en specifik undergrupp.

I de här exemplen har vi fokuserat på att dela upp urvalet efter provins, men alla kategoriska variabler kan användas. I efterföljande exempel kommer vi att titta på män och kvinnor, rökare och icke-rökare, fysiskt aktiva eller inte. Hur du tittar på dina data beror på vilken typ av frågor du vill ställa; ju tydligare din fråga är, desto mer specifik kan din analys vara.

Tabulate, Summarize()

Den här kombinationen av kommandon låter dig skapa enkla sammanfattande statistiska tabeller för en- och tvåvägsstatistik i Stata.

Den första delen av kommandot (tabulate) kommer att dela upp dina data enligt en kategorisk variabel (här kommer vi att använda kön). Den andra delen kommer att ge sammanfattande statistik för en annan variabel (helst kvantitativ). Låt oss säga att du vill veta hur (om) män och kvinnor skiljer sig åt i sin dagliga konsumtion av frukt och grönsaker:

Denna tabell kommer att ge oss medelvärdet, standardavvikelsen och frekvensen av den dagliga konsumtionen av frukt och grönsaker för män och kvinnor i urvalet:

Om du vill veta om män och kvinnor från olika provinser har olika mönster i sin genomsnittliga dagliga konsumtion av frukt och grönsaker kan du använda bysort-kommandot igen för att göra samma sökning provins för provins:

Observera att du också kan använda ”if”-kvalificeringskriteriet här (som vi gjorde i tabulate- och summarisk-kommandona) för att titta på till exempel bara en provins.

Du kan också använda kommandot tabulate, summarize() för att skapa en snabb sammanfattande statistisk tabell med fyra sammanfattningar. Om du till exempel vill titta på mönster för daglig konsumtion av frukt och grönsaker för män och kvinnor med olika rökvanor kan du skapa en tabell för detta:

Resultatet tycks visa ett visst mönster: rökare ser ut att äta mindre frukt och grönsaker än icke-rökare, och kvinnor verkar äta mer frukt och grönsaker än män, i genomsnitt.

Tabstat

Kommandot tabstat visar sammanfattande statistik för en rad numeriska variabler i en tabell, eventuellt uppdelad på (betingad av) en annan variabel. Utan alternativet by() är tabstat ett användbart alternativ till summarize eftersom du kan ange listan över statistik som ska visas. Med alternativet by() liknar tabstat tabulate som används med alternativet summarize(), eftersom båda rapporterar statistik för varlist för olika värden av varname. Kommandot tabstat ger större flexibilitet när det gäller den statistik som presenteras och tabellens format.

Den första raden ger statistik (medelvärde, standardavvikelse och frekvens) för fyra variabler (HWTGHTM HWTGWWTK HWTGBMI PACFD) för hela urvalet. Resultatfönstret ser ut så här:

Den andra raden säger åt Stata att göra samma sak, men att dela upp urvalet mellan män och kvinnor. Detta är resultatet:

Bemärk hur vi också får totalen, så om du är intresserad av de delade proverna och totalen behöver du inte göra båda separat.

Finalt kommer den tredje kommandoraden, med prefixet bysort, att göra samma sak i tur och ordning för varje provins, och dela upp varje delprov i manligt och kvinnligt. Resultaten är i samma format, men detta returnerar delprovets (dvs. provinsens) totalsumma för män och kvinnor tillsammans, men inte totalsumman för alla provinser:

Notera att du väljer den statistik som rapporteras i tabellen. Den tillgängliga statistiken listas i hjälpflikenstat:

Tabell

Tabellkommandot beräknar och visar statistiktabeller. Precis som i tabstat kan du välja vilken statistik du vill ha rapporterad, men du kan också välja vilken variabel du vill att statistiken ska rapporteras för, samt vilka variabler du vill att informationen ska korstabuleras med. Syntaxens struktur är enkel men tål en närmare granskning:

Detta kommer att skapa en tabell med PACFD som radvariabel (men bara om värdet för PACFD inte är .d), DHH_SEX som överradsvariabel och innehållet i varje cell kommer att vara medelvärde, standardavvikelse och frekvens för variabeln FVCDTOT:

Kan vi göra bättre? Ja, det kan vi. Upp till fyra variabler kan anges i by(), så med de tre variablerna rad, kolumn och superkolumn kan sjuvägstabeller visas. Vi kommer inte att göra en sjuvägstabell idag, men låt oss titta på en fyrvägstabell med superrow (en femvägstabell om du vill):

Syntaxen är densamma, den ser bara mer komplicerad ut.

table rowvar ]

I vårt exempel är radvariabeln återigen PACDFD, kolumnvariabeln är SMK_01B. Vi använder if-kvalificeringen för att begränsa oss till observationer för vilka värdena för rad- och kolumnvariablerna antingen är 0 eller 1. Innehållet i cellerna är återigen medelvärde, standardavvikelse och frekvens för variabeln FVCDTOT, och vi har DHH_SEX som en superradsvariabel.

Sättet att läsa denna tabell är enkelt: en kvinnlig svarande som inte ägnar sig åt mer än 15 minuter av daglig aktivitet och som aldrig har rökt en hel cigarett äter i genomsnitt 5.1 enhet frukt och grönsaker dagligen.

Nu, en sista finess… En fyrvägstabell med superkolumn och superrad… Här är kommandot:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Och resultatet:

Nu kanske du frågar dig själv, behöver jag verkligen göra allt detta bara för att titta på sammanfattande statistik? Svaret varierar beroende på din nivå av förfining, din forskningsfråga eller din handledares forskningsagenda… För vissa räcker det gott och väl med tabulate, summarize och kanske tabulate, summarize(). För andra kan tabstat och table vara mycket användbara verktyg.

Vi uppmuntrar dig att leka med data och att skaffa dig en ingående kunskap om ditt dataset innan du utför mer formella statistiska analyser. Det finns många bra källor på Internet för kompletterande läsning om hur man skapar sammanfattande statistik i Stata. Var specifik när du anger en fråga i en sökmotor och du bör hitta många användarskrivna råd.

Se guider om att hämta data från <odesi>, rensning av data i Stata

Du kommer att lägga märke till några administrativa kommandon före describe-kommandot (här förkortat till ”des”)

Syntaxen skulle helt enkelt vara: Vi kan inte dra slutsatser genom att titta på medelvärden; vi skulle behöva testa om något av dessa medelvärden är statistiskt annorlunda än de andra. Att titta på denna sammanfattande statistik är dock en bra början för att undersöka mönster i data.

I det här datasetet är .d en kod för saknade data

Skriv ”help table” i kommandofönstret i Stata för att få en detaljerad presentation av funktionerna i det här kommandot.

Lämna ett svar Avbryt svar