We zullen gebruik maken van een dataset van de Canadian Community Health Survey (CCHS). U kunt deze vinden in de map . Voordat we beginnen, bekijken we de beschrijving van elke variabele:

Tabulate

Een eenvoudige tabellering zou altijd de eerste stap moeten zijn die u met uw gegevens zet. Het tabulate commando geeft een frequentie en cumulatieve verdelingstabel in de Stata viewer. Stel dat u wilt weten welk percentage van de respondenten in de steekproef ooit een griepprik heeft gehad:

Merk op dat u het tabulate-commando kunt combineren met het voorvoegsel by (of bysort) om de tabellering voor subgroepen in uw dataset te bekijken. Het voorvoegsel “bysort” is een combinatie van “by” en “sort”; je zou het ook in twee commando’s kunnen opsplitsen, maar over het algemeen is het eenvoudiger om “bysort” te gebruiken Stata zal eerst de gegevens sorteren en dan de informatie per categorie teruggeven. Laten we hier bijvoorbeeld eens kijken of de patronen van griepprikken verschillend zijn voor elke provincie:

Als u slechts in één subgroep geïnteresseerd bent, kunt u ook de “if”-kwalificator gebruiken met het tabulate-commando. Stel dat we de frequentie van griepprikken in de steekproef voor Ontario willen weten:

Tot slot kunt u de opdracht tabulate gebruiken om een eenvoudige kruistabel te maken met categorische variabelen. Stel dat u wilt weten hoeveel vrouwen in de steekproef in hun leven meer dan 100 sigaretten hebben gerookt:

Samenvatten

Nadat u uw gegevens in tabelvorm hebt weergegeven, kunt u naar andere samenvattende statistieken dan frequentie gaan kijken. Het commando summarize geeft gemiddelde, standaardafwijking, minimum, maximum en frequentie weer.

Het voorbeeld is op dezelfde manier opgebouwd als het tabulate-voorbeeld. Eerst bekijken we de samenvattende statistieken voor de hele steekproef, en vervolgens bekijken we de statistieken voor deelsteekproeven (elke provincie).

Door de “if”-kwalificator te gebruiken, worden de samenvattende statistieken voor een specifieke subgroep verkregen.

In deze voorbeelden hebben we ons geconcentreerd op het splitsen van de steekproef naar provincie, maar elke categorische variabele kan worden gebruikt. In volgende voorbeelden zullen we kijken naar mannen en vrouwen, rokers en niet-rokers, lichamelijk actief of niet. De manier waarop u naar uw gegevens kijkt, hangt af van het soort vragen dat u wilt stellen; hoe duidelijker uw vraag, hoe specifieker uw analyse kan zijn.

Tabulate, Summarize()

Met deze combinatie van commando’s kunt u eenvoudige overzichtstabellen met een- en tweezijdige statistieken in Stata maken.

Het eerste deel van het commando (tabulate) splitst uw gegevens op volgens een categorische variabele (hier zullen we geslacht gebruiken). Het tweede deel zal samenvattende statistieken geven voor een andere variabele (bij voorkeur kwantitatief). Stel dat u wilt weten hoe (of) mannen en vrouwen verschillen in hun dagelijkse consumptie van groenten en fruit:

Deze tabel zal ons het gemiddelde, de standaardafwijking en de frequentie van de dagelijkse consumptie van groenten en fruit voor mannen en vrouwen in de steekproef geven:

Als u wilt weten of mannen en vrouwen uit verschillende provincies verschillende patronen hebben in hun gemiddelde dagelijkse consumptie van groenten en fruit, kunt u het commando bysort opnieuw gebruiken om dezelfde query provincie per provincie uit te voeren:

Merk op dat u hier ook de kwalificator “if” kunt gebruiken (zoals we hebben gedaan in de commando’s tabulate en summarize) om bijvoorbeeld slechts naar één provincie te kijken.

U kunt ook de commando’s tabulate, summarize() gebruiken om snel een vier-wegs samenvattende statistische tabel te maken. Als u bijvoorbeeld wilt kijken naar patronen in de dagelijkse groente- en fruitconsumptie van mannen en vrouwen met verschillende rookgewoonten, kunt u daarvoor een tabel maken:

Het resultaat lijkt een bepaald patroon te vertonen: rokers lijken minder groente en fruit te eten dan niet-rokers, en vrouwen lijken gemiddeld meer groente en fruit te eten dan mannen.

Tabstat

Het tabstat-commando geeft samenvattende statistieken weer voor een reeks numerieke variabelen in één tabel, eventueel uitgesplitst op (geconditioneerd door) een andere variabele. Zonder de optie by() is tabstat een nuttig alternatief voor summarize omdat het u toelaat de lijst van weer te geven statistieken op te geven. Met de optie by() lijkt tabstat op tabulate gebruikt met zijn summarize() optie in die zin dat beide statistieken rapporteren van varlist voor de verschillende waarden van varname. Het tabstat-commando biedt meer flexibiliteit wat betreft de gepresenteerde statistieken en het formaat van de tabel.

De eerste regel geeft de statistieken (gemiddelde, standaardafwijking en frequentie) voor 4 variabelen (HWTGHTM HWTGWTK HWTGBMI PACFD) voor de hele steekproef. Het resultaatvenster ziet er als volgt uit:

De tweede regel vertelt Stata hetzelfde te doen, maar de steekproef op te splitsen tussen mannen en vrouwen. Dit is het resultaat:

Merk op dat we ook het totaal krijgen, dus als u geïnteresseerd bent in de gesplitste steekproeven en het totaal, hoeft u beide niet apart te doen.

Finitief zal de derde commandoregel, met het voorvoegsel bysort, hetzelfde doen voor elke provincie, en elke deelsteekproef splitsen in mannen en vrouwen. De resultaten zijn in hetzelfde formaat, maar dit retourneert het totaal van de substeekproef (d.w.z. de provincie) voor mannen en vrouwen samen, maar niet het totaal voor alle provincies:

Merk op dat u de statistieken kiest die in de tabel worden gerapporteerd. De beschikbare statistieken worden opgesomd in de hulp tabstat:

Tabel

Het commando tabel berekent en toont tabellen met statistieken. Net als in tabstat kunt u de statistieken kiezen die u gerapporteerd wilt hebben, maar u kunt ook kiezen voor welke variabele u de statistieken gerapporteerd wilt hebben, en met welke variabelen u de informatie in kruistabellen wilt vergelijken. De structuur van de syntaxis is eenvoudig, maar verdient een nadere beschouwing:

Dit maakt een tabel met PACFD als rijvariabele (maar alleen als de waarde voor PACFD niet .d is), DHH_SEX als superrijvariabele, en de inhoud van elke cel is gemiddelde, standaardafwijking en frequentie van de variabele FVCDTOT:

Kunnen we het beter doen? Ja, dat kunnen we. Tot vier variabelen kunnen worden opgegeven in de by(), dus met de drie rij-, kolom-, en superkolomvariabelen kunnen zeven-richtingstabellen worden weergegeven. We zullen vandaag geen zeven-weg tabel maken, maar laten we eens kijken naar een vier-weg tabel met superrow (een vijf-weg tabel als je wilt):

De syntaxis is hetzelfde, het ziet er alleen ingewikkelder uit.

table rowvar ]

In ons voorbeeld is de rij-variabele weer PACDFD, de kolom-variabele is SMK_01B. Wij gebruiken de kwalificator if om ons te beperken tot waarnemingen waarvoor de waarden van de rij- en kolomvariabelen 0 of 1 is, de inhoud van de cellen is weer gemiddelde, standaardafwijking en frequentie van de variabele FVCDTOT, en wij hebben DHH_SEX als superrijvariabele.

De manier om deze tabel te lezen is eenvoudig: een vrouwelijke respondent die dagelijks niet meer dan 15 minuten aan activiteit doet en nog nooit een hele sigaret heeft gerookt, eet gemiddeld 5.1 eenheden fruit en groenten per dag.

Nu, een laatste opluistering… Een vierwegtabel met superkolom en superrij… Hier is het commando:

tabel PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

En het resultaat:

Nu kunt u zich afvragen of ik dat echt allemaal moet doen om alleen maar naar samenvattende statistieken te kijken? Het antwoord varieert naargelang uw niveau van verfijning, uw onderzoeksvraag of uw onderzoeksagenda… Voor sommigen is tabuleren, samenvatten en misschien tabuleren, samenvatten() meer dan voldoende. Voor anderen kunnen tabstat en table inderdaad zeer nuttige hulpmiddelen zijn.

We moedigen je aan om met gegevens te spelen, en om een grondige kennis van je dataset te verwerven alvorens een meer formele statistische analyse uit te voeren. Er zijn veel goede internetbronnen voor aanvullend leesmateriaal over het maken van samenvattende statistieken in Stata. Wees specifiek wanneer u een zoekopdracht in een zoekmachine invoert en u zult veel door gebruikers geschreven advies vinden.

Raadpleeg de gidsen over het verkrijgen van gegevens uit <odesi>, het opschonen van gegevens in Stata

U zult merken dat er een paar administratieve commando’s voor het commando describe staan (hier afgekort tot “des”)

De syntaxis zou eenvoudigweg zijn: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

We kunnen geen conclusies trekken uit het bekijken van gemiddelden; we zouden moeten testen of een van deze gemiddelden al dan niet statistisch verschilt van de andere. Toch is het bekijken van deze samenvattende statistieken een goed begin om patronen in de gegevens te onderzoeken.

In deze dataset is .d een code voor ontbrekende gegevens

Typ “help table” in het opdrachtvenster van Stata voor een gedetailleerde presentatie van de kenmerken van dit commando.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.