Käytämme Canadian community health survey (CCHS) -aineistoa. Löydät sen kansiosta . Ennen kuin aloitamme, tarkastellaan kunkin muuttujan kuvausta:

Tabuloi

Yksinkertaisen taulukoinnin tulisi aina olla ensimmäinen isku aineistoon. Tabulate-komento palauttaa frekvenssi- ja kumulatiivisen jakaumataulukon Stata-näkymässä. Oletetaan, että haluat tietää niiden vastaajien osuuden otoksessa, jotka ovat koskaan saaneet influenssarokotuksen:

Huomaa, että voit yhdistää tabulate-komennon by (tai bysort) -esimerkkiin tarkastellaksesi taulukointia aineistosi alaryhmien osalta. Etuliite ”bysort” on yhdistelmä sanoista ”by” ja ”sort”; voisit vastaavalla tavalla jakaa sen kahdeksi komennoksi, mutta on yleensä yksinkertaisempaa käyttää ”bysort” Stata lajittelee ensin tiedot ja palauttaa sitten tiedot luokittain. Katsotaan tässä esimerkiksi, näyttävätkö influenssarokotusten kuviot erilaisilta eri maakunnissa:

Jos olet kiinnostunut vain yhdestä alaryhmästä, voit myös käyttää ”if”-lauseen määrettä tabulate-komennon kanssa. Tässä sanotaan, että haluamme tietää influenssarokotusten esiintymistiheyden Ontarion otoksessa:

Viimeiseksi voit käyttää tabulate-komentoa yksinkertaisen ristiintaulukoinnin tekemiseen käyttäen kategorisia muuttujia. Sanotaan, että haluat tietää, kuinka moni otokseen kuuluvista naisista poltti elämänsä aikana yli 100 savuketta:

Summarize

Kun olet taulukoinut aineistosi, voit ryhtyä tarkastelemaan muita yhteenvetotilastoja kuin frekvenssiä. Summarize-komento palauttaa keskiarvon, keskihajonnan, minimin, maksimin ja frekvenssin.

Esimerkki on rakennettu samalla tavalla kuin tabulate-esimerkki. Ensin tarkastellaan koko otoksen yhteenvetotilastoja ja sitten osaotosten (kunkin maakunnan) tilastoja.

Käyttämällä ”if”-ominaisuutta palautetaan tietyn alaryhmän yhteenvetotilastot.

Näissä esimerkeissä on keskitytty otoksen jakamiseen maakunnan mukaan, mutta mitä tahansa kategorista muuttujaa voidaan käyttää. Seuraavissa esimerkeissä tarkastelemme miehiä ja naisia, tupakoitsijoita ja tupakoimattomia, fyysisesti aktiivisia tai ei-aktiivisia. Se, miten tarkastelet aineistoasi, riippuu siitä, millaisia kysymyksiä haluat esittää; mitä selkeämpi kysymyksesi on, sitä tarkempi analyysisi voi olla.

Tabulate, Summarize()

Tämän komentoyhdistelmän avulla voit luoda yksinkertaisia yksi- ja kaksisuuntaisia yhteenvetotilastotaulukoita Statassa.

Komennon ensimmäinen osa (tabulate) jaottelee aineistosi kategorisen muuttujan (tässä käytämme sukupuolta) mukaan. Toinen osa antaa yhteenvetotilastot toiselle muuttujalle (mieluiten kvantitatiiviselle). Oletetaan, että haluat tietää, miten (eroavatko) miehet ja naiset hedelmien ja vihannesten päivittäisessä kulutuksessa:

Tämä taulukko antaa meille otoksen miesten ja naisten hedelmien ja vihannesten päivittäisen kulutuksen keskiarvon, keskihajonnan ja frekvenssin:

Jos haluat tietää, onko eri maakunnissa asuvilla miehillä ja naisilla erilaisia malleja hedelmien ja vihannesten keskimääräisessä päivittäisessä kulutuksessa, voit käyttää bysort-komentoa uudestaan saman kyselyn tekemiseen maakunnittain:

Huomaa, että voit käyttää tässä yhteydessä myös ”if”-lauseen määrittelyä (kuten teimme taulukointi- ja yhteenvetokomennoissa) tarkastellaksesi, vaikkapa, vain yhtä maakuntaa.

Voit myös käyttää komentoa tabulate, summarize() luodaksesi nopean nelisuuntaisen yhteenvetotilastotaulukon. Jos esimerkiksi haluaisit tarkastella päivittäisen hedelmien ja vihannesten kulutuksen malleja miehillä ja naisilla, joilla on erilaiset tupakointitottumukset, voisit luoda sitä varten taulukon:

Tulos näyttää osoittavan tiettyä kaavaa: tupakoitsijat näyttävät syövän vähemmän hedelmiä ja vihanneksia kuin tupakoimattomat, ja naiset näyttävät syövän keskimäärin enemmän hedelmiä ja vihanneksia kuin miehet.

Tabstat

Tabstat-komento näyttää yhteenvetotilastot sarjasta numeerisia muuttujia yhdessä taulukossa, mahdollisesti jaoteltuna (ehdollistettuna) jonkin toisen muuttujan mukaan. Ilman by()-optiota tabstat on hyödyllinen vaihtoehto summarize-komennolle, koska sen avulla voit määrittää näytettävien tilastojen luettelon. By()-vaihtoehdon kanssa tabstat muistuttaa tabulatea, jota käytetään sen summarize()-vaihtoehdon kanssa, sillä molemmat ilmoittavat varlistin tilastot varname-arvon eri arvoille. Tulosikkuna näyttää tältä:

Toinen rivi käskee Stataa tekemään saman, mutta jakamaan otoksen miesten ja naisten kesken. Tämä on tulos:

Huomaa, että saamme myös kokonaissumman, joten jos olet kiinnostunut jaetuista otoksista ja kokonaissummasta, ei tarvitse tehdä molempia erikseen.

Viimeiseksi kolmas komentorivi, jossa on etuliite bysort, tekee saman vuorollaan jokaiselle maakunnalle ja jakaa jokaisen osaotoksen miehiin ja naisiin. Tulokset ovat samassa muodossa, mutta tämä palauttaa osaotoksen (eli maakunnan) kokonaissumman miehille ja naisille yhteensä, mutta ei kaikkien maakuntien kokonaissummaa:

Huomaa, että valitset ne tilastot, jotka raportoidaan taulukossa. Käytettävissä olevat tilastot on lueteltu ohjeen välilehdessästat:

Taulukko

Taulukko-komento laskee ja näyttää taulukoita tilastoista. Aivan kuten tabstat-komennolla, voit valita tilastot, jotka haluat raportoitavan, mutta voit myös valita, minkä muuttujan osalta haluat tilastoja raportoitavan, sekä mitkä muuttujat haluat tietojen olevan ristiintaulukoituja. Syntaksin rakenne on yksinkertainen, mutta se ansaitsee tarkemman tarkastelun:

Tämä muodostaa taulukon, jonka rivimuuttujana on PACFD (mutta vain, jos PACFD:n arvo ei ole .d), ylärivimuuttujana DHH_SEX, ja jokaisen solun sisältö on muuttujan FVCDTOT keskiarvo, keskihajonta ja frekvenssi:

Pystymme parempaan? Kyllä voimme. By()-muodossa voidaan määrittää enintään neljä muuttujaa, joten kolmen rivi-, sarake- ja supersarakemuuttujan avulla voidaan näyttää seitsenkohtaisia taulukoita. Emme tee tänään seitsemänsuuntaista taulukkoa, mutta katsotaanpa nelisuuntaista taulukkoa ylärivillä (halutessasi viisisuuntaista taulukkoa):

Syntaksi on sama, se vain näyttää monimutkaisemmalta.

table rowvar ]

Esimerkissämme rivimuuttuja on jälleen PACDFD, sarakemuuttuja on SMK_01B. Käytämme if-ominaisuutta rajoittaaksemme havainnon, jonka kohdalla rivi- ja sarakemuuttujien arvot ovat joko 0 tai 1, solujen sisältö on jälleen muuttujan FVCDTOT keskiarvo, keskihajonta ja frekvenssi, ja meillä on ylärivimuuttujana DHH_SEX.

Taulukon lukutapa on simppeli: naispuolinen vastaaja, joka ei harrasta päivittäistä aktiviteettia enempää kuin 15 minuutin ajan ja joka ei ole koskaan polttanut kokonaista savuketta, syö keskimäärin 5.1 yksikköä hedelmiä ja vihanneksia päivittäin.

Nyt vielä viimeinen kikkailu… Nelinkertainen taulukko supersarakkeella ja superrivillä… Tässä on komento:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1))), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Ja tulos:

Voit nyt kysyä itseltäsi, tarvitseeko minun todella tehdä kaikki tämä vain katsoakseni yhteenvetotilastoja? Vastaus vaihtelee kehittyneisyytesi, tutkimuskysymyksesi tai esimiehesi tutkimusagendan mukaan… Joillekin taulukointi, yhteenveto ja ehkä taulukointi, yhteenveto() on enemmän kuin tarpeeksi. Toisille tabstat ja table voivat olla todella hyödyllisiä työkaluja.

Kannustamme sinua leikkimään aineistolla ja tutustumaan aineistoosi ennen muodollisemman tilastollisen analyysin tekemistä. On monia hyviä interenet-lähteitä, jotka tarjoavat lisälukemista yhteenvetotilastojen luomisesta Statassa. Ole tarkka, kun kirjoitat kyselyn hakukoneeseen, ja sinun pitäisi löytää paljon käyttäjien kirjoittamia neuvoja.

Katso oppaita datan hankkimisesta <odesi>, datan puhdistaminen Statassa

Huomaat muutaman hallinnollisen komennon ennen describe-komentoa (tässä lyhennettynä ”des”-komennoksi)

Syntaksi olisi yksinkertaisesti: Tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

Emme voi tehdä johtopäätöksiä tarkastelemalla keskiarvoja, vaan meidän pitäisi testata, poikkeaako jokin näistä keskiarvoista tilastollisesti muista. Näiden yhteenvetotilastojen tarkastelu on kuitenkin hyvä alku aineiston kuvioiden tutkimiselle.

Tässä aineistossa .d on puuttuvien tietojen koodi

Kirjoita Statan komentoikkunaan ”help table”, niin saat yksityiskohtaisen esityksen tämän komennon ominaisuuksista.

Vastaa

Sähköpostiosoitettasi ei julkaista.