A kanadai közösségi egészségügyi felmérés (CCHS) adatállományát fogjuk használni. Megtalálható a . Mielőtt belekezdenénk, nézzük meg az egyes változók leírását:

Táblázzuk

Egy egyszerű tabuláció mindig legyen az első próbálkozás az adatokkal. A tabulate parancs egy gyakorisági és kumulatív eloszlási táblázatot ad vissza a Stata nézetben. Tegyük fel, hogy a mintában azon válaszadók arányára kíváncsi, akik valaha is kaptak influenza elleni védőoltást:

Megjegyezzük, hogy a tabulate parancsot kombinálhatja a by (vagy bysort) előtaggal, ha az adatállomány alcsoportjaira vonatkozó tabulációt szeretné megnézni. A “bysort” előtag a “by” és a “sort” kombinációja; ekvivalens módon két parancsra is bonthatná, de általában egyszerűbb a “bysort” használata A Stata először rendezi az adatokat, majd kategóriánként adja vissza az információkat. Itt például nézzük meg, hogy az influenza elleni védőoltások mintái tartományonként eltérőek-e:

Ha csak egy alcsoport érdekli, a “ha” minősítőt is használhatja a tabulate paranccsal. Itt mondjuk, hogy az influenza elleni védőoltások gyakoriságára vagyunk kíváncsiak a mintában Ontario esetében:

Végül a tabulate paranccsal egyszerű kereszttáblázást végezhet kategorikus változók segítségével. Tegyük fel, hogy azt szeretné tudni, hogy a mintában szereplő nők közül hányan dohányoztak életük során több mint 100 szál cigarettát:

Summarize

Mihelyt tabulálta az adatait, elkezdheti a gyakoriságon kívüli összefoglaló statisztikák vizsgálatát. Az summarize parancs az átlagot, a szórást, a minimumot, a maximumot és a gyakoriságot adja vissza.

A példa ugyanúgy épül fel, mint a tabulate példa. Először a teljes minta összesített statisztikáit nézzük meg, majd a részminták (az egyes tartományok) statisztikáit.

A “if” minősítő használatával egy adott alcsoport összesített statisztikáit adja vissza.

Ezekben a példákban a minta tartomány szerinti felosztására összpontosítottunk, de bármilyen kategorikus változó használható. A következő példákban megvizsgáljuk a férfiakat és a nőket, a dohányosokat és a nemdohányzókat, a fizikailag aktívakat vagy nem aktívakat. Az, hogy milyen módon nézzük meg az adatainkat, attól függ, hogy milyen típusú kérdéseket szeretnénk feltenni; minél világosabb a kérdésünk, annál specifikusabb lehet az elemzésünk.

Tabulate, Summarize()

Ezzel a parancskombinációval egyszerű egy- és kétirányú összefoglaló statisztikai táblázatokat készíthetünk a Stata-ban.

A parancs első része (tabulate) az adatokat egy kategorikus változó szerint osztja fel (itt a nemet fogjuk használni). A második rész egy másik (lehetőleg mennyiségi) változóra vonatkozó összefoglaló statisztikákat ad. Tegyük fel, hogy azt szeretnénk megtudni, hogy a férfiak és a nők hogyan különböznek (különböznek-e) a napi gyümölcs- és zöldségfogyasztásukban:

Ez a táblázat megadja a mintában szereplő férfiak és nők napi gyümölcs- és zöldségfogyasztásának átlagát, szórását és gyakoriságát:

Ha arra vagyunk kíváncsiak, hogy a különböző tartományokban élő férfiak és nők átlagos napi gyümölcs- és zöldségfogyasztása eltérő mintázatot mutat-e, akkor a bysort paranccsal ismét elvégezhetjük ugyanezt a lekérdezést tartományonként:

Megjegyezzük, hogy itt is használhatjuk az “if” minősítőt (ahogy a tabulate és az summarize parancsoknál tettük), hogy mondjuk csak egy tartományt vizsgáljunk.

A tabulate, summarize() parancsot is használhatja egy gyors négyes összefoglaló statisztikai táblázat létrehozásához. Ha például a különböző dohányzási szokásokkal rendelkező férfiak és nők napi gyümölcs- és zöldségfogyasztásának mintázatát szeretné megvizsgálni, létrehozhat egy ilyen táblázatot:

Az eredmény látszólag egy bizonyos mintázatot mutat: a dohányosok mintha kevesebb gyümölcsöt és zöldséget ennének, mint a nemdohányzók, a nők pedig mintha átlagosan több gyümölcsöt és zöldséget ennének, mint a férfiak.

Tabstat

A tabstat parancs numerikus változók egy sorának összefoglaló statisztikáját jeleníti meg egy táblázatban, esetleg egy másik változóra lebontva (feltételezve). A by() opció nélkül a tabstat hasznos alternatívája az összegzésnek, mert lehetővé teszi a megjelenítendő statisztikák listájának megadását. A by() opcióval a tabstat hasonlít a summarize() opcióval használt tabulate-hoz, mivel mindkettő a varlist statisztikáit jelenti a varname különböző értékeire. A tabstat parancs nagyobb rugalmasságot tesz lehetővé a bemutatott statisztikák és a táblázat formátuma tekintetében.

Az első sor 4 változó (HWTGHTM HWTGWTK HWTGBMI PACFD) statisztikáit (átlag, szórás és gyakoriság) adja vissza a teljes mintára vonatkozóan. Az eredményablak így néz ki:

A második sor utasítja a Stata-t, hogy ugyanezt tegye, de a mintát ossza fel férfiak és nők között. Ez az eredmény:

Figyeljük meg, hogy az összértéket is megkapjuk, így ha a felosztott minták és az összérték érdekel, nem kell mindkettőt külön-külön elvégezni.

Végül a harmadik parancssor a bysort előtaggal sorban minden tartományra ugyanezt teszi, és minden részmintát férfi és női mintára oszt fel. Az eredmények ugyanabban a formátumban jelennek meg, azonban ez a részminták (azaz tartományok) összesített eredményét adja vissza a férfiakra és a nőkre együttesen, de nem az összes tartományra vonatkozó összesített eredményt:

Megjegyzendő, hogy a táblázatban közölt statisztikákat választja ki. A rendelkezésre álló statisztikák a súgóban találhatóakstat:

Táblázat

A táblázat parancs kiszámítja és megjeleníti a statisztikák táblázatait. A tabstat parancshoz hasonlóan kiválaszthatja a jelenteni kívánt statisztikákat, de azt is kiválaszthatja, hogy melyik változóra vonatkozóan szeretne statisztikákat jelenteni, valamint azt is, hogy mely változókkal kereszttáblázza az információkat. A szintaxis felépítése egyszerű, de érdemes közelebbről megnézni:

Ez egy olyan táblázatot hoz létre, amelynek sorváltozója a PACFD (de csak akkor, ha a PACFD értéke nem .d), felső sorváltozója a DHH_SEX, az egyes cellák tartalma pedig az FVCDTOT változó átlaga, szórása és gyakorisága:

Tudunk-e jobbat? Igen, tudunk. A by()-ban legfeljebb négy változót adhatunk meg, így a három sor-, oszlop- és szuperoszlopváltozóval hétváltozós táblázatok jeleníthetők meg. Ma nem fogunk hétváltozós táblázatot készíteni, de nézzünk meg egy négyváltozós táblázatot szupersorral (ha úgy tetszik, ötváltozós táblázatot):

A szintaxis ugyanaz, csak bonyolultabbnak tűnik.

table rowvar ]

Példánkban a sorváltozó ismét PACDFD, az oszlopváltozó pedig SMK_01B. Az if minősítővel olyan megfigyelésre korlátozzuk, amelynél a sor- és oszlopváltozók értéke 0 vagy 1, a cellák tartalma ismét az FVCDTOT változó átlaga, szórása és gyakorisága, és van DHH_SEX mint szupersorváltozó.

A táblázat olvasásának módja egyszerű: egy női válaszadó, aki nem végez napi 15 percnél több tevékenységet, és soha nem szívott el egész cigarettát, átlagosan 5 db-ot fogyaszt.1 egység gyümölcsöt és zöldséget naponta.

Most, egy utolsó díszítés… Egy négyes táblázat szuperoszloppal és szupersorral… Íme a parancs:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1))), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

És az eredmény:

Most azt kérdezheti magától, hogy tényleg szükségem van minderre, csak azért, hogy megnézzem az összefoglaló statisztikákat? A válasz az Ön fejlettségi szintjétől, a kutatási kérdésétől vagy a felügyelő kutatási programjától függően változik… Egyesek számára a tabulálás, összegzés és talán a tabulálás, összegzés() több mint elég lesz. Mások számára a tabstat és a table valóban nagyon hasznos eszközök lehetnek.

Bátorítjuk, hogy játsszon az adatokkal, és szerezzen bensőséges ismereteket az adatállományáról, mielőtt formálisabb statisztikai elemzést végez. Számos jó interenet forrás található kiegészítő olvasmányok számára az összefoglaló statisztikák Stata-ban történő létrehozásához. Legyen pontos, amikor beír egy keresőbe egy lekérdezést, és sok felhasználó által írt tanácsot kell találnia.

Lásd az <odesi> adatok kinyeréséről szóló útmutatókat, adattisztítás a Stata-ban

A describe parancs előtt (itt “des”-re rövidítve)

A szintaxis egyszerűen a következő lenne:

Az átlagok vizsgálatából nem vonhatunk le következtetést; azt kellene tesztelnünk, hogy bármelyik átlag statisztikailag különbözik-e a többitől. Azonban ezeknek az összefoglaló statisztikáknak a megnézése jó kezdet az adatokban lévő minták vizsgálatához.

Ebben az adatkészletben a .d egy hiányzó adatkód

A parancs jellemzőinek részletes bemutatásához írja be a “help table” parancsot a Stata parancsablakába.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.