Použijeme soubor dat z kanadského průzkumu zdraví obyvatelstva (CCHS). Najdete ji ve složce . Než začneme, podívejme se na popis jednotlivých proměnných:
Tabulovat
Jednoduchá tabulka by měla být vždy prvním úderem do vašich dat. Příkaz tabulate vrátí v prohlížeči Stata tabulku četností a kumulativního rozdělení. Řekněme, že chcete znát podíl respondentů ve vzorku, kteří se někdy nechali očkovat proti chřipce:
Poznamenejme, že příkaz tabulate můžete kombinovat s předponou by (nebo bysort) a podívat se na tabulku pro podskupiny ve vašem souboru dat. Předpona „bysort“ je kombinací příkazů „by“ a „sort“; mohli byste ji ekvivalentně rozdělit do dvou příkazů, ale obecně je jednodušší použít příkaz „bysort“ Stata nejprve data seřadí a poté vrátí informace podle kategorií. Zde se například podíváme, zda vzorce očkování proti chřipce vypadají v jednotlivých provinciích jinak:
Pokud vás zajímá pouze jedna podskupina, můžete také použít kvalifikátor „if“ s příkazem tabulate. Zde řekněme, že chceme znát četnost očkování proti chřipce ve vzorku pro Ontario:
Nakonec můžete pomocí příkazu tabate provést jednoduchou křížovou tabulku pomocí kategoriálních proměnných. Řekněme, že chcete vědět, kolik žen ze vzorku vykouřilo za svůj život více než 100 cigaret:
Sumarizovat
Poté, co jste data tabelárně zpracovali, můžete začít zkoumat jiné souhrnné statistiky než četnosti. Příkaz summarize vrátí průměr, směrodatnou odchylku, minimum, maximum a četnost.
Příklad je sestaven stejným způsobem jako příklad tabulate. Nejprve se podíváme na souhrnné statistiky pro celý vzorek a poté se podíváme na statistiky pro podvzorky (jednotlivé provincie).
Použití kvalifikátoru „if“ vrátí souhrnné statistiky pro konkrétní podskupinu.
V těchto příkladech jsme se zaměřili na rozdělení vzorku podle provincií, ale lze použít jakoukoli kategoriální proměnnou. V dalších příkladech se budeme zabývat muži a ženami, kuřáky a nekuřáky, fyzicky aktivními či neaktivními. Způsob, jakým se na data podíváte, závisí na typu otázek, které chcete položit; čím jasnější je vaše otázka, tím konkrétnější může být vaše analýza.
Tabulate, Summarize()
Tato kombinace příkazů vám umožní vytvořit ve Statě jednoduché jednocestné a dvoucestné souhrnné statistické tabulky.
První část příkazu (tabulate) rozdělí vaše data podle kategoriální proměnné (zde použijeme pohlaví). Druhá část poskytne souhrnnou statistiku pro jinou proměnnou (nejlépe kvantitativní). Řekněme, že chcete vědět, jak (zda) se muži a ženy liší v denní spotřebě ovoce a zeleniny:
Tato tabulka nám poskytne průměr, směrodatnou odchylku a četnost denní spotřeby ovoce a zeleniny u mužů a žen ve vzorku:
Pokud chcete zjistit, zda muži a ženy z různých provincií mají různé vzorce průměrné denní spotřeby ovoce a zeleniny, můžete opět použít příkaz bysort a provést stejný dotaz podle provincií:
Všimněte si, že zde můžete také použít kvalifikátor „if“ (stejně jako jsme to udělali v příkazech tabulate a summarize) a podívat se například jen na jednu provincii.
Můžete také použít příkaz tabulate, summarize() pro vytvoření rychlé čtyřcestné souhrnné statistické tabulky. Pokud byste se například chtěli podívat na vzorce denní spotřeby ovoce a zeleniny u mužů a žen s různými kuřáckými návyky, mohli byste k tomu vytvořit tabulku:
Výsledek zřejmě ukazuje určitý vzorec: kuřáci vypadají, že jedí méně ovoce a zeleniny než nekuřáci, a ženy zřejmě jedí v průměru více ovoce a zeleniny než muži.
Tabstat
Příkaz tabstat zobrazí souhrnné statistiky pro řadu číselných proměnných v jedné tabulce, případně rozdělené na základě (podmíněné) jiné proměnné. Bez volby by() je tabstat užitečnou alternativou k sumarizaci, protože umožňuje určit seznam statistik, které se mají zobrazit. S volbou by() se tabstat podobá tabulate použité s její volbou summarize() v tom smyslu, že obě vykazují statistiky varlist pro různé hodnoty varname. Příkaz tabstat umožňuje větší flexibilitu, pokud jde o prezentované statistiky a formát tabulky.
První řádek vrátí statistiky (průměr, směrodatnou odchylku a četnost) pro 4 proměnné (HWTGHTM HWTGWTK HWTGBMI PACFD) pro celý vzorek. Okno s výsledky vypadá takto:
Druhý řádek říká programu Stata, aby provedl totéž, ale aby vzorek rozdělil na muže a ženy. Toto je výsledek:
Všimněte si, že dostaneme také celkový součet, takže pokud vás zajímá rozdělení vzorků a celkový součet, není třeba dělat obojí zvlášť.
Nakonec třetí řádek příkazu s předponou bysort provede totéž postupně pro každou provincii a rozdělí každý dílčí vzorek na muže a ženy. Výsledky jsou ve stejném formátu, nicméně tento vrátí dílčí vzorek (tj. provincie) celkem za muže a ženy dohromady, ale ne celkový součet za všechny provincie:
Všimněte si, že vybíráte statistiky, které jsou uvedeny v tabulce. Dostupné statistiky jsou uvedeny v nápovědě na kartěstat:
Tabulka
Příkaz tabulka vypočítá a zobrazí tabulky statistik. Stejně jako v příkazu tabstat si můžete vybrat statistiky, které chcete vykázat, ale také si vyberete, pro kterou proměnnou chcete statistiky vykázat, a také podle kterých proměnných chcete informace křížově sečíst. Struktura syntaxe je jednoduchá, ale zaslouží si bližší pohled:
Tímto způsobem se vytvoří tabulka, kde řádkovou proměnnou bude PACFD (ale pouze v případě, že hodnota pro PACFD není .d), nadřádkovou proměnnou bude DHH_SEX a obsahem každé buňky bude průměr, směrodatná odchylka a četnost proměnné FVCDTOT:
Můžeme to udělat lépe? Ano, můžeme. V příkazu by() lze zadat až čtyři proměnné, takže se třemi řádkovými, sloupcovými a nadsloupcovými proměnnými lze zobrazit sedmisloupcové tabulky. Sedmisměrnou tabulku dnes dělat nebudeme, ale podívejme se na čtyřsměrnou tabulku s nadřádkem (chcete-li, pětiměrnou tabulku):
Syntaxe je stejná, jen vypadá složitěji.
tabulka rowvar ]
V našem příkladu je řádková proměnná opět PACDFD, sloupcová proměnná je SMK_01B. Pomocí kvalifikátoru if se omezíme na pozorování, pro které je hodnota řádkové a sloupcové proměnné buď 0, nebo 1, obsahem buněk je opět průměr, směrodatná odchylka a četnost proměnné FVCDTOT a jako nadřádkovou proměnnou máme DHH_SEX.
Způsob čtení této tabulky je jednoduchý: respondentka, která se denně nevěnuje aktivitě delší než 15 minut a nikdy nevykouřila celou cigaretu, sní v průměru 5 cigaret.1 jednotek ovoce a zeleniny denně.
Nyní poslední výkvět… Čtyřcestná tabulka s nadsloupcem a nadřádkem… Zde je příkaz:
tabulka PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
A výsledek:
Nyní si můžete položit otázku: Opravdu musím tohle všechno dělat jen proto, abych se podíval na souhrnnou statistiku? Odpověď se bude lišit podle úrovně vaší sofistikovanosti, vaší výzkumné otázky nebo výzkumného programu vašeho nadřízeného… Někomu bude tabulka, sumarizace a možná tabulka, sumarizace() více než stačit. Pro jiné mohou být tabstat a table skutečně velmi užitečnými nástroji.
Před provedením formálnější statistické analýzy vám doporučujeme, abyste si s daty hráli a získali důvěrnou znalost vašeho souboru dat. Existuje mnoho dobrých interenetových zdrojů doplňkové četby o vytváření souhrnných statistik v programu Stata. Při zadávání dotazu do vyhledávače buďte konkrétní a měli byste najít mnoho rad napsaných uživateli.
Podívejte se na příručky o získávání dat z <odesi>, čištění dat ve Statě
Všimněte si několika administrativních příkazů před příkazem describe (zde zkráceně „des“)
Syntaxe by byla jednoduše následující:
Nemůžeme vyvozovat závěry z pohledu na průměry; museli bychom testovat, zda se některý z těchto průměrů statisticky liší od ostatních. Nicméně pohled na tyto souhrnné statistiky je dobrým začátkem zkoumání vzorců v datech.
V tomto souboru dat je .d kód chybějících dat
Pro podrobnou prezentaci funkcí tohoto příkazu zadejte do příkazového okna programu Stata „help table“.
.