Wykorzystamy zbiór danych z kanadyjskiego badania zdrowia społeczności (CCHS). Można go znaleźć w folderze . Zanim zaczniemy, przyjrzyjmy się opisowi każdej zmiennej:
Tabulacja
Prosta tabulacja powinna być zawsze pierwszym podejściem do danych. Polecenie tabulate zwraca tabelę częstości i rozkładu skumulowanego w przeglądarce Staty. Powiedzmy, że chcesz znać proporcję respondentów w próbie, którzy kiedykolwiek otrzymali zastrzyk przeciw grypie:
Zauważ, że możesz połączyć polecenie tabulate z przedrostkiem by (lub bysort), aby spojrzeć na tabulację dla podgrup w twoim zbiorze danych. Przedrostek „bysort” jest kombinacją „by” i „sort”; mógłbyś to rozbić na dwa polecenia, ale generalnie prościej jest użyć „bysort” Stata najpierw posortuje dane, a następnie zwróci informacje według kategorii. Na przykład, zobaczmy, czy schemat szczepień przeciwko grypie wygląda inaczej dla każdej prowincji:
Jeśli interesuje nas tylko jedna podgrupa, możemy również użyć kwalifikatora „if” z poleceniem tabulate. Powiedzmy, że chcemy znać częstotliwość szczepień przeciw grypie w próbie dla Ontario:
Wreszcie, można użyć polecenia tabuluj, aby wykonać prostą tabelę krzyżową przy użyciu zmiennych kategorycznych. Powiedzmy, że chcesz wiedzieć, ile z kobiet w próbie wypaliło ponad 100 papierosów w swoim życiu:
Podsumowanie
Po tabularyzacji danych możesz zacząć patrzeć na statystyki podsumowujące inne niż częstość. Polecenie summarize zwraca średnią, odchylenie standardowe, minimum, maksimum i częstotliwość.
Przykład jest zbudowany w taki sam sposób jak przykład tabulate. Najpierw patrzymy na statystyki zbiorcze dla całej próby, a następnie patrzymy na statystyki dla podprób (każde województwo).
Użycie kwalifikatora „if” zwraca statystyki zbiorcze dla określonej podgrupy.
W tych przykładach skupiliśmy się na podziale próby według województw, ale można użyć dowolnej zmiennej kategorycznej. W kolejnych przykładach przyjrzymy się mężczyznom i kobietom, palaczom i niepalącym, aktywnym fizycznie lub nie. Sposób, w jaki spojrzysz na swoje dane, zależy od rodzaju pytań, które chcesz zadać; im jaśniejsze pytanie, tym bardziej szczegółowa może być twoja analiza.
Tabulate, Summarize()
Ta kombinacja poleceń pozwala utworzyć proste jedno- i dwukierunkowe tabele statystyk zbiorczych w Stata.
Pierwsza część polecenia (tabulate) podzieli twoje dane według zmiennej kategorycznej (tutaj użyjemy płci). Druga część poda statystyki podsumowujące dla innej zmiennej (najlepiej ilościowej). Powiedzmy, że chcesz wiedzieć, jak (czy) mężczyźni i kobiety różnią się pod względem dziennego spożycia owoców i warzyw:
Ta tabela da nam średnią, odchylenie standardowe i częstotliwość dziennego spożycia owoców i warzyw dla mężczyzn i kobiet w próbie:
Jeśli chcesz wiedzieć, czy mężczyźni i kobiety z różnych województw mają różne wzorce w ich średnim dziennym spożyciu owoców i warzyw, możesz ponownie użyć polecenia bysort, aby wykonać to samo zapytanie województwo po województwie:
Zauważ, że możesz również użyć tutaj kwalifikatora „if” (tak jak zrobiliśmy to w poleceniach tabulate i summarize), aby spojrzeć na, powiedzmy, tylko jedno województwo.
Możesz również użyć polecenia tabulate, summarize(), aby utworzyć szybką czterokierunkową tabelę podsumowującą statystyki. Na przykład, jeśli chcesz przyjrzeć się wzorcom dziennego spożycia owoców i warzyw przez mężczyzn i kobiety z różnymi nawykami palenia, możesz utworzyć tabelę:
Wynik wydaje się pokazywać pewien wzór: palacze wydają się jeść mniej owoców i warzyw niż osoby niepalące, a kobiety wydają się jeść średnio więcej owoców i warzyw niż mężczyźni.
Tabstat
Polecenie tabstat wyświetla statystyki zbiorcze dla serii zmiennych numerycznych w jednej tabeli, ewentualnie w podziale na (uwarunkowane przez) inną zmienną. Bez opcji by(), tabstat jest użyteczną alternatywą dla podsumowania, ponieważ pozwala na określenie listy statystyk do wyświetlenia. Z opcją by(), tabstat przypomina tabulate używane z opcją summarize() w tym, że oba raportują statystyki varlist dla różnych wartości varname. Polecenie tabstat pozwala na większą elastyczność w zakresie prezentowanych statystyk i formatu tabeli.
W pierwszym wierszu zostaną zwrócone statystyki (średnia, odchylenie standardowe i częstość) dla 4 zmiennych (HWTGHTM HWTGWTK HWTGBMI PACFD) dla całej próby. Okno wyników wygląda następująco:
Druga linia mówi Stacie, aby zrobił to samo, ale podzielił próbę na mężczyzn i kobiety. Oto wynik:
Zauważ, że otrzymujemy również sumę całkowitą, więc jeśli jesteś zainteresowany podzielonymi próbkami i sumą całkowitą, nie ma potrzeby robienia obu osobno.
Wreszcie, trzecia linia polecenia, z przedrostkiem bysort, zrobi to samo po kolei dla każdej prowincji i podzieli każdą podpróbkę na mężczyzn i kobiety. Wyniki są w tym samym formacie, jednak zwracają sumę całkowitą podpróby (tj. prowincji) dla mężczyzn i kobiet razem, ale nie sumę całkowitą dla wszystkich prowincji:
Zauważ, że wybierasz statystyki, które są raportowane w tabeli. Dostępne statystyki są wymienione w pomocy tabstat:
Tablica
Polecenie tablica oblicza i wyświetla tabele statystyk. Podobnie jak w tabstat, można wybrać statystyki, które mają być raportowane, ale można również wybrać zmienną, dla której statystyki mają być raportowane, jak również zmienne, które mają być zestawione w tabelach krzyżowych. Struktura składni jest prosta, ale warto się jej bliżej przyjrzeć:
W ten sposób powstanie tabela z PACFD jako zmienną wierszową (ale tylko wtedy, gdy wartość dla PACFD nie wynosi .d), DHH_SEX jako zmienną nadrzędną, a zawartość każdej komórki będzie stanowić średnia, odchylenie standardowe i częstotliwość zmiennej FVCDTOT:
Czy można to zrobić lepiej? Tak, możemy. W funkcji by() można podać do czterech zmiennych, więc mając trzy zmienne wierszową, kolumnową i superkolumnową można wyświetlić tablice siedmiokierunkowe. Nie będziemy dziś robić tabeli siedmiokierunkowej, ale spójrzmy na tabelę czterokierunkową z superwierszem (pięciokierunkową, jeśli chcesz):
Składnia jest taka sama, tylko wygląda na bardziej skomplikowaną.
table rowvar ]
W naszym przykładzie zmienna wierszowa to ponownie PACDFD, zmienna kolumnowa to SMK_01B. Używamy kwalifikatora if, aby ograniczyć się do obserwacji, dla których wartości zmiennych wierszowych i kolumnowych wynoszą 0 lub 1, zawartość komórek to ponownie średnia, odchylenie standardowe i częstość zmiennej FVCDTOT, a jako zmienną nadrzędną mamy DHH_SEX.
Sposób odczytania tej tabeli jest prosty: respondentka, która nie angażuje się w więcej niż 15 minut codziennej aktywności i nigdy nie wypaliła całego papierosa, zjada średnio 5.1 jednostek owoców i warzyw dziennie.
A teraz ostatni szlif… Tabela czterokierunkowa z superkolumną i superwierszem… Oto polecenie:
table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
I wynik:
Teraz możesz zadać sobie pytanie, czy naprawdę muszę robić to wszystko tylko po to, aby spojrzeć na statystyki zbiorcze? Odpowiedź będzie się różnić w zależności od poziomu zaawansowania, pytania badawczego lub agendy badawczej przełożonego… Dla niektórych, tabulate, summarize i może tabulate, summarize() będzie więcej niż wystarczające. Dla innych, tabstat i table mogą być bardzo użytecznymi narzędziami.
Zachęcamy do zabawy z danymi, i do zdobycia intymnej wiedzy o zestawie danych przed przeprowadzeniem bardziej formalnej analizy statystycznej. Istnieje wiele dobrych źródeł w sieci Internet, gdzie można znaleźć dodatkowe lektury na temat tworzenia statystyk zbiorczych w Stacie. Bądź konkretny, kiedy wpisujesz zapytanie do wyszukiwarki, a powinieneś znaleźć wiele porad napisanych przez użytkowników.
Odwołaj się do przewodników na temat uzyskiwania danych z <odesi>, czyszczenia danych w Stacie
Zauważysz kilka poleceń administracyjnych przed poleceniem describe (tutaj skróconym do „des”)
Składnia byłaby po prostu taka: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)
Nie możemy wyciągać wniosków z patrzenia na średnie; musielibyśmy przetestować, czy któraś z tych średnich jest statystycznie różna od pozostałych. Jednak spojrzenie na te statystyki zbiorcze jest dobrym początkiem badania wzorców w danych.
W tym zbiorze danych, .d jest kodem brakujących danych
Wpisz „help table” w oknie poleceń programu Stata, aby uzyskać szczegółową prezentację funkcji tego polecenia.
.