Wir werden einen Datensatz aus der kanadischen Gesundheitsumfrage (CCHS) verwenden. Sie finden ihn im Ordner . Bevor wir beginnen, sehen wir uns die Beschreibung der einzelnen Variablen an:
Tabellieren
Eine einfache Tabellierung sollte immer der erste Versuch sein, Ihre Daten zu analysieren. Der Befehl tabulate gibt eine Häufigkeits- und kumulative Verteilungstabelle im Stata-Viewer zurück. Angenommen, Sie möchten wissen, wie hoch der Anteil der Befragten in der Stichprobe ist, die jemals eine Grippeimpfung erhalten haben:
Beachten Sie, dass Sie den Befehl tabulate mit dem Präfix by (oder bysort) kombinieren können, um die Tabellierung für Untergruppen in Ihrem Datensatz zu betrachten. Das Präfix „bysort“ ist eine Kombination aus „by“ und „sort“; Sie könnten es auch in zwei Befehle aufteilen, aber im Allgemeinen ist es einfacher, „bysort“ zu verwenden. Stata sortiert die Daten zunächst und gibt dann die Informationen nach Kategorien aus. Hier sehen wir zum Beispiel, ob die Muster der Grippeimpfungen in den einzelnen Provinzen unterschiedlich aussehen:
Wenn Sie nur an einer Untergruppe interessiert sind, können Sie auch den Qualifizierer „if“ mit dem Befehl „tabulate“ verwenden. Nehmen wir an, wir möchten die Häufigkeit der Grippeimpfungen in der Stichprobe für Ontario wissen:
Schließlich können Sie den Befehl tabulate verwenden, um eine einfache Kreuztabellierung mit kategorialen Variablen durchzuführen. Angenommen, Sie möchten wissen, wie viele der Frauen in der Stichprobe in ihrem Leben mehr als 100 Zigaretten geraucht haben:
Zusammenfassen
Nachdem Sie Ihre Daten tabelliert haben, können Sie sich andere zusammenfassende Statistiken als die Häufigkeit ansehen. Der Befehl „Zusammenfassen“ liefert Mittelwert, Standardabweichung, Minimum, Maximum und Häufigkeit.
Das Beispiel ist genauso aufgebaut wie das Beispiel „Tabellieren“. Zunächst werden die zusammenfassenden Statistiken für die gesamte Stichprobe betrachtet, dann die Statistiken für Teilstichproben (jede Provinz).
Die Verwendung des „if“-Qualifizierers gibt die zusammenfassenden Statistiken für eine bestimmte Untergruppe zurück.
In diesen Beispielen haben wir uns auf die Aufteilung der Stichprobe nach Provinz konzentriert, aber jede kategoriale Variable kann verwendet werden. In den folgenden Beispielen werden wir uns mit Männern und Frauen, Rauchern und Nichtrauchern, körperlich Aktiven und Nichtaktiven befassen. Die Art und Weise, wie Sie Ihre Daten betrachten, hängt von der Art der Fragen ab, die Sie stellen möchten; je klarer Ihre Frage, desto spezifischer kann Ihre Analyse sein.
Tabulieren, Zusammenfassen()
Mit dieser Kombination von Befehlen können Sie einfache ein- und zweiseitige zusammenfassende statistische Tabellen in Stata erstellen.
Der erste Teil des Befehls (tabulieren) teilt Ihre Daten nach einer kategorialen Variable auf (hier verwenden wir das Geschlecht). Der zweite Teil liefert zusammenfassende Statistiken für eine andere (vorzugsweise quantitative) Variable. Angenommen, Sie möchten wissen, wie (ob) sich Männer und Frauen in ihrem täglichen Obst- und Gemüsekonsum unterscheiden:
Diese Tabelle gibt uns den Mittelwert, die Standardabweichung und die Häufigkeit des täglichen Obst- und Gemüsekonsums für Männer und Frauen in der Stichprobe an:
Wenn Sie wissen möchten, ob Männer und Frauen aus verschiedenen Provinzen unterschiedliche Muster beim durchschnittlichen täglichen Verzehr von Obst und Gemüse aufweisen, können Sie den Befehl bysort erneut verwenden, um dieselbe Abfrage nach Provinzen durchzuführen:
Beachten Sie, dass Sie hier auch den Qualifizierer „if“ verwenden können (wie bei den Befehlen tabulate und summarize), um beispielsweise nur eine Provinz zu betrachten.
Sie können auch den Befehl tabulate, summarize() verwenden, um eine schnelle vierfache zusammenfassende statistische Tabelle zu erstellen. Wenn Sie beispielsweise die Muster des täglichen Obst- und Gemüsekonsums von Männern und Frauen mit unterschiedlichen Rauchgewohnheiten untersuchen möchten, können Sie eine entsprechende Tabelle erstellen:
Das Ergebnis scheint ein bestimmtes Muster zu zeigen: Raucher scheinen weniger Obst und Gemüse zu essen als Nichtraucher, und Frauen scheinen im Durchschnitt mehr Obst und Gemüse zu essen als Männer.
Tabstat
Der Befehl tabstat zeigt zusammenfassende Statistiken für eine Reihe von numerischen Variablen in einer Tabelle an, möglicherweise aufgeschlüsselt nach (bedingt durch) eine andere Variable. Ohne die Option by() ist tabstat eine nützliche Alternative zu summarize, weil Sie damit die Liste der anzuzeigenden Statistiken angeben können. Mit der Option by() ähnelt tabstat tabulate mit der Option summarize() insofern, als beide Statistiken von varlist für die verschiedenen Werte von varname ausgeben. Der Befehl tabstat erlaubt mehr Flexibilität in Bezug auf die dargestellten Statistiken und das Format der Tabelle.
Die erste Zeile liefert die Statistiken (Mittelwert, Standardabweichung und Häufigkeit) für 4 Variablen (HWTGHTM HWTGWTK HWTGBMI PACFD) für die gesamte Stichprobe. Das Ergebnisfenster sieht wie folgt aus:
Die zweite Zeile weist Stata an, dasselbe zu tun, aber die Stichprobe zwischen Männern und Frauen aufzuteilen. Dies ist das Ergebnis:
Beachten Sie, dass wir auch die Gesamtsumme erhalten. Wenn Sie also an den aufgeteilten Stichproben und der Gesamtsumme interessiert sind, brauchen Sie nicht beide getrennt durchzuführen.
Die dritte Befehlszeile, mit dem Präfix bysort, führt dasselbe der Reihe nach für jede Provinz durch und teilt jede Unterstichprobe in männlich und weiblich auf. Die Ergebnisse haben das gleiche Format, allerdings werden hier die Gesamtwerte der Unterstichprobe (d. h. der Provinzen) für Männer und Frauen zusammen angezeigt, nicht jedoch die Gesamtwerte für alle Provinzen:
Beachten Sie, dass Sie die Statistiken auswählen, die in der Tabelle angezeigt werden. Die verfügbaren Statistiken sind in der Hilfe tabstat aufgelistet:
Tabelle
Mit dem Befehl table werden Tabellen mit Statistiken berechnet und angezeigt. Genau wie bei tabstat können Sie die Statistiken auswählen, die Sie ausgeben möchten, aber Sie wählen auch aus, für welche Variable Sie Statistiken ausgeben möchten und nach welchen Variablen Sie die Informationen kreuztabellieren möchten. Die Struktur der Syntax ist einfach, aber es lohnt sich, sie genauer zu betrachten:
Dies ergibt eine Tabelle mit PACFD als Zeilenvariable (aber nur, wenn der Wert für PACFD nicht .d ist), DHH_SEX als Superrow-Variable, und der Inhalt jeder Zelle ist Mittelwert, Standardabweichung und Häufigkeit der Variablen FVCDTOT:
Kann man es besser machen? Ja, das können wir. In by() können bis zu vier Variablen angegeben werden, so dass mit den drei Zeilen-, Spalten- und Superspaltenvariablen siebenfache Tabellen angezeigt werden können. Wir werden heute keine siebenfache Tabelle erstellen, aber lassen Sie uns eine vierfache Tabelle mit Superrow (eine fünffache Tabelle, wenn Sie möchten) betrachten:
Die Syntax ist die gleiche, sie sieht nur komplizierter aus.
table rowvar ]
In unserem Beispiel ist die Zeilenvariable wieder PACDFD, die Spaltenvariable ist SMK_01B. Wir verwenden den if-Qualifikator, um die Beobachtung einzuschränken, für die die Werte der Zeilen- und Spaltenvariablen entweder 0 oder 1 sind, der Inhalt der Zellen ist wieder Mittelwert, Standardabweichung und Häufigkeit der Variable FVCDTOT, und wir haben DHH_SEX als Superrow-Variable.
Die Lesart dieser Tabelle ist einfach: Eine weibliche Befragte, die nicht mehr als 15 Minuten täglich aktiv ist und noch nie eine ganze Zigarette geraucht hat, isst im Durchschnitt 5.1 Einheiten Obst und Gemüse pro Tag.
Nun noch ein letzter Schnörkel… Eine Vier-Wege-Tabelle mit Superspalte und Superzeile… Hier ist der Befehl:
Tabelle PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
Und das Ergebnis:
Nun werden Sie sich vielleicht fragen, ob ich das alles wirklich tun muss, nur um eine zusammenfassende Statistik zu betrachten? Die Antwort hängt von Ihrem Kenntnisstand, Ihrer Forschungsfrage oder dem Forschungsplan Ihres Vorgesetzten ab… Für einige ist tabulate, summarize und vielleicht tabulate, summarize() mehr als genug. Für andere können tabstat und table in der Tat sehr nützliche Werkzeuge sein.
Wir ermutigen Sie, mit den Daten zu spielen und sich ein genaues Bild von Ihrem Datensatz zu machen, bevor Sie eine formale statistische Analyse durchführen. Es gibt viele gute Internet-Quellen für ergänzende Lektüre zur Erstellung zusammenfassender Statistiken in Stata. Seien Sie spezifisch, wenn Sie eine Suchanfrage in eine Suchmaschine eingeben, und Sie sollten viele von Benutzern geschriebene Ratschläge finden.
Siehe Anleitungen zum Erhalten von Daten aus <odesi>, Bereinigen von Daten in Stata
Sie werden ein paar administrative Befehle vor dem describe-Befehl (hier abgekürzt zu „des“)
Die Syntax wäre einfach: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)
Aus der Betrachtung der Mittelwerte können wir keine Rückschlüsse ziehen; wir müssten testen, ob sich einer dieser Mittelwerte statistisch von den anderen unterscheidet oder nicht. Die Betrachtung dieser zusammenfassenden Statistiken ist jedoch ein guter Anfang, um Muster in den Daten zu untersuchen.
In diesem Datensatz ist .d ein Code für fehlende Daten
Geben Sie im Befehlsfenster von Stata „help table“ ein, um eine ausführliche Darstellung der Funktionen dieses Befehls zu erhalten.