カナダ地域保健調査(CCHS)のデータセットを使用します。 フォルダにあります。 始める前に、各変数の説明を見てみましょう。
Tabulate
単純集計は常にデータに対する最初の一刺しにすべきものです。 tabulateコマンドはStataビューアで頻度表と累積分布表を返します。 例えば、インフルエンザの予防接種を受けたことのある回答者の割合を知りたいとします。
なお、データセット内のサブグループの集計を見るには、tabulateコマンドをby(またはbysort)接頭辞と組み合わせればいいのです。 bysort」という接頭辞は「by」と「sort」を組み合わせたもので、同じように2つのコマンドに分けることもできますが、一般的には「bysort」を使う方がシンプルです。Stataはまずデータをソートし、それからカテゴリごとの情報を返します。 例えば、ここではインフルエンザの予防接種のパターンが各県で異なるかどうかを見てみましょう:
もし、一つのサブグループだけに興味があるなら、「もし」修飾子を tabulate コマンドで使うこともできます。 ここでは、オンタリオ州のサンプルにおけるインフルエンザの予防接種の頻度を知りたいとします:
最後に、tabulateコマンドを使って、カテゴリ変数を使った簡単なクロス集計を行うことができます。 例えば、サンプルの女性のうち、生涯で100本以上タバコを吸った人が何人いるかを知りたい場合、
集計
いったんデータを集計したら、頻度以外の要約統計も調べ始めることができます。 summarizeコマンドは平均、標準偏差、最小、最大、頻度を返します。
この例は、tabulate例と同じ方法で構築されています。 まずサンプル全体の要約統計量を調べ、次にサブサンプル(各州)の統計量を調べます。
「if」修飾子を使用すると、特定のサブグループの要約統計量を返します。
これらの例では、州によるサンプル分割に焦点を当てましたが、任意のカテゴリ変数を使用することができます。 この後の例では、男性と女性、喫煙者と非喫煙者、身体的に活発かそうでないか、について見ていきます。 質問の種類が明確であればあるほど、より具体的な分析が可能になります。
Tabulate, Summarize()
このコマンドの組み合わせにより、Stata で単純な一元および二元要約統計表を作成することができます。 2番目の部分は、別の変数(できれば定量的なもの)の要約統計量を与えるでしょう。
この表は、サンプルの男性と女性の果物や野菜の毎日の消費の平均、標準偏差、頻度を与えます。
異なる県の男性と女性で、果物や野菜の1日の平均消費量が異なるパターンかどうかを知りたい場合は、もう一度bysortコマンドを使用して、県ごとに同じクエリを実行できます:
ここで「もし」という修飾語を使用して、たとえば1県だけを調べることもできることに注意してください (tabulate と summary コマンドで行ったように)。
また、tabulate、summarize() コマンドを使用して、4 者間要約統計表をすばやく作成することができます。 たとえば、喫煙習慣の異なる男女の毎日の果物と野菜の消費パターンを調べたい場合、そのための表を作成できます。
この結果は、一定のパターンを示すようです。喫煙者は非喫煙者に比べて果物と野菜をあまり食べないようで、女性は男性よりも平均的に果物と野菜を食べているように思われます。
Tabstat
tabstatコマンドは、一連の数値変数の要約統計を、おそらく別の変数で分解して(条件付きで)、ひとつの表で表示するものである。 by()オプションがない場合、tabstatは表示する統計量のリストを指定できるため、summarizeに代わる有用な手段である。 by()オプションを付けると、tabstatはsummarize()オプションを付けたtabulateと似ており、どちらもvarnameの異なる値に対するvarlistの統計値を報告します。
最初の行は、サンプル全体の4つの変数(HWTGHTM HWTGWTK HWTGBMI PACFD)の統計(平均、標準偏差、頻度)を返すでしょう。 結果ウィンドウは次のようになります:
2行目は、Stataに同じことをさせますが、サンプルを男性と女性に分割するように指示します。 これは結果です:
合計も得られるので、分割されたサンプルと合計に興味があれば、両方を別々に行う必要はありません。
最後に、bysort接頭語を持つ3行目のコマンドは、各県について順番に同じことを行い、それぞれのサブサンプルを男性と女性に分割します。 結果は同じ形式ですが、これは男性と女性を合わせたサブサンプル(つまり州)の合計を返し、全州の総計は返しません:
表で報告される統計を選ぶことに注意してください。 利用できる統計情報はヘルプのtabstat:
表
表コマンドは統計情報の表を計算し表示します。 tabstatと同様に、報告させたい統計量を選ぶことができますが、どの変数について統計量を報告させたいか、どの変数で情報をクロス集計させたいかも選ぶことができます。
これは、行変数としてPACFD(ただしPACFDの値が.dでない場合のみ)、スーパー行変数としてDHH_SEX、各セルの内容は平均、標準偏差、変数FVCDTOTの頻度となります:
もっとうまくできるでしょうか? はい、できます。 by()では4つまで変数を指定できるので、行、列、スーパー列の3つの変数を使えば、7通りの表が表示されるかもしれません。 今日は 7 者間テーブルを作成しませんが、superrow を含む 4 者間テーブルを見てみましょう(必要であれば 5 者間テーブル):
構文は同じですが、より複雑に見えます。]
この例では、行変数は再びPACDFDで、列変数はSMK_01Bです。 行と列の変数の値が0または1であるオブザベーションに制限するためにif修飾子を使用し、セルの内容は、変数FVCDTOTの平均、標準偏差、頻度で、DHH_SEXをスーパーロー変数として持っています。
さて、最後の仕上げです…スーパーカラムとスーパーローを使った四則演算の表…以下がそのコマンドです:
table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
そして結果です。
さて、あなたは、要約統計量を見るためだけに、こんなことをする必要があるのだろうかと思うかもしれません。 その答えは、あなたの洗練されたレベル、研究質問、または監督者の研究課題によって異なります… ある人にとっては、tabulate、summarize、そして多分 tabulate、summarize() で十分すぎるほどでしょう。
より正式な統計解析を行う前に、データで遊び、データセットに関する深い知識を得ることをお勧めします。 Stataで要約統計を作成するための副読本として、多くの良いインターネット・ソースがあります。 検索エンジンでクエリを入力するときに具体的に入力すれば、多くのユーザーが書いたアドバイスが見つかるはずです。
<odesi> からのデータの取得、Stata のデータのクリーニングに関するガイドを参照してください
describe コマンド(ここでは “des” と短縮)の前にいくつかの管理コマンドがあることに気づくでしょう
その構文は単純です。 tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)
平均値を見ただけでは推論を行うことはできません。これらの平均値のいずれかが他のものと統計的に異なるかどうかを検証する必要があります。
このデータセットでは、.dは欠損データコード
このコマンドの機能の詳細については、Stataのコマンドウィンドウに「ヘルプテーブル」とタイプしてください