Vom folosi un set de date din ancheta privind sănătatea comunității canadiene (CCHS). Îl puteți găsi în folderul . Înainte de a începe, haideți să ne uităm la descrierea fiecărei variabile:

Tabulați

O simplă tabulare ar trebui să fie întotdeauna prima încercare pe care o faceți cu datele dvs. Comanda tabulate returnează un tabel de frecvență și un tabel de distribuție cumulativă în vizualizatorul Stata. Să spunem că doriți să cunoașteți proporția de respondenți din eșantion care au primit vreodată un vaccin antigripal:

Rețineți că puteți combina comanda tabulate cu prefixul by (sau bysort) pentru a examina tabularea pentru subgrupuri din setul dumneavoastră de date. Prefixul „bysort” este o combinație între „by” și „sort”; ați putea să îl împărțiți în mod echivalent în două comenzi, dar în general este mai simplu să folosiți „bysort” Stata va sorta mai întâi datele, apoi va returna informațiile pe categorii. De exemplu, aici să vedem dacă modelele de vaccinare antigripală arată diferit pentru fiecare provincie:

Dacă vă interesează doar un singur subgrup, puteți utiliza, de asemenea, calificativul „if” cu comanda tabulate. Aici, să spunem că dorim să cunoaștem frecvența vaccinurilor antigripale în eșantionul pentru Ontario:

În cele din urmă, puteți utiliza comanda tabulate pentru a face o simplă tabulare încrucișată folosind variabile categorice. Să presupunem că doriți să știți câte dintre femeile din eșantion au fumat peste 100 de țigări în viața lor:

Sumarize

După ce ați tabulat datele, puteți începe să vă uitați la statisticile sumare, altele decât frecvența. Comanda summarize returnează media, abaterea standard, minimul, maximul și frecvența.

Exemplul este construit în același mod în care a fost construit exemplul tabulate. Mai întâi ne uităm la statisticile rezumative pentru întregul eșantion, iar apoi ne uităm la statisticile pentru subeșantioane (fiecare provincie).

Utilizarea calificativului „if” returnează statisticile rezumative pentru un subgrup specific.

În aceste exemple ne-am concentrat pe împărțirea eșantionului pe provincii, dar se poate folosi orice variabilă categorială. În exemplele următoare, vom analiza bărbați și femei, fumători și nefumători, activi fizic sau nu. Modul în care vă uitați la datele dumneavoastră depinde de tipul de întrebări pe care doriți să le puneți; cu cât întrebarea dumneavoastră este mai clară, cu atât mai specifică poate fi analiza dumneavoastră.

Tabulate, Summarize()

Această combinație de comenzi vă permite să creați în Stata tabele simple de statistici sumare unidirecționale și bidirecționale.

Prima parte a comenzii (tabulate) va împărți datele dumneavoastră în funcție de o variabilă categorică (aici vom folosi sexul). A doua parte va oferi statistici sumare pentru o altă variabilă (de preferință cantitativă). Să spunem că doriți să știți cum (dacă) diferă bărbații și femeile în ceea ce privește consumul zilnic de fructe și legume:

Acest tabel ne va oferi media, abaterea standard și frecvența consumului zilnic de fructe și legume pentru bărbații și femeile din eșantion:

Dacă doriți să știți dacă bărbații și femeile din diferite provincii au modele diferite în ceea ce privește consumul mediu zilnic de fructe și legume, puteți utiliza din nou comanda bysort pentru a face aceeași interogare provincie cu provincie:

Rețineți că puteți utiliza și calificativul „if” aici (așa cum am făcut în comenzile tabulate și summarize) pentru a examina, să zicem, doar o singură provincie.

Puteți utiliza, de asemenea, comanda tabulate, summarize() pentru a crea rapid un tabel statistic sumar cu patru direcții. De exemplu, dacă ați dori să analizați modelele de consum zilnic de fructe și legume pentru bărbați și femei cu obiceiuri diferite de fumat, ați putea crea un tabel în acest sens:

Rezultatul pare să arate un anumit model: fumătorii par să mănânce mai puține fructe și legume decât nefumătorii, iar femeile par să mănânce mai multe fructe și legume decât bărbații, în medie.

Tabstat

Comanda tabstat afișează statistici sumare pentru o serie de variabile numerice într-un tabel, eventual defalcate pe (condiționate de) o altă variabilă. Fără opțiunea by(), tabstat este o alternativă utilă la summarize, deoarece vă permite să specificați lista de statistici care urmează să fie afișate. Cu opțiunea by(), tabstat se aseamănă cu tabulate utilizat cu opțiunea summarize() în sensul că ambele raportează statisticile din varlist pentru diferite valori ale lui varname. Comanda tabstat permite o mai mare flexibilitate în ceea ce privește statisticile prezentate și formatul tabelului.

Prima linie va returna statisticile (medie, abatere standard și frecvență) pentru 4 variabile (HWTGHTM HWTGWTK HWTGBMI PACFD) pentru întregul eșantion. Fereastra de rezultate arată astfel:

A doua linie îi spune lui Stata să facă același lucru, dar să împartă eșantionul între bărbați și femei. Acesta este rezultatul:

Observați cum obținem și totalul, astfel încât, dacă sunteți interesat de eșantioanele divizate și de total, nu este nevoie să le faceți pe amândouă separat.

În cele din urmă, a treia linie de comandă, cu prefixul bysort, va face același lucru pe rând pentru fiecare provincie și va diviza fiecare subeșantion în bărbați și femei. Rezultatele sunt în același format, însă aceasta returnează totalul subeșantionului (adică provincial) pentru bărbați și femei combinate, dar nu și totalul general pentru toate provinciile:

Rețineți că alegeți statisticile care sunt raportate în tabel. Statisticile disponibile sunt enumerate în tabul de ajutor tabstat:

Table

Comanda table calculează și afișează tabele de statistici. La fel ca în tabstat, puteți alege statisticile pe care doriți să le raportați, dar alegeți și variabila pentru care doriți să fie raportate statisticile, precum și variabilele după care doriți ca informațiile să fie încrucișate. Structura sintaxei este simplă, dar merită o privire mai atentă:

Aceasta va face un tabel cu PACFD ca variabilă de rând (dar numai dacă valoarea pentru PACFD nu este .d), DHH_SEX ca variabilă de supra rând, iar conținutul fiecărei celule va fi media, abaterea standard și frecvența variabilei FVCDTOT:

Se poate mai bine? Da, putem. În by() se pot specifica până la patru variabile, astfel încât, cu cele trei variabile de rând, coloană și supercolună, se pot afișa tabele cu șapte direcții. Nu vom face un tabel cu șapte direcții astăzi, dar să ne uităm la un tabel cu patru direcții cu superp coloană (un tabel cu cinci direcții, dacă doriți):

Sintaxa este aceeași, doar că pare mai complicată.

table rowvar ]

În exemplul nostru, variabila de rând este din nou PACDFD, iar variabila de coloană este SMK_01B. Folosim calificativul if pentru a ne restrânge la observația pentru care valorile variabilelor de rând și de coloană sunt fie 0, fie 1, conținutul celulelor este din nou media, abaterea standard și frecvența variabilei FVCDTOT și avem DHH_SEX ca o variabilă superrow.

Modul de a citi acest tabel este simplu: un respondent de sex feminin care nu se implică în mai mult de 15 minute de activitate zilnică și nu a fumat niciodată o țigară întreagă mănâncă în medie 5.1 unități de fructe și legume zilnic.

Acum, o ultimă înflorire… Un tabel cu patru direcții cu supercolon și superrând… Iată comanda:

table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Și rezultatul:

Acum, s-ar putea să vă întrebați, chiar trebuie să fac toate astea doar ca să mă uit la statisticile sumare? Răspunsul va varia în funcție de nivelul dvs. de sofisticare, de întrebarea dvs. de cercetare sau de agenda de cercetare a supervizorului dvs… Pentru unii, tabularea, rezumarea și poate tabularea, rezumarea() vor fi mai mult decât suficiente. Pentru alții, tabstat și table ar putea fi într-adevăr instrumente foarte utile.

Vă încurajăm să vă jucați cu datele și să dobândiți o cunoaștere intimă a setului dvs. de date înainte de a efectua o analiză statistică mai formală. Există multe surse bune pe interenet pentru lecturi suplimentare privind crearea de statistici sumare în Stata. Fiți specific atunci când introduceți o interogare într-un motor de căutare și ar trebui să găsiți multe sfaturi scrise de utilizatori.

Consultați ghidurile privind obținerea datelor din <odesi>, curățarea datelor în Stata

Veți observa câteva comenzi administrative înainte de comanda describe (aici prescurtată „des”)

Sintaxa ar fi pur și simplu:

: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

Nu putem face inferențe uitându-ne la medii; ar trebui să testăm dacă vreuna dintre aceste medii este sau nu diferită statistic de celelalte. Cu toate acestea, examinarea acestor statistici sumare este un bun început de investigare a tiparelor din date.

În acest set de date, .d este un cod de date lipsă

Tastați „help table” în fereastra de comandă a Stata pentru o prezentare detaliată a caracteristicilor acestei comenzi.

Lasă un răspuns

Adresa ta de email nu va fi publicată.