Utilizzeremo un set di dati dal Canadian community health survey (CCHS). Potete trovarlo nella cartella . Prima di iniziare, diamo un’occhiata alla descrizione di ogni variabile:
Tabulate
Una semplice tabulazione dovrebbe essere sempre il primo tentativo con i vostri dati. Il comando tabulate restituisce una tabella di frequenza e distribuzione cumulativa nel visualizzatore di Stata. Supponiamo che vogliate conoscere la proporzione di intervistati nel campione che hanno fatto il vaccino antinfluenzale:
Nota che puoi combinare il comando tabulate con il prefisso by (o bysort) per guardare la tabulazione per sottogruppi nel tuo dataset. Il prefisso “bysort” è una combinazione di “by” e “sort”; si potrebbe equivalentemente spezzare in due comandi, ma è generalmente più semplice usare “bysort” Stata prima ordinerà i dati, poi restituirà le informazioni per categoria. Per esempio, qui vediamo se gli schemi di vaccinazione appaiono diversi per ogni provincia:
Se siete interessati a un solo sottogruppo, potete anche usare il qualificatore “if” con il comando tabulate. Qui, diciamo che vogliamo sapere la frequenza dei vaccini antinfluenzali nel campione dell’Ontario:
Infine, potete usare il comando tabulate per fare una semplice tabulazione incrociata usando variabili categoriche. Diciamo che volete sapere quante delle donne del campione hanno fumato più di 100 sigarette nella loro vita:
Summarize
Una volta che avete tabulato i vostri dati, potete iniziare a guardare le statistiche riassuntive diverse dalla frequenza. Il comando summarize restituisce media, deviazione standard, minimo, massimo e frequenza.
L’esempio è costruito nello stesso modo dell’esempio tabulate. Prima guardiamo le statistiche riassuntive per l’intero campione, e poi guardiamo le statistiche per i sottocampioni (ogni provincia).
Utilizzando il qualificatore “if” si ottengono le statistiche riassuntive per uno specifico sottogruppo.
In questi esempi ci siamo concentrati sulla divisione del campione per provincia, ma può essere usata qualsiasi variabile categorica. Negli esempi successivi, considereremo uomini e donne, fumatori e non fumatori, fisicamente attivi o meno. Il modo in cui guardate i vostri dati dipende dal tipo di domande che volete porre; più chiara è la vostra domanda, più specifica può essere la vostra analisi.
Tabulate, Summarize()
Questa combinazione di comandi vi permette di creare semplici tabelle di statistiche riassuntive a una e due vie in Stata.
La prima parte del comando (tabulate) dividerà i vostri dati secondo una variabile categorica (qui useremo il sesso). La seconda parte darà statistiche riassuntive per un’altra variabile (preferibilmente quantitativa). Diciamo che volete sapere come (se) uomini e donne differiscono nel loro consumo quotidiano di frutta e verdura:
Questa tabella ci darà la media, la deviazione standard e la frequenza del consumo quotidiano di frutta e verdura per uomini e donne nel campione:
Se volete sapere se uomini e donne di province diverse hanno modelli diversi nel loro consumo medio giornaliero di frutta e verdura, potete usare di nuovo il comando bysort per fare la stessa ricerca provincia per provincia:
Nota che puoi anche usare il qualificatore “if” qui (come abbiamo fatto nei comandi tabulate e summarize) per guardare, diciamo, solo una provincia.
Si può anche usare il comando tabulate, summarize() per creare una rapida tabella di statistiche riassuntive a quattro vie. Per esempio, se voleste guardare i modelli di consumo giornaliero di frutta e verdura per uomini e donne con diverse abitudini di fumo, potreste creare una tabella per questo:
Il risultato sembra mostrare un certo modello: i fumatori sembrano mangiare meno frutta e verdura dei non fumatori, e le donne sembrano mangiare più frutta e verdura degli uomini, in media.
Tabstat
Il comando tabstat visualizza statistiche riassuntive per una serie di variabili numeriche in una tabella, eventualmente suddivise su (condizionate da) un’altra variabile. Senza l’opzione by(), tabstat è un’utile alternativa a summarize perché permette di specificare l’elenco delle statistiche da visualizzare. Con l’opzione by(), tabstat assomiglia a tabulate usato con la sua opzione summarize() in quanto entrambi riportano le statistiche di varlist per i diversi valori di varname. Il comando tabstat permette una maggiore flessibilità in termini di statistiche presentate e del formato della tabella.
La prima linea restituirà le statistiche (media, deviazione standard e frequenza) per 4 variabili (HWTGHTM HWTGWTK HWTGBMI PACFD) per l’intero campione. La finestra dei risultati appare così:
La seconda linea dice a Stata di fare lo stesso, ma di dividere il campione tra maschi e femmine. Questo è il risultato:
Nota come otteniamo anche il totale, quindi se sei interessato ai campioni divisi e al totale, non c’è bisogno di fare entrambi separatamente.
Infine, la terza linea di comando, con il prefisso bysort, farà lo stesso a turno per ogni provincia, e dividerà ogni sottocampione in maschio e femmina. I risultati sono nello stesso formato, tuttavia questo restituisce il totale del sottocampione (cioè provinciale) per maschi e femmine combinati, ma non il totale generale per tutte le province:
Nota che tu scegli le statistiche che sono riportate nella tabella. Le statistiche disponibili sono elencate nell’aiuto tabstat:
Table
Il comando table calcola e visualizza tabelle di statistiche. Proprio come in tabstat, puoi scegliere le statistiche che vuoi riportare, ma puoi anche scegliere per quale variabile vuoi che le statistiche siano riportate, così come per quali variabili vuoi che le informazioni siano incrociate. La struttura della sintassi è semplice ma merita uno sguardo più attento:
Questo creerà una tabella con PACFD come variabile di riga (ma solo se il valore di PACFD non è .d), DHH_SEX come variabile di superfila, e il contenuto di ogni cella sarà media, deviazione standard e frequenza della variabile FVCDTOT:
Si può fare meglio? Sì, è possibile. Si possono specificare fino a quattro variabili nella by(), quindi con le tre variabili riga, colonna e supercolonna, si possono visualizzare tabelle a sette vie. Non faremo una tabella a sette vie oggi, ma guardiamo una tabella a quattro vie con supercolonna (una tabella a cinque vie se volete):
La sintassi è la stessa, sembra solo più complicata.
table rowvar ]
Nel nostro esempio, la variabile di riga è di nuovo PACDFD, la variabile di colonna è SMK_01B. Stiamo usando il qualificatore if per limitare l’osservazione per la quale i valori delle variabili di riga e di colonna sono 0 o 1, il contenuto delle celle è di nuovo media, deviazione standard e frequenza della variabile FVCDTOT, e abbiamo DHH_SEX come variabile superfila.
Il modo di leggere questa tabella è semplice: una donna intervistata che non si impegna in più di 15 minuti di attività quotidiana e non ha mai fumato una sigaretta intera mangia in media 5..1 unità di frutta e verdura al giorno.
Ora, un’ultima chicca… Una tabella a quattro vie con supercolonna e superfila… Ecco il comando:
table PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
E il risultato:
Ora, potreste chiedervi: ho davvero bisogno di fare tutto questo solo per guardare le statistiche riassuntive? La risposta varierà in base al vostro livello di sofisticazione, alla vostra domanda di ricerca o all’agenda di ricerca del vostro supervisore… Per alcuni, tabulate, summarize e forse tabulate, summarize() saranno più che sufficienti. Per altri, tabstat e table potrebbero essere strumenti davvero molto utili.
Ti incoraggiamo a giocare con i dati e ad acquisire una conoscenza approfondita del tuo set di dati prima di condurre analisi statistiche più formali. Ci sono molte buone fonti su Internet per letture supplementari sulla creazione di statistiche riassuntive in Stata. Siate specifici quando inserite una query in un motore di ricerca e dovreste trovare molti consigli scritti dagli utenti.
Fate riferimento alle guide su come ottenere dati da <odesi>, pulire i dati su Stata
Noterete alcuni comandi amministrativi prima del comando describe (qui abbreviato in “des”)
La sintassi sarebbe semplicemente: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)
Non possiamo fare inferenze guardando le medie; avremmo bisogno di verificare se una di queste medie è statisticamente diversa dalle altre. Tuttavia, guardare queste statistiche riassuntive è un buon inizio per indagare i modelli nei dati.
In questo set di dati, .d è un codice di dati mancanti
Digitare “help table” nella finestra di comando di Stata per una presentazione dettagliata delle caratteristiche di questo comando.