Utilizaremos un conjunto de datos de la encuesta de salud comunitaria canadiense (CCHS). Puede encontrarlo en la carpeta . Antes de empezar, veamos la descripción de cada variable:

Tabular

Una simple tabulación debería ser siempre su primera puñalada en los datos. El comando tabular devuelve una tabla de frecuencia y de distribución acumulada en el visor de Stata. Digamos que usted quiere saber la proporción de encuestados en la muestra que alguna vez se vacunó contra la gripe:

Note que usted puede combinar el comando tabulate con el prefijo by (o bysort) para ver la tabulación para subgrupos en su conjunto de datos. El prefijo «bysort» es una combinación de «by» y «sort»; usted podría dividirlo de manera equivalente en dos comandos, pero generalmente es más simple usar «bysort» Stata primero ordenará los datos y luego devolverá la información por categoría. Por ejemplo, veamos si los patrones de vacunación contra la gripe son diferentes para cada provincia:

Si está interesado en un solo subgrupo, también puede utilizar el calificador «if» con el comando tabulate. En este caso, digamos que queremos saber la frecuencia de las vacunas contra la gripe en la muestra de Ontario:

Por último, puede utilizar el comando tabular para hacer una simple tabulación cruzada utilizando variables categóricas. Digamos que quiere saber cuántas de las mujeres de la muestra fumaron más de 100 cigarrillos en su vida:

Resumir

Una vez que haya tabulado sus datos, puede empezar a buscar estadísticas de resumen distintas de la frecuencia. El comando summarize devuelve la media, la desviación estándar, el mínimo, el máximo y la frecuencia.

El ejemplo se construye de la misma manera que el ejemplo de tabulación. Primero miramos los estadísticos de resumen de toda la muestra, y luego miramos los estadísticos de las submuestras (cada provincia).

Al utilizar el calificador «if» se obtienen los estadísticos de resumen de un subgrupo específico.

En estos ejemplos nos hemos centrado en la división de la muestra por provincias, pero se puede utilizar cualquier variable categórica. En los ejemplos siguientes, nos fijaremos en los hombres y las mujeres, en los fumadores y los no fumadores, y en los físicamente activos o no. La forma de analizar los datos depende del tipo de preguntas que desee formular; cuanto más clara sea su pregunta, más específico podrá ser su análisis.

Tabulate, Summarize()

Esta combinación de comandos le permite crear sencillas tablas de estadísticas de resumen de una y dos vías en Stata.

La primera parte del comando (tabulate) dividirá sus datos según una variable categórica (aquí utilizaremos el sexo). La segunda parte dará estadísticas de resumen para otra variable (preferiblemente cuantitativa). Digamos que quieres saber cómo (si) los hombres y las mujeres difieren en su consumo diario de frutas y verduras:

Esta tabla nos dará la media, la desviación estándar y la frecuencia del consumo diario de frutas y verduras para los hombres y las mujeres de la muestra:

Si quiere saber si los hombres y las mujeres de diferentes provincias tienen patrones diferentes en su consumo medio diario de frutas y verduras, puede utilizar el comando bysort de nuevo para hacer la misma consulta provincia por provincia:

Note que también puede utilizar el calificador «if» aquí (como hicimos en los comandos tabular y resumir) para mirar, por ejemplo, una sola provincia.

También puede utilizar el comando tabulate, summarize() para crear una tabla estadística de resumen rápida de cuatro vías. Por ejemplo, si desea observar los patrones de consumo diario de frutas y verduras de hombres y mujeres con diferentes hábitos de tabaquismo, podría crear una tabla para ello:

El resultado parece mostrar un cierto patrón: los fumadores parecen comer menos frutas y verduras que los no fumadores, y las mujeres parecen comer más frutas y verduras que los hombres, en promedio.

Tabstat

El comando tabstat muestra estadísticas de resumen para una serie de variables numéricas en una tabla, posiblemente desglosadas en (condicionadas por) otra variable. Sin la opción by(), tabstat es una alternativa útil a summarize porque permite especificar la lista de estadísticas a mostrar. Con la opción by(), tabstat se parece a tabulate utilizado con su opción summarize() en que ambos informan de las estadísticas de varlist para los diferentes valores de varname. El comando tabstat permite una mayor flexibilidad en cuanto a los estadísticos presentados y el formato de la tabla.

La primera línea devolverá los estadísticos (media, desviación estándar y frecuencia) para 4 variables (HWTGHTM HWTGWTK HWTGBMI PACFD) para toda la muestra. La ventana de resultados se ve así:

La segunda línea le dice a Stata que haga lo mismo, pero que divida la muestra entre hombres y mujeres. Este es el resultado:

Nótese que también obtenemos el total, por lo que si está interesado en las muestras divididas y en el total, no es necesario hacer ambas cosas por separado.

Por último, la tercera línea de comando, con el prefijo bysort, hará lo mismo a su vez para cada provincia, y dividirá cada submuestra en hombres y mujeres. Los resultados tienen el mismo formato, sin embargo, esto devuelve el total de la submuestra (es decir, provincial) para hombres y mujeres combinados, pero no el total general para todas las provincias:

Note que usted elige las estadísticas que se reportan en la tabla. Las estadísticas disponibles se enumeran en la ayuda tabstat:

Table

El comando table calcula y muestra tablas de estadísticas. Al igual que en tabstat, puede elegir las estadísticas que desea que se presenten, pero también puede elegir la variable para la que desea que se presenten las estadísticas, así como las variables por las que desea que se realice una tabulación cruzada de la información. La estructura de la sintaxis es sencilla, pero merece un análisis más detallado:

Esto creará una tabla con PACFD como variable de fila (pero sólo si el valor de PACFD no es .d), DHH_SEX como variable de superfila, y el contenido de cada celda será la media, la desviación estándar y la frecuencia de la variable FVCDTOT:

¿Podemos hacerlo mejor? Sí, se puede. Se pueden especificar hasta cuatro variables en by(), por lo que con las tres variables de fila, columna y supercolumna se pueden mostrar tablas de siete. Hoy no haremos una tabla de siete vías, pero veamos una tabla de cuatro vías con superfila (una tabla de cinco vías si lo desea):

La sintaxis es la misma, sólo parece más complicada.

table rowvar ]

En nuestro ejemplo, la variable de fila es de nuevo PACDFD, la variable de columna es SMK_01B. Estamos utilizando el calificador if para restringir a la observación para la que los valores de las variables de fila y columna es 0 o 1, el contenido de las celdas es de nuevo la media, la desviación estándar y la frecuencia de la variable FVCDTOT, y tenemos DHH_SEX como una variable de superfila.

La forma de leer esta tabla es sencilla: una mujer encuestada que no realiza más de 15 minutos de actividad diaria y que nunca ha fumado un cigarrillo entero come de media 5.1 unidades de fruta y verdura al día.

Ahora, una última floritura… Una tabla de cuatro vías con supercolumna y superfila… Aquí está el comando:

tabla PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B==1)&(FLU_160==0|FLU_160==1)), c(media FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)

Y el resultado:

Ahora, puede preguntarse, ¿realmente necesito hacer todo eso sólo para ver las estadísticas de resumen? La respuesta variará en función de su nivel de sofisticación, su pregunta de investigación o la agenda de investigación de su supervisor… Para algunos, tabular, resumir y quizás tabular, resumir() será más que suficiente. Para otros, tabstat y table pueden ser herramientas muy útiles.

Le animamos a jugar con los datos, y a obtener un conocimiento íntimo de su conjunto de datos antes de llevar a cabo un análisis estadístico más formal. Hay muchas buenas fuentes de internet para lecturas suplementarias sobre la creación de estadísticas de resumen en Stata. Sea específico cuando ingrese una consulta en un motor de búsqueda y debería encontrar muchos consejos escritos por usuarios.

Consulte las guías sobre cómo obtener datos de <odesi>, limpieza de datos en Stata

Notará unos cuantos comandos administrativos antes del comando describe (aquí abreviado como «des»)

La sintaxis sería simplemente: tab DHH_SEX if GEOGPRV==35, sum(FVCDTOT)

No podemos hacer inferencia mirando las medias; necesitaríamos probar si alguna de estas medias es estadísticamente diferente de las otras. Sin embargo, mirar estas estadísticas de resumen es un buen comienzo para investigar los patrones en los datos.

En este conjunto de datos, .d es un código de datos faltantes

Escriba «help table» en la ventana de comandos de Stata para una presentación detallada de las características de este comando.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.