Utilizaremos um conjunto de dados da pesquisa de saúde da comunidade canadense (CCHS). Você pode encontrá-lo na pasta . Antes de começarmos, vamos ver a descrição de cada variável:
Tabular
Uma simples tabulação deve ser sempre a sua primeira facada nos seus dados. O comando tabular retorna uma tabela de frequência e distribuição cumulativa no visualizador de dados Stata. Digamos que você queira saber a proporção de respondente na amostra que já teve uma gripe:
Nota que você pode combinar o comando tabular com o prefixo by (ou bysort) para olhar a tabulação para subgrupos no seu conjunto de dados. O prefixo “bysort” é uma combinação de “by” e “sort”; você poderia equivalentemente quebrá-lo em dois comandos, mas geralmente é mais simples usar “bysort” Stata irá primeiro ordenar os dados, depois retornar a informação por categoria. Por exemplo, aqui vamos ver se os padrões de disparos de gripe parecem diferentes para cada província:
Se você estiver interessado em apenas um subgrupo, você também pode usar o qualificador “se” com o comando tabular. Aqui, digamos que queremos saber a frequência das vacinas contra gripe na amostra para Ontário:
Finalmente, você pode usar o comando tabular para fazer uma simples tabulação cruzada usando variáveis categóricas. Digamos que você queira saber quantas das mulheres da amostra fumaram mais de 100 cigarros na sua vida:
>
>
Summarize
Após ter tabulado os seus dados, você pode começar a olhar para estatísticas resumidas, além da frequência. O comando resumir retorna média, desvio padrão, mínimo, máximo e freqüência.
O exemplo é construído da mesma forma que o exemplo tabular. Primeiro olhamos o resumo estatístico para toda a amostra, e depois olhamos as estatísticas para subamostras (cada província).
>Usar o qualificador “se” retorna a estatística resumida para um subgrupo específico.
Nestes exemplos temos focado na divisão da amostra por província, mas qualquer variável categórica pode ser usada. Em exemplos subsequentes, vamos olhar para homens e mulheres, fumantes e não-fumantes, fisicamente ativos ou não. A forma como você olha para seus dados depende do tipo de perguntas que você quer fazer; quanto mais clara for sua pergunta, mais específica pode ser sua análise.
Tabular, Resumir()
Esta combinação de comandos permite criar tabelas simples de estatísticas resumidas de uma e duas vias em Stata.
A primeira parte do comando (tabular) irá dividir seus dados de acordo com uma variável categórica (aqui usaremos sexo). A segunda parte dará estatísticas resumidas para outra variável (de preferência quantitativa). Digamos que você quer saber como (se) homens e mulheres diferem no consumo diário de frutas e vegetais:
Esta tabela nos dará a média, desvio padrão e frequência do consumo diário de frutas e vegetais para homens e mulheres na amostra:
>
Se você quiser saber se homens e mulheres de diferentes províncias têm padrões diferentes no consumo médio diário de frutas e verduras, você pode usar o comando bysort novamente para fazer a mesma consulta província por província:
Nota que você também pode usar o qualificador “se” aqui (como fizemos na tabulação e resumir comandos) para olhar, digamos, apenas uma província.
Você também pode usar o comando tabulate, summarize() para criar uma tabela rápida de estatísticas resumidas em quatro direções. Por exemplo, se você quiser olhar os padrões de consumo diário de frutas e vegetais para homens e mulheres com diferentes hábitos tabelados, você poderia criar uma tabela para isso:
O resultado parece mostrar um certo padrão: os fumantes parecem comer menos frutas e vegetais do que os não fumantes, e as mulheres parecem comer mais frutas e vegetais do que os homens, em média.
>
Tabstat
O comando tabstat exibe estatísticas resumidas de uma série de variáveis numéricas em uma tabela, possivelmente decompostas em (condicionadas por) outra variável. Sem a opção by(), o tabstat é uma alternativa útil para resumir porque permite especificar a lista de estatísticas a ser exibida. Com a opção by(), tabstat se assemelha à tabulação usada com sua opção summarize(), na qual ambas as estatísticas de relatórios de lista de var para os diferentes valores de nome de varname. O comando tabstat permite maior flexibilidade em termos das estatísticas apresentadas e do formato da tabela.
A primeira linha irá retornar as estatísticas (média, desvio padrão e freqüência) para 4 variáveis (HWTGHTM HWTGWTK HWTGBMI PACFD) para toda a amostra. A janela de resultado fica assim:
A segunda linha diz à Stata para fazer o mesmo, mas para dividir a amostra entre macho e fêmea. Este é o resultado:
Note como também obtemos o total, então se você estiver interessado nas amostras divididas e no total, não há necessidade de fazer ambas separadamente.
Finalmente, a terceira linha de comando, com o prefixo bysort, fará o mesmo por sua vez para cada província, e dividirá cada subamostra em masculino e feminino. Os resultados estão no mesmo formato, no entanto esta subamostra retorna total (isto é, provincial) para masculino e feminino combinados, mas não o total geral para todas as províncias:
Nota que você escolhe as estatísticas que são relatadas na tabela. As estatísticas disponíveis estão listadas no tabstat de ajuda:
Table
O comando da tabela calcula e exibe as tabelas de estatísticas. Assim como no tabstat, você pode escolher as estatísticas que deseja reportar, mas você também escolhe para qual variável você quer estatísticas reportadas, assim como quais variáveis você quer que as informações sejam tabuladas cruzadas. A estrutura da sintaxe é simples, mas tem um olhar mais atento:
Isto fará uma tabela com PACFD como a variável de linha (mas somente se o valor para PACFD não for .d), DHH_SEX como a variável de superlotação, e o conteúdo de cada célula será a média, desvio padrão e freqüência da variável FVCDTOT:
Podemos fazer melhor? Sim, podemos. Até quatro variáveis podem ser especificadas no by(), então com as três variáveis de linha, coluna e supercoluna, tabelas de sete vias podem ser exibidas. Não vamos fazer uma tabela de sete vias hoje, mas vamos olhar para uma tabela de quatro vias com super-linha (uma tabela de cinco vias se você quiser):
A sintaxe é a mesma, só parece mais complicada.
tabela rowvar ]
No nosso exemplo, a variável de linha é novamente PACDFD, a variável de coluna é SMK_01B. Estamos usando o qualificador para restringir à observação para a qual os valores das variáveis de linha e coluna são 0 ou 1, o conteúdo das células é novamente a média, desvio padrão e freqüência da variável FVCDTOT, e temos DHH_SEX como uma variável de superlotação.
A maneira de ler esta tabela é simples: uma respondente do sexo feminino que não se envolve em mais de 15 minutos de atividade diária e nunca fumou um cigarro inteiro come em média 5.1 unidade de fruta e legumes diariamente.
Agora, uma floração final… Uma tabela de quatro vias com supercoluna e superlotação… Aqui está o comando:
tabela PACFD SMK_01B FLU_160 if ((PACFD!=.d)&(SMK_01B==0|SMK_01B===1)&(FLU_160==0|FLU_160===1)), c(mean FVCDTOT sd FVCDTOT n FVCDTOT) by(DHH_SEX)
E o resultado:
Agora, você pode se perguntar, eu realmente preciso fazer tudo isso só para olhar para estatísticas resumidas? A resposta irá variar de acordo com seu nível de sofisticação, sua pergunta de pesquisa, ou sua agenda de pesquisa do supervisor… Para alguns, tabular, resumir e talvez tabular, resumir() será mais do que suficiente. Para outros, tabstat e tabela podem ser ferramentas muito úteis.
Aconselhamos você a jogar com os dados, e a adquirir um conhecimento íntimo do seu conjunto de dados antes de conduzir uma análise estatística mais formal. Existem muitas boas fontes interenet para leituras suplementares sobre a criação de estatísticas resumidas em Stata. Seja específico ao introduzir uma consulta num motor de busca e deve encontrar muitos conselhos escritos pelo utilizador.
Consulte os guias para obter dados de <odesi>, dados de limpeza em Stata
Você notará alguns comandos administrativos antes do comando descrever (aqui abreviado para “des”)
A sintaxe seria simplesmente: tab DHH_SEX se GEOGPRV==35, soma(FVCDTOT)
Não podemos tirar inferência olhando para os meios; precisaríamos testar se algum desses meios é ou não estatisticamente diferente dos outros. No entanto, olhar para estas estatísticas resumidas é um bom começo para investigar padrões nos dados.
Neste conjunto de dados, .d é um código de dados ausentes
Digite “tabela de ajuda” na janela de comando do Stata para uma apresentação detalhada das características deste comando.