Poisson pode ser apropriada quando a variável dependente é uma contagem, por exemplo, de eventos como a chegada de uma chamada telefónica a uma central de atendimento. Os eventos devem ser independentes no sentido de que a chegada de uma chamada não fará outra mais ou menos provável, mas a probabilidade por unidade de tempo de eventos é entendida como relacionada a covariáveis como a hora do dia.
“Exposição” e offsetEdit
Regressão de Poisson também pode ser apropriada para dados de taxa, onde a taxa é uma contagem de eventos dividida por alguma medida da exposição dessa unidade (uma unidade particular de observação). Por exemplo, os biólogos podem contar o número de espécies de árvores em uma floresta: os eventos seriam observações de árvores, a exposição seria uma área unitária e a taxa seria o número de espécies por unidade de área. Os demógrafos podem modelar as taxas de mortalidade em áreas geográficas como a contagem de mortes dividida por pessoa-ano. Mais geralmente, as taxas de eventos podem ser calculadas como eventos por unidade de tempo, o que permite que a janela de observação varie para cada unidade. Nesses exemplos, a exposição é respectivamente área unitária, anos-pessoa e tempo unitário. Na regressão de Poisson isto é tratado como uma compensação, onde a variável de exposição entra no lado direito da equação, mas com uma estimativa de parâmetro (para log(exposição)) limitada a 1,
log ( E ( Y ∣ x ) ) = log ( exposição ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=log({\i1}(texto{exposição})+theta ‘x}
o que implica
log ( E ( Y ∣ x ) ) – log ( exposição ) = log ( E ( Y ∣ x ) exposição ) = θ ′ x {\i1}displaystyle {\i}log({\i1}operatorname {E} Tradução: Equipa PT-Subs (Y))-Log(texto (expor))-Log(Esquerda(Frac)-Operatorname(E) (Y\i x){\i1}{\i x)certo)=theta ‘x}
Offset no caso de um GLM em R pode ser alcançado usando a função offset()
>
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Sobredispersão e inflação zeroEditar
Uma característica da distribuição de Poisson é que a sua média é igual à sua variância. Em certas circunstâncias, será encontrado que a variância observada é maior que a média; isto é conhecido como superdispersão e indica que o modelo não é apropriado. Uma razão comum é a omissão de variáveis explicativas relevantes, ou observações dependentes. Em algumas circunstâncias, o problema de superdispersão pode ser resolvido usando uma estimativa de quase probabilidade ou uma distribuição binomial negativa.
Ver Hoef e Boveng descreveram a diferença entre quase-Poisson (também chamado de superdispersão com quase probabilidade) e binomial negativo (equivalente a gama-Poisson) como segue: Se E(Y) = μ, o modelo quasi-Poisson assume var(Y) = θμ enquanto o modelo gama-Poisson assume var(Y) = μ(1 + κμ), onde θ é o parâmetro de sobredispersão quasi-Poisson, e κ é o parâmetro de forma da distribuição binomial negativa. Para ambos os modelos, os parâmetros são estimados usando os mínimos quadrados Iterativamente re-ponderados. Para quasi-Poisson, os pesos são μ/θ. Para o binômio negativo, os pesos são μ/(1 + κμ). Com grande μ e variação substancial extra-Poisson, os pesos binomiais negativos são limitados a 1/κ. Ver Hoef e Boveng discutiram um exemplo onde eles selecionaram entre os dois traçando a média dos resíduos quadrados versus a média.
Um outro problema comum com a regressão de Poisson é o excesso de zeros: se há dois processos em funcionamento, um determinando se há zero eventos ou qualquer evento, e um processo de Poisson determinando quantos eventos há, haverá mais zeros do que uma regressão de Poisson predizeria. Um exemplo seria a distribuição de cigarros fumados em uma hora por membros de um grupo onde alguns indivíduos são não fumantes.
Outros modelos lineares generalizados, como o modelo binomial negativo ou o modelo sem inflação podem funcionar melhor nestes casos.
Uso em análise de sobrevivênciaEditar
Regessão de Poisson cria modelos de perigos proporcionais, uma classe de análise de sobrevivência: veja modelos de perigos proporcionais para descrições de modelos Cox.