La regresión de Poisson puede ser apropiada cuando la variable dependiente es un recuento, por ejemplo, de eventos como la llegada de una llamada telefónica a un centro de llamadas. Los eventos deben ser independientes en el sentido de que la llegada de una llamada no hará que otra sea más o menos probable, pero se entiende que la probabilidad por unidad de tiempo de los eventos está relacionada con covariables como la hora del día.
«Exposición» y offsetEdit
La regresión de Poisson también puede ser apropiada para datos de tasa, donde la tasa es un recuento de eventos dividido por alguna medida de la exposición de esa unidad (una unidad particular de observación). Por ejemplo, los biólogos pueden contar el número de especies de árboles en un bosque: los eventos serían las observaciones de árboles, la exposición sería la unidad de área y la tasa sería el número de especies por unidad de área. Los demógrafos pueden modelar las tasas de mortalidad en áreas geográficas como el recuento de muertes dividido por los años-persona. De forma más general, las tasas de eventos pueden calcularse como eventos por unidad de tiempo, lo que permite que la ventana de observación varíe para cada unidad. En estos ejemplos, la exposición es, respectivamente, unidad de área, persona-año y unidad de tiempo. En la regresión de Poisson esto se maneja como una compensación, donde la variable de exposición entra en el lado derecho de la ecuación, pero con una estimación del parámetro (para log(exposición)) restringida a 1.
log ( E ( Y ∣ x ) = log ( exposición ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{exposición}})+\theta ‘x}
lo que implica
log ( E ( Y ∣ x ) ) – log ( exposición ) = log ( E ( Y ∣ x ) exposición ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{exposición}})=\log \left({\frac {\operatorname{E}) (Y\mid x)}{texto{exposición}}\\N-derecha)=\Ntheta ‘x}
El desplazamiento en el caso de un GLM en R puede lograrse utilizando la función offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Sobredispersión e inflación ceroEditar
Una característica de la distribución de Poisson es que su media es igual a su varianza. En ciertas circunstancias, se encontrará que la varianza observada es mayor que la media; esto se conoce como sobredispersión e indica que el modelo no es apropiado. Una razón común es la omisión de variables explicativas relevantes, u observaciones dependientes. En algunas circunstancias, el problema de la sobredispersión puede resolverse utilizando en su lugar una estimación de cuasi-verosimilitud o una distribución binomial negativa.
Ver Hoef y Boveng describieron la diferencia entre la cuasi-Poisson (también llamada sobredispersión con cuasi-verosimilitud) y la binomial negativa (equivalente a la gamma-Poisson) como sigue: Si E(Y) = μ, el modelo cuasi-Poisson asume var(Y) = θμ mientras que el gamma-Poisson asume var(Y) = μ(1 + κμ), donde θ es el parámetro de sobredispersión cuasi-Poisson, y κ es el parámetro de forma de la distribución binomial negativa. Para ambos modelos, los parámetros se estiman mediante mínimos cuadrados reponderados iterativamente. Para la cuasi-Poisson, las ponderaciones son μ/θ. Para la binomial negativa, las ponderaciones son μ/(1 + κμ). Con un μ grande y una variación extra-Poisson sustancial, los pesos de la binomial negativa se limitan a 1/κ. Ver Hoef y Boveng comentaron un ejemplo en el que seleccionaron entre los dos trazando los residuos medios al cuadrado frente a la media.
Otro problema común con la regresión de Poisson es el exceso de ceros: si hay dos procesos en funcionamiento, uno que determina si hay cero eventos o cualquier evento, y un proceso de Poisson que determina cuántos eventos hay, habrá más ceros de los que predeciría una regresión de Poisson. Un ejemplo sería la distribución de cigarrillos fumados en una hora por los miembros de un grupo en el que algunos individuos no son fumadores.
Otros modelos lineales generalizados, como el modelo binomial negativo o el modelo inflado a cero, pueden funcionar mejor en estos casos.
Uso en el análisis de supervivenciaEditar
La regresión de Poisson crea modelos de riesgos proporcionales, una clase de análisis de supervivencia: consulte los modelos de riesgos proporcionales para obtener descripciones de los modelos de Cox.