Die Poisson-Regression kann geeignet sein, wenn die abhängige Variable eine Zählung ist, beispielsweise von Ereignissen wie dem Eintreffen eines Telefonanrufs in einem Callcenter. Die Ereignisse müssen in dem Sinne unabhängig sein, dass das Eintreffen eines Anrufs ein anderes nicht wahrscheinlicher oder unwahrscheinlicher macht, aber die Wahrscheinlichkeit pro Zeiteinheit von Ereignissen wird so verstanden, dass sie mit Kovariaten wie der Tageszeit zusammenhängt.
„Exposition“ und OffsetEdit
Poisson-Regression kann auch für Raten-Daten geeignet sein, bei denen die Rate eine Zählung von Ereignissen geteilt durch ein Maß für die Exposition dieser Einheit (eine bestimmte Beobachtungseinheit) ist. Ein Biologe könnte beispielsweise die Anzahl der Baumarten in einem Wald zählen: Ereignisse wären Baumbeobachtungen, die Exposition wäre eine Flächeneinheit, und die Rate wäre die Anzahl der Arten pro Flächeneinheit. Demographen können die Sterberaten in geografischen Gebieten als die Anzahl der Todesfälle geteilt durch die Personenjahre modellieren. Allgemeiner ausgedrückt können Ereignisraten als Ereignisse pro Zeiteinheit berechnet werden, wobei das Beobachtungsfenster für jede Einheit variieren kann. In diesen Beispielen ist die Exposition jeweils eine Einheit Fläche, Personenjahre und Zeiteinheit. In der Poisson-Regression wird dies als Offset gehandhabt, wobei die Expositionsvariable auf der rechten Seite der Gleichung eingesetzt wird, jedoch mit einer Parameterschätzung (für log(Exposition)), die auf 1 beschränkt ist.
log ( E ( Y ∣ x ) ) = log ( Exposition ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{exposure}})+\theta ‚x}
woraus folgt
log ( E ( Y ∣ x ) ) – log ( exposure ) = log ( E ( Y ∣ x ) exposure ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{exposure}})=\log \left({\frac {\operatorname {E} (Y\mitten x)}{\text{exposure}}\right)=\theta ‚x}
Offset im Falle eines GLM in R kann mit der Funktion offset()
erreicht werden:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Überdispersion und NullinflationBearbeiten
Eine Eigenschaft der Poisson-Verteilung ist, dass ihr Mittelwert gleich ihrer Varianz ist. Unter bestimmten Umständen wird festgestellt, dass die beobachtete Varianz größer ist als der Mittelwert; dies wird als Überdispersion bezeichnet und zeigt an, dass das Modell nicht geeignet ist. Ein häufiger Grund ist das Fehlen von relevanten erklärenden Variablen oder abhängigen Beobachtungen. Unter bestimmten Umständen kann das Problem der Überdispersion gelöst werden, indem stattdessen eine Quasi-Likelihood-Schätzung oder eine negative Binomialverteilung verwendet wird.
Ver Hoef und Boveng beschreiben den Unterschied zwischen Quasi-Poisson (auch Überdispersion mit Quasi-Likelihood genannt) und negativer Binomialverteilung (entspricht Gamma-Poisson) wie folgt: Wenn E(Y) = μ ist, nimmt das Quasi-Poisson-Modell var(Y) = θμ an, während das Gamma-Poisson-Modell var(Y) = μ(1 + κμ) annimmt, wobei θ der Quasi-Poisson-Überdispersionsparameter und κ der Formparameter der negativen Binomialverteilung ist. Für beide Modelle werden die Parameter mit Hilfe der iterativ neu gewichteten kleinsten Quadrate geschätzt. Für Quasi-Poisson sind die Gewichte μ/θ. Für die negative Binomialverteilung sind die Gewichte μ/(1 + κμ). Bei großem μ und erheblicher Extra-Poisson-Variation werden die negativen Binomialgewichte auf 1/κ begrenzt. Ver Hoef und Boveng erörterten ein Beispiel, bei dem sie zwischen den beiden Varianten wählten, indem sie die mittleren quadrierten Residuen gegen den Mittelwert auftrugen.
Ein weiteres häufiges Problem bei der Poisson-Regression sind überzählige Nullen: Wenn zwei Prozesse am Werk sind, von denen einer bestimmt, ob es Null-Ereignisse oder irgendwelche Ereignisse gibt, und ein Poisson-Prozess bestimmt, wie viele Ereignisse es gibt, gibt es mehr Nullen als eine Poisson-Regression vorhersagen würde. Ein Beispiel wäre die Verteilung der Zigaretten, die in einer Stunde von Mitgliedern einer Gruppe geraucht werden, in der einige Personen Nichtraucher sind.
Andere verallgemeinerte lineare Modelle wie das negative Binomialmodell oder das Modell mit Nullen können in diesen Fällen besser funktionieren.
Verwendung in der ÜberlebensanalyseEdit
Die Poisson-Regression erzeugt proportionale Gefährdungsmodelle, eine Klasse der Überlebensanalyse: siehe proportionale Gefährdungsmodelle für Beschreibungen der Cox-Modelle.