ポアソン回帰は従属変数がカウント、例えばコールセンターでの電話の到着のようなイベントの場合、適切であるかもしれません。 あるコールの到着が他のコールの可能性を高くしたり低くしたりしないという意味で、イベントは独立していなければなりませんが、イベントの単位時間あたりの確率は一日の時間などの共変量に関連していると理解されます。

“Exposure” and offsetEdit

ポアソン回帰はレートデータ、レートがそのユニットの露出(観測の特定の単位)のいくつかの測定で割ったイベントのカウントの場合にも適している場合があります。 例えば、生物学者は森林の木の種の数を数えることができます。イベントは木の観察、暴露は単位面積、そして率は単位面積あたりの種の数となります。 人口統計学者は、地理的地域における死亡率を、死亡者数÷人年としてモデル化することができる。 より一般的には、事象率は単位時間当たりの事象として計算することができ、これにより、観測窓を各単位で変えることができる。 これらの例では、曝露はそれぞれ単位面積、人年、単位時間である。 ポアソン回帰では、これはオフセットとして扱われ、曝露変数が式の右辺に入るが、パラメータ推定値 (for log(exposure)) は1に制約される。

log ( E ( Y ∣ x ) ) = log ( exposure ) + θ ′ x {displaystyle \log(\operatorname {E} ) (Ymid x))=Chatlog({Text{Exposure})+theta ‘x}.

which implises

log ( E ( Y ∣ x ) ) – log ( exposure ) = log ( E ( Y ∣ x ) exposure ) = θ ′ x {displaystyle \log(\operatorname {E}) (Ymid x))-同上({text{exposure}})=同上 \Left({}frac {operatorname {E}}}) (Ymid x)}{text{exposure}} Photoright)=theta ‘x}

RのGLMの場合のオフセットは、offset()関数を使用して実現できます:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

過剰分散とゼロインフレEdit

ポワソン分布の特徴は、その平均が分散と同じであることです。 これは過分散として知られ、モデルが適切でないことを示します。 一般的な理由は,関連する説明変数,または従属オブザベーションが省略されていることである.

Ver Hoef と Boveng は、準ポアソン(準尤度による過剰分散ともいう)と負の二項分布(ガンマポアソンに相当)の違いを次のように説明している。 E(Y) = μとすると、準ポアソンモデルでは var(Y) = θμ、ガンマポアソンでは var(Y) = μ(1 + κμ)、θは準ポアソン過分散パラメータ、κは負の二項分布の形状パラメータとして仮定されます。 両モデルとも、パラメータは反復再重み付け最小二乗法を用いて推定される。 準ポアソンでは、重みはμ/θである。 負の二項分布では、重みはμ/(1 + κμ)である。 大きなμと実質的な余剰ポアソン変動がある場合、負の二項重みは1/κに制限されます。 Ver HoefとBovengは、平均二乗残差対平均をプロットすることによって、2つのうちどちらかを選択した例を議論しました。

ポアソン回帰のもう1つの一般的な問題は、過剰ゼロです。

このようなケースでは、負の2項モデルやゼロインフレート・モデルなどの他の一般化線形モデルがよりよく機能するかもしれません。

コメントを残す

メールアドレスが公開されることはありません。