Regresia Poisson poate fi adecvată atunci când variabila dependentă este un număr, de exemplu, de evenimente cum ar fi sosirea unui apel telefonic la un centru de apeluri. Evenimentele trebuie să fie independente în sensul că sosirea unui apel nu va face ca un alt apel să fie mai mult sau mai puțin probabil, dar probabilitatea pe unitate de timp a evenimentelor este înțeleasă ca fiind legată de covariate, cum ar fi ora din zi.
„Exposure” și offsetEdit
Regresia Poisson poate fi, de asemenea, adecvată pentru datele privind rata, în cazul în care rata este un număr de evenimente împărțit la o anumită măsură a expunerii acelei unități (o anumită unitate de observație). De exemplu, biologii pot număra numărul de specii de arbori dintr-o pădure: evenimentele ar fi observațiile arborilor, expunerea ar fi unitatea de suprafață, iar rata ar fi numărul de specii pe unitatea de suprafață. Demografii pot modela ratele de mortalitate în zonele geografice ca număr de decese împărțit la numărul de ani-personă. Mai general, ratele evenimentelor pot fi calculate ca evenimente pe unitate de timp, ceea ce permite ca fereastra de observare să varieze pentru fiecare unitate. În aceste exemple, expunerea reprezintă unitatea de suprafață, respectiv unitatea de ani-personă și unitatea de timp. În regresia Poisson, acest lucru este tratat ca un decalaj, în care variabila de expunere intră în partea dreaptă a ecuației, dar cu o estimare a parametrului (pentru log(expunere)) constrânsă la 1.
log ( E ( Y ∣ x ) ) = log ( expunere ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{expunere}})+\theta ‘x}
ceea ce implică
log ( E ( Y ∣ x ) ) – log ( exposure ) = log ( E ( E ( Y ∣ x ) exposure ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{expunere}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{expunere}}}\right)=\theta ‘x}
Offsetul în cazul unui GLM în R poate fi obținut folosind funcția offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Supradispersie și inflație zeroEdit
O caracteristică a distribuției Poisson este că media sa este egală cu varianța sa. În anumite circumstanțe, se va constata că varianța observată este mai mare decât media; acest lucru este cunoscut sub numele de supradispersie și indică faptul că modelul nu este adecvat. Un motiv obișnuit este omiterea variabilelor explicative relevante sau a observațiilor dependente. În anumite circumstanțe, problema supradispersiei poate fi rezolvată prin utilizarea estimării cvasi-lichidității sau a unei distribuții binomiale negative în locul acesteia.
Ver Hoef și Boveng au descris diferența dintre cvasi-Poisson (numită și supradispersie cu cvasi-lichiditate) și binomialul negativ (echivalent cu gamma-Poisson) după cum urmează: Dacă E(Y) = μ, modelul quasi-Poisson presupune că var(Y) = θμ, în timp ce gamma-Poisson presupune că var(Y) = μ(1 + κμ), unde θ este parametrul de supradispersie quasi-Poisson, iar κ este parametrul de formă al distribuției binomiale negative. Pentru ambele modele, parametrii sunt estimați cu ajutorul celor mai mici pătrate reponderate iterativ. Pentru cvasi-Poisson, ponderile sunt μ/θ. Pentru binomul negativ, ponderile sunt μ/(1 + κμ). În cazul unui μ mare și al unei variații extra-Poisson substanțiale, ponderile binomului negativ sunt limitate la 1/κ. Ver Hoef și Boveng au discutat un exemplu în care au selectat între cele două prin reprezentarea grafică a reziduurilor medii pătratice în raport cu media.
O altă problemă comună cu regresia Poisson este excesul de zerouri: dacă există două procese la lucru, unul care determină dacă există evenimente zero sau orice evenimente și un proces Poisson care determină câte evenimente există, vor exista mai multe zerouri decât ar prezice o regresie Poisson. Un exemplu ar fi distribuția țigărilor fumate într-o oră de către membrii unui grup în care unii indivizi sunt nefumători.
Alte modele liniare generalizate, cum ar fi modelul binomial negativ sau modelul cu inflație zero, pot funcționa mai bine în aceste cazuri.
Utilizare în analiza de supraviețuireEdit
Regresia Poisson creează modele cu riscuri proporționale, o clasă de analiză a supraviețuirii: vezi modele cu riscuri proporționale pentru descrieri ale modelelor Cox.