Poissonova regrese může být vhodná, pokud je závislou proměnnou počet, například událostí, jako je příchod telefonního hovoru do call centra. Události musí být nezávislé v tom smyslu, že příchod jednoho hovoru nečiní jiný hovor více nebo méně pravděpodobným, ale pravděpodobnost za jednotku času událostí se chápe jako související s kovariátami, jako je denní doba.
„Expozice“ a offsetEdit
Poissonova regrese může být také vhodná pro údaje o míře, kde míra je počet událostí dělený určitou mírou expozice této jednotky (konkrétní jednotka pozorování). Například biologové mohou počítat počet druhů stromů v lese: události by byly pozorování stromů, expozice by byla jednotka plochy a míra by byla počet druhů na jednotku plochy. Demografové mohou modelovat míru úmrtnosti v geografických oblastech jako počet úmrtí vydělený osoboroky. Obecněji lze míry událostí vypočítat jako události za jednotku času, což umožňuje, aby se pozorovací okno pro každou jednotku lišilo. V těchto příkladech je expozice jednotkou plochy, resp. osoboroků a jednotkou času. V Poissonově regresi se to řeší jako posun, kde proměnná expozice vstupuje na pravou stranu rovnice, ale s odhadem parametru (pro log(expozice)) omezeným na 1.
log ( E ( Y ∣ x ) ) = log ( expozice ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{expozice}})+\theta ‚x}
což znamená
log ( E ( Y ∣ x ) ) – log ( expozice ) = log ( E ( Y ∣ x ) expozice ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{expozice}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{expozice}}}\pravá)=\theta ‚x}
Odsazení v případě GLM v R lze dosáhnout pomocí funkce offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Nadměrný rozptyl a nulová inflaceEdit
Vlastností Poissonova rozdělení je, že jeho střední hodnota je rovna jeho rozptylu. Za určitých okolností se zjistí, že pozorovaný rozptyl je větší než střední hodnota; to se nazývá nadměrný rozptyl a naznačuje, že model není vhodný. Častým důvodem je vynechání relevantních vysvětlujících proměnných nebo závislých pozorování. Za určitých okolností lze problém nadměrného rozptylu vyřešit tak, že se místo něj použije kvazi-věrohodnostní odhad nebo záporné binomické rozdělení.
Ver Hoef a Boveng popsali rozdíl mezi kvazi-Poissonovým (nazývaným také nadměrný rozptyl s kvazi-věrohodností) a záporným binomickým (ekvivalentním gama-Poissonovu) rozdělením takto: Pokud je E(Y) = μ, kvazi-Poissonův model předpokládá var(Y) = θμ, zatímco gama-Poissonův předpokládá var(Y) = μ(1 + κμ), kde θ je kvazi-Poissonův parametr nadměrného rozptylu a κ je tvarový parametr záporného binomického rozdělení. U obou modelů se parametry odhadují pomocí iterativně převážených nejmenších čtverců. Pro kvazi-Poissonův model jsou váhy μ/θ. Pro negativní binomické rozdělení jsou váhy μ/(1 + κμ). Při velkém μ a značné extra-Poissonově variabilitě jsou váhy záporného binomu omezeny na 1/κ. Ver Hoef a Boveng se zabývali příkladem, kde vybírali mezi oběma variantami pomocí grafu průměrných kvadratických reziduí v závislosti na průměru.
Dalším častým problémem Poissonovy regrese je nadbytek nul: pokud pracují dva procesy, z nichž jeden určuje, zda jsou události nulové nebo nějaké, a Poissonův proces určuje, kolik je událostí, bude nul více, než by předpověděla Poissonova regrese. Příkladem může být rozdělení cigaret vykouřených za hodinu členy skupiny, kde někteří jedinci jsou nekuřáci.
V těchto případech mohou lépe fungovat jiné zobecněné lineární modely, jako je negativní binomický model nebo model s nulou.
Použití v analýze přežitíEdit
Poissonova regrese vytváří modely proporcionálních rizik, což je jedna třída analýzy přežití: viz modely proporcionálních rizik pro popis Coxových modelů.