A Poisson-regresszió akkor lehet megfelelő, ha a függő változó egy számlálás, például olyan események, mint egy telefonhívás beérkezése egy telefonközpontba. Az eseményeknek függetlennek kell lenniük abban az értelemben, hogy az egyik hívás érkezése nem tesz egy másikat valószínűbbé vagy kevésbé valószínűvé, de az események időegységenkénti valószínűségét úgy értelmezzük, hogy az összefügg a kovariánsokkal, például a napszakkal.
“Expozíció” és offsetEdit
A Poisson-regresszió megfelelő lehet az arányadatokra is, ahol az arány az események számának és az adott egység expozíciójának (egy adott megfigyelési egység) valamilyen mértékének hányadosa. A biológusok például megszámlálhatják a fafajok számát egy erdőben: az események a fák megfigyelései, a kitettség a területegység, a ráta pedig a fajoknak az egységnyi területre jutó száma lenne. A demográfusok a földrajzi területek halálozási arányát úgy modellezhetik, mint a halálesetek számát osztva a személyévekkel. Általánosabban, az eseményráták kiszámíthatók egységnyi időre jutó eseményekként, ami lehetővé teszi, hogy a megfigyelési ablak minden egyes egység esetében változzon. Ezekben a példákban az expozíció egységnyi terület, személyév és egységnyi idő. A Poisson-regresszióban ezt eltolásként kezelik, ahol az expozíciós változó az egyenlet jobb oldalán szerepel, de a paraméterbecslés (a log(expozícióra)) 1-re korlátozódik.
log ( E ( Y ∣ x ) ) = log ( expozíció ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{exposure}})+\theta ‘x}
amelyből következik
log ( E ( Y ∣ x ) ) – log ( expozíció ) = log ( E ( Y ∣ x ) expozíció ) = θ ′ x {\displaystyle \log(\operatornév {E} (Y\mid x))-\log({\text{exposure})=\log \left({\frac {\operatornév {E} (Y\mid x)}{\text{exposure}}}\right)=\theta ‘x}
Az eltolás GLM esetén R-ben a offset()
függvénnyel érhető el:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Túlszóródás és nulla inflációSzerkesztés
A Poisson-eloszlás jellemzője, hogy az átlaga egyenlő a szórásával. Bizonyos körülmények között azt találjuk, hogy a megfigyelt szórás nagyobb, mint az átlag; ezt nevezzük túldiszperziónak, és azt jelzi, hogy a modell nem megfelelő. Ennek gyakori oka a releváns magyarázó változók vagy függő megfigyelések elhagyása. Bizonyos körülmények között a túldiszperzió problémája megoldható, ha helyette kvázi valószínűségi becslést vagy negatív binomiális eloszlást használunk.
Ver Hoef és Boveng a következőképpen írta le a kvázi-Poisson (más néven túldiszperzió kvázi valószínűséggel) és a negatív binomiális (a gamma-Poissonnal egyenértékű) eloszlás közötti különbséget: Ha E(Y) = μ, akkor a kvázi-Poisson modell var(Y) = θμ, míg a gamma-Poisson var(Y) = μ(1 + κμ), ahol θ a kvázi-Poisson túlszórás paramétere, κ pedig a negatív binomiális eloszlás alakparamétere. Mindkét modell esetében a paraméterek becslése az Iteratívan újrasúlyozott legkisebb négyzetek módszerével történik. A kvázi-Poisson esetében a súlyok μ/θ. A negatív binomiális eloszlás esetében a súlyok μ/(1 + κμ). Nagy μ és jelentős extra-Poisson-változás esetén a negatív binomiális súlyokat 1/κ-nél korlátozzuk. Ver Hoef és Boveng tárgyaltak egy példát, ahol a kettő között az átlagos maradékok négyzetének és az átlagnak az ábrázolásával választottak.
A Poisson-regresszió másik gyakori problémája a többlet nullák: ha két folyamat működik, az egyik meghatározza, hogy van-e nulla esemény vagy bármilyen esemény, és egy Poisson-folyamat határozza meg, hogy hány esemény van, akkor több nulla lesz, mint amit a Poisson-regresszió előre jelezne. Erre példa lehet az egy óra alatt elszívott cigaretták eloszlása egy olyan csoport tagjai között, ahol néhány egyén nem dohányzik.
Egy másik általánosított lineáris modell, például a negatív binomiális modell vagy a nulla-inflált modell jobban működhet ezekben az esetekben.
Használat a túlélési elemzésbenSzerkesztés
A Poisson-regresszió arányos veszélymodelleket hoz létre, a túlélési elemzés egyik osztályát: lásd a Cox-modellek leírását az arányos veszélymodelleknél.