Poissonin regressio voi olla tarkoituksenmukainen, kun riippuvainen muuttuja on luku, esimerkiksi tapahtumista, kuten puhelun saapumisesta puhelinkeskukseen. Tapahtumien on oltava riippumattomia siinä mielessä, että yhden puhelun saapuminen ei tee toisen puhelun saapumista todennäköisemmäksi tai epätodennäköisemmäksi, mutta tapahtumien todennäköisyyden aikayksikköä kohti ymmärretään liittyvän kovariaatteihin, kuten kellonaikaan.

”Exposure” ja offsetEdit

Poissonin regressio voi soveltua myös nopeustietoihin, joissa nopeus on tapahtumien lukumäärä jaettuna jollakin kyseistä altistumista kuvaavalla mittaluvulla (tietyllä havainnointiyksiköllä). Biologit voivat esimerkiksi laskea puulajien lukumäärää metsässä: tapahtumat olisivat puuhavaintoja, altistuminen olisi pinta-alayksikkö ja nopeus olisi lajien lukumäärä pinta-alayksikköä kohti. Väestötieteilijät voivat mallintaa maantieteellisten alueiden kuolleisuuslukuja kuolemantapausten lukumääränä jaettuna henkilötyövuosilla. Yleisemmin tapahtumamäärät voidaan laskea tapahtumina aikayksikköä kohti, jolloin havaintoikkuna voi vaihdella kunkin yksikön osalta. Näissä esimerkeissä altistuminen on vastaavasti pinta-alayksikkö, henkilötyövuodet ja aikayksikkö. Poisson-regressiossa tämä käsitellään offsetina, jossa altistumismuuttuja tulee yhtälön oikealle puolelle, mutta parametriestimaatti (log(altistumiselle)) on rajoitettu arvoon 1.

log ( E ( Y ∣ x ) ) = log ( altistuminen ) + θ ′ x {\displaystyle {\displaystyle \log(\operaattorinimi {E }) (Y\mid x))=\log({\text{exposure}})+\theta ’x}

joka implikoi

log ( E ( Y ∣ x ) ) – log ( altistuminen ) = log ( E ( Y ∣ x ) altistuminen ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{exposure})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\theta ’x}

Offset GLM:n tapauksessa R:ssä voidaan saavuttaa offset()-funktiolla:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Ylidispersio ja nollainflaatioEdit

Poisson-jakaumalle on ominaista, että sen keskiarvo on yhtä suuri kuin sen varianssi. Tietyissä olosuhteissa havaitaan, että havaittu varianssi on suurempi kuin keskiarvo; tätä kutsutaan ylidispersioksi ja se osoittaa, että malli ei ole sopiva. Yleinen syy on merkityksellisten selittävien muuttujien tai riippuvaisten havaintojen puuttuminen. Joissakin olosuhteissa ylihajonnan ongelma voidaan ratkaista käyttämällä sen sijaan kvasi-likelihood-estimointia tai negatiivista binomijakaumaa.

Ver Hoef ja Boveng kuvasivat kvasi-Poissonin (jota kutsutaan myös ylihajonnaksi kvasi-likelihood-estimoinnilla) ja negatiivisen binomijakauman (vastaa gamma-Poissonia) eron seuraavasti: Jos E(Y) = μ, kvasi-Poisson-mallissa oletetaan var(Y) = θμ, kun taas gamma-Poisson-mallissa oletetaan var(Y) = μ(1 + κμ), jossa θ on kvasi-Poissonin ylihajontaparametri ja κ on negatiivisen binomijakauman muotoparametri. Molempien mallien parametrit estimoidaan käyttäen Iteratiivisesti uudelleen painotettuja pienimpiä neliöitä. Kvasipoissonin tapauksessa painot ovat μ/θ. Negatiivisen binomijakauman osalta painot ovat μ/(1 + κμ). Kun μ on suuri ja ekstra-Poissonin vaihtelu on huomattavaa, negatiivisen binomiaalin painot rajoitetaan arvoon 1/κ. Ver Hoef ja Boveng käsittelivät esimerkkiä, jossa he valitsivat näiden kahden välillä piirtämällä residuaalien keskineliöarvoja keskiarvon funktiona.

Toinen yleinen ongelma Poisson-regressiossa on ylimääräiset nollat: jos toiminnassa on kaksi prosessia, joista toinen määrittelee, onko nollatapahtumia vai yhtään tapahtumaa, ja Poisson-prosessi määrittelee, kuinka monta tapahtumaa on, nollatapahtumia on enemmän kuin Poisson-regressio ennustaa. Esimerkkinä voisi olla tunnin aikana poltettujen savukkeiden jakauma sellaisen ryhmän jäsenten keskuudessa, jossa osa yksilöistä on tupakoimattomia.

Muut yleistetyt lineaariset mallit, kuten negatiivinen binomimalli tai nollapainotteinen malli, voivat toimia näissä tapauksissa paremmin.

Käyttö eloonjäämisanalyysissäEdit

Poisson-regressio luo suhteellisten vaarojen mallit (proportional hazards models), jotka ovat yksi eloonjäämisanalyysin luokka: ks. kohdasta Suhteellisten vaarojen mallit (proportionaaliset vaarojen mallit) Coxin malleista löytyviä kuvauksia.

Vastaa

Sähköpostiosoitettasi ei julkaista.