Poisson-regression kan være hensigtsmæssig, når den afhængige variabel er en tælling, f.eks. af begivenheder som f.eks. ankomsten af et telefonopkald til et callcenter. Begivenhederne skal være uafhængige i den forstand, at ankomsten af et opkald ikke gør et andet opkald mere eller mindre sandsynligt, men sandsynligheden pr. tidsenhed for begivenhederne forstås som værende relateret til kovariater som f.eks. tidspunktet på dagen.
“Eksponering” og offsetEdit
Poissonregression kan også være hensigtsmæssig for data om rate, hvor raten er en tælling af begivenheder divideret med et eller andet mål for denne enheds eksponering (en bestemt observationsenhed). Biologer kan f.eks. tælle antallet af træarter i en skov: hændelser ville være træobservationer, eksponering ville være arealenheden, og hastigheden ville være antallet af arter pr. arealenhed. Demografer kan modellere dødsrater i geografiske områder som antallet af dødsfald divideret med antallet af personår. Mere generelt kan hændelsesrater beregnes som hændelser pr. tidsenhed, hvilket gør det muligt at variere observationsvinduet for hver enhed. I disse eksempler er eksponeringen henholdsvis områdeenhed, personår og tidsenhed. I Poisson-regression håndteres dette som en forskydning, hvor eksponeringsvariablen indgår på højre side af ligningen, men med et parameterestimat (for log(eksponering)) begrænset til 1.
log ( E ( Y ∣ x ) ) = log ( eksponering ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{eksponering}})+\theta ‘x}
hvilket indebærer
log ( E ( Y ( Y ∣ x ) ) – log ( eksponering ) = log ( E ( Y ∣ x ) eksponering ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{eksponering}}})=\log \left({\frac {\operatornavn {E} (Y\mid x)}{\text{eksponering}}}}\right)=\theta ‘x}
Offset i tilfælde af en GLM i R kan opnås ved hjælp af funktionen offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Overdispersion og nul-inflationRediger
En egenskab ved Poisson-fordelingen er, at dens middelværdi er lig med dens varians. Under visse omstændigheder vil det vise sig, at den observerede varians er større end middelværdien; dette er kendt som overdispersion og indikerer, at modellen ikke er hensigtsmæssig. En almindelig årsag er udeladelse af relevante forklarende variabler eller afhængige observationer. Under visse omstændigheder kan problemet med overdispersion løses ved i stedet at anvende quasi-likelihood-estimation eller en negativ binomialfordeling.
Ver Hoef og Boveng beskrev forskellen mellem quasi-Poisson (også kaldet overdispersion med quasi-likelihood) og negativ binomial (svarende til gamma-Poisson) på følgende måde: Hvis E(Y) = μ, antager quasi-Poisson-modellen var(Y) = θμ, mens gamma-Poisson antager var(Y) = μ(1 + κμ), hvor θ er quasi-Poissons overspredningsparameter, og κ er formparameteren for den negative binomialfordeling. For begge modeller er parametrene estimeret ved hjælp af Iterativt genvægtede mindste kvadrater. For quasi-Poisson er vægtene μ/θ. For negativ binomial er vægtene μ/(1 + κμ). Med store μ og betydelig ekstra-Poisson-variation er vægtene for negativ binomialvægtning begrænset til 1/κ. Ver Hoef og Boveng diskuterede et eksempel, hvor de valgte mellem de to ved at plotte gennemsnitlige kvadrerede residualer i forhold til middelværdien.
Et andet almindeligt problem med Poisson-regression er overskydende nuller: Hvis der er to processer på spil, hvoraf den ene bestemmer, om der er nul hændelser eller nogen hændelser, og en Poisson-proces bestemmer, hvor mange hændelser der er, vil der være flere nuller, end en Poisson-regression ville forudsige. Et eksempel kunne være fordelingen af cigaretter røget i en time af medlemmer af en gruppe, hvor nogle individer er ikke-rygere.
Andre generaliserede lineære modeller såsom den negative binomialmodel eller nul-inflaterede model kan fungere bedre i disse tilfælde.
Anvendelse i overlevelsesanalyserRediger
Poisson-regression skaber proportional hazard-modeller, en klasse af overlevelsesanalyser: se proportional hazard-modeller for beskrivelser af Cox-modeller.