Poissonregression kan vara lämplig när den beroende variabeln är en räkning, t.ex. av händelser som t.ex. när ett telefonsamtal kommer in till ett callcenter. Händelserna måste vara oberoende i den meningen att ankomsten av ett samtal inte gör ett annat mer eller mindre sannolikt, men sannolikheten per tidsenhet för händelserna kan förstås vara relaterad till kovarianter som t.ex. tid på dygnet.
”Exponering” och offsetEdit
Poissonregression kan också vara lämplig för hastighetsdata, där hastigheten är en räkning av händelser dividerad med ett visst mått på den enhetens exponering (en viss observationsenhet). Biologer kan till exempel räkna antalet trädslag i en skog: händelserna skulle vara trädobservationer, exponeringen skulle vara arealenheten och hastigheten skulle vara antalet arter per arealenhet. Demografer kan modellera dödstal i geografiska områden som antalet dödsfall dividerat med antalet personår. Mer allmänt kan händelsegrader beräknas som händelser per tidsenhet, vilket gör att observationsfönstret kan variera för varje enhet. I dessa exempel är exponeringen en enhet av område, personår och tidsenhet. I Poissonregression hanteras detta som en förskjutning, där exponeringsvariabeln tas med på ekvationens högra sida, men med en parameteruppskattning (för log(exponering)) som begränsas till 1.
log ( E ( Y ∣ x ) ) = log ( exponering ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{exponering}})+\theta ’x}
vilket innebär
log ( E ( Y ∣ x ) ) – log ( exponering ) = log ( E ( Y ∣ x ) exponering ) = θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))-\log({\text{exponering}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\theta ’x}
Offset i fallet med en GLM i R kan uppnås med hjälp av funktionen offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Överspridning och nollinflationRedigera
En egenskap hos Poissonfördelningen är att dess medelvärde är lika med dess varians. Under vissa omständigheter kommer man att finna att den observerade variansen är större än medelvärdet; detta kallas överspridning och indikerar att modellen inte är lämplig. En vanlig orsak är att relevanta förklarande variabler, eller beroende observationer, utelämnas. Under vissa omständigheter kan problemet med överspridning lösas genom att i stället använda skattning med kvasi-likelihood eller en negativ binomialfördelning.
Ver Hoef och Boveng beskrev skillnaden mellan kvasipoisson (även kallad överspridning med kvasi-likelihood) och negativ binomial (motsvarande gamma-Poisson) på följande sätt: Om E(Y) = μ antar kvasipoissonmodellen var(Y) = θμ medan gamma-Poisson antar var(Y) = μ(1 + κμ), där θ är kvasipoissons överspridningsparameter och κ är formparametern för den negativa binomialfördelningen. För båda modellerna skattas parametrarna med hjälp av Iterativt omviktade minsta kvadratmetoden. För kvasipoisson är vikterna μ/θ. För negativ binomial är vikterna μ/(1 + κμ). Med stora μ och betydande extra-Poisson-variation begränsas de negativa binomialvikterna till 1/κ. Ver Hoef och Boveng diskuterade ett exempel där de valde mellan de två genom att plotta medelkvadratresidualer mot medelvärdet.
Ett annat vanligt problem med Poisson-regression är överskott av nollor: om det finns två processer i arbete, en som bestämmer om det finns noll händelser eller några händelser, och en Poisson-process som bestämmer hur många händelser det finns, kommer det att finnas fler nollor än vad en Poisson-regression skulle förutsäga. Ett exempel skulle vara fördelningen av cigaretter som röks under en timme av medlemmarna i en grupp där vissa individer är icke-rökare.
Andra generaliserade linjära modeller som den negativa binomialmodellen eller nollinflaterade modellen kan fungera bättre i dessa fall.
Användning i överlevnadsanalysRedigera
Poissonregression skapar proportionella riskmodeller, en klass av överlevnadsanalyser: se proportionella riskmodeller för beskrivningar av Cox-modeller.