Poisson regressie kan geschikt zijn wanneer de afhankelijke variabele een telling is, bijvoorbeeld van gebeurtenissen zoals de aankomst van een telefoongesprek in een callcenter. De gebeurtenissen moeten onafhankelijk zijn in de zin dat de aankomst van één oproep een andere niet meer of minder waarschijnlijk maakt, maar de waarschijnlijkheid per tijdseenheid van gebeurtenissen wordt geacht verband te houden met covariaten zoals het tijdstip van de dag.
“Blootstelling” en offsetEdit
Poissonregressie kan ook geschikt zijn voor rate-gegevens, waarbij de rate een telling van gebeurtenissen is, gedeeld door een maat voor de blootstelling van die eenheid (een bepaalde eenheid van waarneming). Biologen kunnen bijvoorbeeld het aantal boomsoorten in een bos tellen: gebeurtenissen zijn waarnemingen van bomen, blootstelling is een oppervlakte-eenheid, en de snelheid is het aantal soorten per oppervlakte-eenheid. Demografen kunnen sterftecijfers in geografische gebieden modelleren als het aantal sterfgevallen gedeeld door het aantal persoonsjaren. Meer in het algemeen kunnen gebeurtenissen worden berekend als gebeurtenissen per tijdseenheid, waarbij het waarnemingsvenster voor elke eenheid kan variëren. In deze voorbeelden is de blootstelling respectievelijk een eenheid gebied, een eenheid persoonsjaren en een eenheid tijd. In Poisson regressie wordt dit behandeld als een offset, waarbij de blootstellingsvariabele aan de rechterkant van de vergelijking binnenkomt, maar met een parameterschatting (voor log(blootstelling)) beperkt tot 1.
log ( E ( Y ∣ x ) ) = log ( blootstelling ) + θ ′ x {afbeelding \log(\operatornaam {E} (Y ∣ x))= log({text{blootstelling}})+theta ‘x}
wat impliceert
log ( E ( Y ∣ x ) ) – log ( belichting ) = log ( E ( Y ∣ x ) belichting ) = θ ′ x {{empty \log(\operatornaam {E} (Y ∣ x))-log({{exposure}})= log({{exposure}})= log({{operatornaam {E}} (Y\mid x)}{text{exposure}}}}=’thèta ‘x}
Offset in het geval van een GLM in R kan worden bereikt met de functie offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Overdispersie en nulinflatieEdit
Een kenmerk van de Poisson-verdeling is dat het gemiddelde gelijk is aan de variantie. In bepaalde omstandigheden zal blijken dat de waargenomen variantie groter is dan het gemiddelde; dit staat bekend als overdispersie en wijst erop dat het model niet geschikt is. Een veel voorkomende reden is het weglaten van relevante verklarende variabelen, of afhankelijke waarnemingen. Onder bepaalde omstandigheden kan het probleem van overdispersie worden opgelost door in plaats daarvan een quasi-waarschijnlijkheidsschatting of een negatieve binomiale verdeling te gebruiken.
Ver Hoef en Boveng beschreven het verschil tussen quasi-Poisson (ook wel overdispersie met quasi-waarschijnlijkheid genoemd) en negatieve binomiale verdeling (equivalent aan gamma-Poisson) als volgt: Als E(Y) = μ, gaat het quasi-Poisson model uit van var(Y) = θμ terwijl het gamma-Poisson uitgaat van var(Y) = μ(1 + κμ), waarbij θ de quasi-Poisson overdispersieparameter is, en κ de vormparameter van de negatieve binomiale verdeling. Voor beide modellen worden de parameters geraamd met behulp van Iteratief herwogen kleinste kwadraten. Voor quasi-Poisson zijn de gewichten μ/θ. Voor negatief binomiaal zijn de gewichten μ/(1 + κμ). Bij grote μ en aanzienlijke extra-Poissonvariatie worden de negatieve binomiale gewichten afgetopt op 1/κ. Ver Hoef en Boveng bespraken een voorbeeld waarbij zij tussen de twee selecteerden door de gemiddelde gekwadrateerde residuen ten opzichte van het gemiddelde uit te zetten.
Een ander veel voorkomend probleem met Poisson regressie is de overmaat aan nullen: als er twee processen aan het werk zijn, één dat bepaalt of er nul gebeurtenissen zijn of enige gebeurtenissen, en een Poisson proces dat bepaalt hoeveel gebeurtenissen er zijn, zullen er meer nullen zijn dan een Poisson regressie zou voorspellen. Een voorbeeld is de verdeling van het aantal sigaretten dat in een uur wordt gerookt door leden van een groep waarvan sommige individuen niet-rokers zijn.
Andere gegeneraliseerde lineaire modellen, zoals het negatieve binomiale model of het zero-inflated model, kunnen in deze gevallen beter functioneren.
Gebruik in overlevingsanalyseEdit
Poissonregressie creëert proportionele hazards-modellen, een klasse van overlevingsanalyse: zie proportionele hazards-modellen voor beschrijvingen van Cox-modellen.