La regressione Poisson può essere appropriata quando la variabile dipendente è un conteggio, per esempio di eventi come l’arrivo di una telefonata in un call center. Gli eventi devono essere indipendenti nel senso che l’arrivo di una chiamata non renderà un’altra più o meno probabile, ma la probabilità per unità di tempo degli eventi è intesa come correlata a covariate come l’ora del giorno.
“Exposure” e offsetEdit
La regressione Poisson può anche essere appropriata per dati di tasso, dove il tasso è un conteggio di eventi diviso per qualche misura di esposizione di quella unità (una particolare unità di osservazione). Per esempio, i biologi possono contare il numero di specie di alberi in una foresta: gli eventi sarebbero le osservazioni degli alberi, l’esposizione sarebbe l’unità di area, e il tasso sarebbe il numero di specie per unità di area. I demografi possono modellare i tassi di morte in aree geografiche come il conteggio dei decessi diviso per gli anni-persona. Più in generale, i tassi di eventi possono essere calcolati come eventi per unità di tempo, il che permette di variare la finestra di osservazione per ogni unità. In questi esempi, l’esposizione è rispettivamente unità di area, persona-anno e unità di tempo. Nella regressione di Poisson questo è gestito come un offset, dove la variabile di esposizione entra sul lato destro dell’equazione, ma con una stima del parametro (per log(exposure)) vincolata a 1.
log ( E ( Y ∣ x ) ) = log ( exposure ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y ∣ x))=\log({\testo{esposizione}})+\theta ‘x}
che implica
log ( E ( Y ∣ x ) ) – log ( esposizione ) = log ( E ( Y ∣ x ) esposizione ) = θ ′ x {\displaystyle \log(\operatorname {E} (Ymid x))-\log({\testo{esposizione}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{{text{exposure}}}destra)=\theta ‘x}
L’offset nel caso di una GLM in R può essere ottenuto utilizzando la funzione offset()
:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
Sovradispersione e inflazione zeroModifica
Una caratteristica della distribuzione di Poisson è che la sua media è uguale alla sua varianza. In alcune circostanze, si troverà che la varianza osservata è maggiore della media; questo è noto come sovradispersione e indica che il modello non è appropriato. Una ragione comune è l’omissione di variabili esplicative rilevanti, o di osservazioni dipendenti. In alcune circostanze, il problema dell’iperdispersione può essere risolto usando invece la stima di quasi-liquidità o una distribuzione binomiale negativa.
Ver Hoef e Boveng hanno descritto la differenza tra quasi-Poisson (chiamato anche iperdispersione con quasi-liquidità) e binomiale negativo (equivalente a gamma-Poisson) come segue: Se E(Y) = μ, il modello quasi-Poisson assume var(Y) = θμ mentre il gamma-Poisson assume var(Y) = μ(1 + κμ), dove θ è il parametro di iperdispersione quasi-Poisson, e κ è il parametro di forma della distribuzione binomiale negativa. Per entrambi i modelli, i parametri sono stimati usando i minimi quadrati ponderati iterativamente. Per quasi-Poisson, i pesi sono μ/θ. Per il binomio negativo, i pesi sono μ/(1 + κμ). Con grandi μ e una sostanziale variazione extra-Poisson, i pesi del binomio negativo sono limitati a 1/κ. Ver Hoef e Boveng hanno discusso un esempio in cui hanno selezionato tra i due tracciando i residui quadratici medi rispetto alla media.
Un altro problema comune con la regressione di Poisson è l’eccesso di zeri: se ci sono due processi al lavoro, uno che determina se ci sono eventi zero o qualsiasi evento, e un processo di Poisson che determina quanti eventi ci sono, ci saranno più zeri di quanto una regressione di Poisson potrebbe prevedere. Un esempio potrebbe essere la distribuzione delle sigarette fumate in un’ora dai membri di un gruppo in cui alcuni individui sono non fumatori.
Altri modelli lineari generalizzati come il modello binomiale negativo o il modello zero-inflesso possono funzionare meglio in questi casi.
Uso nell’analisi di sopravvivenzaModifica
La regressione di Poisson crea modelli a rischio proporzionale, una classe di analisi di sopravvivenza: vedi modelli a rischio proporzionale per descrizioni dei modelli di Cox.