La régression de Poisson peut être appropriée lorsque la variable dépendante est un comptage, par exemple d’événements tels que l’arrivée d’un appel téléphonique dans un centre d’appels. Les événements doivent être indépendants dans le sens où l’arrivée d’un appel ne rendra pas un autre plus ou moins probable, mais la probabilité par unité de temps des événements est comprise comme étant liée à des covariables telles que l’heure de la journée.

« Exposition » et offsetEdit

La régression de Poisson peut également être appropriée pour les données de taux, où le taux est un compte d’événements divisé par une certaine mesure de l’exposition de cette unité (une unité d’observation particulière). Par exemple, les biologistes peuvent compter le nombre d’espèces d’arbres dans une forêt : les événements seraient des observations d’arbres, l’exposition serait une unité de surface et le taux serait le nombre d’espèces par unité de surface. Les démographes peuvent modéliser les taux de mortalité dans des zones géographiques comme le nombre de décès divisé par les années-personnes. Plus généralement, les taux d’événements peuvent être calculés en tant qu’événements par unité de temps, ce qui permet à la fenêtre d’observation de varier pour chaque unité. Dans ces exemples, l’exposition est respectivement une unité de surface, une unité d’années-personnes et une unité de temps. Dans la régression de Poisson, ceci est traité comme un décalage, où la variable d’exposition entre dans le côté droit de l’équation, mais avec une estimation de paramètre (pour log(exposition)) contrainte à 1.

log ( E ( Y ∣ x ) ) = log ( exposition ) + θ ′ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\log({\text{exposure}})+\theta ‘x}

ce qui implique

log ( E ( Y ∣ x ) ) – log ( exposition ) = log ( E ( Y ∣ x ) exposition ) = θ ′ x {\displaystyle }log(\operatorname {E} (Y\mid x))-\log({\text{exposure}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\theta ‘x}

L’offset dans le cas d’un GLM dans R peut être réalisé en utilisant la fonction offset():

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Surdispersion et inflation nulleEdit

Une caractéristique de la distribution de Poisson est que sa moyenne est égale à sa variance. Dans certaines circonstances, on constatera que la variance observée est supérieure à la moyenne ; on parle de surdispersion et cela indique que le modèle n’est pas approprié. Une raison courante est l’omission de variables explicatives pertinentes, ou d’observations dépendantes. Dans certaines circonstances, le problème de la surdispersion peut être résolu en utilisant l’estimation de la quasi-vraisemblance ou une distribution binomiale négative à la place.

Ver Hoef et Boveng ont décrit la différence entre la quasi-Poisson (également appelée surdispersion avec la quasi-vraisemblance) et la binomiale négative (équivalente à la gamma-Poisson) comme suit : Si E(Y) = μ, le modèle quasi-Poisson suppose que var(Y) = θμ tandis que le gamma-Poisson suppose que var(Y) = μ(1 + κμ), où θ est le paramètre de surdispersion du quasi-Poisson, et κ est le paramètre de forme de la distribution binomiale négative. Pour les deux modèles, les paramètres sont estimés à l’aide de la méthode des moindres carrés repondérés itérativement. Pour le modèle quasi-Poisson, les pondérations sont μ/θ. Pour la binomiale négative, les pondérations sont μ/(1 + κμ). Avec un grand μ et une variation extra-Poisson substantielle, les poids de la binomiale négative sont plafonnés à 1/κ. Ver Hoef et Boveng ont discuté d’un exemple où ils ont choisi entre les deux en traçant les résidus quadratiques moyens en fonction de la moyenne.

Un autre problème courant avec la régression de Poisson est l’excès de zéros : s’il y a deux processus à l’œuvre, l’un déterminant s’il y a zéro événement ou tout événement, et un processus de Poisson déterminant combien d’événements il y a, il y aura plus de zéros qu’une régression de Poisson ne le prédit. Un exemple serait la distribution des cigarettes fumées en une heure par les membres d’un groupe où certains individus sont des non-fumeurs.

D’autres modèles linéaires généralisés tels que le modèle binomial négatif ou le modèle zero-inflammé peuvent mieux fonctionner dans ces cas.

Utilisation dans l’analyse de survieEdit

La régression de Poisson crée des modèles de risques proportionnels, une classe d’analyse de survie : voir les modèles de risques proportionnels pour les descriptions des modèles de Cox.

>.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.