Comment la détecter et est-elle importante ?
L’hétérogénéité statistique n’apparaît qu’après l’analyse des résultats. L’hétérogénéité peut être jugée graphiquement (en regardant le diagramme forestier) et être mesurée statistiquement. Dans un diagramme forestier tiré de l’examen systématique de la supplémentation en calcium2, les barres d’erreur pour chaque essai incluent le résultat sommaire, ce qui suggère que l’hétérogénéité statistique n’est pas un problème et que le message est cohérent (fig 22).).
Graphique en forêt adapté de Winzenberg et al2 montrant l’absence d’hétérogénéité statistique dans les odds ratios pour l’effet de la supplémentation en calcium sur la densité minérale osseuse. SMD=différence moyenne standardisée
Pour déterminer si une hétérogénéité significative existe, recherchez la valeur P du test d’hétérogénéité χ2. Une valeur P élevée est une bonne nouvelle car elle suggère que l’hétérogénéité est non significative et que l’on peut aller de l’avant et résumer les résultats. Comme les tests statistiques d’hétérogénéité ne sont pas très puissants, il est judicieux d’utiliser une valeur P plus élevée que d’habitude (disons P>0,1) comme seuil de décision et de penser quand même à l’hétérogénéité clinique.
L’examen systématique de la supplémentation en calcium passe le test, et les auteurs ont à juste titre résumé les effets sur la densité osseuse en utilisant un modèle simple à effets fixes. Ce modèle suppose que tous les essais tentent de mesurer la même chose et qu’il faut accorder plus d’influence aux essais les plus importants lors du calcul d’un effet moyen.4
Mais que faire si la valeur P du test d’hétérogénéité de χ2 est faible, ce qui suggère une hétérogénéité significative ? Que peut-on faire ? Deux approches sont possibles. Nous pouvons soit éviter de résumer le résultat et chercher les raisons de l’hétérogénéité, soit résumer les effets en utilisant une autre méthode – le modèle à effets aléatoires. Les raisons de l’hétérogénéité, autres que les différences cliniques, pourraient inclure des questions méthodologiques telles que des problèmes de randomisation, la fin précoce des essais, l’utilisation de mesures absolues plutôt que relatives du risque, et le biais de publication.
Les auteurs de l’examen systématique des médicaments utilisés pour prévenir les réactions allergiques causées par les produits de contraste ont adopté la première approche.1 Les diagrammes forestiers suggèrent que les deux classes de médicaments ont des effets différents, en particulier pour les réactions cutanées, et la valeur P du test statistique d’hétérogénéité était significative à 0,03. Ils ont décidé de ne pas résumer un effet moyen et ont estimé que la différence entre les traitements faisait partie du message de l’examen.
Les auteurs de l’examen des interventions visant à prévenir les chutes et les fractures ont adopté la deuxième approche.3 Le diagramme forestier pour les chutes à l’hôpital montre une grande dispersion des résultats (fig 33.). Certains essais suggèrent un bénéfice et d’autres un préjudice des interventions à facettes multiples. Les auteurs présentent la statistique I 2, qui mesure le pourcentage de variation qui n’est pas dû au hasard. Un pourcentage élevé, comme les 80% observés ici, suggère une hétérogénéité importante. (Une valeur I 2 de <25% est considérée comme faible.5)
Graphique en forêt d’Oliver et al3 montrant les ratios de taux (modèle à effets aléatoires) pour les effets des stratégies de prévention des chutes
Néanmoins, les auteurs ont estimé que tous les essais essayaient de mesurer essentiellement la même chose et qu’il valait la peine de résumer les résultats. Ils ont utilisé le modèle des effets aléatoires, qui utilise une formule différente pour calculer des intervalles de confiance à 95% plus conservateurs. Les effets du traitement sont supposés varier autour d’un certain effet de traitement moyen global, par opposition à un modèle à effets fixes, dans lequel on suppose que chaque étude a le même effet de traitement commun fixe.4
Les revues systématiques avec une méta-analyse tentent de fournir de meilleures réponses numériques aux questions « quel est l’effet de cette intervention et à quel point en sommes-nous sûrs ? ». Mais avant de croire les résultats de cette méthode, il peut être utile de considérer quatre questions (voir encadré).
Questions utiles à considérer
-
Était-ce vraiment une bonne idée de combiner les essais ?
-
Y a-t-il trop d’hétérogénéité clinique pour que l’examen ait un sens ?
-
Les diagrammes forestiers semblent-ils cohérents ?
-
Les tests statistiques suggèrent-ils que l’hétérogénéité est un problème ?