Wie kann man sie erkennen und ist sie von Bedeutung?
Statistische Heterogenität wird erst nach der Analyse der Ergebnisse deutlich. Heterogenität kann grafisch beurteilt werden (durch Betrachtung des Forest Plots) und statistisch gemessen werden. In einem Forest Plot aus der systematischen Übersichtsarbeit zur Kalzium-Supplementierung2 enthalten die Fehlerbalken für jede Studie das zusammengefasste Ergebnis, was darauf hindeutet, dass statistische Heterogenität kein Problem darstellt und dass die Aussage konsistent ist (Abb. 22).
Walddiagramm nach Winzenberg et al2, das zeigt, dass es keine statistische Heterogenität bei den Odds Ratios für die Wirkung der Kalziumsupplementierung auf die Knochenmineraldichte gibt. SMD=standardisierte mittlere Differenz
Um festzustellen, ob eine signifikante Heterogenität vorliegt, wird der P-Wert für den χ2-Test auf Heterogenität herangezogen. Ein hoher P-Wert ist eine gute Nachricht, denn er deutet darauf hin, dass die Heterogenität nicht signifikant ist und dass man die Ergebnisse zusammenfassen kann. Da statistische Tests auf Heterogenität nicht sehr aussagekräftig sind, ist es sinnvoll, einen höheren P-Wert als üblich (z. B. P>0,1) als Grenzwert für eine Entscheidung zu verwenden und trotzdem über klinische Heterogenität nachzudenken.
Die systematische Übersichtsarbeit zur Kalzium-Supplementierung besteht den Test, und die Autoren haben zu Recht die Auswirkungen auf die Knochendichte mit einem einfachen Modell mit festen Effekten zusammengefasst. Dieses Modell geht davon aus, dass alle Studien versuchen, dasselbe zu messen, und dass bei der Berechnung eines durchschnittlichen Effekts größeren Studien mehr Gewicht beigemessen werden sollte.4
Was aber, wenn der P-Wert für den χ2-Test auf Heterogenität niedrig ist, was auf eine signifikante Heterogenität hinweist? Was ist dann zu tun? Zwei Ansätze sind möglich. Entweder man vermeidet die Zusammenfassung des Ergebnisses und sucht nach Gründen für die Heterogenität, oder man fasst die Effekte mit einer anderen Methode zusammen – dem Modell der zufälligen Effekte. Gründe für die Heterogenität können neben klinischen Unterschieden auch methodische Probleme wie Probleme bei der Randomisierung, vorzeitige Beendigung von Studien, Verwendung absoluter statt relativer Risikomaße und Publikationsverzerrungen sein.
Die Autoren der systematischen Übersichtsarbeit über Medikamente zur Vorbeugung allergischer Reaktionen, die durch Kontrastmittel verursacht werden, wählten den ersten Ansatz.1 Die Walddiagramme legen nahe, dass die beiden Medikamentenklassen unterschiedliche Wirkungen haben, insbesondere bei Hautreaktionen, und der P-Wert für den statistischen Test auf Heterogenität war mit 0,03 signifikant. Sie beschlossen, keine durchschnittliche Wirkung zusammenzufassen, und vertraten die Ansicht, dass der Unterschied zwischen den Behandlungen Teil der Aussage der Übersichtsarbeit ist.
Die Autoren der Übersichtsarbeit über Maßnahmen zur Vorbeugung von Stürzen und Frakturen wählten den zweiten Ansatz.3 Das Walddiagramm für Stürze im Krankenhaus zeigt eine große Streuung der Ergebnisse (Abb. 33).). Einige Studien deuten auf einen Nutzen, andere auf einen Schaden durch die vielfältigen Maßnahmen hin. Die Autoren stellen die I 2-Statistik vor, die den Prozentsatz der Variation misst, der nicht auf den Zufall zurückzuführen ist. Ein hoher Prozentsatz, wie die hier festgestellten 80 %, deutet auf eine große Heterogenität hin. (Ein I 2-Wert von <25 % gilt als niedrig.5)
Forest Plot von Oliver et al3 mit Ratenverhältnissen (Modell der zufälligen Effekte) für die Auswirkungen von Strategien zur Sturzvermeidung
Dennoch waren die Autoren der Ansicht, dass alle Studien im Wesentlichen dasselbe zu messen versuchten und dass es sich lohnte, die Ergebnisse zusammenzufassen. Sie verwendeten das Modell der zufälligen Effekte, das eine andere Formel zur Berechnung konservativerer 95 %-Konfidenzintervalle verwendet. Es wird angenommen, dass die Behandlungseffekte um einen durchschnittlichen Gesamteffekt schwanken, im Gegensatz zu einem Modell mit festen Effekten, bei dem davon ausgegangen wird, dass jede Studie den gleichen festen gemeinsamen Behandlungseffekt hat.4
Systematische Übersichten mit einer Meta-Analyse versuchen, bessere numerische Antworten auf die Fragen zu geben: „Was ist die Wirkung dieser Intervention und wie sicher sind wir uns dessen?“ Doch bevor man den Ergebnissen dieser Methode Glauben schenkt, kann es sinnvoll sein, sich vier Fragen zu stellen (siehe Kasten).
Nützliche Fragen zum Nachdenken
-
War es wirklich eine gute Idee, die Studien zu kombinieren?
-
Gibt es eine zu große klinische Heterogenität, als dass die Überprüfung sinnvoll wäre?
-
Sehen die Forest Plots konsistent aus?
-
Deuten die statistischen Tests darauf hin, dass Heterogenität ein Problem darstellt?