Hoe kun je het opsporen en doet het ertoe?
Statistische heterogeniteit wordt pas duidelijk na de analyse van de resultaten. Heterogeniteit kan grafisch worden beoordeeld (door naar de forest plot te kijken) en statistisch worden gemeten. In een forest plot uit de systematische review van calciumsuppletie,2 bevatten de foutbalken voor elke trial het samenvattende resultaat, wat suggereert dat statistische heterogeniteit geen probleem is en dat de boodschap een consistente is (fig 22).).
Forest plot aangepast van Winzenberg et al2 waaruit blijkt dat er geen statistische heterogeniteit bestaat in de odds ratio’s voor het effect van calciumsuppletie op de botmineraaldichtheid. SMD=gestandaardiseerd gemiddeld verschil
Om te bepalen of er significante heterogeniteit bestaat, kijkt u naar de P-waarde voor de χ2-test van heterogeniteit. Een hoge P-waarde is goed nieuws, want dat wijst erop dat de heterogeniteit niet significant is en dat men de resultaten kan gaan samenvatten. Omdat statistische tests voor heterogeniteit niet erg krachtig zijn, is het verstandig om een hogere P-waarde dan gebruikelijk (zeg P>0,1) als cut-off voor een beslissing te gebruiken en toch al na te denken over klinische heterogeniteit.
De systematische review van calciumsuppletie doorstaat de test, en de auteurs hebben de effecten op de botdichtheid terecht samengevat met behulp van een eenvoudig model met vaste effecten. Dit model gaat ervan uit dat alle trials hetzelfde proberen te meten en dat bij het berekenen van een gemiddeld effect meer invloed moet worden gegeven aan grotere trials.4
Maar wat als de P-waarde voor de χ2-test van heterogeniteit laag is, wat duidt op significante heterogeniteit? Wat kan er dan worden gedaan? Twee benaderingen zijn mogelijk. Ofwel vermijden we een samenvatting van het resultaat en zoeken we naar redenen voor de heterogeniteit, ofwel vatten we de effecten samen volgens een andere methode – het random effects model. Andere redenen voor heterogeniteit dan klinische verschillen kunnen methodologische kwesties zijn, zoals problemen met de randomisatie, voortijdige beëindiging van trials, gebruik van absolute in plaats van relatieve risicomaten, en publicatiebias.
De auteurs van de systematische review van geneesmiddelen die worden gebruikt om allergische reacties veroorzaakt door contrastmedia te voorkomen, kozen voor de eerste benadering.1 De forest plots suggereren dat de twee klassen van geneesmiddelen verschillende effecten hebben, met name voor huidreacties, en de P-waarde voor de statistische test voor heterogeniteit was significant op 0,03. Zij besloten geen gemiddeld effect samen te vatten en vonden dat het verschil tussen de behandelingen deel uitmaakte van de boodschap van de review.
De auteurs van de review van interventies ter preventie van vallen en fracturen kozen voor de tweede benadering.3 De forest plot voor vallen in het ziekenhuis laat een grote spreiding van de resultaten zien (fig. 33). Sommige trials suggereren voordeel en andere suggereren schade door de veelzijdige interventies. De auteurs presenteren de I 2 statistiek, die het percentage variatie meet dat niet aan het toeval te wijten is. Een hoog percentage, zoals de hier waargenomen 80%, suggereert belangrijke heterogeniteit. (Een I 2 waarde van <25% wordt als laag beschouwd.5)
Forest plot van Oliver et al3 met rate ratio’s (random effects model) voor de effecten van strategieën om vallen te voorkomen
Niettemin waren de auteurs van mening dat alle trials in wezen hetzelfde probeerden te meten en dat het de moeite waard was de resultaten samen te vatten. Zij gebruikten het random effects model, dat een andere formule gebruikt om conservatievere 95% betrouwbaarheidsintervallen te berekenen. Aangenomen wordt dat de effecten van de behandeling variëren rond een of ander algemeen gemiddeld behandelingseffect, in tegenstelling tot een model met vaste effecten, waarin wordt aangenomen dat elke studie hetzelfde vaste gemeenschappelijke behandelingseffect heeft.4
Systematische reviews met een meta-analyse proberen betere numerieke antwoorden te geven op de vragen: “wat is het effect van deze interventie en hoe zeker zijn we daarover?” Maar alvorens de resultaten van deze methode te geloven, kan het nuttig zijn om vier vragen te overwegen (zie kader).
Nuttige vragen om te overwegen
-
Was het wel een goed idee om de trials te combineren?
-
Is er te veel klinische heterogeniteit om de review zinvol te laten zijn?
-
Zien de forest plots er consistent uit?
-
Wijzen de statistische tests erop dat heterogeniteit een probleem is?