Hvordan kan man opdage den, og har den nogen betydning?
Statistisk heterogenitet er først synlig efter analysen af resultaterne. Heterogenitet kan bedømmes grafisk (ved at se på skovplottet) og måles statistisk. I et skovplot fra den systematiske gennemgang af calciumtilskud2 omfatter fejlbjælkerne for hvert forsøg det sammenfattende resultat, hvilket tyder på, at statistisk heterogenitet ikke er et problem, og at budskabet er konsistent (fig. 22).).
Forest plot tilpasset fra Winzenberg et al2 , der viser fravær af statistisk heterogenitet i odds ratio’erne for effekten af calciumtilskud på knoglemineraltæthed. SMD=standardiseret middelforskel
For at afgøre, om der er signifikant heterogenitet, skal man se efter P-værdien for χ2-testen af heterogenitet. En høj P-værdi er gode nyheder, fordi det tyder på, at heterogeniteten er ubetydelig, og at man kan gå videre og opsummere resultaterne. Da statistiske test for heterogenitet ikke er særlig kraftige, er det fornuftigt at bruge en højere P-værdi end normalt (f.eks. P>0,1) som grænseværdi for en beslutning og alligevel tænke over klinisk heterogenitet.
Den systematiske gennemgang af calciumtilskud består testen, og forfatterne har med rette opsummeret virkningerne på knogletæthed ved hjælp af en simpel model med faste effekter. Denne model antager, at alle forsøg forsøger at måle det samme, og at større forsøg bør have større indflydelse, når man beregner en gennemsnitlig effekt.4
Men hvad nu, hvis P-værdien for χ2-testen af heterogenitet er lav, hvilket tyder på betydelig heterogenitet? Hvad kan man så gøre? Der er to mulige fremgangsmåder. Vi kan enten undgå at opsummere resultatet og søge efter årsager til heterogeniteten, eller vi kan opsummere effekterne ved hjælp af en anden metode – modellen med tilfældige effekter. Årsager til heterogenitet, bortset fra kliniske forskelle, kan omfatte metodologiske spørgsmål såsom problemer med randomisering, tidlig afslutning af forsøg, brug af absolutte i stedet for relative risikomål og publikationsbias.
Forfatterne til den systematiske gennemgang af lægemidler, der anvendes til at forebygge allergiske reaktioner forårsaget af kontrastmidler, valgte den første fremgangsmåde.1 Skovplottene tyder på, at de to klasser af lægemidler har forskellige virkninger, især for hudreaktioner, og P-værdien for den statistiske test for heterogenitet var signifikant på 0,03. De besluttede ikke at opsummere en gennemsnitlig effekt og mente, at forskellen mellem behandlingerne var en del af reviewets budskab.
Forfatterne til gennemgangen af interventioner til forebyggelse af fald og frakturer valgte den anden fremgangsmåde.3 Skovplottet for fald på hospitalet viser en stor spredning af resultaterne (fig. 33).). Nogle forsøg tyder på fordele, og andre tyder på skade af de mangeartede interventioner. Forfatterne præsenterer I 2-statistikken, som måler den procentdel af variationen, der ikke skyldes tilfældigheder. En høj procentdel, som f.eks. de 80 %, der ses her, tyder på en betydelig heterogenitet. (En I 2-værdi på <25% betragtes som lav.5)
Forest plot fra Oliver et al3, der viser rate ratios (random effects model) for virkningerne af strategier til forebyggelse af fald
Ikke desto mindre mente forfatterne, at alle forsøgene forsøgte at måle stort set det samme, og at det var værd at sammenfatte resultaterne. De anvendte modellen med tilfældige effekter, som anvender en anden formel til at beregne mere konservative 95 % konfidensintervaller. Behandlingseffekterne antages at variere omkring en eller anden samlet gennemsnitlig behandlingseffekt i modsætning til en model med faste effekter, hvor det antages, at hver undersøgelse har den samme faste fælles behandlingseffekt.4
Systematiske oversigter med en metaanalyse forsøger at give bedre numeriske svar på spørgsmålene: “Hvad er effekten af denne intervention, og hvor sikre er vi på det?”. Men før man tror på resultaterne af denne metode, kan det være nyttigt at overveje fire spørgsmål (se boks).
Nyttige spørgsmål at overveje
-
Var det virkelig en god idé at kombinere forsøgene?
-
Er der for stor klinisk heterogenitet til, at gennemgangen giver mening?
-
Ser skovplotterne konsistente ud?
-
Tyder de statistiske test på, at heterogenitet er et problem?