Hur kan man upptäcka den och spelar den någon roll?
Statistisk heterogenitet är uppenbar först efter analysen av resultaten. Heterogenitet kan bedömas grafiskt (genom att titta på skogsdiagrammet) och mätas statistiskt. I en skogsdiagram från den systematiska granskningen av kalciumtillskott2 innehåller felmarkerna för varje prövning det sammanfattande resultatet, vilket tyder på att statistisk heterogenitet inte är ett problem och att budskapet är konsekvent (fig 22).).
Forest plot anpassad från Winzenberg et al2 som visar avsaknad av statistisk heterogenitet i oddskvoterna för effekten av kalciumtillskott på benmineraltäthet. SMD=standardiserad medeldifferens
För att avgöra om det finns signifikant heterogenitet, titta på P-värdet för χ2-testet av heterogenitet. Ett högt P-värde är goda nyheter eftersom det tyder på att heterogeniteten är obetydlig och att man kan gå vidare och sammanfatta resultaten. Eftersom statistiska test för heterogenitet inte är särskilt kraftfulla är det förnuftigt att använda ett högre P-värde än vanligt (säg P>0,1) som gränsvärde för ett beslut och att ändå tänka på klinisk heterogenitet.
Den systematiska granskningen av kalciumtillskott klarar testet, och författarna har med rätta sammanfattat effekterna på bentäthet med hjälp av en enkel modell med fasta effekter. Denna modell utgår från att alla prövningar försöker mäta samma sak och att större prövningar bör få större inflytande när man beräknar en genomsnittlig effekt.4
Men vad händer om P-värdet för χ2-testet av heterogenitet är lågt, vilket tyder på betydande heterogenitet? Vad kan man då göra? Två tillvägagångssätt är möjliga. Vi kan antingen undvika att summera resultatet och leta efter orsaker till heterogeniteten, eller så kan vi summera effekterna med hjälp av en annan metod – modellen för slumpmässiga effekter. Andra orsaker till heterogenitet än kliniska skillnader kan vara metodologiska frågor, t.ex. problem med randomisering, att försök avslutas i förtid, användning av absoluta snarare än relativa riskmått och publikationsbias.
Författarna till den systematiska granskningen av läkemedel som används för att förebygga allergiska reaktioner orsakade av kontrastmedel valde det första tillvägagångssättet.1 Skogsdiagrammen tyder på att de två läkemedelsklasserna har olika effekter, särskilt när det gäller hudreaktioner, och P-värdet för det statistiska testet för heterogenitet var signifikant på 0,03. De beslutade att inte sammanfatta en genomsnittlig effekt och ansåg att skillnaden mellan behandlingarna var en del av budskapet i granskningen.
Författarna till granskningen av interventioner för att förebygga fall och frakturer valde det andra tillvägagångssättet.3 Skogsdiagrammet för fall på sjukhus visar en stor spridning av resultaten (fig 33).). Vissa prövningar tyder på fördelar och andra på skador av de mångfacetterade interventionerna. Författarna presenterar I 2-statistiken, som mäter den procentuella andel av variationen som inte beror på slumpen. En hög procentsats, som den 80 % som ses här, tyder på betydande heterogenitet. (Ett I 2-värde på <25 % anses vara lågt.5)
Forest plot från Oliver et al3 som visar andelskvoter (modell med slumpmässiga effekter) för effekterna av strategier för att förebygga fall
Författarna ansåg ändå att alla prövningar försökte mäta i stort sett samma sak och att det var värt att sammanfatta resultaten. De använde modellen med slumpmässiga effekter, som använder en annan formel för att beräkna mer konservativa 95-procentiga konfidensintervall. Behandlingseffekterna antas variera kring en viss övergripande genomsnittlig behandlingseffekt, till skillnad från en modell med fasta effekter, där det antas att varje studie har samma fasta gemensamma behandlingseffekt.4
Systematiska översikter med en metaanalys försöker ge bättre numeriska svar på frågorna: ”Vad är effekten av den här interventionen och hur säkra är vi på det?”. Men innan man tror på resultaten av denna metod kan det vara bra att fundera över fyra frågor (se ruta).
Nyttiga frågor att tänka på
-
Var det verkligen en bra idé att kombinera försöken?
-
Finns det för mycket klinisk heterogenitet för att granskningen ska vara meningsfull?
-
Ser skogsdiagrammen konsekventa ut?
-
Visar de statistiska testerna att heterogeniteten är ett problem?