Miten sen voi havaita ja onko sillä merkitystä?
Tilastollinen heterogeenisuus ilmenee vasta tulosten analysoinnin jälkeen. Heterogeenisuutta voidaan arvioida graafisesti (katsomalla metsäkuviota) ja mitata tilastollisesti. Kalsiumlisää koskevan systemaattisen katsauksen2 metsäkuviossa kunkin tutkimuksen virhepalkit sisältävät yhteenvetotuloksen, mikä viittaa siihen, että tilastollinen heterogeenisuus ei ole ongelma ja että viesti on johdonmukainen (kuva 22).).
Winzenbergin ym.2:sta muokattu metsäkuvio, josta käy ilmi, että tilastollista heterogeenisuutta ei ole tilastollisissa kertoimien suhdeluvuissa kalsiumlisän vaikutuksesta luun mineraalitiheyteen. SMD=standardoitu keskimääräinen ero
Merkittävän heterogeenisuuden olemassaolon määrittämiseksi etsitään χ2-heterogeenisuustestin P-arvo. Korkea P-arvo on hyvä uutinen, koska se viittaa siihen, että heterogeenisuus on merkityksetöntä ja että voidaan jatkaa tulosten yhteenvetoa. Koska heterogeenisuuden tilastolliset testit eivät ole kovin tehokkaita, on järkevää käyttää tavallista korkeampaa P-arvoa (esimerkiksi P>0,1) päätöksen raja-arvona ja miettiä kliinistä heterogeenisuutta joka tapauksessa.
Kalsiumlisää koskeva systemaattinen katsaus läpäisee testin, ja kirjoittajat ovat aivan oikein tiivistäneet vaikutukset luuntiheyteen käyttämällä yksinkertaista kiinteiden vaikutusten mallia. Tässä mallissa oletetaan, että kaikki tutkimukset pyrkivät mittaamaan samaa asiaa ja että suuremmille tutkimuksille olisi annettava enemmän vaikutusvaltaa keskimääräistä vaikutusta laskettaessa.4
Mutta entä jos heterogeenisuustestin χ2 P-arvo on pieni, mikä viittaa merkittävään heterogeenisuuteen? Mitä voidaan tehdä? Kaksi lähestymistapaa on mahdollista. Voimme joko välttää tuloksen tiivistämistä ja etsiä syitä heterogeenisuudelle tai voimme tiivistää vaikutukset käyttämällä toista menetelmää – satunnaisvaikutusmallia. Muita heterogeenisuuden syitä kuin kliinisiä eroja voivat olla metodologiset kysymykset, kuten satunnaistamiseen liittyvät ongelmat, tutkimusten aikainen päättäminen, absoluuttisten riskimittareiden käyttö suhteellisten riskimittareiden sijasta ja julkaisuvirheet.
Kontrastiaineiden aiheuttamien allergisten reaktioiden ehkäisyyn käytettäviä lääkkeitä koskevan systemaattisen katsauksen kirjoittajat valitsivat ensimmäisen lähestymistavan.1 Metsikkökuvioiden perusteella voidaan päätellä, että kahdella lääkeryhmällä on erilaiset vaikutukset erityisesti ihoreaktioiden osalta, ja heterogeenisuuden tilastollisen testin P-arvo oli merkitsevä 0,03. He päättivät olla tekemättä yhteenvetoa keskimääräisestä vaikutuksesta ja katsoivat, että hoitojen välinen ero oli osa katsauksen sanomaa.
Kaatumisten ja murtumien ehkäisyyn tähtääviä interventioita koskevan katsauksen kirjoittajat noudattivat toista lähestymistapaa.3 Sairaalassa tapahtuvia kaatumisia koskeva metsäkaavio osoittaa tulosten suurta hajontaa (kuva 33).). Jotkin tutkimukset viittaavat monitahoisista interventioista saatavaan hyötyyn ja toiset taas haitallisuuteen. Kirjoittajat esittävät I 2 -tilaston, joka mittaa sitä vaihtelun prosenttiosuutta, joka ei johdu sattumasta. Suuri prosenttiosuus, kuten 80 prosenttia, viittaa merkittävään heterogeenisuuteen. (I 2 -arvoa <25 % pidetään alhaisena.5)
Forest plot from Oliver et al3 showing rate ratios (satunnaisvaikutusmalli) for the effects of strategies to prevent falls
Siitä huolimatta kirjoittajat katsoivat, että kaikki tutkimukset pyrkivät mittaamaan pohjimmiltaan samaa asiaa, ja että tulokset kannattaa tiivistää. He käyttivät satunnaisvaikutusten mallia, jossa käytetään eri kaavaa varovaisempien 95 prosentin luottamusvälien laskemiseksi. Hoidon vaikutusten oletetaan vaihtelevan jonkin yleisen keskimääräisen hoitovaikutuksen ympärillä, toisin kuin kiinteiden vaikutusten mallissa, jossa oletetaan, että jokaisessa tutkimuksessa on sama kiinteä yhteinen hoitovaikutus.4
Systemaattiset katsaukset, joissa on käytetty meta-analyysiä, pyrkivät antamaan parempia numeerisia vastauksia kysymyksiin: ”mikä on tämän intervention vaikutus, ja kuinka varmoja olemme siitä?”. Mutta ennen kuin uskoo tämän menetelmän tuloksiin, voi olla hyödyllistä pohtia neljää kysymystä (ks. laatikko).
Hyödyllisiä kysymyksiä pohdittavaksi
-
Oliko tutkimusten yhdistäminen todella hyvä idea?
-
Onko kliinistä heterogeenisuutta liikaa, jotta katsauksessa olisi järkeä?
-
Näyttävätkö metsäplotit johdonmukaisilta?
-
Viittaavatko tilastolliset testit siihen, että heterogeenisuus on ongelma?