Como se pode detectar e é importante?
A heterogeneidade estatística só é aparente após a análise dos resultados. A heterogeneidade pode ser julgada graficamente (olhando para a parcela florestal) e ser medida estatisticamente. Em uma parcela florestal da revisão sistemática da suplementação de cálcio,2 as barras de erro para cada tentativa incluem o resultado resumido, o que sugere que a heterogeneidade estatística não é um problema e que a mensagem é consistente (fig. 22).
parcela florestal adaptada de Winzenberg et al2 mostrando ausência de heterogeneidade estatística nos odds ratios do efeito da suplementação de cálcio na densidade mineral óssea. SMD= diferença média padronizada
Para determinar se existe heterogeneidade significativa, procurar o valor de P para o teste χ2 de heterogeneidade. Um valor de P elevado é uma boa notícia porque sugere que a heterogeneidade é insignificante e que se pode ir em frente e resumir os resultados. Como os testes estatísticos de heterogeneidade não são muito poderosos, é sensato usar um valor de P mais alto que o habitual (digamos, P>0,1) como o ponto de corte para uma decisão e pensar na heterogeneidade clínica de qualquer forma.
A revisão sistemática da suplementação de cálcio passa no teste, e os autores resumiram corretamente os efeitos na densidade óssea usando um modelo simples de efeitos fixos. Este modelo assume que todos os ensaios estão a tentar medir a mesma coisa e que deve ser dada mais influência a ensaios maiores quando se calcula um efeito médio.4
Mas e se o valor de P para o teste de heterogeneidade χ2 for baixo, sugerindo uma heterogeneidade significativa? O que pode ser feito? Duas abordagens são possíveis. Podemos ou evitar resumir o resultado e procurar razões para a heterogeneidade, ou podemos resumir os efeitos usando outro método – o modelo de efeitos aleatórios. As razões para a heterogeneidade, além das diferenças clínicas, podem incluir questões metodológicas, tais como problemas com a aleatorização, conclusão antecipada dos ensaios, uso de medidas de risco absolutas em vez de relativas, e viés de publicação.
Os autores da revisão sistemática dos medicamentos utilizados para prevenir reações alérgicas causadas por meios de contraste tomaram a primeira abordagem.1 As parcelas florestais sugerem que as duas classes de medicamentos têm efeitos diferentes, particularmente para reações cutâneas, e o valor de P para o teste estatístico de heterogeneidade foi significativo em 0,03. Eles decidiram não resumir um efeito médio e sentiram que a diferença entre tratamentos era parte da mensagem da revisão.
Os autores da revisão das intervenções para prevenir quedas e fraturas fizeram a segunda abordagem.3 A parcela florestal para quedas no hospital mostra uma ampla dispersão de resultados (fig. 33). Alguns ensaios sugerem benefícios e outros sugerem danos das intervenções multifacetadas. Os autores apresentam a estatística I 2, que mede a porcentagem de variação que não é devida ao acaso. Uma percentagem elevada, como os 80% aqui vistos, sugere uma importante heterogeneidade. (Um valor de I 2 de <25% é considerado baixo.5)
Lote florestal de Oliver et al3 mostrando taxas (modelo de efeitos aleatórios) para os efeitos das estratégias de prevenção de quedas
No entanto, os autores acharam que todos os ensaios estavam tentando medir essencialmente a mesma coisa e que valia a pena resumir os resultados. Eles usaram o modelo de efeitos aleatórios, que usa uma fórmula diferente para calcular intervalos de confiança mais conservadores de 95%. Assume-se que os efeitos do tratamento variam em torno de algum efeito médio global do tratamento, ao contrário de um modelo de efeitos fixos, no qual se assume que cada estudo tem o mesmo efeito fixo comum do tratamento.4
Revisões sistemáticas com uma meta-análise tentam dar melhores respostas numéricas às perguntas, “qual é o efeito desta intervenção e quão certos estamos sobre isso”. Mas antes de acreditar nos resultados deste método, pode ser útil considerar quatro questões (ver quadro).
Perguntas úteis a considerar
-
Foi realmente uma boa ideia combinar as experiências?
-
Existe demasiada heterogeneidade clínica para que a revisão faça sentido?
-
As parcelas florestais parecem consistentes?
-
Os testes estatísticos sugerem que a heterogeneidade é um problema?