Journal of Digestive Cancer Research 2024; 12(3): 207-215
Published online December 20, 2024
https://doi.org/10.52927/jdcr.2024.12.3.207
© Korean Society of Gastrointestinal Cancer Research
Correspondence to :
Nak-Hoon Son
E-mail: nhson@kmu.ac.kr
https://orcid.org/0000-0002-6192-8852
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0). which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
This article highlights the role of meta-analysis as a statistical method for quantitatively summarizing existing research and reconciling conflicting findings. It discusses literature search methods for meta-analysis, the selection and interpretation of statistical models, and publication bias. Meta-analysis allows for the statistical consideration of homogeneity and heterogeneity among studies. Determining homogeneity and heterogeneity is crucial for selecting the appropriate meta-analysis model. Systematic reviews and meta-analyses provide a high level of evidence on treatment efficacy, especially when they include multicenter and multinational studies. In the case of well-researched disorders such as digestive cancer, meta-analysis can be useful in generalizing findings from existing papers, draw conclusions, and evaluate related medical technologies. Furthermore, these findings can be used to propose or enhance standards of care.
KeywordsModels statistical Meta-analysis Publication bias Systematic review
시간이 흐름에 따라 연구의 양은 기하급수적으로 증가하고 있다. 이에 따라 같은 주제로 연구를 진행해도 다른 결과가 도출되기도 한다. 같은 문제에 대한 선행 연구들의 연구 결과를 체계적이고 계량적으로 통합하는 연구 방법이 메타분석(meta-analysis)이다. 메타분석은 임상 연구뿐만 아니라 심리학, 정보 시스템 등의 영역에서도 사용된다. 특히 메타분석은 출간된 연구의 정보를 결합하여 치료 효과와 이점을 추정하고 연구 간의 변동성을 평가하는 데도 유용한 도구이다[1,2].
Wallace 등[3]의 논문에서 근거의 계층구조에 따르면 인과관계 추론이 가장 높은 영역으로 체계적 문헌고찰과 메타분석이 존재한다. 그 아래로 무작위 대조 시험(randomized controlled clinical trial, RCT) 연구, 코호트(cohort) 연구, 사례-대조(case-control) 연구가 있고, 가장 낮은 인과관계 추론의 영역에는 사례 보고(case report)가 존재한다. 이때 체계적 문헌고찰을 위해 통계적 방법으로 메타분석이 사용되고 있다. 따라서 메타분석을 사용하지 않고 체계적 문헌고찰을 제시하기도 하며[4], Campbell 등[5]의 연구에서도 정량적 데이터의 서술적 문헌고찰(narrative synthesis of quantitative data) 비율은 56%이며 메타분석을 사용한 문헌고찰 비율은 44%였다. 체계적 문헌고찰과 메타분석이 동일한 것은 아니지만 메타분석을 사용함으로써 보다 앞선 연구들을 계량적으로 통합할 수 있고 강한 근거를 도출할 수 있다는 점에서 특히 의학 연구에서 추천된다[3]. 따라서 국내에서 빈번하게 발병하는 소화기암에 대한 메타분석을 수행하여 기존 논문들의 결과를 통합한 근거를 기반으로 의료기술을 계량적으로 평가할 수 있을 것이다.
메타분석을 하기 앞서 알고자 하는 연구 분야에 대한 전문 지식과 경험이 풍부해야 하며, 문헌 탐색과 선정이 중요하다. 문헌을 선택하는 과정에서 연구의 목적과 대상자, 평가 방법, 연구 디자인을 고려해야 하고, 선택된 문헌들을 통해 메타분석을 수행하게 된다. 이에 본 논문은 메타분석을 위한 문헌을 탐색하고 선정하는 방법으로 메타분석을 위해 수집되어야 하는 통계치, 메타분석의 모형 선택과 결과 해석에 대해 설명할 것이다.
메타분석은 효과 크기(effect size)의 불확실성을 정량적으로 측정하여 여러 연구들을 종합적으로 평가할 수 있으며 이질성을 보정하여 개별 연구들 간의 논란을 해결할 수 있다. 또한 소규모 연구들의 결과를 합치면서 연구 대상자 수가 증가하여 검정력과 정밀도를 높일 수 있다. 이를 통해 모수를 더 정확하게 추정을 하고 통합된 결과를 기반으로 새로운 가설을 제공할 수 있으며, 결과에 영향을 끼칠만한 요인에 대해 분석도 가능하다는 장점이 있다. 앞서 출간된 선행 연구만으로 연구가 가능하기 때문에 의학연구윤리심의위원회(Institutional Review Board) 심의에서 면제되기도 한다.
다만, 위암과 골절을 비교하는 것과 같이 서로 비교할 수 없는 다른 디자인의 연구들을 종합하려는 문제가 발생할 수 있다. 예를 들어 연구의 실험설계, 표본, 측정의 타당도, 신뢰도, 자료 분석의 적절성에 따라 구분하지 않으면서 생길 수 있는 문제가 있다. 그리고 이미 출판된 연구를 대상으로 하므로 출판 편향(publication bias)이 존재할 수 있으며, 중재 변인의 개입이나 상호작용 효과를 무시하고 연구 결과를 지나치게 단순화할 수 있다는 단점이 있다.
따라서 이러한 한계점을 극복하기 위해, 체계적 문헌고찰 및 메타분석(systematic reviews and meta-analysis)에 대한 선호 보고 항목을 통해 연구를 식별, 선택, 평가 및 종합하는 흐름도를 체크하고[6], 체계적 문헌고찰을 위해 문헌 선택 방법으로 핵심질문(PICO)을 고려함으로써 문헌 간 일관성을 높일 수 있다[4,7].
체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목은 2009년에 문헌고찰을 수행한 이후부터 수행한 작업 및 내용을 투명하게 보고하기 위해 고안되었다. 최근 2020년에 연구를 식별하고, 선택, 평가 및 종합하는 방법에 대해 새로운 가이드라인이 제안되었다. 또한 체계적 문헌고찰 및 메타분석에 대해 체크 리스트와 흐름도를 제시하여 연구자에게 도움을 준다[6].
메타분석을 수행하기 전, 연구의 목적을 설정하고 검색엔진을 통해 문헌 정보를 수집해야 한다. 메타분석을 위한 문헌 선택 방법으로는 PICO(s)를 통해 연구의 목적에 부합한 문헌을 찾는 데 도움이 된다[4,7]. PICO는 다음의 약어로 구성되어 있다. 1) Population or Participants: 연구 대상자로 체계적 문헌고찰 연구에서 목표하는 연구 집단, 2) Intervention: 개입 방법으로 치료 혹은 처치를 받은 집단, 3) Comparison: 비교 집단을 정의한다. 그리고 두 집단 간의 4) Outcomes: 연구 결과를 메타분석에 사용한다. 추가로 5) Study designs: 연구 유형을 고려하여 메타분석을 위한 문헌 검색의 기준을 세울 수 있다.
또한 메타분석에 사용되는 연구들의 비뚤림(bias)을 평가하여 제시함으로써 선택된 연구들의 비뚤림 위험 정도를 알 수 있다. 이 비뚤림 위험은 크게 RCT인 경우와 비 RCT인 경우로 나눠서 평가한다. RCT인 경우 여러 평가 방법 중 ‘version 2 of the Cochrane risk-of-bias tool for randomized trials (RoB2)’을 대표적으로 사용한다[8]. 질문은 무작위 배정, 중재 이탈, 중재 결과 자료의 결측, 중재 결과의 측정, 연구결과 선택, 전반적인 비뚤림으로 6개가 있다. 그리고 각 질문에 대해 위험 정도를 ‘low risk’, ‘some concerns’, ‘high risk’와 같이 3단계로 평가한다. 비 RCT인 경우 중재 전후 연구를 평가하는 ‘risk of bias in non-randomized studies of interventions (ROBINS-I)’ [9]와 노출에 대한 연구를 평가하는 ‘risk of bias in non-randomized studies of exposures (ROBINS-E)’ [10]가 있다. 한국보건의료연구원(NECA)에서 국문으로 제공하는 버전은 ROBINS-I로 교란, 연구대상자의 선택, 중재분류, 이탈, 결측, 중재결과 측정, 연구 결과 선택의 비뚤림과 전체 비뚤림으로 8개의 질문이 있으며 4단계의 위험도를 ‘low risk’, ‘moderate risk’, ‘serious risk’, ‘critical risk’로 평가한다. 이 외 ROBINS-E는 영문으로 필요 시 사용할 수 있다(Table 1).
Table 1 . Evaluation of Risk of Bias by Study Design
Risk of bias assessment tool | Risk level | Domain | Domains in English |
---|---|---|---|
RoB2 | - Low risk - Some concerns - High risk | 1 | Randomization process |
2 | Deviations from intended interventions | ||
3 | Missing outcome data | ||
4 | Measurement of the outcome | ||
5 | Selection of the reported result | ||
6 | Overall bias | ||
ROBINS-I | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Bias due to confounding (pre-intervention) |
2 | Bias in selection of participants into the study (pre-intervention) | ||
3 | Bias in classification of interventions (at intervention) | ||
4 | Bias due to deviations from intended interventions (post-intervention) | ||
5 | Bias due to missing data (post-intervention) | ||
6 | Bias in measurement of outcomes (post-intervention) | ||
7 | Bias in selection of the reported result (post-intervention) | ||
8 | Overall risk of bias | ||
ROBINS-E | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Risk of bias due to confounding |
2 | Risk of bias arising from measurement of the exposure | ||
3 | Risk of bias in selection of participants into the study (or into the analysis) | ||
4 | Risk of bias due to post-exposure interventions | ||
5 | Risk of bias due to missing data | ||
6 | Risk of bias arising from measurement of the outcome | ||
7 | Risk of bias in selection of the reported result |
각 연구에 표기된 통계치가 단위 기준에 따라 상이할 수가 있다. 따라서 메타분석의 결과는 효과 크기라는 집단 간 표준화된 차이를 제시한다. 이를 통해 두 집단 간의 차이나 관계를 정량적으로 평가할 수 있다. 효과 크기는 결과 변수의 유형에 따라 다양하게 계산된다.
결과 변수가 연속형인 경우, 두 집단 간의 평균 차이를 표준화한 standardized mean difference (SMD)를 계산한다. 보통 Cohen’s d를 가장 빈번히 사용하며 두 집단의 평균 차이를 표준 편차로 나누어 표준화한 값이다.
여기서
결과 변수가 범주형인 경우, 효과 크기를 평가하기 위해 log risk ratio (log RR)과 log odds ratio (log OR), 위험차이(risk difference, RD)를 사용한다(Table 2).
Table 2 . Incidence of Event by Group
Event | Non-event | Total | |
---|---|---|---|
Experimental | |||
Control | |||
Total |
위험비(risk ratio, RR)는 대조군과 실험군에서 사건이 발생할 확률을 각각 계산하고, 대조군 대비 실험군에서 사건이 발생할 확률이 몇 배 증가하는지 알아보는 것이다.
따라서 RR이 1인 경우에는 대조군과 실험군의 사건 발생 비율의 차이 없다고 해석할 수 있고, 1보다 큰 경우 대조군 대비 실험군에서 사건이 발생할 RR이 증가한다고 해석한다.
오즈비(odds ratio, OR)는 각 집단에서 사건의 발생 오즈(odds)에 대한 비를 의미한다. 사건의 발생 오즈란 사건 발생 빈도를 사건이 발생하지 않은 빈도로 나누는 것이다. 따라서 OR이란 대조군의 오즈와 실험군의 오즈의 비를 의미하며, 대조군의 사건 오즈 대비 실험군의 사건 오즈가 몇 배 높은지 알 수 있다.
OR이 1인 경우 대조군과 실험군의 사건 OR 차이가 없다고 해석한다. 그리고 OR이 1보다 큰 경우 대조군 대비 실험군에서 사건 OR이 증가한다고 해석한다. RR은 각 집단내 사건 발생 확률의 비를 의미하며 코호트 연구에 적합하고, OR은 각 집단에서 사건 발생 오즈의 비를 의미하며 사례-대조 연구에 적합하다. RR과 OR은 log 변환을 통해 효과 크기를 사용하기도 한다.
RD는 두 집단의 사건 발생 확률 차이를 의미한다. 대조군 대비 실험군에서 사건 발생 확률이 얼마나 더 증감하는지 알 수 있다.
RR, OR과 달리 RD가 0인 경우 ‘대조군과 실험군의 사건 발생 확률 차이가 없다’고 해석한다. RD가 0이 아닌 경우 ‘대조군 대비 실험군에서 사건 RD가 %p이다’라고 해석한다. 이러한 지표들은 범주형 데이터에서 두 집단 간의 차이나 연관성을 평가하는 데 유용하게 사용된다.
분석모형은 고정효과모형(fixed effect model)과 랜덤효과모형(random effect model)으로 나뉜다. 고정효과모형은 모든 연구의 모집단이 동일하고, 연구간의 차이는 표집 오류로 인한 것으로 가정한다. 즉, 고정효과모형에서 평균 효과 크기는 동일한 모집단에 대한 효과 크기의 추정치를 의미한다.
고정효과모형에서 사용하는 분산(
연구에 포함된 표본 수나 사건의 수가 적을 때는 역분산 추정법보다 멘텔-헨젤 추정법을 사용할 수 있다. 그리고 두 집단의 표본 수가 유사하고 사건 발생 수가 유사하여 OR이 1에 근사할 경우 피토 추정법을 사용할 수 있다.
랜덤효과모형은 연구마다 주체, 치료 방법, 기간이 다르기 때문에 모든 연구의 모집단은 다르고, 따라서 개별 연구의 다른 모집단에 대한 효과 크기를 추정하게 된다. 수식에서는 고정효과모형에서 개별연구의 효과 크기를 의미하는
(
랜덤효과모형에서 사용하는 분산 추정식은 연구 내 분산(
비교하자면 고정효과모형은 평균효과 크기를 고려할 때 연구 내 분산(
랜덤효과모형에서 연구 간 분산(
이질성이란 연구들 간의 차이 정도를 의미하며 메타분석 내에서 효과 크기가 달라지는 정도를 의미한다. 랜덤효과모형에서는 연구 간의 이질성 때문에 연구의 실제효과 크기가 다를 수 있음을 가정하여
전통적으로 메타분석에서 연구 간 이질성으로부터 연구의 표집 오류를 구별하기 위해 Cochran’s
연구 간 이질성 정도를 판단하기 위한 또 다른 값으로는
여기서
연구 간 이질성이 없는 경우
하지만 일부 학자들은
만약 연구 간 이질성이 존재한다면 랜덤효과모형을 선택하는 것이 효과 크기의 해석에 바람직하다. 또 다른 방법으로는 하위그룹 분석(subgroup analysis), 민감도 분석(sensitivity analysis) 그리고 분석모형의 확장(meta-regression analysis)을 통해 이질성이 있는 연구들을 구체적으로 분석할 수 있다.
깔때기 그림은 x축에 효과 크기, y축에 효과 크기의 표준오차를 표기하여 연구들의 효과 크기와 표준오차의 분포 정도를 한눈에 파악할 수 있다(Fig. 1). 관찰된 효과 크기의 평균으로부터 좌우로 균등하게 분포하고, 표준오차가 작은 쪽에 분포되어 있을수록 이질성이 낮다는 정보를 알 수 있다. 동시에 깔때기 그림을 통해 비대칭성을 시각적으로 확인할 수 있으며 출판 편향의 존재 가능성 여부를 파악할 수 있다. 다만 깔때기 그림은 주관적일 수 있기 때문에 출판 편향의 존재 여부를 정량적으로 비대칭성을 확인하는 것이 좋다[11].
Egger’s 회귀 검정과 Peters’ 회귀 검정은 깔때기 그림에서 비대칭성에 대한 정량적인 검정 방법이다. 그중 본 논문에서는 결과변수의 종류에 따라 크게 두 개의 검정 방법을 제시한다. 우선, 연속형인 경우 Egger 등[17]이 제안한 검정으로 단순 선형 회귀 모형(simple linear regression model)을 기반으로 한다.
관찰된 효과 크기를 표준오차로 나눈 값을 종속변수로 두고, 효과 크기의 표준오차의 역수를 독립변수로 한 선형식을 만든다. 그리고 여기서 비대칭성을 검정하기 위해 절편에 해당하는
이분형인 경우 Peters’ 회귀 검정을 한다[18]. Egger’s 검정과 크게 다른 점은 연구마다 가중치를 다르게 사용한다는 점이다. 이유는 표본크기와 사건 수가 종속적이기 때문이다.
Eggers’ 회귀 검정와 달리, Peters’ 검정에서는
최근에는 네트워크 메타분석(network meta-analysis)의 사용이 빠르게 증가하고 있다[20]. 기존 메타분석은 관심 있는 군 간의 효과 크기를 쌍별로 비교했다. 그러나 네트워크 메타분석은 기존의 여러 치료방법을 비교 및 평가하거나, 다른 연구에서 동일한 대조군을 사용한 경우 여러 치료 방법을 간접적으로 비교할 수 있다[21]. 추정된 효과 크기를 간접적인 비교를 위해 아래와 같은 식을 사용할 수 있으며,
예를 들어 임상시험에서 동일한 위약을 사용한 연구가 존재할 때, 직접적으로 약물 A와 약물 B를 비교하진 않았지만 간접적으로 약물 A와 B의 효과차이를 추정할 수 있다. 이러한 이유로 네트워크 메타분석은 무작위 임상시험에서 직접 비교되지 않았을 수 있는 여러 중재의 효능 또는 안전성을 동시에 비교할 수 있다[22]. 네트워크 메타분석은 여러 쌍을 동시에 비교하게 되면서 연구 간의 이질성을 통합할 수 있다는 장점이 있다. 또한 앞선 쌍별 메타분석과 같이 연구의 동등성을 계산하여 제시할 수 있다. 이때
네트워크 메타분석은 mixed-treatment comparison meta-analysis라고 불리기도 한다. 특히, 네트워크 메타분석의 특별한 경우인 혼합 치료 비교는 특정 쌍별 비교에 대한 직접 및 간접 증거를 결합하여 기존 메타분석보다 사용 가능한 증거의 더 많은 부분을 종합할 수 있다[23]. 따라서 의료 정책 및 의사 결정을 위한 여러 중재요인을 비교하는 데 사용되기도 하고, 여러 수준의 임계값을 비교할 수도 있다[24].
Ford 등[25]의 연구는 이전 메타분석 연구를 통해 헬리코박터 파일로리 제균 요법이 위암 예방에 효과가 있다는 사실이 통상적으로 알려져 있으나, 이후 더 많은 연구가 출간됨에 따라 메타분석을 업데이트하여 제균 치료가 위암 발생 위험에 미치는 영향을 평가했다. 이 연구에서는 RR을 효과 크기로 설정하고, 건강한 집단과 종양이 있는 집단으로 나누어 하위그룹 분석을 수행했다. 건강한 집단에서 제균 요법은 위암 발생률과 위암 사망률을 모두 감소시켰으며, 모든 원인에 의한 사망률에는 영향을 미치지 않았다. 종양이 있는 집단에서도 위암 발생률이 통계적으로 유의하게 감소했다. 이는 헬리코박터 파일로리 제균 요법이 건강한 집단뿐만 아니라 종양이 있는 집단에서도 위암 발생률을 낮춘다는 증거를 업데이트했다[25].
Lei 등[26]의 연구는 위암에서 복강경 위절제술과 개복 위절제술을 비교하기 위해 메타분석을 사용했다. 이 연구는 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목을 따라 수행되었으며, 이질성의 정도에 따라 고정효과모형과 랜덤효과모형을 선택했다. 총 26개의 연구가 포함되었고, 결과는 두 수술 방법 간 합병증 발생률에 유의한 차이가 없음을 보여주었다. 또한, 복강경 위절제술이 수술 후 합병증 위험을 낮추고 미용적 이점을 제공하여 개복 위절제술의 대안이 될 수 있음을 제시했다[26].
그리고 Davey 등[27]의 연구는 위암에 대한 개복 위절제술, 복강경 위절제술, 로봇 위 절제술을 네트워크 메타분석을 통해 비교했다. 이 연구도 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목을 따랐다. 네트워크 분석 결과, 개복 위절제술과 복강경 위절제술 간 재발률과 전 체 생존율에는 차이가 없었으나, 복강경 위절제술이 출혈량, 수술 절개 부위, 입원기간, 절제 후 이환율에서 더 나은 결과를 보였다. 로봇 위절제술도 복강경 위절제술과 비슷한 결과를 보여, 최소 침습적 접근법이 국소 위암 절제술에 적합함을 제안했다[27].
이와 같이 메타분석은 기존에 알려진 치료의 효과를 업데이트하거나, 기존의 수술 방법과 새로운 수술 방법의 장단점을 비교할 수 있다. 그리고 네트워크 메타분석을 통해 세 가지 이상의 수술 결과를 비교 분석할 수 있다.
메타분석은 기존 연구를 정량적으로 요약하며, 상충되는 연구들을 통합할 수 있다는 장점이 있다. 그리고 연구에 포함된 대상자와 연구의 이질성을 통계학적으로 고려한 해석도 가능하다. 메타분석을 수행할 때 연구 간 이질성 정도와 편향성을 평가하여 수집된 문헌으로부터 해석을 할 때 통계적으로 적절한 모형을 선택하는 것이 중요하다.
메타분석을 포함한 체계적 고찰은 치료효과에 대한 높은 수준의 증거를 나타낼 수 있다. 특히 소화기암 분야와 같이 연구가 활발한 질환에서 다기관, 다국가로 진행된 연구들을 포함하여 일반적인 연구 결과를 도출할 수 있을 것이다. 메타분석을 통해 추정된 효과는 관련된 의료기술의 평가가 가능하고, 일반적인 치료 방법을 제안할 수 있을 것이다. 또한 네트워크 메타분석을 통해 직·간접적인 비교할 수 있고 이는 새로운 연구를 위한 시간적, 금전적 비용을 줄일 수 있을 것이다.
None.
No potential conflict of interest relevant to this article was reported.
Conceptualization: Nak-Hoon Son. Data curation: So Hyeon Gwon, Nak-Hoon Son. Formal analysis: Nak-Hoon Son. Investigation: So Hyeon Gwon, Nak-Hoon Son. Methodology: So Hyeon Gwon, Nak-Hoon Son. Resources: So Hyeon Gwon, Nak-Hoon Son. Software: So Hyeon Gwon, Nak-Hoon Son. Supervision: Nak-Hoon Son. Validation: So Hyeon Gwon, Nak-Hoon Son. Visualization: So Hyeon Gwon, Nak-Hoon Son. Writing–original draft: So Hyeon Gwon, Nak-Hoon Son. Writing–review & editing: So Hyeon Gwon, Nak-Hoon Son.
Journal of Digestive Cancer Research 2024; 12(3): 207-215
Published online December 20, 2024 https://doi.org/10.52927/jdcr.2024.12.3.207
Copyright © Korean Society of Gastrointestinal Cancer Research.
권소현, 손낙훈
계명대학교 통계학과
Department of Statistics, Keimyung University, Daegu, Korea
Correspondence to:Nak-Hoon Son
E-mail: nhson@kmu.ac.kr
https://orcid.org/0000-0002-6192-8852
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0). which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
This article highlights the role of meta-analysis as a statistical method for quantitatively summarizing existing research and reconciling conflicting findings. It discusses literature search methods for meta-analysis, the selection and interpretation of statistical models, and publication bias. Meta-analysis allows for the statistical consideration of homogeneity and heterogeneity among studies. Determining homogeneity and heterogeneity is crucial for selecting the appropriate meta-analysis model. Systematic reviews and meta-analyses provide a high level of evidence on treatment efficacy, especially when they include multicenter and multinational studies. In the case of well-researched disorders such as digestive cancer, meta-analysis can be useful in generalizing findings from existing papers, draw conclusions, and evaluate related medical technologies. Furthermore, these findings can be used to propose or enhance standards of care.
Keywords: Models, statistical, Meta-analysis, Publication bias, Systematic review
시간이 흐름에 따라 연구의 양은 기하급수적으로 증가하고 있다. 이에 따라 같은 주제로 연구를 진행해도 다른 결과가 도출되기도 한다. 같은 문제에 대한 선행 연구들의 연구 결과를 체계적이고 계량적으로 통합하는 연구 방법이 메타분석(meta-analysis)이다. 메타분석은 임상 연구뿐만 아니라 심리학, 정보 시스템 등의 영역에서도 사용된다. 특히 메타분석은 출간된 연구의 정보를 결합하여 치료 효과와 이점을 추정하고 연구 간의 변동성을 평가하는 데도 유용한 도구이다[1,2].
Wallace 등[3]의 논문에서 근거의 계층구조에 따르면 인과관계 추론이 가장 높은 영역으로 체계적 문헌고찰과 메타분석이 존재한다. 그 아래로 무작위 대조 시험(randomized controlled clinical trial, RCT) 연구, 코호트(cohort) 연구, 사례-대조(case-control) 연구가 있고, 가장 낮은 인과관계 추론의 영역에는 사례 보고(case report)가 존재한다. 이때 체계적 문헌고찰을 위해 통계적 방법으로 메타분석이 사용되고 있다. 따라서 메타분석을 사용하지 않고 체계적 문헌고찰을 제시하기도 하며[4], Campbell 등[5]의 연구에서도 정량적 데이터의 서술적 문헌고찰(narrative synthesis of quantitative data) 비율은 56%이며 메타분석을 사용한 문헌고찰 비율은 44%였다. 체계적 문헌고찰과 메타분석이 동일한 것은 아니지만 메타분석을 사용함으로써 보다 앞선 연구들을 계량적으로 통합할 수 있고 강한 근거를 도출할 수 있다는 점에서 특히 의학 연구에서 추천된다[3]. 따라서 국내에서 빈번하게 발병하는 소화기암에 대한 메타분석을 수행하여 기존 논문들의 결과를 통합한 근거를 기반으로 의료기술을 계량적으로 평가할 수 있을 것이다.
메타분석을 하기 앞서 알고자 하는 연구 분야에 대한 전문 지식과 경험이 풍부해야 하며, 문헌 탐색과 선정이 중요하다. 문헌을 선택하는 과정에서 연구의 목적과 대상자, 평가 방법, 연구 디자인을 고려해야 하고, 선택된 문헌들을 통해 메타분석을 수행하게 된다. 이에 본 논문은 메타분석을 위한 문헌을 탐색하고 선정하는 방법으로 메타분석을 위해 수집되어야 하는 통계치, 메타분석의 모형 선택과 결과 해석에 대해 설명할 것이다.
메타분석은 효과 크기(effect size)의 불확실성을 정량적으로 측정하여 여러 연구들을 종합적으로 평가할 수 있으며 이질성을 보정하여 개별 연구들 간의 논란을 해결할 수 있다. 또한 소규모 연구들의 결과를 합치면서 연구 대상자 수가 증가하여 검정력과 정밀도를 높일 수 있다. 이를 통해 모수를 더 정확하게 추정을 하고 통합된 결과를 기반으로 새로운 가설을 제공할 수 있으며, 결과에 영향을 끼칠만한 요인에 대해 분석도 가능하다는 장점이 있다. 앞서 출간된 선행 연구만으로 연구가 가능하기 때문에 의학연구윤리심의위원회(Institutional Review Board) 심의에서 면제되기도 한다.
다만, 위암과 골절을 비교하는 것과 같이 서로 비교할 수 없는 다른 디자인의 연구들을 종합하려는 문제가 발생할 수 있다. 예를 들어 연구의 실험설계, 표본, 측정의 타당도, 신뢰도, 자료 분석의 적절성에 따라 구분하지 않으면서 생길 수 있는 문제가 있다. 그리고 이미 출판된 연구를 대상으로 하므로 출판 편향(publication bias)이 존재할 수 있으며, 중재 변인의 개입이나 상호작용 효과를 무시하고 연구 결과를 지나치게 단순화할 수 있다는 단점이 있다.
따라서 이러한 한계점을 극복하기 위해, 체계적 문헌고찰 및 메타분석(systematic reviews and meta-analysis)에 대한 선호 보고 항목을 통해 연구를 식별, 선택, 평가 및 종합하는 흐름도를 체크하고[6], 체계적 문헌고찰을 위해 문헌 선택 방법으로 핵심질문(PICO)을 고려함으로써 문헌 간 일관성을 높일 수 있다[4,7].
체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목은 2009년에 문헌고찰을 수행한 이후부터 수행한 작업 및 내용을 투명하게 보고하기 위해 고안되었다. 최근 2020년에 연구를 식별하고, 선택, 평가 및 종합하는 방법에 대해 새로운 가이드라인이 제안되었다. 또한 체계적 문헌고찰 및 메타분석에 대해 체크 리스트와 흐름도를 제시하여 연구자에게 도움을 준다[6].
메타분석을 수행하기 전, 연구의 목적을 설정하고 검색엔진을 통해 문헌 정보를 수집해야 한다. 메타분석을 위한 문헌 선택 방법으로는 PICO(s)를 통해 연구의 목적에 부합한 문헌을 찾는 데 도움이 된다[4,7]. PICO는 다음의 약어로 구성되어 있다. 1) Population or Participants: 연구 대상자로 체계적 문헌고찰 연구에서 목표하는 연구 집단, 2) Intervention: 개입 방법으로 치료 혹은 처치를 받은 집단, 3) Comparison: 비교 집단을 정의한다. 그리고 두 집단 간의 4) Outcomes: 연구 결과를 메타분석에 사용한다. 추가로 5) Study designs: 연구 유형을 고려하여 메타분석을 위한 문헌 검색의 기준을 세울 수 있다.
또한 메타분석에 사용되는 연구들의 비뚤림(bias)을 평가하여 제시함으로써 선택된 연구들의 비뚤림 위험 정도를 알 수 있다. 이 비뚤림 위험은 크게 RCT인 경우와 비 RCT인 경우로 나눠서 평가한다. RCT인 경우 여러 평가 방법 중 ‘version 2 of the Cochrane risk-of-bias tool for randomized trials (RoB2)’을 대표적으로 사용한다[8]. 질문은 무작위 배정, 중재 이탈, 중재 결과 자료의 결측, 중재 결과의 측정, 연구결과 선택, 전반적인 비뚤림으로 6개가 있다. 그리고 각 질문에 대해 위험 정도를 ‘low risk’, ‘some concerns’, ‘high risk’와 같이 3단계로 평가한다. 비 RCT인 경우 중재 전후 연구를 평가하는 ‘risk of bias in non-randomized studies of interventions (ROBINS-I)’ [9]와 노출에 대한 연구를 평가하는 ‘risk of bias in non-randomized studies of exposures (ROBINS-E)’ [10]가 있다. 한국보건의료연구원(NECA)에서 국문으로 제공하는 버전은 ROBINS-I로 교란, 연구대상자의 선택, 중재분류, 이탈, 결측, 중재결과 측정, 연구 결과 선택의 비뚤림과 전체 비뚤림으로 8개의 질문이 있으며 4단계의 위험도를 ‘low risk’, ‘moderate risk’, ‘serious risk’, ‘critical risk’로 평가한다. 이 외 ROBINS-E는 영문으로 필요 시 사용할 수 있다(Table 1).
Table 1 . Evaluation of Risk of Bias by Study Design.
Risk of bias assessment tool | Risk level | Domain | Domains in English |
---|---|---|---|
RoB2 | - Low risk - Some concerns - High risk | 1 | Randomization process |
2 | Deviations from intended interventions | ||
3 | Missing outcome data | ||
4 | Measurement of the outcome | ||
5 | Selection of the reported result | ||
6 | Overall bias | ||
ROBINS-I | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Bias due to confounding (pre-intervention) |
2 | Bias in selection of participants into the study (pre-intervention) | ||
3 | Bias in classification of interventions (at intervention) | ||
4 | Bias due to deviations from intended interventions (post-intervention) | ||
5 | Bias due to missing data (post-intervention) | ||
6 | Bias in measurement of outcomes (post-intervention) | ||
7 | Bias in selection of the reported result (post-intervention) | ||
8 | Overall risk of bias | ||
ROBINS-E | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Risk of bias due to confounding |
2 | Risk of bias arising from measurement of the exposure | ||
3 | Risk of bias in selection of participants into the study (or into the analysis) | ||
4 | Risk of bias due to post-exposure interventions | ||
5 | Risk of bias due to missing data | ||
6 | Risk of bias arising from measurement of the outcome | ||
7 | Risk of bias in selection of the reported result |
각 연구에 표기된 통계치가 단위 기준에 따라 상이할 수가 있다. 따라서 메타분석의 결과는 효과 크기라는 집단 간 표준화된 차이를 제시한다. 이를 통해 두 집단 간의 차이나 관계를 정량적으로 평가할 수 있다. 효과 크기는 결과 변수의 유형에 따라 다양하게 계산된다.
결과 변수가 연속형인 경우, 두 집단 간의 평균 차이를 표준화한 standardized mean difference (SMD)를 계산한다. 보통 Cohen’s d를 가장 빈번히 사용하며 두 집단의 평균 차이를 표준 편차로 나누어 표준화한 값이다.
여기서
결과 변수가 범주형인 경우, 효과 크기를 평가하기 위해 log risk ratio (log RR)과 log odds ratio (log OR), 위험차이(risk difference, RD)를 사용한다(Table 2).
Table 2 . Incidence of Event by Group.
Event | Non-event | Total | |
---|---|---|---|
Experimental | |||
Control | |||
Total |
위험비(risk ratio, RR)는 대조군과 실험군에서 사건이 발생할 확률을 각각 계산하고, 대조군 대비 실험군에서 사건이 발생할 확률이 몇 배 증가하는지 알아보는 것이다.
따라서 RR이 1인 경우에는 대조군과 실험군의 사건 발생 비율의 차이 없다고 해석할 수 있고, 1보다 큰 경우 대조군 대비 실험군에서 사건이 발생할 RR이 증가한다고 해석한다.
오즈비(odds ratio, OR)는 각 집단에서 사건의 발생 오즈(odds)에 대한 비를 의미한다. 사건의 발생 오즈란 사건 발생 빈도를 사건이 발생하지 않은 빈도로 나누는 것이다. 따라서 OR이란 대조군의 오즈와 실험군의 오즈의 비를 의미하며, 대조군의 사건 오즈 대비 실험군의 사건 오즈가 몇 배 높은지 알 수 있다.
OR이 1인 경우 대조군과 실험군의 사건 OR 차이가 없다고 해석한다. 그리고 OR이 1보다 큰 경우 대조군 대비 실험군에서 사건 OR이 증가한다고 해석한다. RR은 각 집단내 사건 발생 확률의 비를 의미하며 코호트 연구에 적합하고, OR은 각 집단에서 사건 발생 오즈의 비를 의미하며 사례-대조 연구에 적합하다. RR과 OR은 log 변환을 통해 효과 크기를 사용하기도 한다.
RD는 두 집단의 사건 발생 확률 차이를 의미한다. 대조군 대비 실험군에서 사건 발생 확률이 얼마나 더 증감하는지 알 수 있다.
RR, OR과 달리 RD가 0인 경우 ‘대조군과 실험군의 사건 발생 확률 차이가 없다’고 해석한다. RD가 0이 아닌 경우 ‘대조군 대비 실험군에서 사건 RD가 %p이다’라고 해석한다. 이러한 지표들은 범주형 데이터에서 두 집단 간의 차이나 연관성을 평가하는 데 유용하게 사용된다.
분석모형은 고정효과모형(fixed effect model)과 랜덤효과모형(random effect model)으로 나뉜다. 고정효과모형은 모든 연구의 모집단이 동일하고, 연구간의 차이는 표집 오류로 인한 것으로 가정한다. 즉, 고정효과모형에서 평균 효과 크기는 동일한 모집단에 대한 효과 크기의 추정치를 의미한다.
고정효과모형에서 사용하는 분산(
연구에 포함된 표본 수나 사건의 수가 적을 때는 역분산 추정법보다 멘텔-헨젤 추정법을 사용할 수 있다. 그리고 두 집단의 표본 수가 유사하고 사건 발생 수가 유사하여 OR이 1에 근사할 경우 피토 추정법을 사용할 수 있다.
랜덤효과모형은 연구마다 주체, 치료 방법, 기간이 다르기 때문에 모든 연구의 모집단은 다르고, 따라서 개별 연구의 다른 모집단에 대한 효과 크기를 추정하게 된다. 수식에서는 고정효과모형에서 개별연구의 효과 크기를 의미하는
(
랜덤효과모형에서 사용하는 분산 추정식은 연구 내 분산(
비교하자면 고정효과모형은 평균효과 크기를 고려할 때 연구 내 분산(
랜덤효과모형에서 연구 간 분산(
이질성이란 연구들 간의 차이 정도를 의미하며 메타분석 내에서 효과 크기가 달라지는 정도를 의미한다. 랜덤효과모형에서는 연구 간의 이질성 때문에 연구의 실제효과 크기가 다를 수 있음을 가정하여
전통적으로 메타분석에서 연구 간 이질성으로부터 연구의 표집 오류를 구별하기 위해 Cochran’s
연구 간 이질성 정도를 판단하기 위한 또 다른 값으로는
여기서
연구 간 이질성이 없는 경우
하지만 일부 학자들은
만약 연구 간 이질성이 존재한다면 랜덤효과모형을 선택하는 것이 효과 크기의 해석에 바람직하다. 또 다른 방법으로는 하위그룹 분석(subgroup analysis), 민감도 분석(sensitivity analysis) 그리고 분석모형의 확장(meta-regression analysis)을 통해 이질성이 있는 연구들을 구체적으로 분석할 수 있다.
깔때기 그림은 x축에 효과 크기, y축에 효과 크기의 표준오차를 표기하여 연구들의 효과 크기와 표준오차의 분포 정도를 한눈에 파악할 수 있다(Fig. 1). 관찰된 효과 크기의 평균으로부터 좌우로 균등하게 분포하고, 표준오차가 작은 쪽에 분포되어 있을수록 이질성이 낮다는 정보를 알 수 있다. 동시에 깔때기 그림을 통해 비대칭성을 시각적으로 확인할 수 있으며 출판 편향의 존재 가능성 여부를 파악할 수 있다. 다만 깔때기 그림은 주관적일 수 있기 때문에 출판 편향의 존재 여부를 정량적으로 비대칭성을 확인하는 것이 좋다[11].
Egger’s 회귀 검정과 Peters’ 회귀 검정은 깔때기 그림에서 비대칭성에 대한 정량적인 검정 방법이다. 그중 본 논문에서는 결과변수의 종류에 따라 크게 두 개의 검정 방법을 제시한다. 우선, 연속형인 경우 Egger 등[17]이 제안한 검정으로 단순 선형 회귀 모형(simple linear regression model)을 기반으로 한다.
관찰된 효과 크기를 표준오차로 나눈 값을 종속변수로 두고, 효과 크기의 표준오차의 역수를 독립변수로 한 선형식을 만든다. 그리고 여기서 비대칭성을 검정하기 위해 절편에 해당하는
이분형인 경우 Peters’ 회귀 검정을 한다[18]. Egger’s 검정과 크게 다른 점은 연구마다 가중치를 다르게 사용한다는 점이다. 이유는 표본크기와 사건 수가 종속적이기 때문이다.
Eggers’ 회귀 검정와 달리, Peters’ 검정에서는
최근에는 네트워크 메타분석(network meta-analysis)의 사용이 빠르게 증가하고 있다[20]. 기존 메타분석은 관심 있는 군 간의 효과 크기를 쌍별로 비교했다. 그러나 네트워크 메타분석은 기존의 여러 치료방법을 비교 및 평가하거나, 다른 연구에서 동일한 대조군을 사용한 경우 여러 치료 방법을 간접적으로 비교할 수 있다[21]. 추정된 효과 크기를 간접적인 비교를 위해 아래와 같은 식을 사용할 수 있으며,
예를 들어 임상시험에서 동일한 위약을 사용한 연구가 존재할 때, 직접적으로 약물 A와 약물 B를 비교하진 않았지만 간접적으로 약물 A와 B의 효과차이를 추정할 수 있다. 이러한 이유로 네트워크 메타분석은 무작위 임상시험에서 직접 비교되지 않았을 수 있는 여러 중재의 효능 또는 안전성을 동시에 비교할 수 있다[22]. 네트워크 메타분석은 여러 쌍을 동시에 비교하게 되면서 연구 간의 이질성을 통합할 수 있다는 장점이 있다. 또한 앞선 쌍별 메타분석과 같이 연구의 동등성을 계산하여 제시할 수 있다. 이때
네트워크 메타분석은 mixed-treatment comparison meta-analysis라고 불리기도 한다. 특히, 네트워크 메타분석의 특별한 경우인 혼합 치료 비교는 특정 쌍별 비교에 대한 직접 및 간접 증거를 결합하여 기존 메타분석보다 사용 가능한 증거의 더 많은 부분을 종합할 수 있다[23]. 따라서 의료 정책 및 의사 결정을 위한 여러 중재요인을 비교하는 데 사용되기도 하고, 여러 수준의 임계값을 비교할 수도 있다[24].
Ford 등[25]의 연구는 이전 메타분석 연구를 통해 헬리코박터 파일로리 제균 요법이 위암 예방에 효과가 있다는 사실이 통상적으로 알려져 있으나, 이후 더 많은 연구가 출간됨에 따라 메타분석을 업데이트하여 제균 치료가 위암 발생 위험에 미치는 영향을 평가했다. 이 연구에서는 RR을 효과 크기로 설정하고, 건강한 집단과 종양이 있는 집단으로 나누어 하위그룹 분석을 수행했다. 건강한 집단에서 제균 요법은 위암 발생률과 위암 사망률을 모두 감소시켰으며, 모든 원인에 의한 사망률에는 영향을 미치지 않았다. 종양이 있는 집단에서도 위암 발생률이 통계적으로 유의하게 감소했다. 이는 헬리코박터 파일로리 제균 요법이 건강한 집단뿐만 아니라 종양이 있는 집단에서도 위암 발생률을 낮춘다는 증거를 업데이트했다[25].
Lei 등[26]의 연구는 위암에서 복강경 위절제술과 개복 위절제술을 비교하기 위해 메타분석을 사용했다. 이 연구는 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목을 따라 수행되었으며, 이질성의 정도에 따라 고정효과모형과 랜덤효과모형을 선택했다. 총 26개의 연구가 포함되었고, 결과는 두 수술 방법 간 합병증 발생률에 유의한 차이가 없음을 보여주었다. 또한, 복강경 위절제술이 수술 후 합병증 위험을 낮추고 미용적 이점을 제공하여 개복 위절제술의 대안이 될 수 있음을 제시했다[26].
그리고 Davey 등[27]의 연구는 위암에 대한 개복 위절제술, 복강경 위절제술, 로봇 위 절제술을 네트워크 메타분석을 통해 비교했다. 이 연구도 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목을 따랐다. 네트워크 분석 결과, 개복 위절제술과 복강경 위절제술 간 재발률과 전 체 생존율에는 차이가 없었으나, 복강경 위절제술이 출혈량, 수술 절개 부위, 입원기간, 절제 후 이환율에서 더 나은 결과를 보였다. 로봇 위절제술도 복강경 위절제술과 비슷한 결과를 보여, 최소 침습적 접근법이 국소 위암 절제술에 적합함을 제안했다[27].
이와 같이 메타분석은 기존에 알려진 치료의 효과를 업데이트하거나, 기존의 수술 방법과 새로운 수술 방법의 장단점을 비교할 수 있다. 그리고 네트워크 메타분석을 통해 세 가지 이상의 수술 결과를 비교 분석할 수 있다.
메타분석은 기존 연구를 정량적으로 요약하며, 상충되는 연구들을 통합할 수 있다는 장점이 있다. 그리고 연구에 포함된 대상자와 연구의 이질성을 통계학적으로 고려한 해석도 가능하다. 메타분석을 수행할 때 연구 간 이질성 정도와 편향성을 평가하여 수집된 문헌으로부터 해석을 할 때 통계적으로 적절한 모형을 선택하는 것이 중요하다.
메타분석을 포함한 체계적 고찰은 치료효과에 대한 높은 수준의 증거를 나타낼 수 있다. 특히 소화기암 분야와 같이 연구가 활발한 질환에서 다기관, 다국가로 진행된 연구들을 포함하여 일반적인 연구 결과를 도출할 수 있을 것이다. 메타분석을 통해 추정된 효과는 관련된 의료기술의 평가가 가능하고, 일반적인 치료 방법을 제안할 수 있을 것이다. 또한 네트워크 메타분석을 통해 직·간접적인 비교할 수 있고 이는 새로운 연구를 위한 시간적, 금전적 비용을 줄일 수 있을 것이다.
None.
No potential conflict of interest relevant to this article was reported.
Conceptualization: Nak-Hoon Son. Data curation: So Hyeon Gwon, Nak-Hoon Son. Formal analysis: Nak-Hoon Son. Investigation: So Hyeon Gwon, Nak-Hoon Son. Methodology: So Hyeon Gwon, Nak-Hoon Son. Resources: So Hyeon Gwon, Nak-Hoon Son. Software: So Hyeon Gwon, Nak-Hoon Son. Supervision: Nak-Hoon Son. Validation: So Hyeon Gwon, Nak-Hoon Son. Visualization: So Hyeon Gwon, Nak-Hoon Son. Writing–original draft: So Hyeon Gwon, Nak-Hoon Son. Writing–review & editing: So Hyeon Gwon, Nak-Hoon Son.
Table 1 . Evaluation of Risk of Bias by Study Design.
Risk of bias assessment tool | Risk level | Domain | Domains in English |
---|---|---|---|
RoB2 | - Low risk - Some concerns - High risk | 1 | Randomization process |
2 | Deviations from intended interventions | ||
3 | Missing outcome data | ||
4 | Measurement of the outcome | ||
5 | Selection of the reported result | ||
6 | Overall bias | ||
ROBINS-I | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Bias due to confounding (pre-intervention) |
2 | Bias in selection of participants into the study (pre-intervention) | ||
3 | Bias in classification of interventions (at intervention) | ||
4 | Bias due to deviations from intended interventions (post-intervention) | ||
5 | Bias due to missing data (post-intervention) | ||
6 | Bias in measurement of outcomes (post-intervention) | ||
7 | Bias in selection of the reported result (post-intervention) | ||
8 | Overall risk of bias | ||
ROBINS-E | - Low risk - Moderate risk - Serious risk - Critical risk | 1 | Risk of bias due to confounding |
2 | Risk of bias arising from measurement of the exposure | ||
3 | Risk of bias in selection of participants into the study (or into the analysis) | ||
4 | Risk of bias due to post-exposure interventions | ||
5 | Risk of bias due to missing data | ||
6 | Risk of bias arising from measurement of the outcome | ||
7 | Risk of bias in selection of the reported result |
Table 2 . Incidence of Event by Group.
Event | Non-event | Total | |
---|---|---|---|
Experimental | |||
Control | |||
Total |