Journal of Digestive Cancer Research 2023; 11(3): 130-140
Published online December 20, 2023
https://doi.org/10.52927/jdcr.2023.11.3.130
© Korean Society of Gastrointestinal Cancer Research
Correspondence to :
Jung In Lee
E-mail: spenta85@naver.com
https://orcid.org/0000-0001-8925-9972
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0). which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Gastric cancer (GC) is one of the most common malignant tumors worldwide, with a 5-year survival rate of < 40%. The diagnosis and treatment decisions of GC rely on human experts’ judgments on medical images; therefore, the accuracy can be hindered by image condition, objective criterion, limited experience, and interobserver discrepancy. In recent years, several applications of artificial intelligence (AI) have emerged in the GC field based on improvement of computational power and deep learning algorithms. AI can support various clinical practices in endoscopic examination, pathologic confirmation, radiologic staging, and prognosis prediction. This review has systematically summarized the current status of AI applications after a comprehensive literature search. Although the current approaches are challenged by data scarcity and poor interpretability, future directions of this field are likely to overcome the risk and enhance their accuracy and applicability in clinical practice.
KeywordsStomach neoplasms Artificial intelligence Machine learning Deep learning
위암은 세계에서 유병률 5위, 사망률 4위의 암이다[1]. 유병률은 아시아 지역에서 높으며 남성이 여성보다 2배 높다. 위암의 예후는 매우 좋지 않아 5년 생존율은 40% 미만이며 진행성 위암의 경우 30% 미만이나, 조기 위암의 경우 90% 이상으로 위암의 조기 발견은 매우 중요하다[2,3]. 위암의 증상은 대부분 비특이적이고, 주로 내시경을 통해 발견되며 조직검사를 통한 병리학적으로 진단된다[4]. 이어서 전산화 단층촬영(computerized tomography, CT) 영상을 통해 병기를 결정하고 치료법을 결정하게 된다. 조기 위암의 경우 내시경을 통한 근치적 절제술을, 진행성 위암의 경우 병기에 따라 수술을 통한 근치적 절제술 및 항암화학요법, 방사선 치료 등이 고려될 수 있다[5,6]. 게다가 몇몇 종류의 위암의 경우 면역 치료나 분자 표적 치료 등이 좋은 예후를 보일 수 있다[7].
위암의 진단과 치료의 과정은 내시경 의사, 병리과 의사, 영상의학과 의사에 의해 판단되며 이는 의사의 경험, 영상의 질, 객관화 지표, 관찰자 간 불일치성 등에 의해 영향을 받을 수 있다[8-10]. 인간의 인지능력을 모방한 인공지능(artificial intelligence, AI)은 영상을 통한 방대한 데이터를 컴퓨터와 알고리듬을 통해 빠르게 처리하고 분석할 수 있으며 이는 위암의 진단과 치료에 있어 도움을 줄 수 있다.
인공지능은 내시경 영역에서 위암의 인지 및 분류[11-23], 침윤 깊이(invasion depth)의 예측[20,24-26], 절제 범위(resection margin)를 결정하는 데 도움을 줄 수 있다[27,28]. 병리조직검사 영역에서 인공지능은 판독 시간의 단축시키고 human epidermal growth factor receptor 2 (HER2), microsatellite instability (MSI) 등 분자 유형을 분류하는 데 도움을 줄 수 있고[29-37], 영상의학 영역에서는 위암의 병기 설정(TNM staging)에 도움을 줄 수 있으며[38-46], 위암의 예후 예측이나 항암치료 반응 평가를 위해서도 사용될 수 있다[47-53]. 현재 다양한 영상 기술과 알고리듬의 발전을 통해 특정 조건에서 이러한 인공지능의 능력은 인간 전문가에 비해 열등하지 않을 정도로 발전하고 있다.
내시경 영역에서 인공 지능(AI-assisted endoscopy of gastric cancer)은 현재 가장 활발하게 연구되고 있는 분야이다. Table 1에 현재 내시경 영역에서 연구된 인공지능에 대해 정리하였다.
Table 1 . The Application of AI in Endoscopy of Gastric Cancer
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Miyaki et al. (2013) [11] | Identify GC | 46 patients; ME-FICE | SIFT features; SVM | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Miyaki et al. (2015) [12] | Identify GC | 95 patients; ME-BLI | SIFT features; SVM | SVM outputs: 0.846 (cancer), 0.381 (redness), 0.219 (surrounding) |
Zhang et al. (2017) [13] | Classify gastric precancerous diseases | 1,331 images; WLI | GPDNet | Acc: 88.9% |
Hirasawa et al. (2018) [14] | Identify and segment GC | 2,716 lesions; WLI | SSD | Sen: 92.2%, PPV: 30.6% |
Liu et al. (2018) [15] | Identify GC | 1,120 images; ME-NBI | InceptionV3 | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Cho et al. (2019) [16] | Classify gastric neoplasm | 1,469 patients; WLI | Inception-ResNet-v2 | Acc: 76.4% |
Lee et al. (2019) [17] | Classify gastric neoplasm | 787 images; WLI | ResNet-50 | Acc: 96.5% (normal vs. cancer), 92.6% (normal vs. ulcer), 77.1% (cancer vs. ulcer) |
Luo et al. (2019) [18] | Identify and segment GC | 84,424 patients; 6 centers; WLI | DeepLabV3+ | Acc: 92.8%, Sen: 94.2%, Spe: 92.3%, PPV: 81.4%, NPV: 97.8% |
Hsu et al. (2019) [19] | Identify GC | 473 images; ME-NBI | SSSNet | Acc: 91.7%, Sen: 90.0%, Spe: 93.3%, PPV: 93.1% |
Yoon et al. (2019) [20] | Identify and segment GC | 11,539 images; WLI | Lesion-based VGG | AUC: 0.981 |
Nguyen et al. (2020) [21] | Identify pathological site | 7,894 images; WLI | Ensemble of deep-learning models | Acc: 70.7% |
Ikenoyama et al. (2021) [22] | Identify and segment GC | 16,524 images; WLI | SSD | Sen: 58.4%, Spe: 87.3%, PPV: 26.0%, NPV: 96.5% |
Hu et al. (2021) [23] | Identify GC | 295 patients; 3 centers; ME-BLI | VGG19 | Acc: 77.0%, Sen: 79.2%, Spe: 74.5% |
Kubota et al. (2012) [24] | Estimate tumor invasion depth | 344 patients; WLI endoscopy | Back propagation | Acc: 77.2% (T1), 49.1% (T2), 51% (T3), 55.3% (T4) |
Zhu et al. (2019) [25] | Estimate tumor invasion depth | 993 patients; WLI endoscopy | ResNet | AUC: 0.94, Acc: 89.16%, Sen: 76.47%, Spe: 95.56%, PPV: 89.66%, NPV: 88.97% (T1a/T1b vs. deeper than T1b) |
Yoon et al. (2019) [20] | Estimate tumor invasion depth | 11,539 images; WLI endoscopy | Lesion-based VGG | AUC: 0.851 (T1a vs. T1b) |
Nagao et al. (2020) [26] | Estimate tumor invasion depth | 1,084 patients; WLI, NBI, Indigo endoscopy | SSD | Acc: 94.5% (WLI), 94.3% (NBI), 95.5% (Indigo) |
An et al. (2020) [27] | Delineate resection margin for EGC | 1,244 images and ESD videos | UNet++ | IoU: 67.6% (image), 70.4% (video); Sen: 81.7% (image), 89.5% (video) |
Ling et al. (2021) [28] | Delineate resection margin for EGC | 1,670 images and ESD videos | UNet++ | Acc: 82.7% (differentiated), 88.1% (undifferentiated) |
AI, artificial intelligence; GC, gastric cancer; ME-FICE, magnifying endoscopy with flexible spectral imaging color enhancement; SIFT, scale-invariant feature transform; SVM, support vector machine; Acc, accuracy; Sen, sensitivity; Spe, specificity; ME-BLI, magnifying endoscopy with blue laser imaging; WLI, white light imaging; GPDNet, Gastric Precancerous Disease Network; SSD, single-shot multi-box detector; PPV, positive predictive value; ME-NBI, magnifying endoscopy with narrow-band imaging; NPV, negative predictive value; SSSNet, small-scale-aware Siamese network; AUC, area under the receiver-operating characteristic curve; Indigo, indigo-carmine dye contast imaging; EGC, early gastric cancer; ESD, endoscopic submucosal dissection; IoU, Intersection over Union.
위암은 만성 위축성 위염, 장상피 화생, 이형성증을 걸쳐 최종적으로 암으로 진행하는 것으로 알려져 있다[54,55]. 진행성 위암의 경우 5년 생존율이 30% 미만인데 반해 조기 위암의 경우 이보다 훨씬 높은 90% 이상이다[2,3]. 따라서 내시경을 통한 위암의 조기 발견이 매우 중요하다. 하지만 형태, 위치 등에 따라 위암을 놓칠 확률은 내시경 시술자에 따라 4.6%에서 25.8%로 개인차가 크며 이는 경험이 적은 시술자에게 더 자주 발생한다[10,56-58]. Miyaki 등[11]은 고전적인 machine-learning 기술인 scale-invariant feature transfer (SIFT)와 보조적인 support vector machine (SVM)을 이용하여 확대-영상증강내시경(magnifying endoscopy with flexible spectral imaging color enhancement, ME-FICE) 영상으로 85.9%의 정확도, 84.8%의 민감도와 87.0%의 특이도를 확인했다. 이 연구는 위암의 진단에서 인공지능의 잠재력을 보여주지만 인간이 직접 컷오프 값을 설정했고 데이터 크기가 작다는 제한점이 있었다. Hirasawa 등[14]의 연구는 single-shot multibox detector (SSD)를 사용하여 추출과 학습을 결합한 deep-learning을 기반으로 한 최초의 연구이며 자동으로 위암 병소를 발견함에 있어 92.2%의 민감도를 획득했다. 허나 위축성 위염이나 장상피 화생을 위암으로 진단하는 30.6%의 낮은 양성 예측도를 보여 이 또한 한계가 있었다. Luo 등[18]은 Gastrointestinal Artificial Intelligence Diagnostic System (GRAIDS)을 개발하고 6개의 기관, 84,424명의 환자에서 1,036,496개 내시경 영상을 사용하여 정확도 92.8%, 민감도 94.2%, 특이도 92.3%, 양성 예측도 81.4%, 음성 예측도 97.8%를 획득하였으며 이는 내시경 전문가와 비슷한 수준이었다.
위암 침윤의 깊이는 위암 치료에 있어서 매우 중요한 인자이며 점막이나 점막하층에 국한된 경우 내시경적 절제술과 같은 최소 침습 치료가 가능하게 해주고 불필요한 수술을 줄일 수 있게 해준다. 하지만 육안으로 확인하는 내시경 검사상 침윤 깊이의 예측은 매우 어려운 경우가 많으며 침습적인 시술을 통한 병리학적 검증만이 유일한 방법이다. 따라서 침윤 깊이 예측에 대한 좀 더 정확한 검사의 필요성이 강조되고 있다. Kubota 등[24]은 back propagation 알고리듬을 사용하여 침윤 깊이를 예측했으며 진단 정확도는 T1, T2, T3, T4 위암에서 각각 77.2%, 49.1%, 51%, 55.3%였다. T1a (침윤 깊이 점막층까지 침윤)와 T1b (침윤 깊이 점막하층까지 침윤)에 대한 정확도는 각각 68.9%, 63.6%로 이는 내시경 전문가와 비슷한 수준이었다. 하지만 T2 이상의 진행성 병변에 대해서는 정확도가 감소하는 한계가 있었다. Zhu 등[25]은 T1a와 T1b를 P0, T2 이상을 P1으로 나누고 이에 대한 790개의 영상을 ResNet에 학습시켜 내시경 전문가보다 더 높은 수준인 area under the receiver-operating characteristic curve (AUC) 0.94를 달성했다. Yoon 등[20]은 lesion-based visual geometry group (VGG)를 적용하여 T1a와 T1b를 구분하는 데 AUC 0.851을 달성하였으며 부정확한 예측이 미분화 암과 높은 관련이 있음을 확인했다. Nagao 등[26]은 더 나아가 narrow band imaging (NBI)를 사용한 영상증강내시경, indigo-carmine을 이용한 색소내시경까지 인공지능 영역을 확대하여 백색광 내시경에서 94.5%, NBI에서 94.3%, indigo-carmine에서 95.5%의 정확도를 달성했다.
내시경 절제술은 조기 위암의 치료에 있어 최소 침습으로 근치적 절제술을 할 수 있는 표준 치료이다[5]. 이 때 병변 경계에 대한 정확한 설정은 내시경 절제술에 있어 매우 중요한 첫 번째 과정이다. An 등[27]은 536명의 환자에게서 확보한 백색광과 색소내시경의 1,244개의 영상과 동영상을 deep-learning 모델로 설정하여 백색광 85.7%, 색소내시경 88.9%의 정확도를 확보했다. Ling 등[28]은 deep-learning 기반 시스템을 개발하여 병변 경계 설정에 대해 분화 암에서 82.7%, 미분화암에서 88.1%의 정확도를 달성했는데 이는 내시경 전문가보다 더 높은 수준이었다.
위암의 명확한 진단은 조직검사를 통해 얻어진 전체 슬라이드 영상(whole slide imaging, WSI)의 병리과 의사에 의한 육안적 판독에 의해 이뤄진다[59]. 하지만 위암 병변의 다양한 크기와 다수의 WSI는 병리과 의사에게 장시간의 집중력을 요하게 된다. 인공지능은 자동으로 정밀하고 신속한 병리학적 검사를 시행하는데 도움을 줄 수 있을 것으로 생각되며 이에 대한 다양한 연구가 이루어졌다(Table 2). 위암 조직은 일반적으로 다수의 일반 조직도 포함하고 있으며 WSI 영상은 컴퓨터가 직접 처리하기엔 너무 크기 때문에 일반적으로 이를 여러 구역으로 먼저 자르고 각 구역을 분류한 다음 각 구역 레벨에서의 예측을 기반으로 전체 슬라이드를 예측하게 된다. 관건은 WSI의 가장 대표적인 구역 레벨을 어떻게 설정하고 이를 얼마나 효율적으로 통합할 수 있는가에 달려 있다. Li 등[29]은 GastricNet 이라는 모델을 제안했으며 이는 위암 가능성이 높은 10개의 구역을 지정하고 이에 대해 점수를 부여하여 100%에 달하는 정확도를 보여주기도 했다. HER2는 최근 가장 주목받고 있는 위암 예측의 바이오마커이나 WSI를 통해 판독하는 데는 많은 시간이 소요되고 면역화학염색은 가격이 높으며 일반적인 hematoxylin and eosin (H&E) 염색으로는 HER2를 확인하기 힘들다[60,61]. 이러한 점을 극복하기 위해 Sharma 등[33,34]은 graph-based model, 9-layer convolutional neural network (CNN)를 사용하여 H&E 염색에서 HER2를 구분하고자 하였다. MSI는 위암의 면역 치료를 결정하는 데 있어 매우 중요한 인자 중 하나이다. Kather 등[35]과 Valieris 등[36]이 ResNet-18, CNN + RNN을 통해 H&E WSI로 MSI 상태를 예측하는 데 활용하였다. 이밖에도 Chen 등[37]은 ResNet-18을 이용하여 위암의 면역 미세환경 아형을 분류하였으며 면역 치료에 있어 인공지능의 가능성을 제시했다.
Table 2 . The Application of AI in Pathology of Gastric Cancer
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Li et al. (2018) [29] | Identify GC | 700 slices; pathological image | GastricNet | Acc: 97.9% (patch), 100% (slice) |
Li et al. (2018) [30] | Identify and segment GC | 700 slices; pathological image | GT-Net | F1 score: 90.9% |
Sun et al. (2019) [31] | Identify and segment GC | 500 images; pathological image | Multi-scale embedding networks | Acc: 81.6 (pixel), mIoU: 82.65% |
Wang et al. (2019) [32] | Identify GC | 608 slices; pathological image | RMDL | Acc: 86.5% |
Sharma et al. (2016) [33] | Subtype of HER2 | 11 slices; H&E WSI | Graph-based model | Acc: 58.47% |
Sharma et al. (2017) [34] | Subtype of HER2 | 11 slices; H&E WSI | 9-layer CNN | Acc: 69.90% |
Kather et al. (2019) [35] | Subtype of MSI | 1,616 patients; H&E WSI; multicenter | ResNet-18 | Acc: 84% (TCGA-CRC-DX), 77% (TCGA-CRC-KR), 84% (DACHS), 69% (KCCH) |
Valieris et al. (2020) [36] | Subtype of MSI | 1,616 patients; H&E WSI | CNN + RNN | Acc: 81% |
Chen et al. (2021) [37] | Immune subtype | 808 patients; H&E WSI | ResNet-18 | Acc: 80.39% (validation), 76.47% (test) |
AI, artificial intelligence; GC, gastric cancer; Acc, accuracy; mIoU, mean Intersection over Union; RMDL, recalibrated multi-instance deep learning; HER2, human epidermal growth factor receptor 2; H&E WSI, hematoxylin and eosin-stained whole slide imaging; CNN, convolutional neural network; MSI, microsatellite instability; RNN, recurrent convolutional neural network.
위암의 영상 의학적 평가에서 인공지능의 역할은 최근 활발하게 연구되고 있다(Table 3). 위암의 정확한 병기 설정은 위암의 치료 및 예후를 결정하는 매우 중요한 단계이다. CT는 위암의 수술 전 병기 설정에 가장 널리 활용되는 방법이지만 T staging에서 CT의 정확도는 77.8%에서 93.5%로 일정하지 않다[62,63]. 또한 T4a 위암의 CT를 통한 영상의학과 의사의 진단 정확도는 76.6%로 알려져 있다[64]. Wang 등[38]은 T1, T2와 T3, T4 위암을 구분하기 위해 arterial-phase-based radiomics model을 이용하여 training set와 test set에서 각각 AUC 0.899, 0.825를 보여주었다. Sun 등[39]은 T4a 위암에서 CT-based deep-learning radiomics를 이용하여 training set에서 AUC 0.90, 두 번의 test set에서 각각 0.87, 0.90을 달성했다. N staging은 림프절 전이가 없는 N0, 1–2개의 림프절 전이 N1, 3–6개의 림프절 전이 N2, 7–15개의 림프절 전이 N3a 그리고 15개를 초과하는 림프절 전이 N3b로 분류된다[65]. CT는 수술 전 N staging에 주로 사용되는 방법이지만 CT에서 영상의학과 의사의 N staging의 정확도 또한 50–70%로 그다지 높지 않다[66]. Dong 등[40]은 deep-learning radionomic nomogram을 활용한 수술 전 CT 영상에서 외부 검증, 국제 검증 data set에서 각각 AUC 0.797, 0.822의 인상적인 변별력을 보여주었다. 여기에 더해 Li 등[41]은 dual energy CT 기반의 deep learning radionomics를 적용해서 0.82의 AUC를 달성했다. 또한 Jin 등[42]은 ResNet-18을 활용해서 1,699명의 환자의 data set을 적용, 0.876의 median AUC를 보여주었다. 복막 전이(peritoneal metastasis, PM)는 위암에서 가장 흔한 stage IV의 형태 중 하나이다[67]. 복막 전이 환자는 완전 절제(R0 resection) 가능성이 낮아 수술이 권장되지 않는다. CT는 수술 전 복막 전이 여부를 판단하는 가장 흔한 비침습적 검사이지만 사람의 눈으로 잠복 복막 전이(occult PM)를 배제하기 어렵다. Dong 등[43]은 4개의 기관에서 수집한 554명의 잠복 복막 전이 환자의 CT에서 radionomics를 활용하여 잠복 복막 전이를 예측하는 데 0.928–0.920의 AUC를 달성했다. Huang 등[44]은 CNN model에 544명의 CT를 적용하여 AUC 0.900, 민감도 81.0%, 특이도 87.5%를 보여주었다. Jiang 등[45]은 PMetNet을 활용해서 3개 기관 1,978명의 CT에서 AUC 0.920–0.946, 민감도 75.4–87.5%, 특이도 92.9–98.2%를 달성했다. Chromosomal instability (CIN)는 전체 위암의 분자 유형 중 절반 가량을 차지하고 있는 것으로 알려져 있다[68]. CIN을 확인하는 고전적인 방법은 침습적인 조직검사와 복합적인 유전적 분석을 필요로 한다. 최근에는 방사선 유전학의 발달로 위암의 분자 유형을 구분하는 비침습적인 영상 의학적 방법이 소개되고 있다. Lai 등[46]은 58명의 CT에서 radionomics를 이용하여 AUC 0.89로 CIN을 구분해냈다. 이는 인공지능이 비침습적 방법을 통해 위암의 분자 유형을 구분하는 데 도움이 될 수 있는 가능성을 시사했다.
Table 3 . The Application of AI in Radiology of Gastric Cancer
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Wang et al. (2020) [38] | Estimate tumor invasion depth | 244 patients; CT | Radiomics | AUC: 0.899 (train), 0.825 (test) (T2 vs. T3/4) |
Sun et al. (2020) [39] | Estimate tumor invasion depth | 572 patients; CT | Deep-learning radiomics | AUC: 0.87 (test1), 0.90 (test2) (T4) |
Dong et al. (2020) [40] | Predict lymph-node metastasis | 730 patients; CT, multicenter | Deep-learning radiomics | C-index: 0.797 (external), 0.822 (international) |
Li et al. (2020) [41] | Predict lymph-node metastasis | 204 patients; Dual-energy CT | Deep-learning radiomics | AUC: 0.82 |
Jin et al. (2021) [42] | Predict lymph-node metastasis | 1,699 patients; CT | ResNet-18 | Median AUC: 0.876 |
Dong et al. (2019) [43] | Identify occult peritoneal metastasis | 554 patients; four centers; CT | Radiomics | AUC: 0.928–0.920 |
Huang et al. (2020) [44] | Identify occult peritoneal metastasis | 544 patients; CT | CNN | AUC: 0.900, Sen: 81.0%, Spe: 87.5% |
Jiang et al. (2021) [45] | Identify occult peritoneal metastasis | 1,978 patients; three centers; CT | PMetNet | AUC: 0.920–0.946, Sen: 75.4–87.5%, Spe: 92.9–98.2% |
Lai et al. (2019) [46] | Radiogenomics; subtype of CIN | 58 patients; CT | Radiomics | AUC: 0.89, Acc: 88.9%, Spe: 88.9%, Sen: 88.9% |
AI, artificial intelligence; CT, computerized tomography; AUC, area under the receiver-operating characteristic curve; C-index, concordance index; CNN, convolutional neural network; Sen, sensitivity; Spe, specificity; CIN, chromosomal instability; Acc, accuracy.
인공지능의 발전은 항암치료의 반응 평가와 예후 예측에도 그 영역을 확대하고 있다(Table 4). 항암치료는 근치적 절제술을 할 수 없는 환자들의 기대 수명을 연장할 수 있는 치료다. 하지만 환자 개개인은 같은 항암치료에 대해 서로 다른 반응을 보일 수 있다[69]. Tan 등[47]은 V-net-based model을 적용한 delta radionomics를 활용하여 항암치료 반응을 평가하는 데 시험단계에서 AUC 0.728, 외부 검증에서 AUC 0.828을 보여주었다. 병기는 환자의 예후를 결정하는 데 중요한 인자이지만 같은 병기의 환자라도 다양한 생존 기간을 보여줄 수 있다. Cox 회귀분석은 이런 생존 기간을 분석하는 데 고전적으로 사용된 방법이다. Hyung 등[49]은 환자의 나이, 성별, 과거력, 위암의 깊이, 림프 전이의 개수, 원격 전이 여부, 절제 범위 등의 특성을 five-layer neural network에 적용해서 Cox 회귀분석을 뛰어넘는 83.5% 정확도의 5년 생존율을 예측했다. Zhang 등[50]은 CT에 ResNet-based model을 적용, 진행성 위암 환자의 전반적인 생존율을 예측해서 concordance index (C-index) 0.78을 달성했다. Jiang 등[51]은 deep-learning 기반의 DeLIS를 제안해서 수술 전 CT를 활용해 전반적인 C-index 0.792–0.802를 보여주었다. 인공지능을 활용한 예후 예측은 병리학적 영역에서도 연구되었다. Meier 등[52]은 면역조직화학 염색 조직의 마이크로 어레이를 GoogLeNet에 적용하여 immune-related CNN score가 예후 예측에 도움이 될 수 있음을 제시했다. Wang 등[53]은 1,164명의 림프절 WSI를 U-net, ResNet에 적용, N stage만을 통해서 위험비 2.04, C-index 0.694를 달성했다.
Table 4 . The Application of AI in Prognosis Prediction of Gastric Cancer
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Tan et al. (2020) [47] | Predict chemotherapy response | 116 patients | Delta radiomics | Acc: 0.728–0.828 |
Joo et al. (2019) [48] | Predict molecular drug response | GDSC, CCLE, TCGA dataset | DeepIC50 | |
Hyung et al. (2017) [49] | Prognosis prediction | 1,549 patients; clinicopathologic factors | Five-layer neural network | AUC: 0.844–0.852 (five-year survival) |
Zhang et al. (2020) [50] | Prognosis prediction | 640 patients; CT | ResNet | C-index: 0.78 (OS) |
Jiang et al. (2021) [51] | Prognosis prediction | 1,615 patients; CT | S-net | C-index: 0.792 (DFS), 0.802 (OS) |
Meier et al. (2020) [52] | Prognosis prediction | 248 patients; IHC-stained TMAs | GoogLeNet | Hazard ratio: 1.273 (Cox), 1.234 (Uno), 1.149 (Logrank) |
Wang et al. (2021) [53] | Prognosis prediction | 1,164 patients; lymphnode pathological images | U-net, ResNet | Hazard ratio: 2.04 (univariable), C-index: 0.694 |
AI, artificial intelligence; Acc, accuracy; GDSC, genomics of drug sensitivity in cancer; CCLE, cancer cell line encyclopedia; TCGA, the cancer genome atlas; AUC, area under the receiver-operating characteristic curve; CT, computerized tomography; C-index, concordance index; OS, overall survival; DFS, disease-free survival; IHC, immunohistochemistry; TMA, tissue microarray.
인공지능을 활용한 대부분의 연구들은 그 결과가 대단히 인상적으로 보일 수 있다. 하지만 대부분 단일 기관 연구이거나 데이터가 충분하지 않고 그 데이터의 대표성 또한 논란이 있을 수 있다. 또 인공지능의 지나치게 매개변수화된 블랙박스 특성상 낮은 해석력도 비판의 대상이 될 수 있다. 따라서 인공지능의 성능을 검증할 수 있는 더 정교한 알고리듬을 사용한 연구를 수행하는 데 많은 관심을 기울여야 한다. 현재까지의 연구는 내시경, CT, 병리 결과를 각각 따로 분석하고 있다. 때문에 이러한 영역을 아울러 동시에 분석하는 통합된 다중 양식 알고리듬(multi-modality algorithms)을 개발할 필요가 있다. 또한 대부분의 연구는 위암의 발견, 병기 설정, 예후 예측 등 각각 단일 항목만을 다루고 있다. 이러한 항목들을 유기적이고 복합적으로 연결한 다중 작업 알고리듬(multi-task algorithm)은 다양한 분야의 정보를 동시에 학습하고 분석할 수 있다. 이러한 다중 양식 알고리듬과 다중 작업 알고리듬이 개발된다면 인공지능의 비약적인 발전을 기대할 수 있을 것이다.
인공지능 기술, machine learning과 deep learning은 위암의 영역에서 주목할 만큼 발전했다. 내시경의 영역에서 인공지능은 위암의 인지, 진단, 침윤 깊이, 절제 범위를 파악하는 데 도움을 줄 수 있다. 병리조직검사 영역에서 인공지능은 진단 시간을 줄여주고 분자 유형을 구분하는 데 보조적인 역할을 할 수 있다. 영상의학 영역에서 인공지능은 CT를 기반으로 병기 설정, 치료의 선택, 예후 예측 등을 도울 수 있다. 이러한 연구들은 위암에서 인공지능이 보여줄 수 있는 가능성을 시사하는 반면 데이터 부족, 낮은 해석력 등 그 유효성에 의문 또한 존재한다. 하지만 알고리듬의 발전을 통해 개선이 이루어진다면 조만간 임상에서 인공지능의 활발한 활용을 기대할 수 있을 것이다.
None.
No potential conflict of interest relevant to this article was reported.
Journal of Digestive Cancer Research 2023; 11(3): 130-140
Published online December 20, 2023 https://doi.org/10.52927/jdcr.2023.11.3.130
Copyright © Korean Society of Gastrointestinal Cancer Research.
이정인
조선대학교 의과대학 소화기내과
Division of Gastroenterology, Department of Internal Medicine, College of Medicine, Chosun University, Gwangju, Korea
Correspondence to:Jung In Lee
E-mail: spenta85@naver.com
https://orcid.org/0000-0001-8925-9972
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0). which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Gastric cancer (GC) is one of the most common malignant tumors worldwide, with a 5-year survival rate of < 40%. The diagnosis and treatment decisions of GC rely on human experts’ judgments on medical images; therefore, the accuracy can be hindered by image condition, objective criterion, limited experience, and interobserver discrepancy. In recent years, several applications of artificial intelligence (AI) have emerged in the GC field based on improvement of computational power and deep learning algorithms. AI can support various clinical practices in endoscopic examination, pathologic confirmation, radiologic staging, and prognosis prediction. This review has systematically summarized the current status of AI applications after a comprehensive literature search. Although the current approaches are challenged by data scarcity and poor interpretability, future directions of this field are likely to overcome the risk and enhance their accuracy and applicability in clinical practice.
Keywords: Stomach neoplasms, Artificial intelligence, Machine learning, Deep learning
위암은 세계에서 유병률 5위, 사망률 4위의 암이다[1]. 유병률은 아시아 지역에서 높으며 남성이 여성보다 2배 높다. 위암의 예후는 매우 좋지 않아 5년 생존율은 40% 미만이며 진행성 위암의 경우 30% 미만이나, 조기 위암의 경우 90% 이상으로 위암의 조기 발견은 매우 중요하다[2,3]. 위암의 증상은 대부분 비특이적이고, 주로 내시경을 통해 발견되며 조직검사를 통한 병리학적으로 진단된다[4]. 이어서 전산화 단층촬영(computerized tomography, CT) 영상을 통해 병기를 결정하고 치료법을 결정하게 된다. 조기 위암의 경우 내시경을 통한 근치적 절제술을, 진행성 위암의 경우 병기에 따라 수술을 통한 근치적 절제술 및 항암화학요법, 방사선 치료 등이 고려될 수 있다[5,6]. 게다가 몇몇 종류의 위암의 경우 면역 치료나 분자 표적 치료 등이 좋은 예후를 보일 수 있다[7].
위암의 진단과 치료의 과정은 내시경 의사, 병리과 의사, 영상의학과 의사에 의해 판단되며 이는 의사의 경험, 영상의 질, 객관화 지표, 관찰자 간 불일치성 등에 의해 영향을 받을 수 있다[8-10]. 인간의 인지능력을 모방한 인공지능(artificial intelligence, AI)은 영상을 통한 방대한 데이터를 컴퓨터와 알고리듬을 통해 빠르게 처리하고 분석할 수 있으며 이는 위암의 진단과 치료에 있어 도움을 줄 수 있다.
인공지능은 내시경 영역에서 위암의 인지 및 분류[11-23], 침윤 깊이(invasion depth)의 예측[20,24-26], 절제 범위(resection margin)를 결정하는 데 도움을 줄 수 있다[27,28]. 병리조직검사 영역에서 인공지능은 판독 시간의 단축시키고 human epidermal growth factor receptor 2 (HER2), microsatellite instability (MSI) 등 분자 유형을 분류하는 데 도움을 줄 수 있고[29-37], 영상의학 영역에서는 위암의 병기 설정(TNM staging)에 도움을 줄 수 있으며[38-46], 위암의 예후 예측이나 항암치료 반응 평가를 위해서도 사용될 수 있다[47-53]. 현재 다양한 영상 기술과 알고리듬의 발전을 통해 특정 조건에서 이러한 인공지능의 능력은 인간 전문가에 비해 열등하지 않을 정도로 발전하고 있다.
내시경 영역에서 인공 지능(AI-assisted endoscopy of gastric cancer)은 현재 가장 활발하게 연구되고 있는 분야이다. Table 1에 현재 내시경 영역에서 연구된 인공지능에 대해 정리하였다.
Table 1 . The Application of AI in Endoscopy of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Miyaki et al. (2013) [11] | Identify GC | 46 patients; ME-FICE | SIFT features; SVM | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Miyaki et al. (2015) [12] | Identify GC | 95 patients; ME-BLI | SIFT features; SVM | SVM outputs: 0.846 (cancer), 0.381 (redness), 0.219 (surrounding) |
Zhang et al. (2017) [13] | Classify gastric precancerous diseases | 1,331 images; WLI | GPDNet | Acc: 88.9% |
Hirasawa et al. (2018) [14] | Identify and segment GC | 2,716 lesions; WLI | SSD | Sen: 92.2%, PPV: 30.6% |
Liu et al. (2018) [15] | Identify GC | 1,120 images; ME-NBI | InceptionV3 | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Cho et al. (2019) [16] | Classify gastric neoplasm | 1,469 patients; WLI | Inception-ResNet-v2 | Acc: 76.4% |
Lee et al. (2019) [17] | Classify gastric neoplasm | 787 images; WLI | ResNet-50 | Acc: 96.5% (normal vs. cancer), 92.6% (normal vs. ulcer), 77.1% (cancer vs. ulcer) |
Luo et al. (2019) [18] | Identify and segment GC | 84,424 patients; 6 centers; WLI | DeepLabV3+ | Acc: 92.8%, Sen: 94.2%, Spe: 92.3%, PPV: 81.4%, NPV: 97.8% |
Hsu et al. (2019) [19] | Identify GC | 473 images; ME-NBI | SSSNet | Acc: 91.7%, Sen: 90.0%, Spe: 93.3%, PPV: 93.1% |
Yoon et al. (2019) [20] | Identify and segment GC | 11,539 images; WLI | Lesion-based VGG | AUC: 0.981 |
Nguyen et al. (2020) [21] | Identify pathological site | 7,894 images; WLI | Ensemble of deep-learning models | Acc: 70.7% |
Ikenoyama et al. (2021) [22] | Identify and segment GC | 16,524 images; WLI | SSD | Sen: 58.4%, Spe: 87.3%, PPV: 26.0%, NPV: 96.5% |
Hu et al. (2021) [23] | Identify GC | 295 patients; 3 centers; ME-BLI | VGG19 | Acc: 77.0%, Sen: 79.2%, Spe: 74.5% |
Kubota et al. (2012) [24] | Estimate tumor invasion depth | 344 patients; WLI endoscopy | Back propagation | Acc: 77.2% (T1), 49.1% (T2), 51% (T3), 55.3% (T4) |
Zhu et al. (2019) [25] | Estimate tumor invasion depth | 993 patients; WLI endoscopy | ResNet | AUC: 0.94, Acc: 89.16%, Sen: 76.47%, Spe: 95.56%, PPV: 89.66%, NPV: 88.97% (T1a/T1b vs. deeper than T1b) |
Yoon et al. (2019) [20] | Estimate tumor invasion depth | 11,539 images; WLI endoscopy | Lesion-based VGG | AUC: 0.851 (T1a vs. T1b) |
Nagao et al. (2020) [26] | Estimate tumor invasion depth | 1,084 patients; WLI, NBI, Indigo endoscopy | SSD | Acc: 94.5% (WLI), 94.3% (NBI), 95.5% (Indigo) |
An et al. (2020) [27] | Delineate resection margin for EGC | 1,244 images and ESD videos | UNet++ | IoU: 67.6% (image), 70.4% (video); Sen: 81.7% (image), 89.5% (video) |
Ling et al. (2021) [28] | Delineate resection margin for EGC | 1,670 images and ESD videos | UNet++ | Acc: 82.7% (differentiated), 88.1% (undifferentiated) |
AI, artificial intelligence; GC, gastric cancer; ME-FICE, magnifying endoscopy with flexible spectral imaging color enhancement; SIFT, scale-invariant feature transform; SVM, support vector machine; Acc, accuracy; Sen, sensitivity; Spe, specificity; ME-BLI, magnifying endoscopy with blue laser imaging; WLI, white light imaging; GPDNet, Gastric Precancerous Disease Network; SSD, single-shot multi-box detector; PPV, positive predictive value; ME-NBI, magnifying endoscopy with narrow-band imaging; NPV, negative predictive value; SSSNet, small-scale-aware Siamese network; AUC, area under the receiver-operating characteristic curve; Indigo, indigo-carmine dye contast imaging; EGC, early gastric cancer; ESD, endoscopic submucosal dissection; IoU, Intersection over Union..
위암은 만성 위축성 위염, 장상피 화생, 이형성증을 걸쳐 최종적으로 암으로 진행하는 것으로 알려져 있다[54,55]. 진행성 위암의 경우 5년 생존율이 30% 미만인데 반해 조기 위암의 경우 이보다 훨씬 높은 90% 이상이다[2,3]. 따라서 내시경을 통한 위암의 조기 발견이 매우 중요하다. 하지만 형태, 위치 등에 따라 위암을 놓칠 확률은 내시경 시술자에 따라 4.6%에서 25.8%로 개인차가 크며 이는 경험이 적은 시술자에게 더 자주 발생한다[10,56-58]. Miyaki 등[11]은 고전적인 machine-learning 기술인 scale-invariant feature transfer (SIFT)와 보조적인 support vector machine (SVM)을 이용하여 확대-영상증강내시경(magnifying endoscopy with flexible spectral imaging color enhancement, ME-FICE) 영상으로 85.9%의 정확도, 84.8%의 민감도와 87.0%의 특이도를 확인했다. 이 연구는 위암의 진단에서 인공지능의 잠재력을 보여주지만 인간이 직접 컷오프 값을 설정했고 데이터 크기가 작다는 제한점이 있었다. Hirasawa 등[14]의 연구는 single-shot multibox detector (SSD)를 사용하여 추출과 학습을 결합한 deep-learning을 기반으로 한 최초의 연구이며 자동으로 위암 병소를 발견함에 있어 92.2%의 민감도를 획득했다. 허나 위축성 위염이나 장상피 화생을 위암으로 진단하는 30.6%의 낮은 양성 예측도를 보여 이 또한 한계가 있었다. Luo 등[18]은 Gastrointestinal Artificial Intelligence Diagnostic System (GRAIDS)을 개발하고 6개의 기관, 84,424명의 환자에서 1,036,496개 내시경 영상을 사용하여 정확도 92.8%, 민감도 94.2%, 특이도 92.3%, 양성 예측도 81.4%, 음성 예측도 97.8%를 획득하였으며 이는 내시경 전문가와 비슷한 수준이었다.
위암 침윤의 깊이는 위암 치료에 있어서 매우 중요한 인자이며 점막이나 점막하층에 국한된 경우 내시경적 절제술과 같은 최소 침습 치료가 가능하게 해주고 불필요한 수술을 줄일 수 있게 해준다. 하지만 육안으로 확인하는 내시경 검사상 침윤 깊이의 예측은 매우 어려운 경우가 많으며 침습적인 시술을 통한 병리학적 검증만이 유일한 방법이다. 따라서 침윤 깊이 예측에 대한 좀 더 정확한 검사의 필요성이 강조되고 있다. Kubota 등[24]은 back propagation 알고리듬을 사용하여 침윤 깊이를 예측했으며 진단 정확도는 T1, T2, T3, T4 위암에서 각각 77.2%, 49.1%, 51%, 55.3%였다. T1a (침윤 깊이 점막층까지 침윤)와 T1b (침윤 깊이 점막하층까지 침윤)에 대한 정확도는 각각 68.9%, 63.6%로 이는 내시경 전문가와 비슷한 수준이었다. 하지만 T2 이상의 진행성 병변에 대해서는 정확도가 감소하는 한계가 있었다. Zhu 등[25]은 T1a와 T1b를 P0, T2 이상을 P1으로 나누고 이에 대한 790개의 영상을 ResNet에 학습시켜 내시경 전문가보다 더 높은 수준인 area under the receiver-operating characteristic curve (AUC) 0.94를 달성했다. Yoon 등[20]은 lesion-based visual geometry group (VGG)를 적용하여 T1a와 T1b를 구분하는 데 AUC 0.851을 달성하였으며 부정확한 예측이 미분화 암과 높은 관련이 있음을 확인했다. Nagao 등[26]은 더 나아가 narrow band imaging (NBI)를 사용한 영상증강내시경, indigo-carmine을 이용한 색소내시경까지 인공지능 영역을 확대하여 백색광 내시경에서 94.5%, NBI에서 94.3%, indigo-carmine에서 95.5%의 정확도를 달성했다.
내시경 절제술은 조기 위암의 치료에 있어 최소 침습으로 근치적 절제술을 할 수 있는 표준 치료이다[5]. 이 때 병변 경계에 대한 정확한 설정은 내시경 절제술에 있어 매우 중요한 첫 번째 과정이다. An 등[27]은 536명의 환자에게서 확보한 백색광과 색소내시경의 1,244개의 영상과 동영상을 deep-learning 모델로 설정하여 백색광 85.7%, 색소내시경 88.9%의 정확도를 확보했다. Ling 등[28]은 deep-learning 기반 시스템을 개발하여 병변 경계 설정에 대해 분화 암에서 82.7%, 미분화암에서 88.1%의 정확도를 달성했는데 이는 내시경 전문가보다 더 높은 수준이었다.
위암의 명확한 진단은 조직검사를 통해 얻어진 전체 슬라이드 영상(whole slide imaging, WSI)의 병리과 의사에 의한 육안적 판독에 의해 이뤄진다[59]. 하지만 위암 병변의 다양한 크기와 다수의 WSI는 병리과 의사에게 장시간의 집중력을 요하게 된다. 인공지능은 자동으로 정밀하고 신속한 병리학적 검사를 시행하는데 도움을 줄 수 있을 것으로 생각되며 이에 대한 다양한 연구가 이루어졌다(Table 2). 위암 조직은 일반적으로 다수의 일반 조직도 포함하고 있으며 WSI 영상은 컴퓨터가 직접 처리하기엔 너무 크기 때문에 일반적으로 이를 여러 구역으로 먼저 자르고 각 구역을 분류한 다음 각 구역 레벨에서의 예측을 기반으로 전체 슬라이드를 예측하게 된다. 관건은 WSI의 가장 대표적인 구역 레벨을 어떻게 설정하고 이를 얼마나 효율적으로 통합할 수 있는가에 달려 있다. Li 등[29]은 GastricNet 이라는 모델을 제안했으며 이는 위암 가능성이 높은 10개의 구역을 지정하고 이에 대해 점수를 부여하여 100%에 달하는 정확도를 보여주기도 했다. HER2는 최근 가장 주목받고 있는 위암 예측의 바이오마커이나 WSI를 통해 판독하는 데는 많은 시간이 소요되고 면역화학염색은 가격이 높으며 일반적인 hematoxylin and eosin (H&E) 염색으로는 HER2를 확인하기 힘들다[60,61]. 이러한 점을 극복하기 위해 Sharma 등[33,34]은 graph-based model, 9-layer convolutional neural network (CNN)를 사용하여 H&E 염색에서 HER2를 구분하고자 하였다. MSI는 위암의 면역 치료를 결정하는 데 있어 매우 중요한 인자 중 하나이다. Kather 등[35]과 Valieris 등[36]이 ResNet-18, CNN + RNN을 통해 H&E WSI로 MSI 상태를 예측하는 데 활용하였다. 이밖에도 Chen 등[37]은 ResNet-18을 이용하여 위암의 면역 미세환경 아형을 분류하였으며 면역 치료에 있어 인공지능의 가능성을 제시했다.
Table 2 . The Application of AI in Pathology of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Li et al. (2018) [29] | Identify GC | 700 slices; pathological image | GastricNet | Acc: 97.9% (patch), 100% (slice) |
Li et al. (2018) [30] | Identify and segment GC | 700 slices; pathological image | GT-Net | F1 score: 90.9% |
Sun et al. (2019) [31] | Identify and segment GC | 500 images; pathological image | Multi-scale embedding networks | Acc: 81.6 (pixel), mIoU: 82.65% |
Wang et al. (2019) [32] | Identify GC | 608 slices; pathological image | RMDL | Acc: 86.5% |
Sharma et al. (2016) [33] | Subtype of HER2 | 11 slices; H&E WSI | Graph-based model | Acc: 58.47% |
Sharma et al. (2017) [34] | Subtype of HER2 | 11 slices; H&E WSI | 9-layer CNN | Acc: 69.90% |
Kather et al. (2019) [35] | Subtype of MSI | 1,616 patients; H&E WSI; multicenter | ResNet-18 | Acc: 84% (TCGA-CRC-DX), 77% (TCGA-CRC-KR), 84% (DACHS), 69% (KCCH) |
Valieris et al. (2020) [36] | Subtype of MSI | 1,616 patients; H&E WSI | CNN + RNN | Acc: 81% |
Chen et al. (2021) [37] | Immune subtype | 808 patients; H&E WSI | ResNet-18 | Acc: 80.39% (validation), 76.47% (test) |
AI, artificial intelligence; GC, gastric cancer; Acc, accuracy; mIoU, mean Intersection over Union; RMDL, recalibrated multi-instance deep learning; HER2, human epidermal growth factor receptor 2; H&E WSI, hematoxylin and eosin-stained whole slide imaging; CNN, convolutional neural network; MSI, microsatellite instability; RNN, recurrent convolutional neural network..
위암의 영상 의학적 평가에서 인공지능의 역할은 최근 활발하게 연구되고 있다(Table 3). 위암의 정확한 병기 설정은 위암의 치료 및 예후를 결정하는 매우 중요한 단계이다. CT는 위암의 수술 전 병기 설정에 가장 널리 활용되는 방법이지만 T staging에서 CT의 정확도는 77.8%에서 93.5%로 일정하지 않다[62,63]. 또한 T4a 위암의 CT를 통한 영상의학과 의사의 진단 정확도는 76.6%로 알려져 있다[64]. Wang 등[38]은 T1, T2와 T3, T4 위암을 구분하기 위해 arterial-phase-based radiomics model을 이용하여 training set와 test set에서 각각 AUC 0.899, 0.825를 보여주었다. Sun 등[39]은 T4a 위암에서 CT-based deep-learning radiomics를 이용하여 training set에서 AUC 0.90, 두 번의 test set에서 각각 0.87, 0.90을 달성했다. N staging은 림프절 전이가 없는 N0, 1–2개의 림프절 전이 N1, 3–6개의 림프절 전이 N2, 7–15개의 림프절 전이 N3a 그리고 15개를 초과하는 림프절 전이 N3b로 분류된다[65]. CT는 수술 전 N staging에 주로 사용되는 방법이지만 CT에서 영상의학과 의사의 N staging의 정확도 또한 50–70%로 그다지 높지 않다[66]. Dong 등[40]은 deep-learning radionomic nomogram을 활용한 수술 전 CT 영상에서 외부 검증, 국제 검증 data set에서 각각 AUC 0.797, 0.822의 인상적인 변별력을 보여주었다. 여기에 더해 Li 등[41]은 dual energy CT 기반의 deep learning radionomics를 적용해서 0.82의 AUC를 달성했다. 또한 Jin 등[42]은 ResNet-18을 활용해서 1,699명의 환자의 data set을 적용, 0.876의 median AUC를 보여주었다. 복막 전이(peritoneal metastasis, PM)는 위암에서 가장 흔한 stage IV의 형태 중 하나이다[67]. 복막 전이 환자는 완전 절제(R0 resection) 가능성이 낮아 수술이 권장되지 않는다. CT는 수술 전 복막 전이 여부를 판단하는 가장 흔한 비침습적 검사이지만 사람의 눈으로 잠복 복막 전이(occult PM)를 배제하기 어렵다. Dong 등[43]은 4개의 기관에서 수집한 554명의 잠복 복막 전이 환자의 CT에서 radionomics를 활용하여 잠복 복막 전이를 예측하는 데 0.928–0.920의 AUC를 달성했다. Huang 등[44]은 CNN model에 544명의 CT를 적용하여 AUC 0.900, 민감도 81.0%, 특이도 87.5%를 보여주었다. Jiang 등[45]은 PMetNet을 활용해서 3개 기관 1,978명의 CT에서 AUC 0.920–0.946, 민감도 75.4–87.5%, 특이도 92.9–98.2%를 달성했다. Chromosomal instability (CIN)는 전체 위암의 분자 유형 중 절반 가량을 차지하고 있는 것으로 알려져 있다[68]. CIN을 확인하는 고전적인 방법은 침습적인 조직검사와 복합적인 유전적 분석을 필요로 한다. 최근에는 방사선 유전학의 발달로 위암의 분자 유형을 구분하는 비침습적인 영상 의학적 방법이 소개되고 있다. Lai 등[46]은 58명의 CT에서 radionomics를 이용하여 AUC 0.89로 CIN을 구분해냈다. 이는 인공지능이 비침습적 방법을 통해 위암의 분자 유형을 구분하는 데 도움이 될 수 있는 가능성을 시사했다.
Table 3 . The Application of AI in Radiology of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Wang et al. (2020) [38] | Estimate tumor invasion depth | 244 patients; CT | Radiomics | AUC: 0.899 (train), 0.825 (test) (T2 vs. T3/4) |
Sun et al. (2020) [39] | Estimate tumor invasion depth | 572 patients; CT | Deep-learning radiomics | AUC: 0.87 (test1), 0.90 (test2) (T4) |
Dong et al. (2020) [40] | Predict lymph-node metastasis | 730 patients; CT, multicenter | Deep-learning radiomics | C-index: 0.797 (external), 0.822 (international) |
Li et al. (2020) [41] | Predict lymph-node metastasis | 204 patients; Dual-energy CT | Deep-learning radiomics | AUC: 0.82 |
Jin et al. (2021) [42] | Predict lymph-node metastasis | 1,699 patients; CT | ResNet-18 | Median AUC: 0.876 |
Dong et al. (2019) [43] | Identify occult peritoneal metastasis | 554 patients; four centers; CT | Radiomics | AUC: 0.928–0.920 |
Huang et al. (2020) [44] | Identify occult peritoneal metastasis | 544 patients; CT | CNN | AUC: 0.900, Sen: 81.0%, Spe: 87.5% |
Jiang et al. (2021) [45] | Identify occult peritoneal metastasis | 1,978 patients; three centers; CT | PMetNet | AUC: 0.920–0.946, Sen: 75.4–87.5%, Spe: 92.9–98.2% |
Lai et al. (2019) [46] | Radiogenomics; subtype of CIN | 58 patients; CT | Radiomics | AUC: 0.89, Acc: 88.9%, Spe: 88.9%, Sen: 88.9% |
AI, artificial intelligence; CT, computerized tomography; AUC, area under the receiver-operating characteristic curve; C-index, concordance index; CNN, convolutional neural network; Sen, sensitivity; Spe, specificity; CIN, chromosomal instability; Acc, accuracy..
인공지능의 발전은 항암치료의 반응 평가와 예후 예측에도 그 영역을 확대하고 있다(Table 4). 항암치료는 근치적 절제술을 할 수 없는 환자들의 기대 수명을 연장할 수 있는 치료다. 하지만 환자 개개인은 같은 항암치료에 대해 서로 다른 반응을 보일 수 있다[69]. Tan 등[47]은 V-net-based model을 적용한 delta radionomics를 활용하여 항암치료 반응을 평가하는 데 시험단계에서 AUC 0.728, 외부 검증에서 AUC 0.828을 보여주었다. 병기는 환자의 예후를 결정하는 데 중요한 인자이지만 같은 병기의 환자라도 다양한 생존 기간을 보여줄 수 있다. Cox 회귀분석은 이런 생존 기간을 분석하는 데 고전적으로 사용된 방법이다. Hyung 등[49]은 환자의 나이, 성별, 과거력, 위암의 깊이, 림프 전이의 개수, 원격 전이 여부, 절제 범위 등의 특성을 five-layer neural network에 적용해서 Cox 회귀분석을 뛰어넘는 83.5% 정확도의 5년 생존율을 예측했다. Zhang 등[50]은 CT에 ResNet-based model을 적용, 진행성 위암 환자의 전반적인 생존율을 예측해서 concordance index (C-index) 0.78을 달성했다. Jiang 등[51]은 deep-learning 기반의 DeLIS를 제안해서 수술 전 CT를 활용해 전반적인 C-index 0.792–0.802를 보여주었다. 인공지능을 활용한 예후 예측은 병리학적 영역에서도 연구되었다. Meier 등[52]은 면역조직화학 염색 조직의 마이크로 어레이를 GoogLeNet에 적용하여 immune-related CNN score가 예후 예측에 도움이 될 수 있음을 제시했다. Wang 등[53]은 1,164명의 림프절 WSI를 U-net, ResNet에 적용, N stage만을 통해서 위험비 2.04, C-index 0.694를 달성했다.
Table 4 . The Application of AI in Prognosis Prediction of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Tan et al. (2020) [47] | Predict chemotherapy response | 116 patients | Delta radiomics | Acc: 0.728–0.828 |
Joo et al. (2019) [48] | Predict molecular drug response | GDSC, CCLE, TCGA dataset | DeepIC50 | |
Hyung et al. (2017) [49] | Prognosis prediction | 1,549 patients; clinicopathologic factors | Five-layer neural network | AUC: 0.844–0.852 (five-year survival) |
Zhang et al. (2020) [50] | Prognosis prediction | 640 patients; CT | ResNet | C-index: 0.78 (OS) |
Jiang et al. (2021) [51] | Prognosis prediction | 1,615 patients; CT | S-net | C-index: 0.792 (DFS), 0.802 (OS) |
Meier et al. (2020) [52] | Prognosis prediction | 248 patients; IHC-stained TMAs | GoogLeNet | Hazard ratio: 1.273 (Cox), 1.234 (Uno), 1.149 (Logrank) |
Wang et al. (2021) [53] | Prognosis prediction | 1,164 patients; lymphnode pathological images | U-net, ResNet | Hazard ratio: 2.04 (univariable), C-index: 0.694 |
AI, artificial intelligence; Acc, accuracy; GDSC, genomics of drug sensitivity in cancer; CCLE, cancer cell line encyclopedia; TCGA, the cancer genome atlas; AUC, area under the receiver-operating characteristic curve; CT, computerized tomography; C-index, concordance index; OS, overall survival; DFS, disease-free survival; IHC, immunohistochemistry; TMA, tissue microarray..
인공지능을 활용한 대부분의 연구들은 그 결과가 대단히 인상적으로 보일 수 있다. 하지만 대부분 단일 기관 연구이거나 데이터가 충분하지 않고 그 데이터의 대표성 또한 논란이 있을 수 있다. 또 인공지능의 지나치게 매개변수화된 블랙박스 특성상 낮은 해석력도 비판의 대상이 될 수 있다. 따라서 인공지능의 성능을 검증할 수 있는 더 정교한 알고리듬을 사용한 연구를 수행하는 데 많은 관심을 기울여야 한다. 현재까지의 연구는 내시경, CT, 병리 결과를 각각 따로 분석하고 있다. 때문에 이러한 영역을 아울러 동시에 분석하는 통합된 다중 양식 알고리듬(multi-modality algorithms)을 개발할 필요가 있다. 또한 대부분의 연구는 위암의 발견, 병기 설정, 예후 예측 등 각각 단일 항목만을 다루고 있다. 이러한 항목들을 유기적이고 복합적으로 연결한 다중 작업 알고리듬(multi-task algorithm)은 다양한 분야의 정보를 동시에 학습하고 분석할 수 있다. 이러한 다중 양식 알고리듬과 다중 작업 알고리듬이 개발된다면 인공지능의 비약적인 발전을 기대할 수 있을 것이다.
인공지능 기술, machine learning과 deep learning은 위암의 영역에서 주목할 만큼 발전했다. 내시경의 영역에서 인공지능은 위암의 인지, 진단, 침윤 깊이, 절제 범위를 파악하는 데 도움을 줄 수 있다. 병리조직검사 영역에서 인공지능은 진단 시간을 줄여주고 분자 유형을 구분하는 데 보조적인 역할을 할 수 있다. 영상의학 영역에서 인공지능은 CT를 기반으로 병기 설정, 치료의 선택, 예후 예측 등을 도울 수 있다. 이러한 연구들은 위암에서 인공지능이 보여줄 수 있는 가능성을 시사하는 반면 데이터 부족, 낮은 해석력 등 그 유효성에 의문 또한 존재한다. 하지만 알고리듬의 발전을 통해 개선이 이루어진다면 조만간 임상에서 인공지능의 활발한 활용을 기대할 수 있을 것이다.
None.
No potential conflict of interest relevant to this article was reported.
Table 1 . The Application of AI in Endoscopy of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Miyaki et al. (2013) [11] | Identify GC | 46 patients; ME-FICE | SIFT features; SVM | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Miyaki et al. (2015) [12] | Identify GC | 95 patients; ME-BLI | SIFT features; SVM | SVM outputs: 0.846 (cancer), 0.381 (redness), 0.219 (surrounding) |
Zhang et al. (2017) [13] | Classify gastric precancerous diseases | 1,331 images; WLI | GPDNet | Acc: 88.9% |
Hirasawa et al. (2018) [14] | Identify and segment GC | 2,716 lesions; WLI | SSD | Sen: 92.2%, PPV: 30.6% |
Liu et al. (2018) [15] | Identify GC | 1,120 images; ME-NBI | InceptionV3 | Acc: 85.9%, Sen: 84.8%, Spe: 87.0% |
Cho et al. (2019) [16] | Classify gastric neoplasm | 1,469 patients; WLI | Inception-ResNet-v2 | Acc: 76.4% |
Lee et al. (2019) [17] | Classify gastric neoplasm | 787 images; WLI | ResNet-50 | Acc: 96.5% (normal vs. cancer), 92.6% (normal vs. ulcer), 77.1% (cancer vs. ulcer) |
Luo et al. (2019) [18] | Identify and segment GC | 84,424 patients; 6 centers; WLI | DeepLabV3+ | Acc: 92.8%, Sen: 94.2%, Spe: 92.3%, PPV: 81.4%, NPV: 97.8% |
Hsu et al. (2019) [19] | Identify GC | 473 images; ME-NBI | SSSNet | Acc: 91.7%, Sen: 90.0%, Spe: 93.3%, PPV: 93.1% |
Yoon et al. (2019) [20] | Identify and segment GC | 11,539 images; WLI | Lesion-based VGG | AUC: 0.981 |
Nguyen et al. (2020) [21] | Identify pathological site | 7,894 images; WLI | Ensemble of deep-learning models | Acc: 70.7% |
Ikenoyama et al. (2021) [22] | Identify and segment GC | 16,524 images; WLI | SSD | Sen: 58.4%, Spe: 87.3%, PPV: 26.0%, NPV: 96.5% |
Hu et al. (2021) [23] | Identify GC | 295 patients; 3 centers; ME-BLI | VGG19 | Acc: 77.0%, Sen: 79.2%, Spe: 74.5% |
Kubota et al. (2012) [24] | Estimate tumor invasion depth | 344 patients; WLI endoscopy | Back propagation | Acc: 77.2% (T1), 49.1% (T2), 51% (T3), 55.3% (T4) |
Zhu et al. (2019) [25] | Estimate tumor invasion depth | 993 patients; WLI endoscopy | ResNet | AUC: 0.94, Acc: 89.16%, Sen: 76.47%, Spe: 95.56%, PPV: 89.66%, NPV: 88.97% (T1a/T1b vs. deeper than T1b) |
Yoon et al. (2019) [20] | Estimate tumor invasion depth | 11,539 images; WLI endoscopy | Lesion-based VGG | AUC: 0.851 (T1a vs. T1b) |
Nagao et al. (2020) [26] | Estimate tumor invasion depth | 1,084 patients; WLI, NBI, Indigo endoscopy | SSD | Acc: 94.5% (WLI), 94.3% (NBI), 95.5% (Indigo) |
An et al. (2020) [27] | Delineate resection margin for EGC | 1,244 images and ESD videos | UNet++ | IoU: 67.6% (image), 70.4% (video); Sen: 81.7% (image), 89.5% (video) |
Ling et al. (2021) [28] | Delineate resection margin for EGC | 1,670 images and ESD videos | UNet++ | Acc: 82.7% (differentiated), 88.1% (undifferentiated) |
AI, artificial intelligence; GC, gastric cancer; ME-FICE, magnifying endoscopy with flexible spectral imaging color enhancement; SIFT, scale-invariant feature transform; SVM, support vector machine; Acc, accuracy; Sen, sensitivity; Spe, specificity; ME-BLI, magnifying endoscopy with blue laser imaging; WLI, white light imaging; GPDNet, Gastric Precancerous Disease Network; SSD, single-shot multi-box detector; PPV, positive predictive value; ME-NBI, magnifying endoscopy with narrow-band imaging; NPV, negative predictive value; SSSNet, small-scale-aware Siamese network; AUC, area under the receiver-operating characteristic curve; Indigo, indigo-carmine dye contast imaging; EGC, early gastric cancer; ESD, endoscopic submucosal dissection; IoU, Intersection over Union..
Table 2 . The Application of AI in Pathology of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Li et al. (2018) [29] | Identify GC | 700 slices; pathological image | GastricNet | Acc: 97.9% (patch), 100% (slice) |
Li et al. (2018) [30] | Identify and segment GC | 700 slices; pathological image | GT-Net | F1 score: 90.9% |
Sun et al. (2019) [31] | Identify and segment GC | 500 images; pathological image | Multi-scale embedding networks | Acc: 81.6 (pixel), mIoU: 82.65% |
Wang et al. (2019) [32] | Identify GC | 608 slices; pathological image | RMDL | Acc: 86.5% |
Sharma et al. (2016) [33] | Subtype of HER2 | 11 slices; H&E WSI | Graph-based model | Acc: 58.47% |
Sharma et al. (2017) [34] | Subtype of HER2 | 11 slices; H&E WSI | 9-layer CNN | Acc: 69.90% |
Kather et al. (2019) [35] | Subtype of MSI | 1,616 patients; H&E WSI; multicenter | ResNet-18 | Acc: 84% (TCGA-CRC-DX), 77% (TCGA-CRC-KR), 84% (DACHS), 69% (KCCH) |
Valieris et al. (2020) [36] | Subtype of MSI | 1,616 patients; H&E WSI | CNN + RNN | Acc: 81% |
Chen et al. (2021) [37] | Immune subtype | 808 patients; H&E WSI | ResNet-18 | Acc: 80.39% (validation), 76.47% (test) |
AI, artificial intelligence; GC, gastric cancer; Acc, accuracy; mIoU, mean Intersection over Union; RMDL, recalibrated multi-instance deep learning; HER2, human epidermal growth factor receptor 2; H&E WSI, hematoxylin and eosin-stained whole slide imaging; CNN, convolutional neural network; MSI, microsatellite instability; RNN, recurrent convolutional neural network..
Table 3 . The Application of AI in Radiology of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Wang et al. (2020) [38] | Estimate tumor invasion depth | 244 patients; CT | Radiomics | AUC: 0.899 (train), 0.825 (test) (T2 vs. T3/4) |
Sun et al. (2020) [39] | Estimate tumor invasion depth | 572 patients; CT | Deep-learning radiomics | AUC: 0.87 (test1), 0.90 (test2) (T4) |
Dong et al. (2020) [40] | Predict lymph-node metastasis | 730 patients; CT, multicenter | Deep-learning radiomics | C-index: 0.797 (external), 0.822 (international) |
Li et al. (2020) [41] | Predict lymph-node metastasis | 204 patients; Dual-energy CT | Deep-learning radiomics | AUC: 0.82 |
Jin et al. (2021) [42] | Predict lymph-node metastasis | 1,699 patients; CT | ResNet-18 | Median AUC: 0.876 |
Dong et al. (2019) [43] | Identify occult peritoneal metastasis | 554 patients; four centers; CT | Radiomics | AUC: 0.928–0.920 |
Huang et al. (2020) [44] | Identify occult peritoneal metastasis | 544 patients; CT | CNN | AUC: 0.900, Sen: 81.0%, Spe: 87.5% |
Jiang et al. (2021) [45] | Identify occult peritoneal metastasis | 1,978 patients; three centers; CT | PMetNet | AUC: 0.920–0.946, Sen: 75.4–87.5%, Spe: 92.9–98.2% |
Lai et al. (2019) [46] | Radiogenomics; subtype of CIN | 58 patients; CT | Radiomics | AUC: 0.89, Acc: 88.9%, Spe: 88.9%, Sen: 88.9% |
AI, artificial intelligence; CT, computerized tomography; AUC, area under the receiver-operating characteristic curve; C-index, concordance index; CNN, convolutional neural network; Sen, sensitivity; Spe, specificity; CIN, chromosomal instability; Acc, accuracy..
Table 4 . The Application of AI in Prognosis Prediction of Gastric Cancer.
Reference | Aim | Data | Method | Result |
---|---|---|---|---|
Tan et al. (2020) [47] | Predict chemotherapy response | 116 patients | Delta radiomics | Acc: 0.728–0.828 |
Joo et al. (2019) [48] | Predict molecular drug response | GDSC, CCLE, TCGA dataset | DeepIC50 | |
Hyung et al. (2017) [49] | Prognosis prediction | 1,549 patients; clinicopathologic factors | Five-layer neural network | AUC: 0.844–0.852 (five-year survival) |
Zhang et al. (2020) [50] | Prognosis prediction | 640 patients; CT | ResNet | C-index: 0.78 (OS) |
Jiang et al. (2021) [51] | Prognosis prediction | 1,615 patients; CT | S-net | C-index: 0.792 (DFS), 0.802 (OS) |
Meier et al. (2020) [52] | Prognosis prediction | 248 patients; IHC-stained TMAs | GoogLeNet | Hazard ratio: 1.273 (Cox), 1.234 (Uno), 1.149 (Logrank) |
Wang et al. (2021) [53] | Prognosis prediction | 1,164 patients; lymphnode pathological images | U-net, ResNet | Hazard ratio: 2.04 (univariable), C-index: 0.694 |
AI, artificial intelligence; Acc, accuracy; GDSC, genomics of drug sensitivity in cancer; CCLE, cancer cell line encyclopedia; TCGA, the cancer genome atlas; AUC, area under the receiver-operating characteristic curve; CT, computerized tomography; C-index, concordance index; OS, overall survival; DFS, disease-free survival; IHC, immunohistochemistry; TMA, tissue microarray..