HOME
Korean J Gastroenterol < Volume 84(5); 2024 < Articles
요약: Chat Generative Pre-trained Transformer (ChatGPT)는 인간과 같은 텍스트를 만들어 낼 수 있는 대규모 언어 모델(Large Language Models, LLMs) 기반의 생성형 인공지능(Generative artificial intelligence, AI) 모델로서, open AI에 의해 개발되었다. 2022년 11월 첫 등장한 대화형 인공지능 ChatGPT가 의료계 화두로 떠오른 건 미국 의사면허 시험(United States Medical Licensing Examination, USMLE)를 통과했다는 소식이 알려지면서부터다. 현재 ChatGPT는 많은 사람들이 연구는 물론, 진료의 보조적 수단으로 활용하고 있으나 실제 의료 환경에서 정확성은 확립되지 않았다. 이번에 소개하고자 하는 연구는 ChatGPT4가 대장내시경 후 추적 대장내시경검사 시기를 얼마나 진료 지침에 맞게 제시하는지 확인한 연구이다.
본 연구의 일차 목표는 ChatGPT4와 대장암 선별 및 감시에 대한 가이드라인을 대표하는 US Multi-Society Task Force (USMSTF) 패널 간에 대장 내시경 후 추적 검사 간격 권고 사항에 대한 정확성 및 일치도를 확인하는 것이었다. 이차 목표는 ChatGPT4, USMSTF 패널 그리고 임상 소화기의사가 제시하는 대장 내시경 후 추적 검사 간격 권고 사항의신뢰도를 확인하는 것이었다.
본 연구 대상자는 2개의 대형 병원 Keck Medical Center (KMC)와 Los Angeles General Medical Center (LAGMC)에서 대장암 검진을 위해 시행한 18세 이상 성인과 빈혈이나 영상검사 이상 등 다른 이상이 있어 대장내시경을 시행한 환자를 모두 포함하였다. 암, 염증성 장질환, 유전성 용종 증후군 등의 과거력이 있거나, 치료 내시경을 위해 전원 된 환자는 제외하였다. 전자 의무 기록 시스템에 기록된 환자의 현병력 및 질병 과거력을 추출하였고 대장내시경 결과, 병리 결과를 종합하였으며 전자 의무 기록 시스템에 없는 가족력과 같은 기록은 별도의 기록을 찾아 입력하였다.
ChatGPT4는 2023년 4월 30일부터 2023년 10월1일까지 2020년 USMSTF가 제시한 American Gastroenterological Association (AGA) 임상진료지침에 기반하여1 적절한 재검사 혹은 추적 검사 간격을 제시하도록 표준화된 프롬프트로 초기화되었다. 이후 환자의 현병력, 질병 과거력, 가족력, 대장내시경 결과, 병리 결과를 대화 형식으로 입력한 뒤 추적 검사 간격 권고 사항 출력 결과를 기록하였다.
USMSTF 패널을 기준 표준으로 정의하였고, 이 패널에는 제1 저자와 최고 연구자를 포함하였으며 의견 불일치가 있을 경우 두 번째 최고 연구자와 상의를 통해 합의점을 찾았다. 임상 소화기 의사는 2개의 대형 병원 KMC와 LAGMC의 의사로 구성되었다. KMC의 의사는 1,000건 이상의 대장내시경을 시행한 6명의 내시경 의사로 구성되었고, LAGMC의 의사는 100에서 1,000건의 대장내시경을 시행한 4–6년 차 소화기학 펠로우를 포함하여 구성되었다.
총 888건의 대장내시경 시술 받은 환자 중 최종적으로 505명을 분석하였다. 평균 연령은 56.3±10.6세였고, 274명(54%)이 여성이었으며 38명(7%)이 대장암의 가족력을 갖고 있었다. 그 중, 총 319명(61%)이 용종 절제술을 받았다.
ChatGPT4는 509명의 환자 중 505명(99.2%)의 환자에서 추적 검사 간격 권고를 성공적으로 생성하였다. 추적 검사 간격 권고를 생성하지 못한 4명 중 2명에서는 이전 대장내시경 결과를 요구하였고, 나머지 2명에서는 가족 구성원이 대장암 진단을 받은 나이를 요구하였다.
최종 505명의 환자의 결과를 보면, ChatGPT4의 권고사항은 85.7%에서 USMSTF 패널과 일치하였고 임상 소화기 의사는 75.4%에서 USMSTF 패널과 일치하였다(McNemar test, p<0.001). ChatGPT4와 USMSTF 패널을 비교하였을 때, 일치하지 않은 권고사항은 총 70건으로, 26건(5.1%)에서 더 늦은 검사를, 44건(8.7%)에서 더 이른 검사를 권고하였다.
ChatGPT4, USMSTF 패널, 임상 소화기 의사의 추적 검사 간격 권고 사항의 평가자 간 신뢰도를 측정하기 위해 Fleiss kappa 분석을 하였다. 평가자 간 신뢰도는 ChatGPT4와 USMSTF 패널 간에 good agreement (κ, 0.786; 95% confidence interval [CI], 0.734–0.838; p<0.001)로 나타났다. ChatGPT4와 임상 소화기 의사 간에는 fair agreement (k, 0.543; 95% CI, 0.493–0.594; p<0.001)로 나타났으며, 임상 소화기의사와 USMSTF 패널 간에는 good agreement(k, 0.638; 95% CI, 0.587–0.688; p<0.001)로 나타났다.2
해설: 2020년 USMSTF는 대장 용종 절제술을 시행한 뒤 용종의 개수, 크기, 조직 검사결과 등을 토대로 추적 검사 간격을 권고하고 있다.1 마찬가지로 우리나라에서도 2022년 폴립 절제 후 추적 대장내시경 검사 진료 지침 개정안이 발표되었다.3 진료 지침에 따른 대장 내시경 추적검사는 적절한 시기에 전암성 용종의 조기 발견 및 제거를 가능하게 함으로써 대장암의 위험을 줄일 수 있다. 하지만 실제 임상에서는 재검사 및 감시 지침에 대한 준수는 정확하게 이루어지지 않은경우가 많다. 과잉 검진은 환자를 불필요한 위험에 노출시킬수 있고, 과소 진료는 환자를 발견하지 못한 신생물의 위험에노출시킬 수 있다.
ChatGPT4의 권고사항은 USMSTF 패널과 85.7%의 높은 일치율을 보였고, 임상 소화기 의사에 비해 더 높은 일치율과 평가자 간 신뢰도를 보였다. 물론 44건에서 더 이른 검사를, 26건에서 더 늦은 검사를 잘못 권고하였지만, ChatGPT와 같은 LLM이 좀 더 훈련된다면 대장암 예방을 위한 추적 대장 내시경 검사 진료 지침에 대한 편차를 최소화하는 보조 수단으로 사용될 수 있는 가능성을 보여주었다.
이 연구와 비슷한 다른 연구에서는 inflammatory bowel disease (IBD) 환자 관련하여 30개의 시나리오를 ChatGPT, 4명의 IBD 전문가, 4명의 비 IBD 전문가에게 제시한 뒤 검사 및 치료에 대해 물어보고 European Crohn’s and Colitis Organization (ECCO) 지침의 권고 사항과의 일치도를 확인하였다. 결과를 살펴보면 ChatGPT의 정답률은 87.8%였고, IBD 전문가는 85.8%, 비 IBD 전문가는 89.2%로 세 군간에 유의미한 차이를 보이지 않았다. ChatGPT가 염증성 장질환 환자에서 효과적으로 지침에 기반한 권고 사항을 제공할 수 있다는 가능성을 보여준 연구이다.4 또 다른 연구에서는 ChatGPT에 대장내시경, 과민성 대장증후군, 염증성 장질환 관련 질문을 한 뒤 적절한 대답과 함께 적절한 참고 문헌을 제시하는지 확인하였다. ChatGPT의 대답은 비교적 준수한 84%의 정확도를 보였지만 참고 문헌 제시에 있어서는 과민성 대장증후군 관련해서는 53%, 염증성 장질환 관련해서는 15% 그리고 대장 내시경 관련해서는 20%에서 부적절한 참고 문헌을 제시하였다. 이러한 결과는 임상에서 의사결정 및 참고 문헌 검색의 목적으로 ChatGPT에 의존하는 것은 위험할 수 있음을 시사한다.5
그럼에도 불구하고, 이번 연구에서 ChatGPT4는 환자의 현병력 및 과거력, 대장내시경 결과, 병리 결과 등 조직화되지 않은 데이터를 문자 그대로 대화 형태로 입력하였음에도 추적 대장내시경 권고사항을 훌륭하게 제시하였다. 물론 바로 임상에 ChatGPT4와 같은 LLM을 활용하기는 무리가 있지만 지금도 LLM은 계속 훈련하고 진화하고 있으며 임상에 활용될 수 있도록 최적화된다면 임상의의 능력을 향상시켜줄 잠재력이 매우 높다.
ChatGPT4 outperforms endoscopists for determination of postcolonoscopy rescreening and surveillance recommendations. (Clin Gastroenterol Hepatol 2024;22:1917-1925.e17)
None.
None.