의사 vs chatgpt : 클리앙

이세돌은 2016년 2월 22일, JTBC 뉴스룸 손석희 앵커와의 인터뷰에서 “이번만큼은 제가 이길 수 있을 거라 확신한다”**고 자신감을 드러냈다.

그는 4대1로 패배한다. 이후 더 발전된 알파고 제로는 이세돌이 4대 1로 졌던 알파고 버전을 9대 0으로 압승한다.

현재 프로 바둑 기사 중 그 누구도 인공지능 바둑 기사를 이길 수 있는 사람은 없다. 현재 인공지능은 구글의 알파고 제로가 아니다. 구글의 알파고 팀은 알파고를 해체하고 떠났으며 현재의 AI는 모두 그 아류일 뿐이다.

그리고 2025년, 여러 연구에서 chatgpt와 의사의 진단을 비교했다. 그래서 chatgpt가 의사보다 낫냐? 아래 구체적인 사례를 보면 알겠지만 텍스트 기반에서는 일반적인 의사보다는 낫고, 전문의와는 비슷하거나 조금 낮은 경향을 보였다. 특히 영상 진단에서는 점수가 낮았다.

그러니 chatgpt에 증상을 말하고 진단을 묻는 건 당연한 거다. 심지어 접근성과 편이성 부문에서 의사에 비할 바가 아니다.

그리고 전문의가 아닌 일반의보다는 더 나으니 동네 일반의에게 chatgpt 진단을 가져가서 상담하는 게 이상할 이유도 없다.

ps) 이 글은 다른 곳의 글을 저자 허락 하에 옮겨왔습니다.

1. 텍스트 기반 임상 시나리오에서의 성능

a) 미국 의사 면허시험(USMLE) 및 유사 시나리오

GPT‑4 Omni (GPT‑4o)는 750문항에서 90.4% 정답률을 기록했으며, GPT‑4는 81.1%, GPT‑3.5는 60.6%, 그리고 의대생 평균은 59.3%였습니다.PMC PubMed

진단 관련 문항(“Diagnostics”)에서 GPT‑4o는 92.7%, 치료 계획(“Management”) 문항에서는 88.8%의 정확도를 보였습니다.JMIR Medical Education

b) 공식 레지던트 시험 대비 성능

이스라엘 레지던트 5개 핵심 전문분야 시험에서 GPT‑4는 정신과에서 상위 75th percentile, 내과 및 외과는 중간 수준, 소아과 및 산부인과는 낮은 성능을 보였지만 합격 점수 이상을 기록했습니다.NEJM AI

c) 응급의학 및 내과 실제 사례

응급실 내원 100명 사례를 대상으로 비교한 연구에서, GPT‑4는 진단 정확도 평균 1.76점 (2점 만점)으로, GPT‑3.5 (1.51점) 및 응급 레지던트(1.59점)를 모두 뛰어넘었습니다 (P<.01).JMIR PubMed

d) 일본 GM‑ITE 시험 성능

GPT‑4는 레지던트 평균 55.8% 대비 70.1%의 높은 점수로, 특히 내과(+26.1pp), 산부인과(+30.9pp), 난이도 높은 문항에서 뛰어난 성능을 보였습니다. 다만, 의사소통/전문성 관련 항목에서는 인간보다 낮게 나타났습니다.JMIR Medical Education PMC

e) 안과 사례 평가

GPT‑4는 87개의 환자 사례 평가에서, 초급 의사보다 뛰어난 성능을 보였고, 많은 전문의 수준과 유사한 성능을 보였습니다.Financial Times

2. 영상 기반 및 멀티모달 진단에서의 성능

a) 골격 영상 (방사선과)

GPT‑4 (텍스트만 입력)는 106 골격 사례 중 43% 정확도를 기록, 방사선 레지던트(41%)와 유사, 전문의(53%)보다는 낮았으나 통계적으로 유의미한 차이 없음.

GPT‑4V (이미지 입력 포함)는 8% 정확도에 그쳤습니다.SpringerLink PubMed

b) 다양한 영상 (CT/MRI/X‑선/초음파)

GPT‑4V는 영상 모달리티 인식은 뛰어나 (100%)지만, 병리 인식 정확도는 전체 35.2%, 특히 초음파는 9.1%, CT/MRI/X‑선은 36~66.7% 수준으로 나타났습니다.PubMed

c) Radiology ‘Diagnosis Please’ 사례

GPT‑4V (온도 조절 T=1)는 190개 사례에서 49% 정확도, 방사선 전문의는 61%, 차이는 통계적으로 유의하지 않을 수 있으나 인간이 더 우수한 경향을 보였습니다. 특히 1차 감별 진단에서는 전문의 48% vs GPT‑4V 15%였고, GPT‑4V는 처리 속도는 매우 빠름 (~19초/case) RSNA Pubs

d) 전반적인 영상 진단 한계

GPT‑4V는 의료 영상 해석 및 진단능력은 아직 부족하며, 보고서 생성도 실패 수준이라는 연구도 있습니다.arXiv+1

더 포괄적인 평가에서도, GPT‑4V는 영상 모달리티와 해부학만 인지할 뿐, 진단과 보고서 작성은 어려움이 있다는 결론도 있습니다.arXiv

모두의공원

의사 vs chatgpt 3