“의사보다 정확도 25포인트↑”…클로드, 안과 임상 추론 실험서 앞섰다
안과 진료처럼 고난도 임상 의사결정에서도 생성형 인공지능이 숙련된 의사보다 높은 정답률을 보였다는 실험 결과가 나왔다. 그러나 의사와 인공지능이 함께 문제를 푸는 협업 구조에서는 오히려 인공지능 단독 성능보다 정확도가 떨어져, 의료 현장에서 인간과 인공지능 협력 모델을 어떻게 설계할지가 향후 디지털 헬스케어 품질을 가르는 핵심 변수로 부상하고 있다.
연세대 강남세브란스병원은 안과 최은영 교수 연구팀이 안과 영역의 난이도 높은 임상 문제를 놓고 인간 의사와 인공지능, 그리고 인간과 인공지능 협업 조건의 진단 정확도를 비교한 연구를 수행했으며, 이 결과를 토대로 아시아 망막학회 국제학술대회 제5회 아시아 레티나 콩그레스에서 최우수 포스터상을 수상했다고 1일 밝혔다. 생성형 인공지능이 단독으로 임상 추론을 수행할 때 어떤 수준의 판단 능력을 갖는지, 또 인간과 함께 추론할 때 성능이 어떻게 변하는지 정량적으로 분석했다는 점에서 학계의 관심을 모았다.

연구팀은 미국의사학회가 발간하는 학술지에서 제공하는 임상 문제 30문항을 실험에 활용했다. 문제는 실제 고난도 임상 사례를 기반으로 구성됐으며, 환자 상태에 따른 적절한 진단과 처치를 네 가지 선택지 가운데 고르는 4지선다형이다. 연구에는 인간 의사가 참여했으며, 인공지능 모델은 대형 언어모델 기반의 최신 버전으로 알려진 클로드3.5가 사용됐다.
실험 설계는 인간 의사 단독, 인공지능 단독, 인간과 인공지능 협업이라는 세 가지 조건으로 나뉘었다. 먼저 인간 단독 조건에서는 임상의가 각 증례를 독립적으로 검토한 뒤 인공지능의 조언 없이 진단과 처치 결정을 내렸다. 이어 협업 조건에서는 동일한 참여자가 같은 증례를 다시 검토하되, 사람이 먼저 임상 상황을 정리해 질문을 던지고 인공지능이 답변을 제시하는 방식으로 여러 차례 대화를 반복하며 추론 과정을 진행했다. 인공지능 단독 조건에서는 같은 문제를 인공지능에 제시하고, 모델이 스스로 최종 답을 도출하도록 했다.
분석 결과 인공지능 단독 조건의 정답률은 70퍼센트로, 인간 의사 단독 조건의 45퍼센트를 크게 상회했다. 인간과 인공지능 협업 조건에서는 정확도가 60퍼센트로 나타났다. 협업이 인간 단독보다는 15퍼센트포인트 개선됐지만, 인공지능 단독 성능보다는 10퍼센트포인트 낮은 수준에 그쳤다. 즉, 동일한 AI를 사용하더라도 협업 구조에서는 AI의 최대 성능을 끌어내지 못하는 패턴이 확인된 셈이다.
연구팀은 대화 과정과 선택 패턴을 추가 분석해 성능 저하 요인을 추적했다. 그 결과 인간 의사의 초기 오판이나 선입견을 인공지능이 질문 해석 단계에서 그대로 전제하고 답을 만들어 내면서, AI가 스스로 가진 지식과 논리적 추론 역량을 충분히 동원하지 못하는 상황이 다수 관찰됐다. 반대로 인공지능이 제시한 답변에 대해 사람 쪽에서 비판적 검토를 거치지 않고 그대로 수용해, 인공지능의 오류가 최종 의사결정으로 굳어지는 경우도 성능 저하에 영향을 준 것으로 파악됐다.
연구팀은 이러한 결과가 의료 AI의 한계를 단순한 지식 부족이나 알고리즘 성능 문제로만 보기 어렵다는 점을 시사한다고 평가했다. 같은 모델이라도 질문 방식, 대화 흐름, 최종 의사결정 권한 배분 등 인간과 인공지능의 상호작용 구조에 따라 실제 임상 성능이 달라질 수 있기 때문이다. 특히 HAC로 불리는 인간과 인공지능 협력 체계에서 사람과 시스템이 어떤 역할을 맡고, 언제 누가 최종 판단을 내리도록 설계할지가 앞으로 의료 인공지능 안전성 확보의 핵심 연구 주제가 될 수 있다는 분석이 나온다.
이번 연구는 안과라는 특정 진료과를 대상으로 했지만, 환자 상태를 종합적으로 해석하고 여러 진단과 치료 옵션 가운데 하나를 선택해야 하는 다른 전문과에서도 유사한 패턴이 나타날 수 있다는 점에서 디지털 헬스케어 전반의 설계 원칙 논의로 이어질 수 있다. 진단 보조 AI, 수술 계획 지원 시스템, 약제 선택 알고리즘 등 다양한 의료 AI 도구들이 실제 현장에서 사람이 사용하는 순간, 알고리즘 정확도뿐 아니라 인간 인지 편향과 상호작용까지 반영한 통합 설계가 중요해지고 있다는 지적이 힘을 얻을 수 있다.
글로벌 차원에서도 의료 AI를 둘러싼 경쟁과 규범 논의가 맞물리는 상황이다. 미국과 유럽에서는 의료기기 소프트웨어로 분류되는 AI 기반 진단 보조 시스템에 대해 승인 기준과 사용 가이드라인을 단계적으로 정교화하는 흐름이 이어지고 있다. 진단 정확도뿐 아니라 사용자 인터페이스, 경고 알림 방식, 의사에게 제시하는 설명 수준 등 인간과의 상호작용 요소를 포함해 평가하는 방향으로 제도 논의가 확대되는 추세다. 이번 연구 결과는 이런 규제 논의에서 HAC 구조를 별도 평가 지표로 반영해야 한다는 주장을 뒷받침하는 근거로 활용될 여지도 있다.
국내 의료기관들도 원격판독, 영상분석, 안과 검사 자동 판독 등 다양한 영역에서 인공지능 도입을 확대하고 있어, 협업 구조를 어떻게 설계하느냐에 따라 현장 효과가 크게 달라질 가능성이 크다. 예를 들어 AI가 제시한 진단과 치료 옵션을 그대로 나열하는 대신, 인간 의사의 기존 판단과 상충되는 지점만 강조해 제시하거나, 사람과 AI가 서로 다른 답을 냈을 때 자동으로 근거 설명과 참고 문헌을 함께 보여주는 등 상호 보완적 인터페이스 설계가 요구된다는 의견도 나오고 있다.
최은영 교수는 인공지능이 이미 의료와 일상에 폭넓게 스며든 상황에서, 인간이 AI 결과를 해석하고 판단하는 과정이 오히려 새로운 취약지점이 될 수 있다고 경고했다. 그는 인공지능을 전면적으로 신뢰하거나 배제하는 양극단 접근을 경계하며, 알고리즘의 추론 과정을 비판적으로 검증하고 사람의 전문성과 결합하는 협업 구조를 구축하는 것이 안전한 디지털 헬스케어를 위한 선행 조건이라고 강조했다.
의료계와 산업계에서는 이번 연구가 단일 알고리즘 성능 경쟁을 넘어, 인간과 인공지능이 함께 최적의 임상 결정을 내리는 구조를 어떻게 설계할지에 대한 후속 연구를 촉발할 수 있을지 주목하고 있다.
