IT/바이오

"의사보다 정확한 안과 AI"…연세대, 인간 협업 한계 짚었다

최동현 기자
입력

안과 진단 현장에서 인공지능이 전문의보다 더 높은 정확도를 보였다는 연구가 나왔다. 하지만 의사와 인공지능이 함께 문제를 풀었을 때는 오히려 인공지능 단독 성능에 못 미치는 결과가 확인되면서, 인간과 인공지능 협업 구조 설계가 의료 현장의 핵심 과제로 떠오르고 있다. 업계에서는 이 연구를 두고 의료 AI 활용이 ‘정확도 경쟁’에서 ‘협력 방식 경쟁’으로 넘어가는 분기점이 될 수 있다는 평가도 나온다.

 

연세대강남세브란스병원은 안과 최은영 교수 연구팀이 최근 대만에서 열린 제5회 아시아 망막학회 국제학술대회에서 임상 추론에서의 인간과 인공지능 협력을 주제로 한 연구로 최우수 포스터상을 수상했다고 1일 밝혔다. 안과 영역의 고난도 임상 문제를 대상으로 의사, 인공지능, 인간과 인공지능 협업 세 가지 조건에서 진단 성능을 정량 비교한 점이 높은 평가를 받았다.

연구팀은 미국의사학회가 발간하는 학술지 저널 JAMA에서 제공하는 임상 문제 30문항을 활용했다. 실제 고난도 임상 사례를 기반으로 구성된 4지선다형 문제로, 단순 지식 암기가 아니라 환자 상태를 종합적으로 해석해 적절한 진단과 처치를 선택해야 하는 유형이다. 인공지능 모델로는 대형 언어 모델 기반 의료 질의응답에 활용되는 클로드3.5가 사용됐다.

 

실험 설계는 세 단계로 진행됐다. 먼저 인간 의사 단독 조건에서 참여 의사들은 인공지능의 도움 없이 증례를 검토하고 스스로 진단과 처치 결정을 내렸다. 이어 인공지능 단독 조건에서는 동일한 문항을 클로드3.5에 제시해 모델이 독립적으로 답을 도출하도록 했다. 마지막으로 인간과 인공지능 협업 조건에서는 같은 의사들이 동일 문항을 다시 풀되, 사람이 먼저 질문을 던지고 인공지능이 답을 제시하는 형태로 여러 차례 대화를 주고받으며 임상 추론을 수행했다.

 

결과는 뚜렷한 격차를 보여줬다. 인공지능 단독 답변의 정답률은 70퍼센트로 집계됐다. 반면 인간 의사 단독 정답률은 45퍼센트에 그쳐 25퍼센트포인트 차이가 났다. 인간과 인공지능이 함께 푼 협업 조건에서는 정답률이 60퍼센트를 기록해, 인간 단독보다는 15퍼센트포인트 개선됐지만 인공지능 단독 정확도에는 미치지 못했다.

 

연구팀은 후속 분석에서 협업 성능 저하의 원인을 추적했다. 인간이 초기 판단을 굳게 믿고 인공지능의 정답 제안을 끝내 수용하지 않거나, 반대로 인공지능이 제시한 오답을 의사가 비판 없이 수용하는 경우가 대표적인 실패 패턴으로 나타났다. 즉 인공지능의 지식 수준보다는 인간과 인공지능이 서로의 추론 과정과 결론을 어떻게 검증하고 조율하는지가 성능을 좌우하는 변수로 부각됐다.

 

이번 결과는 의료 인공지능을 ‘두 번째 의견’을 주는 상담 도구로만 볼 것이 아니라, 의사와 시스템이 상호 견제와 보완을 전제로 한 의사결정 파이프라인으로 설계해야 한다는 과제를 던진다. 특히 안과처럼 영상과 증상을 종합적으로 판단해야 하는 분야에서는, 인공지능이 제안한 진단과 처치 옵션을 체계적으로 비교 검토할 수 있는 인터페이스와 교육이 향후 의료기관 도입 전략의 핵심 요소가 될 가능성이 크다.

 

글로벌 의료 AI 시장에서는 영상 판독, 병리 분석, 진단 보조 등에서 인공지능이 사람과 유사하거나 더 뛰어난 성능을 입증하는 연구가 잇따르고 있다. 미국과 유럽에서는 특정 안과 질환에 대한 자동 판독 소프트웨어가 이미 의료기기 허가를 받고 실사용 단계에 들어간 사례도 보고된다. 다만 실제 진료 환경에서는 최종 책임이 의사에게 있는 만큼, 인공지능 알고리즘의 한계와 편향을 이해하고 이를 반영한 의사결정 지침을 마련하는 작업이 병행되고 있다.

 

국내에서도 식품의약품안전처를 중심으로 의료용 인공지능 소프트웨어 허가와 안전 관리 체계가 구축되는 흐름이다. 그러나 진단 보조 시스템과 의사의 역할 구분, 인공지능 권고를 수용하거나 거부했을 때의 법적 책임 분담 등은 여전히 논의가 진행 중이다. 특히 이번 연구에서처럼 인간과 인공지능의 상호작용 방식에 따라 성능이 달라지는 것으로 나타남에 따라, 규제와 가이드라인도 ‘정확도’뿐 아니라 ‘협업 프로세스’ 요건을 함께 다루는 방향으로 확장될 필요가 있다는 지적이 제기된다.

 

최은영 교수는 인공지능의 효용과 한계를 동시에 짚었다. 그는 인공지능이 임상 현장에 빠르게 스며들고 있지만, 사람과의 상호작용 설계 없이는 기대 성능을 온전히 끌어내기 어렵다고 진단했다. 최 교수는 인공지능을 맹목적으로 신뢰하기보다 비판적으로 검증하고 상호 보완적으로 사고하는 협업 구조가 중요하다며, 의료진 교육과 임상 워크플로 재설계를 통해 인간과 인공지능의 역할 분담을 명확히 하는 작업이 뒤따라야 한다고 강조했다.

 

의료 업계에서는 이번 연구가 안과를 넘어 다른 임상 분야에서도 인간과 인공지능 협업 모델을 어떻게 설계할지에 대한 후속 연구를 촉발할 것으로 보고 있다. 실제 진료 환경에서의 환자 안전과 책임 소재, 데이터 품질과 알고리즘 투명성 문제 등이 얽혀 있는 만큼, 산업계와 의료계, 규제 당국이 함께 협력 프레임을 마련해야 한다는 요구도 커지고 있다. 산업계는 이번 기술이 실제 의료 현장에서 어떤 방식으로 안착할지 예의주시하고 있다.

최동현 기자
share-band
밴드
URL복사
#연세대강남세브란스병원#최은영#클로드3.5