“AI가 불확실성까지 계산”…목암, 신약개발 신뢰도 높인다
인공지능 기반 분석 기술이 신약개발의 불확실성 관리 패러다임을 바꾸고 있다. 막대한 비용과 높은 실패 확률이 고질적인 문제로 지적된 후보물질 발굴 과정에서, 실험 환경 변화에도 성능을 유지하고 예측의 신뢰 구간까지 제시하는 기술 경쟁이 본격화되는 분위기다. 업계에서는 이번 성과가 AI가 제시하는 단일 예측값을 넘어, 규제기관과 연구자가 수용 가능한 수준의 정량적 불확실성 정보를 제공하는지 여부를 가르는 분기점이 될 수 있다고 본다.
목암생명과학연구소는 최근 세계 최고 권위 인공지능 학회로 꼽히는 신경정보처리시스템학회 뉴립스에 라벨 시프트에 최적화된 정합 예측 프레임워크 관련 논문을 등재했다고 14일 밝혔다. 정합 예측은 예측값에 대해 실제 관측값이 특정 구간 안에 포함될 확률을 통계적으로 보장하는 기법으로, 예측 자체뿐 아니라 예측의 신뢰도까지 함께 제시하는 점이 특징이다.

연구진이 다룬 라벨 시프트는 학습 단계와 실제 적용 단계에서 입력 특성은 비슷하지만, 정답에 해당하는 레이블 분포가 달라지는 상황을 뜻한다. 신약개발에서는 후보물질 데이터의 특성 분포는 유지되지만, 실제 실험에서 관측되는 효능이나 독성의 비율이 바뀌는 경우가 대표적이다. 기존에는 이런 분포 변화를 반영하려면 대규모 추가 실험과 데이터 재학습이 필요해 시간과 비용 부담이 컸다.
목암생명과학연구소의 프레임워크는 추가 재학습 없이 라벨 분포 변화만을 통계적으로 보정해 예측 구간을 재설계하는 방식을 도입했다. 구체적으로는 예측 모델이 출력한 점 추정값을 그대로 쓰지 않고, 라벨 시프트를 가정한 확률 모형을 통해 각 예측값에 대응하는 신뢰 구간을 다시 계산해 준다. 그 결과 분포 변화가 발생했을 때도 정합성이 유지되도록 설계됐다.
신약개발 현장에서 이 접근법의 의미는 크다. 후보물질의 용해도, 효능, 독성 같은 분자 특성은 임상 진입 여부를 좌우하는 핵심 지표다. 지금까지 많은 AI 모델은 이 지표를 단일 수치로만 제시해, 실험 설계 단계에서 연구자가 예측의 위험도와 불확실성을 가늠하기 어려웠다. 목암 연구진의 방법을 적용하면 각 예측값마다 신뢰 구간이 함께 제공돼, 불확실성이 큰 후보를 걸러내거나 추가 검증이 필요한 영역을 선별하는 의사결정이 수월해질 수 있다.
특히 이번 기술은 학습 데이터와 실제 실험 환경의 분포 차이로 인해 발생하는 디스트리뷰션 시프트 문제를 정면으로 다뤘다는 점에서 주목된다. 실제 파이프라인에서는 실험 플랫폼 변경, 샘플 구성 변화, 새로운 화합물 계열 도입 등으로 데이터 분포가 수시로 바뀐다. 연구진은 라벨 시프트를 명시적으로 모델링해 예측 구간을 조정함으로써, 이런 환경 변화에도 정합 예측의 이론적 보장을 유지하는 방식을 제시했다.
AI 신약개발 글로벌 시장에서는 알파폴드로 단백질 구조 예측을 혁신한 딥마인드, 방대한 이미지와 실험 데이터를 활용해 후보물질 발굴을 가속하는 리커전, 인실리코 메디슨 등 플레이어들이 구조 예측과 후보 탐색 속도 경쟁을 벌이고 있다. 그러나 예측의 불확실성을 정량화하고 규제기관이 요구하는 수준의 설명 가능성을 확보하는 영역에서는 아직 표준이 자리잡지 않은 상황이다. 국내 연구기관이 뉴립스에서 정합 예측과 라벨 시프트 문제를 결합한 연구를 제시한 만큼, 글로벌 AI 기반 신약개발 생태계에서 정책·규제 논의와 맞물린 새로운 경쟁 축을 형성할 여지도 있다.
규제 측면에서 식품의약품안전처나 미국 식품의약국 등 주요 규제기관은 AI 모델 활용 시 투명성과 재현성을 중시하는 방향으로 가이드라인을 정교화하고 있다. 단일 예측값에만 의존하는 블랙박스형 모델보다, 예측 결과의 신뢰 구간과 한계를 수치로 제시하는 접근법이 심사 과정에서 신뢰를 얻을 수 있다는 관측도 나온다. 목암 연구진은 이번 프레임워크가 이런 규제 요구와도 정합적 구조를 갖추고 있어 실제 의약품 개발 파이프라인에서 AI 도입을 앞당길 수 있을 것으로 보고 있다.
신현진 목암생명과학연구소장은 세계 유수 AI 학회에서 연구 성과를 인정받은 것을 계기로, 앞으로도 AI 기반 신약개발을 선도하는 리딩 기관 역할에 주력하겠다고 밝혔다. 산업계는 정합 예측과 라벨 시프트 보정 기술이 상용 플랫폼과 임상 개발 현장에 얼마나 빠르게 스며들 수 있을지, 그리고 이 과정에서 규제와 데이터 환경이 어떻게 정비될지에 주목하고 있다.
