IT/바이오

흉부엑스레이로 골다공증 진단…서울대병원 AI, 기회검진 판도 바꿀까

오태희 기자
입력

흉부 엑스레이 영상만으로 골다공증 위험도를 가려내는 인공지능 모델이 개발되면서, 기존 건강검진 과정에서 동시에 골다공증을 조기 선별하는 기회검진 개념이 현실에 가까워지고 있다. 장비 접근성 한계로 충분히 이뤄지지 못했던 골밀도 검사를 X선 영상 분석으로 보완할 수 있는 길이 열리면, 고령화로 급증하는 골다공증 환자 관리 전략에 변화를 불러올 수 있다는 평가가 나온다. 업계와 의료계에서는 이번 연구가 의료용 파운데이션 모델 선택과 검증의 분기점이 될 수 있다는 관측도 제기된다.

 

서울대병원 가정의학과 박상민 교수 연구팀은 2004년부터 2019년까지 서울대병원 건강증진센터에서 흉부 X선과 이중에너지 X선 흡수계측법 DXA 골밀도 검사를 모두 받은 여성 1만 4502명의 데이터를 활용해, 흉부 X선만으로 정상 골감소증 골다공증 3단계를 분류하는 인공지능 모델을 구축했다고 28일 밝혔다. DXA에서 계산된 T점수 기준으로 정상 T점수 -1.0 이상, 골감소증 -2.5 초과 -1.0 미만, 골다공증 -2.5 이하를 라벨로 삼아 AI를 학습시켰다.

골다공증은 뼈의 양과 미세구조가 감소해 쉽게 골절이 발생하는 대표적인 노인성 질환이다. 그러나 표준검사인 DXA는 전용 장비와 인력이 필요하고, 지역 편차와 비용 부담으로 인해 실제 검진률이 낮은 편이다. 반면 흉부 X선 촬영은 건강검진과 호흡기 질환 평가에서 가장 보편적으로 시행되는 검사다. 폐 주변에는 늑골과 척추, 쇄골 등 골절과 밀접한 뼈 구조가 풍부하게 포착되기 때문에, 해당 영상을 활용해 골다공증 위험을 추가로 평가할 수 있다면 별도 방문 없이도 조기 선별이 가능한 새로운 검진 경로가 될 수 있다.

 

연구팀은 대규모 비의료 이미지와 의료 영상으로 사전 학습된 파운데이션 모델을 의료 영역에 이식하는 전략을 택했다. 파운데이션 모델은 수천만 장 이상의 데이터를 기반으로 사전 학습된 대형 AI로, 의료용으로 완전 재학습하는 대신 제한적 미세조정을 적용하면 상대적으로 적은 의료 데이터로도 높은 성능을 확보할 수 있다는 장점이 있다. 다만 어떤 사전 학습 데이터와 구조를 가진 모델이 의료 영상에 더 적합한지, 그리고 높은 정확도가 실제 임상적 타당성으로 이어지는지에 대한 체계적 검증이 부족했던 상황이었다.

 

이번 연구에서는 일반 이미지로 학습된 OpenCLIP, DINOv2와 의료 영상으로 학습된 CheXagent, RAD DINO 등 네 가지 파운데이션 모델을 비교 대상으로 선정했다. 여기에 마지막 분류기만 새로 학습하는 선형 검증 방식, 상위 일부 층만 재학습하는 부분 미세조정 방식, 저차원 행렬을 추가해 매개변수 수를 최소화하는 LoRA 저랭크 적응 방식 등 세 가지 학습 전략을 조합해 총 12개 모델을 제작했다.

 

AI는 입력된 흉부 X선 영상에서 척추, 늑골, 쇄골 등 골 구조 주변의 엣지, 밀도, 패턴 정보를 특징으로 추출한 뒤, 사전 학습된 패턴과 비교해 대상 환자가 정상, 골감소, 골다공증 중 어떤 군에 속할 가능성이 높은지 확률값으로 평가한다. 기존 골밀도 수치와의 차이를 줄이도록 학습하면서, 동일한 영상에서도 뼈 영역에 더 집중하도록 가중치가 조정됐다.

 

연구팀은 단순 예측 정확도를 넘어 AI가 실제로 어떤 근거를 토대로 판단하는지 검증하기 위해 설명 가능성 평가 체계를 별도로 설계했다. 먼저 차단 분석을 통해 흉부 X선에서 뼈 구조를 전부 가린 상태에서 시작해, 척추만 공개했을 때, 늑골만 공개했을 때 등 특정 뼈 부위를 순차적으로 추가하며 성능이 얼마나 개선되는지를 비교했다. 또 AI의 주목 영역을 열지도 형태로 시각화한 뒤, 실제 뼈가 위치한 영역과 겹치는 비율을 계산하는 IoUbone 지표를 도입해 AI가 얼마나 정확히 골조직에 집중하고 있는지를 정량화했다.

 

분석 결과, 일반 이미지 기반 파운데이션 모델인 DINOv2에 LoRA 방식을 적용한 조합이 가장 뛰어난 성능을 기록했다. 이 모델은 골다공증 분류에서 AUC 0.93, 95퍼센트 신뢰구간 0.92에서 0.94를 달성했다. AUC 0.9 이상은 통상 우수한 판별력을 의미한다. 동시에 차단 분석과 IoUbone 평가에서 척추와 늑골 등 핵심 뼈 구조에 대한 활용도가 높게 나타나, 예측력과 설명 가능성을 모두 충족한 최적 모델로 평가됐다.

 

흥미로운 점은 의료 영상만으로 사전 학습된 CheXagent, RAD DINO 계열이 항상 우위에 서지는 않았다는 점이다. 일부 조합에서는 의료 영상 기반 모델이 높은 분류 성능을 보였지만, 중요 영역이 뼈가 아닌 폐실질이나 연부조직에 과도하게 쏠리는 사례도 포착됐다. 반대로 일반 이미지 기반 모델이 LoRA 방식으로 미세조정됐을 때는 상대적으로 적은 재학습만으로도 높은 예측력과 안정적인 뼈 중심 주목 패턴을 보였다.

 

이 결과는 의료 영상에 특화된 모델이 무조건 더 우수하다고 보기 어렵고, 예측 성능이 높다고 해서 곧바로 임상적 신뢰도가 높다고 단정하기 어렵다는 점을 시사한다. 연구팀은 인공지능이 실제 환자 진료에 사용되기 위해서는 정량적 정확도뿐 아니라, 어떤 해부학적 구조를 근거로 결론에 도달했는지에 대한 설명 가능성 검증이 필수 요건이 돼야 한다고 강조했다.

 

제1저자인 김재원 연구원은 파운데이션 모델을 의료 영상에 도입할 때는 단순 지표 몇 개로 성능을 판단하는 수준을 넘어, 데이터 편향, 주목 부위, 구조별 기여도 등 다차원적 요소를 함께 평가하는 체계가 필요하다고 말했다. 이번 연구가 그런 다층 평가 프레임워크를 실제 데이터에 적용해 기준선을 제시했다는 점에서 의미가 크다고 설명했다.

 

교신저자인 박상민 교수는 흉부 X선은 거의 모든 건강검진에서 이미 촬영되고 있는 만큼, 추가 비용과 시간 없이 골다공증 위험을 함께 평가할 수 있다면 대규모 인구집단을 대상으로 한 기회검진 도입 가능성을 크게 넓힐 수 있다고 내다봤다. 아울러 예측 정확도와 더불어 AI의 판단 근거를 투명하게 검증함으로써, 어떤 파운데이션 모델을 어떤 방식으로 미세조정해 현장에 배치해야 하는지에 대한 선택 기준을 제시한 점을 강조했다.

 

글로벌 의료 AI 분야에서는 흉부 X선과 같은 범용 영상에 다목적 검진 기능을 결합하려는 시도가 이어지고 있다. 미국과 유럽에서는 폐암, 심장비대, 흉부 감염 외에도 심혈관 위험도와 체성분 정보를 X선에서 추론하는 연구가 진행 중이다. 이번 서울대병원 연구는 골다공증까지 범위를 확장해 국내 데이터 기반으로 성능과 설명 가능성을 동시에 입증했다는 점에서 글로벌 트렌드와 맞물린다.

 

다만 실제 건강검진 프로그램에 도입하기 위해서는 의료기기 소프트웨어 허가, 보험 수가, 판독 책임 구조 설정 등 제도적 쟁점이 남아 있다. X선 재활용을 통한 기회검진이 새로운 의료 행위로 간주될지, 기존 판독 업무의 연장선으로 볼지에 따라 규제와 보상 체계가 달라질 수 있어서다. 개인정보 보호와 AI 판독 오류에 대한 책임 소재 문제도 추후 논의가 필요하다.

 

이번 연구 결과는 골다공증과 대사성 골질환 분야의 국제 학술지 국제 골다공증 최근호에 게재됐다. 의료계와 산업계에서는 흉부 X선 기반 골다공증 AI가 향후 대규모 검진 현장에 안착해 실제 골절 예방과 의료비 절감에 기여할 수 있을지, 그리고 파운데이션 모델 기반 의료 AI 평가 기준을 재정의하는 계기가 될지 지켜보고 있다.

오태희 기자
share-band
밴드
URL복사
#서울대병원#파운데이션모델#골다공증ai