IT/바이오

안전성 심은 시각언어 AI…ETRI, 세이프 라바 공개로 활용 폭 넓힌다

생성형 인공지능이 산업 전반으로 확산되면서 안전성과 책임성을 갖춘 시각언어모델의 중요성이 커지고 있다. 한국전자통신연구원 ETRI가 개발한 세이프 라바는 이미지와 텍스트를 동시에 이해하는 기존 시각언어모델 구조 안에 안전성 필터를 깊이 결합한 것이 특징이다. 연구진은 단순한 사후 필터링이 아니라 모델 내부에 20여 종의 유해성 분류기를 탑재해, 유해 정보가 입력되더라도 안전한 답변과 그 근거를 함께 제시하도록 설계했다. 업계에서는 국내 연구진이 주도한 이 기술 공개를 생성형 AI 안전 경쟁의 분기점으로 보는 시각도 나온다.

ETRI는 26일 생성형 AI에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 세이프 라바를 개발해 공개했다고 밝혔다. 시각언어모델은 이미지와 텍스트를 동시에 입력받아 상황을 이해하고 답변하거나 설명을 생성하는 AI로, 콘텐츠 제작, 검색, 사용자 지원 등 다양한 분야에서 활용도가 높아지고 있다.

세이프 라바는 국제공동연구로 개발된 공개 시각언어모델 LLaVA를 기반으로 안전성 구조를 대폭 강화한 버전이다. 연구진은 모델 내부에 20여 종의 유해성 분류기를 통합하고, 이미지와 텍스트 입력을 동시에 분석해 위험도를 판별하는 구조를 적용했다. 이를 통해 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언 의료·법률 등 7개 주요 영역과 18개 세부 항목에 대한 위험성을 자동 탐지하도록 했다.

특히 이번 기술은 기존처럼 응답 결과를 외부 필터로 걸러내는 방식의 한계를 줄였다. 모델이 질문과 이미지를 해석하는 단계에서부터 위험 여부를 함께 판단하고, 그 결과를 설명 형식으로 제시하는 구조이기 때문에 사용자는 왜 답변이 제한됐는지, 어떤 위험 요소가 탐지됐는지까지 함께 확인할 수 있다. 연구진은 예시로 소매치기 사진과 소매치기 방법을 묻는 질문을 함께 입력한 실험에서 세이프 라바가 범죄 조장 요청을 즉시 거부하고, 불법 행위에 해당한다는 점을 명시적으로 경고했다고 설명했다.

ETRI는 자체 개발 기술을 단일 모델에 국한하지 않고 다양한 공개 SW 기반 비전 언어 모델에 확장 적용했다. 대표 공개 모델인 LLaVA, Qwen, Gemma에 동일한 안전성 구조를 이식해 세이프 라바 7B·13B, 세이프 쿠원 2.5 VL 7B·32B, 세이프 젬마 3 IT 12B·27B 등 총 6종의 안전한 시각언어모델을 선보였다. 각 모델은 파라미터 규모와 성능, 활용 용도에 따라 선택적으로 도입할 수 있어, 스타트업부터 대형 플랫폼 기업까지 폭넓게 활용할 수 있는 점이 강점으로 꼽힌다.

안전성을 객관적으로 비교하기 위한 벤치마크도 함께 제시됐다. ETRI는 시각언어모델의 위험 탐지와 대응 능력을 정량 평가하기 위한 홀리 세이프 데이터셋을 동시에 공개했다. 홀리 세이프는 약 1700장 이미지와 4000여 개의 질문·응답 쌍으로 구성된 평가용 데이터로, 앞서 정의된 7개 카테고리와 18개 세부 항목 전반에 걸쳐 모델이 얼마나 정확하게 위험을 탐지하고 안전한 응답을 내놓는지 측정할 수 있도록 설계됐다.

홀리 세이프 기반 평가 결과에서 세이프 라바는 93퍼센트, 세이프 쿠원은 97퍼센트의 안전 응답률을 기록했다. 연구진은 같은 조건에서 기존 공개 시각언어모델을 평가했을 때보다 최대 10배 수준까지 안전 응답 비율이 개선된 수치라고 설명했다. 안전 응답률은 유해 요청을 거부하거나 적절한 경고와 대체 정보를 제공한 비율을 의미하며, 실제 서비스 적용 시 법적·윤리적 리스크를 줄이는 핵심 지표로 사용될 수 있다.

글로벌 시장에서는 생성형 AI 모델의 대형화와 함께 안전성 경쟁이 이미 본격화된 상황이다. 미국과 유럽에서는 빅테크 기업과 연구기관을 중심으로 위험 콘텐츠 자동 탐지, 책임 있는 AI 사용 가이드라인, 규제 대응용 평가 지표 개발이 동시에 진행 중이다. 텍스트 기반 대형언어모델뿐 아니라 이미지·영상까지 다루는 멀티모달 모델이 늘어나는 가운데, 시각언어모델 전용 안전 벤치마크를 제시했다는 점에서 홀리 세이프의 활용 폭도 커질 전망이다.

정책과 규제 측면에서도 안전한 시각언어모델은 중요해지고 있다. 의료, 법률, 교육, 금융 등 민감 산업 분야에서 멀티모달 생성형 AI를 도입할 경우, 잘못된 진단이나 불법 활동 조장, 개인정보 노출 같은 위험을 사전에 걸러낼 수 있는 구조가 요구되기 때문이다. 특히 디지털 헬스케어나 원격 진료 등 규제가 엄격한 영역에서는 모델이 자체적으로 전문조언에 주의를 기울이고, 필요 시 전문의나 전문가 상담을 권고하는 방식의 응답 구조가 정책 심사에서 중요한 검토 요소가 될 수 있다.

ETRI는 세이프 라바를 포함한 6종의 안전한 시각언어모델과 홀리 세이프 데이터셋을 글로벌 AI 플랫폼 허깅페이스를 통해 공개해, 국내외 연구자와 기업이 자유롭게 내려받아 연구 개발에 활용할 수 있도록 했다. 공개 SW 기반으로 배포되는 만큼, 각 기관은 자사 서비스 환경과 규제 요구에 맞춰 안전성 기준을 추가하거나 세밀하게 조정하는 2차 개발도 가능하다.

이용주 ETRI 시각지능연구실장은 세이프 라바가 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델이라고 강조했다. 이어 구체적 평가 체계가 거의 없는 상황에서 홀리 세이프와 결합된 이번 연구가 국내 생성형 AI의 안전한 활용 기반을 마련한 중요한 성과로 보인다고 설명했다. 산업계는 이러한 안전 구조를 갖춘 시각언어모델이 실제 서비스와 플랫폼에 얼마나 빠르게 안착할 수 있을지, 그리고 향후 규제 환경 변화에 어떤 기준점으로 작용할지 주시하고 있다.

윤가은 기자

[email protected]

밴드

URL복사

#etri#safellava#holisafe