IT/바이오

"수능 1등급 뛰는 옴니모달 AI"…네이버, 오픈소스 전략으로 판 키운다

전민준 기자
입력

텍스트와 이미지, 음성을 한 번에 이해하는 옴니모달 인공지능이 국내에서도 본격 등장하고 있다. 네이버클라우드가 과학기술정보통신부 독자 AI 파운데이션 모델 과제의 일환으로 옴니모달 구조를 채택한 파운데이션 모델과 고성능 추론형 모델을 연달아 오픈소스로 풀면서다. 업계에서는 이번 공개가 글로벌 빅테크 중심의 초거대 AI 경쟁 구도 속에서 한국형 프런티어 모델의 존재감을 확인하는 분기점이 될 수 있다는 평가가 조심스럽게 나온다.

 

네이버클라우드는 29일 텍스트와 이미지, 오디오를 단일 모델에서 동시에 처리하는 네이티브 옴니모달 구조의 파운데이션 모델 하이퍼클로바 X 시드 8B 옴니를 오픈소스로 공개했다고 밝혔다. 파라미터 규모 약 80억 개급의 중형 모델로, 국내에서 네이티브 옴니모달 아키텍처를 적용한 파운데이션 모델을 공개한 것은 이번이 처음이다.

옴니모달 AI는 초기 설계 단계부터 텍스트와 시각, 음성 데이터를 한꺼번에 학습하도록 설계된 구조를 뜻한다. 기존 멀티모달 방식이 텍스트 중심의 대형 언어 모델에 이미지나 음성 인코더를 나중에 덧붙이는 형태였다면, 옴니모달은 모달리티마다 다른 표현 구조를 공통 벡터 공간으로 통합해 처음부터 공동 학습시키는 점이 다르다. 이 때문에 현실 세계에서 동시에 섞여 들어오는 말과 글, 사진과 음성 정보를 자연스럽게 연결해 이해하고 생성하는 데 강점을 지닌다.

 

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 데이터 스펙트럼의 폭이 모델 성능의 상한선을 결정한다고 강조했다. 그는 디지털화되지 않았던 생활 맥락 데이터, 지역별 지리 정보가 녹아 있는 공간 데이터 등을 선제적으로 수집하고 정제하는 과정이 뒤따르지 않으면, 모델 크기를 키워도 특정 과목이나 도메인에 편중된 능력만 발휘될 수 있다고 설명했다. 옴니모달 구조 위에 현실 세계 데이터 풀을 입히겠다는 전략으로 해석된다.

 

단일 모델 구조로 설계된 하이퍼클로바 X 시드 8B 옴니는 규모 확장에도 유리한 구조를 채택했다. 텍스트 인퍼런스와 이미지, 오디오 처리를 별도 모듈이 아닌 하나의 토크나이저와 표현 공간에서 다루도록 설계해, 파라미터 수를 늘리거나 특정 산업용 특화 모델을 파생시키기가 상대적으로 수월하다. 네이버클라우드는 이 구조를 바탕으로 검색, 커머스, 콘텐츠, 공공, 제조·물류 등 비즈니스 현장에 최적화한 다양한 크기의 옴니모달 특화 모델을 추가로 전개할 계획이다.

 

이번에 공개된 옴니모달 모델은 텍스트 지시에 따라 이미지를 생성하고, 기존 이미지를 편집하는 생성 기능도 탑재했다. 글로벌 프런티어 모델들이 제공해 온 텍스트 투 이미지, 이미지 인페인팅 같은 기능을 단일 모델 내에서 자연스럽게 수행하도록 구현한 것으로, 질의 응답 도중 텍스트 설명에서 바로 이미지를 만들어 보여주거나, 사용자가 업로드한 이미지를 텍스트 지시에 따라 수정하는 연속적인 상호작용까지 지원한다.

 

네이버클라우드는 옴니모달 파운데이션과 더불어 추론 성능에 초점을 맞춘 하이퍼클로바 X 시드 32B 씽크도 오픈소스로 공개했다. 약 320억 개 파라미터급으로 알려진 이 모델은 텍스트 기반 추론 능력에 더해 시각 이해, 음성 인식, 외부 도구 활용까지 통합한 고난도 문제 해결형 모델을 지향한다. 글로벌 AI 평가 기관 아티피셜 애널리시스가 종합 지식, 고난도 추론, 코딩, 에이전트형 과제 등 10개 벤치마크를 묶어 산출한 지수에서 글로벌 주요 프런티어 모델과 유사한 성능대를 형성한 것으로 평가됐다.

 

특히 한국어 기반 종합 지식과 시각 이해, 실제 API나 계산기 같은 도구를 호출해 문제를 풀어내는 에이전트 수행 능력에서 균형 잡힌 성능을 보인 점이 특징이다. 실제 검증에서는 2025학년도 대학수학능력시험 문제를 그대로 투입해 풀이를 진행했고, 국어와 수학, 영어, 한국사 등 전 핵심 과목에서 1등급 성적을 얻었다. 영어와 한국사는 만점을 기록했다.

 

여기에는 문제지를 텍스트로 전사한 뒤 답을 고르게 하는 단순 방식이 아니라, 모범답안이 그림이나 도표, 도형으로 제시된 문항을 포함해 이미지 입력 그대로 읽고 풀이 과정을 추론하는 시각 이해 능력이 결합돼 있다. 다수의 상용 모델이 여전히 문제를 텍스트로 변환하는 전처리 단계를 필수로 삼는 것과 대비되는 대목이다.

 

성 총괄은 텍스트와 시각, 음성 같은 감각 채널을 수평적으로 확장하면서, 체인 오브 소트와 도구 사용 계획 수립 같은 사고와 추론 능력을 동시에 강화해야 현실 문제 해결력이 크게 올라간다고 진단했다. 그는 이 같은 기본 구조를 갖췄을 때에만 모델 크기를 키워도 실제 쓰임새가 유지된다고 보고, 이번 시드 모델들을 기반으로 단계적 스케일업을 이어가겠다는 계획을 밝혔다.

 

네이버클라우드가 주관하는 과학기술정보통신부 독자 AI 파운데이션 모델 프로젝트는 국내 기술 스택으로 글로벌 수준의 프런티어 모델을 확보하겠다는 중장기 계획이다. 첫 성과인 옴니모달 파운데이션과 고성능 추론 모델을 오픈소스로 공개한 것은 생태계 확장을 염두에 둔 포석으로 해석된다. 학계와 스타트업, 중견 기업들이 모델을 실험 플랫폼으로 활용해 산업별 특화 AI 에이전트를 빠르게 구현할 수 있다면, 파운데이션 모델의 산업 파급력도 커질 수 있다.

 

글로벌 시장에서는 텍스트 중심 대형 언어 모델 경쟁에서 나아가, 비전과 음성, 물리 세계 제어까지 아우르는 옴니모달 프런티어 모델 경쟁이 이미 가속화되고 있다. 미국과 유럽의 선도 기업들이 검색과 광고, 클라우드, 로봇, 자율주행 등 영역에서 옴니모달 모델을 서비스에 심고 있는 가운데, 한국 역시 검색과 커머스, 콘텐츠 플랫폼을 중심으로 실사용 사례를 늘릴 수 있을지가 관건으로 떠오른다.

 

네이버클라우드는 옴니모달 하이퍼클로바 X를 기반으로 검색과 쇼핑 추천, 콘텐츠 제작 보조, 행정 민원 안내, 산업 현장 안전 모니터링 등 다양한 영역에 투입 가능한 AI 에이전트를 단계적으로 확대한다는 방침이다. 데이터 보안과 알고리즘 투명성, 편향 제어와 같은 규제 이슈도 동시에 부상할 수밖에 없어, 정부와 산업계, 연구기관 간 협력 구조를 어떻게 짤 것인지도 과제로 남는다.

 

업계에서는 네이버의 이번 공개가 국내 초거대 AI 개발 경쟁과 동시에 오픈소스 생태계 강화 흐름에 힘을 보탤 것으로 보고 있다. 수능 문제 풀이로 상징되는 고난도 추론 성능과 옴니모달 이해 능력이 실제 서비스에서 얼마나 자연스럽게 구현될지 여부가 차세대 검색과 커머스, 디지털 정부 서비스 경쟁력의 분수령이 될 수 있다는 관측도 제기된다. 산업계는 이번 모델들이 연구 개발용을 넘어 실서비스에 안착해, 한국형 프런티어 AI의 상용 성공 사례로 이어질 수 있을지 주시하고 있다.

전민준 기자
share-band
밴드
URL복사
#네이버클라우드#하이퍼클로바x시드8b옴니#하이퍼클로바x시드32b씽크