“멀티모달 AI 바르코-비전 2.0 공개”…엔씨, 글로벌 VLM 경쟁력 입증
엔씨소프트 인공지능 자회사 엔씨 AI가 차세대 멀티모달 AI 모델 ‘바르코-비전 2.0’ 4종을 연구용 오픈소스로 공개한다. 텍스트와 이미지는 물론 비디오까지 동시에 분석하는 비전언어모델 기반 AI에서, 국내 기술의 독자성과 실용적 파급력이 주목받고 있다. 업계는 이번 발표를 ‘글로벌 비전언어모델(VLM) 경쟁의 분기점’으로 해석한다.
엔씨 AI가 공개한 바르코-비전 2.0 시리즈는 140억 파라미터(14B) 모델, OCR(광학문자인식) 특화형, 고차원 임베딩 모델 등 총 4종이다. 이 중 ‘바르코-비전 2.0 14B’는 알리바바의 오비스2-16B, 큐웬2.5-VL 7B 등 글로벌 대표 오픈소스 VLM 대비 이미지 및 텍스트 이해 성능에서 우위를 확보했다. 특히 한국어 이미지 인식과 자연어 설명 생성 정확도 분야에서 전 세계 오픈 모델 대비 경쟁력을 입증했다는 평가다.

주목할 기술적 원리는 ‘멀티모달 이해’와 ‘임베딩 검색’이다. 바르코-비전 임베딩 모델은 텍스트, 이미지, 비디오를 각각 고차원 수치(벡터)로 변환해 의미적 유사도를 정밀하게 계산한다. 검색 벡터 개념을 도입해 기존 이미지-텍스트 검색에서 축적된 AI 역량을 영상 분야까지 확장하며, 별도 추가 학습 없이 비디오 검색 성능을 극대화했다는 설명이다.
기존 AI 모델들이 제한적 정보만 처리했던 것과 달리, 바르코-비전 2.0은 표·차트가 포함된 복잡 문서, 다중 언어(한국어·영어), 동영상 등 다양한 데이터를 한 번에 해석한다. 이에 금융·교육 ·제조·쇼핑 등 산업현장에서는 자동화 및 정보 디지털화, 콘텐츠 생성, 광고 문구 작성, 주문서 요약 등 폭넓은 도메인 활용이 기대된다.
글로벌 시장에서는 이미 오픈소스 VLM과 상용 모델 간 치열한 주도권 경쟁이 진행 중이다. 엔씨 AI는 “‘프롬 스크래치(from scratch·기초부터 자체 개발)’ 방식 LLM(거대언어모델) 경험을 토대로, 한국어와 한글 OCR 등에서 차별적 독립성을 확보했다”고 강조했다. 이번에 공개될 4종 모델 중 14B 및 임베딩 계열은 즉시, OCR 특화형은 다음 주 중 오픈된다.
이번 공개는 ‘소버린 AI(주권 AI)’를 핵심 전략으로 삼은 정부 정책 흐름과도 맞닿는다. 엔씨 AI는 “기술·데이터·산업 생태계의 민주화를 촉진, 글로벌 AI 기술 격차 해소와 동시에 산업 현장의 실질적인 혁신 기폭제 역할을 할 것”이라고 밝혔다.
업계 및 전문가들은 텍스트 중심의 LLM을 넘어, 비전(이미지·비디오)까지 통합하는 멀티모달 AI가 “AI 상용화 경쟁의 새로운 전선”이라며 “한국어 등 로컬 데이터에 강점을 가진 소버린 AI 생태계 형성이 가속화될 가능성도 있다”고 분석한다. 산업계는 이번 기술이 실제로 다양한 한국 산업 분야에 안착할 수 있을지 주목하고 있다.