“한국어 이해력 세계 최상위”…KT, LLM ‘믿음 2.0’ 오픈소스 공개로 시장 자극
KT가 자체 개발한 대규모 언어모델(LLM) ‘믿음 2.0’을 오픈소스로 공개하며 국내 인공지능(AI) 산업의 혁신을 촉진하고 있다. KT는 한국어와 한국적 맥락을 심층 반영한 AI 개발을 목표로, AI 개발자 플랫폼 허깅페이스에 믿음 2.0 소스코드를 3일 공개한다고 밝혔다. 이번 모델은 사회·문화적 요소와 언어 특성 등 한국적 AI 철학을 바탕으로 구축됐으며, 누구나 상업적으로 제약 없이 활용 가능하도록 개방됐다. 업계에서는 KT의 전략이 국산 AI 생태계 확장과 글로벌 기술 경쟁력 강화의 분기점이 될 것으로 주목하고 있다.
새롭게 도입된 ‘믿음 2.0’은 115억 파라미터의 ‘기본형(Base)’과 23억 파라미터의 ‘미니’ 모델로 구성돼 한국어와 영어를 모두 지원한다. 특히 미니 모델은 대형 모델 지식을 압축해 학습한 경량 버전이다. KT는 이 모델 개발을 위해 교육용 도서, 문학, 특허·법률 문서, 사전 등 다양한 산업·공공·문화 데이터를 폭넓게 확보했으며, 저작권 이슈를 배제하고 고품질 데이터 정제에 집중했다. 한국어 데이터의 구조적 특성을 반영한 토크나이저도 독자적으로 개발하는 등, 기존 글로벌 오픈소스 모델과 뚜렷한 차별성이 있다.

믿음 2.0은 고려대학교와 공동 개발한 ‘Ko-Sovereign(코-소버린)’ 벤치마크에서 글로벌 오픈소스 및 국내 대형 모델을 뛰어넘는 점수를 획득하며, 언어·문화·사회·역사 등 한국 맥락에 대한 AI 이해력에서 두각을 보였다. 또한 ‘KMMLU’와 ‘HAERAE’ 등 대표적 한국어 AI 성능 평가에서도 국내외 주요 경쟁 모델 대비 우수한 성능을 증명했다. 특히 ‘코-소버린’은 전문가 심사 기반의 문항으로 한국 특유의 정서, 표현, 배경지식까지 검증하도록 설계됐다.
KT는 데이터 선별 및 가공 방식에서 책임 있는 AI 원칙을 적용했다. 민족문화연구원 등 산학 협력을 통해 학술 신뢰도를 높였고, 국내외 가이드라인을 토대로 ‘AI 영향 평가 체계’를 적용해 윤리성, 신뢰성을 확보했다. 임의적 데이터 증식 대신 합성 데이터 기법을 접목해 적정한 학습량을 유지했으며, 언어학적 적합성을 높였다.
아울러 KT는 AI 반도체 스타트업 리벨리온, 프렌들리AI 등과 협력해 사용자가 별도 설치 없이 허깅페이스에서 무료로 모델을 경험할 수 있도록 한시적 체험 환경도 제공한다. 향후 마이크로소프트의 GPT-4에 한국적 AI 사고방식을 추가 학습하는 방안도 추진 중이다. 글로벌 시장에서는 AI의 언어·문화적 다양성 경쟁이 가속화되는 가운데, 이번 오픈소스 모델 공개가 국내 산업의 독자적 역량 강화와 규제 완화 논의까지 확산시킬 가능성도 있다.
신동훈 KT 젠 AI 랩장(CAIO)은 “믿음 2.0은 일반적 AI 생성 능력은 물론, 한국 문화와 언어에 대한 심층적 이해를 갖춘 고도화된 모델”이라며 “KT가 사용자에게 신뢰성 높은 한국형 AI 대안을 제시함과 동시에, 글로벌 시장에서도 경쟁 발판을 마련하는 계기가 될 것”이라고 말했다. 산업계는 이번 KT의 기술이 시장에서 실질적 영향력을 보일지 주목하고 있다.