“소형 언어모델 한계 넘는다”…LG유플러스, AI 논문 EMNLP 채택
소형 언어모델(sLLM)의 산업 활용 가능성을 앞당기는 기술이 세계적 AI 연구무대에서 주목받고 있다. LG유플러스가 자체 개발한 생성형 인공지능(AI) ‘익시젠(ixi-GEN)’의 핵심 기술 논문이 2025년 세계 3대 자연어처리(NLP) 학회인 EMNLP에 채택됐다. 자연어처리 분야 최고 권위의 글로벌 심사대를 통과한 이번 연구는, 범용성과 산업 적합성을 동시에 담보하는 소형 언어모델 혁신 사례로 평가된다. 업계는 이번 발표를 ‘산업형 AI 경쟁의 본격 신호탄’으로 해석하고 있다.
LG유플러스가 EMNLP에 제출한 논문 ‘ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining’은 소형 언어모델이 산업 특화 데이터를 지속적으로 학습하면서도 일반 언어 이해력을 잃지 않는 방법을 제시한다. 핵심은 ‘도메인 특화 학습(Domain Adaptive Continual Pretraining, DACP)’으로, 통신·금융 등 특정 산업 데이터를 연속 학습시키면서 범용 데이터도 균형 있게 반영해, 모델 편향과 성능 저하 문제를 동시 개선했다. 실제 적용 결과 기존 대비 산업별 자연어처리 성능이 크게 오르면서, 소형 모델로도 즉각적인 현장 투입이 가능한 수준임을 증명했다.

기존 소형 언어모델은 제한된 자원 탓에 특정 산업에 맞게 학습할 경우 일반 언어 성능이 떨어지는가 하면, 범용 성능을 유지할 땐 산업 특화도가 낮아지는 문제가 있었다. LG유플러스의 DACP 방식은 이 탁월한 한계를 극복했다는 점에서 학계와 산업 양측에서 높은 평가를 받고 있다.
글로벌 시장에서도 초거대 AI 활용과 비용 부담이 교차하는 상황에서, 이번 LG유플러스의 연구와 같이 소형·실용형 AI 모델에 대한 수요가 확대되는 추세다. 미국, 유럽 다수 기업들도 전용 도메인 데이터셋을 활용한 소형 언어모델 연구에 속도를 내고 있지만, EMNLP와 같은 국제 학회에서 산업계의 실효성을 입증한 사례는 드물다.
AI 인프라가 제한된 중견·중소 기업 입장에서는, 초거대 AI 대신 DACP 기반 경량 모델 적용이 새로운 길이 될 수 있다는 평가도 나온다. 연구 논문이 실제 산업 환경서 쓸 수 있는 검증 결과를 확보한 점 역시 규제와 인증에서 우위를 점할 가능성을 높인다. 최근 데이터 활용ㆍ윤리 관련 제도 논의가 활발한 만큼, 산업 데이터와 대규모 공개 데이터의 균형 학습을 입증한 이번 사례에 대해 관련 부처 및 규제기관도 주목하고 있다.
한영섭 LG유플러스 AI테크Lab장은 “EMNLP 논문 채택은 한국 산업형 AI의 글로벌 학문적 검증이자, 산업 현장 맞춤형 AI 기술 진입의 중요한 기준점”이라며 “실제 산업 과제를 해결하는 실용적 AI 기술 연구에 더욱 집중하겠다”고 강조했다. 산업계는 이번 기술이 실제 시장에 안착할 수 있을지 주시하고 있다.
