“KAI 고품질 데이터”…플리토, 한국어 특화 LLM 경쟁력 부각
인공지능 데이터와 솔루션을 결합한 국산 파운데이션 모델 개발 경쟁이 본격화하고 있다. 한국어에 최적화된 대형언어모델을 확보하려는 국가 프로젝트 과정에서 데이터 품질이 성능을 가르는 핵심 변수로 부상하면서, 다국어 데이터 구축 경험을 가진 기업들의 역할도 커지는 흐름이다. 업계는 정부가 추진 중인 독자 AI 파운데이션 모델 사업이 글로벌 빅테크 중심의 모델 의존도를 낮추는 분기점이 될 수 있을지에 주목하고 있다.
플리토는 30일 서울 강남구 코엑스 오디토리움에서 열린 과학기술정보통신부 주관 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참가해 자사의 고품질 데이터 구축 기술과 AI 통번역 솔루션을 공개 시연했다. 이번 행사는 업스테이지, 네이버클라우드, SK텔레콤, NC AI, LG AI연구원 등 5개 컨소시엄이 수행 중인 국가대표 AI 프로젝트의 중간 성과를 공유하는 자리로, 정부 관계자와 업계 전문가 200여 명이 참석했다.

발표회에서 플리토는 업스테이지 컨소시엄 멤버사 가운데 유일하게 공식 시연 주체로 무대에 올라 데이터 기반 기술 역량을 부각했다. 업스테이지가 개발 중인 1천억 개 파라미터 규모의 대형언어모델 솔라 오픈 100B를 플리토의 AI 통번역 솔루션 챗 트랜스레이션에 접목해, 모델이 실제 서비스 환경에서 어떻게 응용 솔루션으로 구현되는지 현장에서 선보였다.
시연 과정에서 솔라 오픈 100B는 한국어 특화 모델로서 글로벌 빅테크가 보유한 범용 LLM과 비교해 문맥 이해력과 번역 자연스러움에서 뚜렷한 경쟁 우위를 보여줬다는 평가를 받았다. 업스테이지는 데모 시연과 함께 산업별 응용 서비스 확산 전략, 국내 AI 활용 생태계 확대 방안도 제시하며 모델을 단순 엔진이 아닌 산업용 플랫폼으로 확장하겠다는 방향을 강조했다.
기술적 측면에서 솔라 오픈 100B의 경쟁력은 한국어 데이터의 깊이와 다양성에서 비롯된 것으로 평가된다. 플리토는 다년간 축적해 온 다국어 데이터 구축·운영 역량을 바탕으로 업스테이지 컨소시엄 내에서 학습과 평가용 데이터를 총괄 제공하고 있다. 단순 문장 쌍 수준을 넘어 고난도 작업을 포함한 학습 데이터, 실제 서비스 환경을 가정한 실사용 평가 데이터, 시나리오 기반 품질 검증 데이터 등을 단계별로 설계해 공급하는 구조다.
특히 플리토가 직접 설계한 한국어 데이터는 문화적 배경과 사회적 맥락, 구어체와 전문용어를 함께 반영해 모델이 단편적 문장 생성이 아니라 상황에 맞는 표현을 선택하도록 돕는 점이 특징이다. 회사 측은 이러한 맥락 정보가 포함된 데이터가 대형언어모델의 환각 현상 감소와 의미 보존 번역 비율 향상에 기여하고 있으며, 글로벌 프런티어 모델 수준의 언어 성능에 근접하는 데 중요한 역할을 하고 있다고 설명한다.
시장 측면에서 국산 한국어 특화 LLM은 공공기관, 금융, 제조, 게임, 고객센터 등 다양한 산업에서 활용 폭을 넓힐 여지가 크다. 실제로 플리토가 시연한 챗 트랜스레이션은 단순 기계 번역을 넘어 대화형 통역과 업무용 문서 번역을 동시에 겨냥하고 있어, 기업 고객 입장에서는 데이터 주권을 유지하면서도 언어 장벽을 낮출 수 있는 도구로 활용될 수 있다. 특히 국가 프로젝트 기반 LLM은 데이터 저장 위치와 활용 범위가 상대적으로 투명해, 규제 민감 산업에서도 수용성이 높아질 가능성이 있다.
글로벌 시장에서는 이미 미국과 유럽을 중심으로 독자 LLM 경쟁이 가속화된 상황이다. 미국에서는 개별 빅테크와 스타트업이 특화 도메인 모델을 쏟아내고 있고, 중국과 유럽 역시 자국 언어에 최적화한 모델 개발에 속도를 내고 있다. 이러한 흐름 속에서 한국어와 한국 문화에 특화된 고품질 데이터셋을 확보해 모델 성능을 끌어올리려는 플리토와 업스테이지의 시도는, 국산 소버린 AI를 향한 경쟁 구도에서 차별화 포인트가 될 수 있다는 평가가 나온다.
국가 프로젝트라는 특성상 데이터 주권과 규제 준수도 주요 이슈로 떠오른다. 한국어 대형언어모델은 공공 영역 활용을 염두에 두고 있어, 개인정보 비식별화, 저작권 보호, 투명한 데이터 출처 관리 등이 필수 조건이 된다. 플리토는 그동안 다국어 데이터 수집 과정에서 쌓은 정제·검수 프로세스를 기반으로, 학습·평가 데이터가 국내 개인정보 보호 규정과 국제적 윤리 기준을 모두 고려해 설계되고 있다고 설명한다.
이정수 플리토 대표는 국가 프로젝트 참여 의미에 대해 국가대표 AI 파운데이션 모델 사업의 기술 성과를 국민에게 직접 시연한 첫 자리였다는 점과 함께, 플리토 데이터가 모델 학습을 넘어 실사용 단계까지 연결되는 과정을 공식적으로 보여줬다는 점을 강조했다. 또 한국어 기반 AI 생태계의 완성도를 높이는 데이터 허브 역할을 강화해 글로벌 수준의 소버린 AI 생태계 구축에 기여하겠다는 계획을 밝혔다.
업계에서는 국산 파운데이션 모델 경쟁에서 데이터 품질과 도메인 특화 정도가 승부처가 될 것으로 보고 있다. 플리토와 같은 데이터 전문 기업과 모델 개발사가 얼마나 긴밀하게 협력해 산업별 요구를 반영한 학습·평가 데이터를 설계하느냐에 따라, 국가 프로젝트 성과가 실제 시장 안착으로 이어질지 여부가 갈릴 수 있다는 분석도 나온다. 결국 한국어 특화 LLM 경쟁력과 데이터 거버넌스 정착 여부가 국내 AI 산업 전반의 도약 속도를 좌우하는 핵심 변수가 되고 있다.
