IT/바이오

한국형 논리추론 데이터로 공인 받았다…플리토, 품질대상 수상 의미

최동현 기자
입력

인공지능 기반 서비스 경쟁이 일반 대화 능력을 넘어 심층적인 추론 성능으로 옮겨가는 가운데, 한국어에 특화된 논리추론 데이터가 공식 품질 인증을 받으며 산업계 주목을 끌고 있다. 국내 AI 데이터 기업이 구축한 한국형 체인 오브 소트 데이터셋이 국가 차원의 품질 평가에서 인정받으면서, 그동안 영어 중심으로 형성돼 온 글로벌 학습 데이터 구조에 변화를 가져올 수 있을지 관심이 쏠린다. 업계에서는 이번 수상을 한국어 기반 AI의 고도화 경쟁에서 의미 있는 분기점으로 보는 시각이 나온다.

 

플리토는 과학기술정보통신부와 한국데이터산업진흥원이 주관한 2025 데이터 품질대상에서 한국데이터산업진흥원장상을 수상했다고 19일 밝혔다. 수상의 핵심 성과는 플리토가 자체 구축한 한국형 논리추론 체인 오브 소트 데이터셋이다. 이 데이터는 사회문화, 경제, 수학, 과학, 기술 등 복수 도메인에 걸친 질문에 대해 단계별 분석과 논리 전개 과정을 문장 단위로 서술한 형태로 설계돼, 단순 정답 레이블이 아닌 사고의 흐름을 함께 학습하게 만드는 것이 특징이다.

플리토 데이터셋은 이미 한국정보통신기술협회 품질인증 심사에서 최고 등급에 해당하는 Class A를 획득한 바 있다. TTA 품질인증은 데이터 수집 경로의 명확성, 라벨 정확도, 포맷 일관성, 결측값 관리 등 세부 항목을 기반으로 평가하며, 특히 인공지능 학습용 데이터의 경우 도메인 전문가 검수 비율과 다단계 검증 체계 운영 여부를 중요하게 본다. 플리토는 데이터 설계, 구축, 검수, 운영으로 이어지는 전 과정을 표준화된 절차로 관리해 이 기준을 충족했다.

 

이번 논리추론 데이터의 기술적 가치는 한국어 언어 구조에 맞춰 설계된 점에서 부각된다. 글로벌 오픈소스와 상용 체인 오브 소트 데이터는 대부분 영어 기반으로 구축돼 문장 구성과 논리 연결 구조가 영어화된 형태를 띤다. 이 때문에 한국어로 번역해 사용할 경우 조사나 어미 변화, 주어 생략, 맥락상 생략되는 주체와 객체 표현 등에서 자연스러운 사고 전개가 왜곡되는 문제가 반복돼 왔다. 플리토는 이런 한계를 줄이기 위해 한국어 화자 관점에서 자주 사용하는 사고 패턴과 담화 구조를 반영한 질문·답변·추론 단계를 별도로 설계했다.

 

품질 관리 측면에서도 차별화 전략을 적용했다. 플리토는 데이터 구축 단계부터 도메인별 전담 라벨러와 언어 전문가를 분리해 배치하고, 자동화된 검사 규칙과 사람 검수를 결합한 다중 검증 체계를 운영하는 것으로 알려졌다. 예를 들어 수학·과학 영역은 계산 과정과 논리 도약을 이중 검수하고, 사회문화·경제 영역은 사실 관계 검증과 관점 편향을 따로 평가하는 방식이다. 이를 통해 단순히 문장이 자연스러운지 여부를 넘어, 사고 전개가 일관되고 근거 기반으로 서술됐는지에 초점을 맞췄다는 설명이다.

 

적용 분야를 보면, 한국형 논리추론 데이터는 범용 대규모 언어모델의 추론 성능 고도화에 직접 활용될 수 있다. 복잡한 정책 질의에 대한 설명형 답변 생성, 금융·공공 영역에서의 규정 해석, 교육 분야에서 풀이 과정을 설명하는 튜터형 AI 등에서 체인 오브 소트 데이터의 유무가 실제 서비스 품질을 좌우한다. 특히 한국어 사용자는 문장 속에 생략되는 맥락과 미묘한 존대 표현에 민감하기 때문에, 언어 구조를 고려해 설계된 추론 데이터가 서비스 만족도에 차이를 만들 수 있다는 평가가 나온다.

 

글로벌 시장에서는 이미 논리추론 데이터 확보 경쟁이 빨라진 상황이다. 미국과 유럽을 중심으로 오픈AI, 구글, 앤트로픽 등 주요 AI 기업은 자체 수집 데이터와 시뮬레이션 기반 체인 오브 소트 데이터를 결합해 고난도 수학·코딩·전문 도메인 추론 성능을 끌어올리는 데 집중하고 있다. 다만 다수 데이터가 영어에 편중돼 비영어권 언어에서는 성능 편차가 발생해 왔다. 이번에 플리토가 한국어 논리추론 데이터 품질을 국내 공인 기관에서 인정받으면서, 한국어 환경에서의 추론 성능 격차를 줄일 수 있는 토대가 마련됐다는 해석이 나온다.

 

플리토는 이번 수상을 기반으로 국가 차원의 AI 파운데이션 모델 개발에도 적극 참여하고 있다. 회사는 독자 AI 파운데이션 모델 개발 프로젝트의 핵심 그룹 중 하나인 업스테이지 컨소시엄에서 한국어 추론 데이터 품질과 구조를 총괄하는 데이터 파트너로 활동 중이다. 컨소시엄은 대규모 한국어 언어모델 학습을 위해 도메인별 말뭉치, 전문지식 데이터, 멀티모달 자료 등을 통합하는 과정에서, 플리토가 구축한 체계적 품질 관리 기준을 적용하고 있는 것으로 전해졌다.

 

정책 관점에서 보면, 이번 수상은 정부가 추진하는 신뢰할 수 있는 AI 생태계 조성과도 맞닿아 있다. 과학기술정보통신부와 한국데이터산업진흥원은 학습 데이터의 품질과 투명성을 국가 AI 경쟁력의 핵심 요소로 보고, 데이터 품질대상을 통해 우수 사례를 발굴·확산하는 전략을 취하고 있다. 향후 인공지능 윤리 지침과 데이터 거버넌스 논의에서 어떤 데이터가 고품질 학습 자원으로 인정받을지에 대한 기준이 형성되면, 플리토 사례와 같은 공인 품질 인증 데이터의 활용 범위가 더 넓어질 수 있다는 분석도 제기된다.

 

전문가들은 한국형 논리추론 데이터가 실제 서비스에 반영되기까지는 모델 구조 설계와 파인튜닝 전략, 검증 벤치마크 개발 등 후속 작업이 병행돼야 한다고 지적한다. 한국어 특성이 반영된 평가 데이터와 테스트 시나리오가 함께 구축돼야 품질 인증 데이터의 효과를 객관적으로 입증할 수 있기 때문이다. 동시에 공공과 민간 영역에서 한국어 특화 AI를 적용할 수 있는 수요가 늘어날수록, 언어별 맞춤형 데이터 품질 관리 체계를 표준화하려는 시도도 이어질 것으로 보인다.

 

김진구 플리토 최고 데이터 책임자는 공식 입장을 통해 데이터 기술력과 관리 체계가 공인 기준으로 인정받았다는 점을 강조하면서, 향후 산업 전반에 한국형 데이터 품질 관리의 중요성을 확산시키겠다고 밝혔다. 그는 신뢰할 수 있는 데이터 생태계가 글로벌 AI 경쟁에서 필수 인프라가 될 것이라고 내다봤다. 산업계는 이번에 공인된 한국형 논리추론 데이터가 실제 AI 서비스 성능을 얼마나 끌어올릴지, 그리고 국가 단위 파운데이션 모델 개발 과정에서 어떤 차별화 요소로 작용할지 주시하고 있다.

최동현 기자
share-band
밴드
URL복사
#플리토#한국데이터산업진흥원#업스테이지컨소시엄