“실사용 음성 데이터 고도화”…플리토, 글로벌 AI 시장 정조준
음성 데이터 수집 및 가공 기술이 인공지능(AI) 산업의 핵심 경쟁력으로 떠오르는 가운데, 언어 데이터 전문 기업 플리토가 실사용 환경에 근접한 고품질 음성 데이터 수집 체계를 고도화하며 글로벌 시장 공략에 속도를 내고 있다. 플리토가 공개한 아케이드 토킹 미션 고도화 프로젝트는 글로벌 빅테크의 요구 사항을 반영, 실제 사용자 간 자연스러운 통화 데이터를 정밀하게 수집·정제하는 데 주력한 것이 특징이다. 업계는 이번 조치가 AI 학습 데이터 시장 선점 경쟁에서 새로운 분기점이 될 것으로 보고 있다.
플리토는 자사 모바일 앱 기반의 아케이드 토킹 미션을 통해, 별도의 외부 통화 연결이나 앱 설치 없이 자체 내장된 통화 기능을 활용해 자연스러운 대화 데이터를 수집할 수 있도록 설계했다. 사용자는 사전에 정의된 상황과 키워드를 바탕으로 자유롭게 통화하며, 스크립트 기반 인위적 대화 대신 실제 일상과 유사한 자연 언어 데이터 확보가 가능해졌다. 이번 고도화로 플리토는 ▲앱 내 통화 기능 내재화 ▲상황 중심 자유 대화 시나리오 설계 ▲참여 간소화 및 고품질 데이터 기준 정립 ▲AI 학습용 최적화 제출 포맷 구축 등 음성 데이터 수집·정제·라벨링의 전 주기를 자체 플랫폼에서 처리할 수 있는 체계를 마련했다.

이렇게 구축한 데이터는 음성인식(STT), 자연어처리(NLP), 객체 인식 등 첨단 AI 모델 개발에 특화된 학습 자료로 활용된다. 플리토는 단순 음성 자료 수집에 그치지 않고, 자체 품질 기준을 바탕으로 데이터 정제·의미 기반 라벨링 등 고도화 과정을 거쳐, 기업 및 연구소가 즉시 적용 가능한 실전형 데이터셋을 공급한다는 전략이다.
초기에는 한국어와 일본어 중심으로 서비스를 시작하지만, 점진적으로 아랍어·말레이시아어·중국어·영어 등 다국어로 확장해 글로벌 빅테크 및 주요 연구기관의 수요에 맞춘다. 플리토의 데이터는 자체 품질 검수 시스템을 통과한 뒤, 세계적 수준의 정확성과 다양성을 보장하는 것이 강점이다. 특히 기존의 스크립트 기반·비자연어 중심 음성 데이터 제공과 차별화된 접근방식으로, 글로벌 AI 시장에서도 실용성과 효용성이 주목을 받고 있다.
해외에서도 아마존, 구글 등 주요 기업이 실사용자 기반의 음성 데이터 확보와 품질 표준화에 나서고 있으나, 플리토처럼 앱 내 통합형 통화 기능을 도입해 데이터 수집-정제-라벨링까지 ‘원스톱’으로 자체 수행하는 사례는 드물다.
음성 데이터는 개인정보보호와 투명한 수집·활용이 중요한 만큼 관련 규제와 윤리적 기준 준수, 신뢰할 수 있는 품질 관리가 필수다. 플리토 또한 학습용 데이터의 익명화 조처, 데이터 처리 과정의 투명성 강화 등 글로벌 빅테크 수준의 품질·윤리 체계를 확보했다고 밝혔다.
이정수 플리토 대표는 “이번 아케이드 토킹 미션 고도화로 실제 사용 환경을 반영한 데이터 확보가 가능해졌다”며 “단순 수집이 아니라 정제·라벨링 전 과정을 자체 수행하겠다”고 강조했다. 업계 전문가들은 실사용 기반의 고품질 데이터가 향후 글로벌 AI 산업의 정밀화와 경쟁력 제고에 핵심 변수로 작용할 것으로 전망하고 있다. 산업계는 플리토의 통합 음성 데이터 플랫폼 강화가 실제 시장 주도권 확보로 이어질지 주목하고 있다.