“음성 AI 허브로 한국 낙점”…일레븐랩스, K콘텐츠 확장 승부수
인공지능 오디오 전문기업 일레븐랩스가 한국을 아시아 음성 AI 허브로 육성하겠다는 청사진을 내놨다. 텍스트를 자연스러운 음성으로 바꾸는 TTS부터 초저지연 음성 에이전트까지 풀스택 음성 AI 기술을 앞세워 K콘텐츠의 글로벌 확산과 고객 상담 자동화를 동시에 공략하는 전략이다. AI 도입 속도와 통신 인프라, 까다로운 소비자 기준을 모두 갖춘 한국을 테스트베드이자 동북아 확장 거점으로 삼겠다는 판단이다. 업계에서는 고성능 음성 합성 기술을 둘러싼 글로벌 경쟁이 본격화하는 분기점으로 보는 시각도 나온다.
마티 스타니셰프스키 일레븐랩스 공동 창업자 겸 최고경영자는 21일 서울 강남구 한 호텔에서 열린 기자간담회에서 한국 시장 공식 진출을 선언하며 한국 맞춤형 엔지니어링 조직을 구축하겠다고 밝혔다. 그는 한국을 AI 도입 속도와 인프라, 혁신성이 세계 최고 수준인 시장으로 규정하며 한국어 발음과 억양, 맥락을 정확히 이해하는 음성 모델을 현지 파트너와 함께 고도화해 나가겠다고 말했다.

일레븐랩스는 2023년 초 공개한 AI 기반 TTS 도구로 글로벌 주목을 받았다. 실제 사람 목소리와 유사한 음성 복제와 자연스러운 운율 표현이 특징으로 꼽힌다. 현재 월간 활성 이용자는 5천만 명을 넘는 수준으로 알려져 있으며, 올해 초 시리즈 C 투자 유치를 마무리해 기업 가치는 약 66억 달러 규모로 평가된다. 한국에서는 네이버, LG유플러스 등으로부터 투자를 받았고, 크래프톤과 SBS, MBC C&I, 이스트소프트 등과 콘텐츠·플랫폼 협업을 진행 중이다.
기술적으로 일레븐랩스는 TTS와 STT를 기반으로 AI 더빙, 보이스 클로닝, 사운드 효과 생성, 음성 분리, 음악 생성, 에이전트 오케스트레이션을 통합한 음성 AI 플랫폼을 표방한다. 회사에 따르면 현재 7천 개 이상의 음성을 학습 데이터로 확보해 32개 언어를 지원하며, 실시간 상호작용 환경에서도 0.5초 미만 지연으로 대화를 처리할 수 있는 것이 강점이다. 초저지연 처리 능력은 콜센터, 금융 상담, 디지털 헬퍼 등에서 사람이 끊김을 느끼지 않는 수준의 인터랙션을 구현하는 데 핵심 요소다.
한국법인 대표를 맡은 홍상원 지사장은 한국의 높은 AI 수용도와 통신 인프라를 진출 배경으로 제시했다. 그는 국내 대기업의 65.1퍼센트가 이미 AI를 도입했고, 근로자의 63.5퍼센트가 생성형 AI를 일상적으로 활용하고 있어 글로벌 평균의 두 배를 넘어선다고 설명했다. 여기에 정부가 내년 AI 분야에 10조1천억 원 규모 예산을 배정하며 AI 3대 강국 도약을 천명한 점, 모바일 인터넷 보급률 99.98퍼센트와 세계 최고 수준의 5G 인프라가 결합되면서 음성 AI 상용화에 유리한 조건이 형성됐다는 분석이다.
일레븐랩스가 한국에서 먼저 공략하는 축은 K콘텐츠의 다국어 확장이다. 회사의 최신 TTS 모델 일레븐 v3는 70개 이상 언어를 지원하면서, 대사가 아닌 웃음과 한숨, 감탄사, 숨소리까지 원작의 뉘앙스를 최대한 살려 재현하는 것을 목표로 한다. 단순 자막 번역이나 기계식 더빙을 넘어 배우의 감정선을 보존한 상태에서 언어만 교체하는 형태로, 넷플릭스와 글로벌 스트리밍 플랫폼들이 추구하는 고품질 다국어 더빙 흐름과 맞닿아 있다. 한국 콘텐츠 제작사 입장에서는 별도 다국어 캐스팅과 녹음에 드는 비용과 시간을 줄이면서, 출시 초기부터 다수 국가에 동시 서비스하는 전략을 구현할 수 있는 도구가 될 수 있다는 평가가 나온다.
두 번째 축은 고객 경험 재설계다. 일레븐랩스는 500밀리초 이하 응답 속도를 내는 음성 에이전트를 앞세워 콜센터와 고객지원 시스템 자동화 수준을 끌어올리겠다는 구상이다. 반복 문의의 70퍼센트 안팎을 AI가 처리해 상담 대기 시간을 줄이고, 사람 상담사는 복잡하고 정서적 공감이 필요한 사안에 집중하는 이원 구조를 제안했다. 실제로 유럽의 한 디지털은행은 일레븐랩스 기술을 도입한 뒤 평균 고객 응대 시간이 15분에서 2분으로 단축됐고, 전체 문의의 절반을 AI가 처리해 고객 만족도와 처리 효율이 동반 개선된 사례로 소개됐다.
국내에서는 네이버와 카카오, 통신 3사 등이 자체 음성 합성 엔진과 AI 상담봇을 보유하고 있어 음성 AI 영역에서 경쟁이 치열한 편이다. 글로벌로는 오픈AI, 구글, 마이크로소프트가 음성 모델을 잇달아 공개하며 통합 AI 플랫폼에 음성 인터페이스를 기본 탑재하는 흐름이 강해지고 있다. 일레븐랩스는 특정 검색·메신저·클라우드 생태계에 종속된 서비스가 아니라, 여러 고객 관계 관리 시스템과 결제, 전화 인프라를 동시에 연결하는 수평형 플랫폼을 지향해 차별화를 꾀하고 있다.
한국 정부의 디지털 플랫폼 정부 구상과 금융·통신 분야의 AI 상담 고도화 움직임도 일레븐랩스에게는 기회 요인으로 여겨진다. 다만 금융보안, 개인정보보호법, 전자금융거래법 등 국내 규제가 엄격한 만큼 음성 데이터 수집과 저장, 학습 과정에서의 비식별 처리와 보안 설계가 상용화의 핵심 변수가 될 전망이다. 특히 실제 고객 목소리를 기반으로 한 보이스 클로닝 기능은 사기 통화나 음성 피싱 악용 우려가 커, 기술 제공사와 이용 기업 모두에 세밀한 인증·검증 체계가 요구된다.
스타니셰프스키 CEO는 웨어러블 기기와 차량, 각종 스마트 디바이스까지 모든 기기가 사람의 말 내용과 말투를 동시에 이해하는 환경을 AI 오디오의 미래로 제시했다. 그는 실시간 번역과 자연스러운 더빙을 통해 언어 장벽을 없애고, 모든 음성과 콘텐츠가 전 세계 어디에서나 같은 수준으로 소비 가능한 방향으로 기술을 발전시키겠다고 강조했다. 업계에서는 일레븐랩스가 한국을 전담 조직과 레퍼런스 시장으로 삼은 만큼, 향후 국내에서 구축되는 대형 음성 AI 프로젝트의 성과가 아시아 시장 확장 속도를 좌우할 것으로 보고 있다. 산업계는 초고도화된 음성 AI가 실제 서비스와 규제 장벽을 넘어 시장에 안착할 수 있을지 주시하는 분위기다.
