IT/바이오

한국어 감정까지 읽는 멀티모달 AI…카카오, 카나나로 초개인화 노린다

권혁준 기자
입력

카카오가 한국어와 한국 문화에 특화된 멀티모달 인공지능 기술을 앞세워 대화형 서비스 경쟁을 본격화하고 있다. 사람처럼 억양과 감정, 호흡을 읽고 반응하는 음성 기반 대화 능력에, 텍스트와 이미지·음성을 함께 이해하는 검색·추천 기술을 더해 서비스 전반의 초개인화를 노리는 구도다. 업계에서는 글로벌 범용 모델 중심이던 AI 경쟁이 지역 언어와 문화에 맞춘 특화 모델 경쟁으로 옮겨가는 분기점이 될 수 있다는 관측이 나온다.

 

카카오는 12일 테크블로그를 통해 통합 멀티모달 언어모델 카나나 o와 멀티모달 임베딩 모델 카나나 v 임베딩의 개발 과정과 성능을 공개했다. 두 모델 모두 자체 개발 언어모델 라인업 카나나를 기반으로 하며, 텍스트뿐 아니라 음성과 이미지까지 동시에 처리하는 한국형 멀티모달 AI로 설계됐다.

카나나 o는 텍스트, 음성, 이미지 입력을 한 번에 받아 실시간으로 답변하는 통합 멀티모달 언어모델이다. 카카오는 기존 멀티모달 모델들이 텍스트 대화에서는 강점을 보이지만 음성 대화에서는 답변이 반복적이거나 추론 능력이 약해지는 한계를 짚었다. 이를 보완하기 위해 지시 이행 능력을 고도화해 사용자가 말로만 전달한 숨은 의도나 복합적인 요구 사항까지 해석하도록 설계했고, 멀티모달 입력에서도 텍스트 전용 언어모델에 준하는 추론 성능을 유지하도록 학습했다.

 

이를 위해 카카오는 자체 구축한 대규모 멀티모달 데이터셋으로 카나나 o를 학습시켰다. 그 결과 단순 질의응답을 넘어 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 범용 언어모델이 수행해온 대부분의 과업을 음성·이미지와 결합된 상황에서도 처리할 수 있게 됐다는 설명이다. 예를 들어 사용자가 사진을 보여주며 감정이 실린 말투로 질문하면, 모델이 사진의 정보와 말의 억양을 함께 반영해 상황에 맞는 대답을 생성하는 식이다.

 

특히 음성 영역에서는 고품질 한국어 음성 데이터와 DPO 직선호 최적화 기술을 결합했다. DPO는 사람이 선호하는 응답을 직접 비교해 모델 파라미터를 조정하는 기법으로, 카카오는 이를 억양·감정·호흡 정보에까지 확장 적용했다. 이를 통해 기쁨·슬픔·분노·공포 등 상황별 감정 표현뿐 아니라, 미세한 음색·어조 변화에 따른 감정의 농도 차이까지 반영하도록 모델을 튜닝했다.

 

대화 흐름 학습에도 공을 들였다. 호스트와 게스트가 자연스럽게 주고받는 팟캐스트 형태의 한국어 대화 데이터를 대량 확보해 멀티턴 대화를 학습시켰다. 그 결과 사용자의 말을 중간에 끊지 않고, 맥락을 이어받아 재질문하거나 요약하는 등 사람에 가까운 대화 패턴을 구현했다는 설명이다. 카카오는 향후 카나나 o를 기반으로 사용자의 발화와 동시에 반응하는 동시 대화와, 상황에 맞는 배경음이나 효과음을 실시간으로 생성하는 사운드스케이프 기능까지 확장할 계획이다.

 

벤치마크 평가에서 카나나 o는 영어 음성 처리 성능에서 GPT 4o와 유사한 수준을 기록했다. 반면 한국어 영역에서는 음성 인식, 음성 합성, 감정 인식 등 핵심 지표에서 글로벌 범용 모델 대비 우위가 확인됐다고 카카오는 설명했다. 한국어의 높낮이와 억양, 종결어미에 따른 뉘앙스 차이가 정교하게 반영되면서 한국 사용자에게 더 자연스럽고 친숙한 대화 경험을 제공할 수 있다는 분석이다.

 

카나나 v 임베딩은 이미지 기반 검색을 위한 한국형 멀티모달 임베딩 모델이다. 임베딩은 텍스트와 이미지를 고차원 벡터로 변환해 유사도를 계산하는 핵심 기술로, 이 모델은 텍스트와 이미지를 같은 의미 공간에서 비교하도록 설계돼 있다. 사용자는 텍스트로 이미지를 검색하거나, 특정 이미지를 기준으로 유사한 이미지를 찾고, 이미지가 포함된 문서를 검색하는 등 다양한 형태의 멀티모달 검색을 수행할 수 있다.

 

카카오가 강조하는 차별점은 한국어와 한국 문화 맥락에 최적화했다는 점이다. 예를 들어 경복궁, 붕어빵과 같은 고유명사는 물론, 하멜튼 치즈처럼 철자가 틀린 표현이 들어와도 문맥을 분석해 적절한 이미지를 찾아낸다. 또 한복 입고 찍은 단체 사진과 같이 여러 조건이 결합된 검색어에 대해서도, 조건을 모두 충족하지 않는 이미지는 걸러내는 높은 변별력을 보여줬다고 설명했다. 이는 광고 소재 검수, 쇼핑 검색, 소셜 피드 추천 등 실제 서비스에서 바로 활용 가능한 수준을 목표로 설계된 결과다.

 

현재 카나나 v 임베딩은 카카오 내부 광고 시스템에 우선 적용됐다. 광고 소재 간 유사도를 자동 분석해 중복 또는 부적절한 소재를 걸러내고, 캠페인별로 가장 적합한 이미지를 추천하는 데 활용되고 있다. 카카오는 앞으로 비디오와 음성까지 임베딩 대상으로 확장해, 동영상 검색과 음성 기반 추천 등 다양한 서비스에 적용할 방침이다.

 

이번 발표는 카카오가 언어모델 카나나 1.5와 2를 양 축으로, 에이전틱 AI와 온디바이스 경량 모델까지 포트폴리오를 넓히는 전략의 연장선으로 해석된다. 카나나 1.5는 사용자의 지시를 스스로 쪼개고 실행하는 에이전틱 기능 강화를 목표로 한 모델로, 카카오는 이를 기반으로 모바일 기기 등 온디바이스 환경에서 작동 가능한 경량 멀티모달 모델을 연구 중이다. 동시에 MoE 구조를 적용한 고성능·고효율 모델 카나나 2 개발도 준비하고 있어, 대규모 클라우드 모델과 경량 디바이스 모델을 동시에 겨냥하는 이원화 전략을 취하는 셈이다.

 

국내외 AI 시장에서는 이미 멀티모달과 감정 인식, 에이전틱 기능을 결합한 차세대 서비스 경쟁이 본격화된 상황이다. 글로벌 빅테크가 영어 중심 범용 모델을 고도화하는 동안, 카카오 같은 로컬 플랫폼 기업은 한국어와 한국 문화에 특화한 모델을 전면에 내세워 차별화를 시도하는 구도다. 한국 이용자의 메신저, 포털, 커머스, 콘텐츠 이용 패턴이 이미 카카오 생태계 안에 쌓여 있는 만큼, 멀티모달 AI를 실제 서비스에 빠르게 녹여낼 수 있다는 점이 카카오의 강점으로 꼽힌다.

 

다만 음성·이미지 데이터를 대규모로 활용하는 멀티모달 AI는 개인정보 보호, 데이터 수집 동의, 알고리즘 투명성 등 규제 이슈와도 맞닿아 있다. 국내에서도 AI 활용 가이드라인과 데이터 관련 법제 정비가 진행 중인 만큼, 카카오의 멀티모달 모델 상용화 과정에서도 데이터 최소 수집, 비식별화, 모델 편향성 검증 등이 중요한 과제로 떠오를 가능성이 크다.

 

김병학 카카오 카나나 성과리더는 카나나의 지향점을 사용자의 감정을 이해하고 친숙하게 대화하는 AI로 규정했다. 그는 실제 서비스 환경을 통해 이용자 일상 속에서 AI 경험을 만들겠다며, 사람처럼 상호작용하는 AI 구현에 주력하겠다고 밝혔다. 산업계에서는 카카오가 확보한 멀티모달 기술이 메신저, 검색, 광고, 콘텐츠 플랫폼 전반에 얼마나 빠르게 안착할지, 그리고 한국어 특화 전략이 글로벌 범용 모델과의 경쟁에서 어떤 균형점을 찾을지 주목하고 있다.

권혁준 기자
share-band
밴드
URL복사
#카카오#카나나o#카나나v임베딩