카카오가 한국어와 한국 문화에 특화된 멀티모달 인공지능 기술을 앞세워 대화형 서비스 경쟁을 본격화하고 있다. 사람처럼 억양과 감정, 호흡을 읽고 반응하는 음성 기반 대화 능력에, 텍스트와 이미지·음성을 함께 이해하는 검색·추천 기술을 더해 서비스 전반의 초개인화를 노리는 구도다. 업계에서는 글로벌 범용 모델 중심이던 AI 경쟁이 지역 언어와 문화에 맞춘 특화 모델 경쟁으로 옮겨가는 분기점이 될 수 있다는 관측이 나온다.&nbsp;카카오는 12일 테크블로그를 통해 통합 멀티모달 언어모델 카나나 o와 멀티모달 임베딩 모델 카나나 v 임베딩의 개발 과정과 성능을 공개했다. 두 모델 모두 자체 개발 언어모델 라인업 카나나를 기반으로 하며, 텍스트뿐 아니라 음성과 이미지까지 동시에 처리하는 한국형 멀티모달 AI로 설계됐다.<figure class="image image-left w-full"><img style="aspect-ratio:100%/100%;" src="https://mdaily.cdn.presscon.ai/prod/129/images/20251212/1765502763301_499255040.jpg" alt="" width="100%" height="100%" position="block"></figure>카나나 o는 텍스트, 음성, 이미지 입력을 한 번에 받아 실시간으로 답변하는 통합 멀티모달 언어모델이다. 카카오는 기존 멀티모달 모델들이 텍스트 대화에서는 강점을 보이지만 음성 대화에서는 답변이 반복적이거나 추론 능력이 약해지는 한계를 짚었다. 이를 보완하기 위해 지시 이행 능력을 고도화해 사용자가 말로만 전달한 숨은 의도나 복합적인 요구 사항까지 해석하도록 설계했고, 멀티모달 입력에서도 텍스트 전용 언어모델에 준하는 추론 성능을 유지하도록 학습했다.&nbsp;이를 위해 카카오는 자체 구축한 대규모 멀티모달 데이터셋으로 카나나 o를 학습시켰다. 그 결과 단순 질의응답을 넘어 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 범용 언어모델이 수행해온 대부분의 과업을 음성·이미지와 결합된 상황에서도 처리할 수 있게 됐다는 설명이다. 예를 들어 사용자가 사진을 보여주며 감정이 실린 말투로 질문하면, 모델이 사진의 정보와 말의 억양을 함께 반영해 상황에 맞는 대답을 생성하는 식이다.&nbsp;특히 음성 영역에서는 고품질 한국어 음성 데이터와 DPO 직선호 최적화 기술을 결합했다. DPO는 사람이 선호하는 응답을 직접 비교해 모델 파라미터를 조정하는 기법으로, 카카오는 이를 억양·감정·호흡 정보에까지 확장 적용했다. 이를 통해 기쁨·슬픔·분노·공포 등 상황별 감정 표현뿐 아니라, 미세한 음색·어조 변화에 따른 감정의 농도 차이까지 반영하도록 모델을 튜닝했다.&nbsp;대화 흐름 학습에도 공을 들였다. 호스트와 게스트가 자연스럽게 주고받는 팟캐스트 형태의 한국어 대화 데이터를 대량 확보해 멀티턴 대화를 학습시켰다. 그 결과 사용자의 말을 중간에 끊지 않고, 맥락을 이어받아 재질문하거나 요약하는 등 사람에 가까운 대화 패턴을 구현했다는 설명이다. 카카오는 향후 카나나 o를 기반으로 사용자의 발화와 동시에 반응하는 동시 대화와, 상황에 맞는 배경음이나 효과음을 실시간으로 생성하는 사운드스케이프 기능까지 확장할 계획이다.&nbsp;벤치마크 평가에서 카나나 o는 영어 음성 처리 성능에서 GPT 4o와 유사한 수준을 기록했다. 반면 한국어 영역에서는 음성 인식, 음성 합성, 감정 인식 등 핵심 지표에서 글로벌 범용 모델 대비 우위가 확인됐다고 카카오는 설명했다. 한국어의 높낮이와 억양, 종결어미에 따른 뉘앙스 차이가 정교하게 반영되면서 한국 사용자에게 더 자연스럽고 친숙한 대화 경험을 제공할 수 있다는 분석이다.&nbsp;카나나 v 임베딩은 이미지 기반 검색을 위한 한국형 멀티모달 임베딩 모델이다. 임베딩은 텍스트와 이미지를 고차원 벡터로 변환해 유사도를 계산하는 핵심 기술로, 이 모델은 텍스트와 이미지를 같은 의미 공간에서 비교하도록 설계돼 있다. 사용자는 텍스트로 이미지를 검색하거나, 특정 이미지를 기준으로 유사한 이미지를 찾고, 이미지가 포함된 문서를 검색하는 등 다양한 형태의 멀티모달 검색을 수행할 수 있다.&nbsp;카카오가 강조하는 차별점은 한국어와 한국 문화 맥락에 최적화했다는 점이다. 예를 들어 경복궁, 붕어빵과 같은 고유명사는 물론, 하멜튼 치즈처럼 철자가 틀린 표현이 들어와도 문맥을 분석해 적절한 이미지를 찾아낸다. 또 한복 입고 찍은 단체 사진과 같이 여러 조건이 결합된 검색어에 대해서도, 조건을 모두 충족하지 않는 이미지는 걸러내는 높은 변별력을 보여줬다고 설명했다. 이는 광고 소재 검수, 쇼핑 검색, 소셜 피드 추천 등 실제 서비스에서 바로 활용 가능한 수준을 목표로 설계된 결과다.&nbsp;현재 카나나 v 임베딩은 카카오 내부 광고 시스템에 우선 적용됐다. 광고 소재 간 유사도를 자동 분석해 중복 또는 부적절한 소재를 걸러내고, 캠페인별로 가장 적합한 이미지를 추천하는 데 활용되고 있다. 카카오는 앞으로 비디오와 음성까지 임베딩 대상으로 확장해, 동영상 검색과 음성 기반 추천 등 다양한 서비스에 적용할 방침이다.&nbsp;이번 발표는 카카오가 언어모델 카나나 1.5와 2를 양 축으로, 에이전틱 AI와 온디바이스 경량 모델까지 포트폴리오를 넓히는 전략의 연장선으로 해석된다. 카나나 1.5는 사용자의 지시를 스스로 쪼개고 실행하는 에이전틱 기능 강화를 목표로 한 모델로, 카카오는 이를 기반으로 모바일 기기 등 온디바이스 환경에서 작동 가능한 경량 멀티모달 모델을 연구 중이다. 동시에 MoE 구조를 적용한 고성능·고효율 모델 카나나 2 개발도 준비하고 있어, 대규모 클라우드 모델과 경량 디바이스 모델을 동시에 겨냥하는 이원화 전략을 취하는 셈이다.&nbsp;국내외 AI 시장에서는 이미 멀티모달과 감정 인식, 에이전틱 기능을 결합한 차세대 서비스 경쟁이 본격화된 상황이다. 글로벌 빅테크가 영어 중심 범용 모델을 고도화하는 동안, 카카오 같은 로컬 플랫폼 기업은 한국어와 한국 문화에 특화한 모델을 전면에 내세워 차별화를 시도하는 구도다. 한국 이용자의 메신저, 포털, 커머스, 콘텐츠 이용 패턴이 이미 카카오 생태계 안에 쌓여 있는 만큼, 멀티모달 AI를 실제 서비스에 빠르게 녹여낼 수 있다는 점이 카카오의 강점으로 꼽힌다.&nbsp;다만 음성·이미지 데이터를 대규모로 활용하는 멀티모달 AI는 개인정보 보호, 데이터 수집 동의, 알고리즘 투명성 등 규제 이슈와도 맞닿아 있다. 국내에서도 AI 활용 가이드라인과 데이터 관련 법제 정비가 진행 중인 만큼, 카카오의 멀티모달 모델 상용화 과정에서도 데이터 최소 수집, 비식별화, 모델 편향성 검증 등이 중요한 과제로 떠오를 가능성이 크다.&nbsp;김병학 카카오 카나나 성과리더는 카나나의 지향점을 사용자의 감정을 이해하고 친숙하게 대화하는 AI로 규정했다. 그는 실제 서비스 환경을 통해 이용자 일상 속에서 AI 경험을 만들겠다며, 사람처럼 상호작용하는 AI 구현에 주력하겠다고 밝혔다. 산업계에서는 카카오가 확보한 멀티모달 기술이 메신저, 검색, 광고, 콘텐츠 플랫폼 전반에 얼마나 빠르게 안착할지, 그리고 한국어 특화 전략이 글로벌 범용 모델과의 경쟁에서 어떤 균형점을 찾을지 주목하고 있다.

김서준

권혁준

카카오가 한국어와 한국 문화에 특화된 멀티모달 인공지능 기술을 앞세워 대화형 서비스 경쟁을 본격화하고 있다. 사람처럼 억양과 감정, 호흡을 읽고 반응하는 음성 기반 대화 능력에, 텍스트와 이미지·음성을 함께 이해하는 검색·추천 기술을 더해 서비스 전반의 초개인화를 노리는 구도다. 업계에서는 글로벌 범용 모델 중심이던 AI 경쟁이 지역 언어와 문화에 맞춘 특화 모델 경쟁으로 옮겨가는 분기점이 될 수 있다는 관측이 나온다. 카카오는 12일 테크블로그를 통해

카카오가 한국어와 한국 문화에 특화된 멀티모달 인공지능 기술을 앞세워 대화형 서비스 경쟁을 본격화하고 있다. 사람처럼 억양과 감정, 호흡을 읽고 반응하는 음성 기반 대화 능력에, 텍스트와 이미지·음성을 함께 이해하는 검색·추천 기술을 더해 서비스 전반의 초개인화를 노리

한국어 감정까지 읽는 멀티모달 AI…카카오, 카나나로 초개인화 노린다

강태호

우주항공 기술이 국가 전략산업의 중심축으로 부상하면서 정부가 내년을 ‘우주항공 5대 강국 도약’을 실제로 실행에 옮기는 분기점으로 규정했다. 그동안 로켓 발사와 위성 개발 중심으로 축적해 온 기술 자산을 산업과 일자리, 민간 기업 성장으로 연결하겠다는 구상이다. 우주 수송과 위성, 탐사, 차세대 항공기술까지 아우르는 통합 로드맵을 바탕으로, 글로벌 우주경제 경쟁 구도 속에서 존재감을 키울 수 있을지 주목된다. 윤영빈 국가우주항공청장은 31일 신년사를 통

“우주항공 5대 강국 도약” 국가우주청, 실행원년 선언

강민혁

12월 10일 코스피 시장에서 LG씨엔에스 주가가 장중 약세 흐름을 보이고 있다. 단기 조정 국면에서도 수익성 대비 주가 수준이 동종 업계보다 낮게 형성돼 밸류에이션 매력에 대한 시장의 관심이 이어지는 모습이다. 네이버페이 증권에 따르면 10일 오전 10시 8분 기준 LG씨엔에스는 전 거래일 종가 65,300원 대비 700원(1.07%) 내린 64,600원에 거래되고 있다. 장 시작은 시가 65,900원에서 출발했으며, 현재까지 고가 66,500원, 저

LG씨엔에스 1%대 약세…PER 동종업계 절반 수준에 저평가 부각

조수빈

롯데관광개발의 카지노 매출이 3개월 연속 500억 원대를 기록하며 구조적 성장세를 이어가고 있다. 12월 8일 기준 주가도 2만3,050원으로 전일 대비 7.96% 오르며 강세를 보이고 있다. 비수기 없는 매출 흐름과 기관 중심의 수급 개선이 맞물리면서 레저 업종 내 실적 가시성이 한층 커졌다는 평가가 나온다. 전문가들은 제주 드림타워 카지노의 흑자 전환이 가시화된 가운데 중국발 여행 수요 재편과 밸류에이션 재평가가 맞물린 결과로 분석하고 있다. 향후

카지노 매출 3개월 연속 500억대…롯데관광개발, 비수기 없는 성장에 재평가 본격화

최유진

12월 7일(현지시각) 가상자산 시장에서 리플 XRP(엑스알피)가 월간 차트의 슈퍼트렌드 지표 상단을 지키며 강세 흐름을 이어가고 있다. 미국(USA) 현물 리플 XRP 상장지수펀드(ETF)에 자금이 14거래일 연속 유입되면서 누적 유입액이 10억 달러 돌파를 눈앞에 두고 있다. ETF 수요가 가격 하단을 떠받치는 가운데, 단기 저항선 돌파 여부를 둘러싸고 시장의 경계 심리도 동시에 커지는 모습이다. 외신 코인오태그는 12월 7일 “XRP Holds A

“월간 슈퍼트렌드 상회한 XRP”…미국 현물 ETF 14일 연속 순유입에 강세·경계 공존

한지성

지투지바이오 주가가 12월 5일 코스닥 시장에서 9%대 급락 마감하며 투자자들의 경계감을 키우고 있다. 당일 KRX 마감 기준 네이버페이 증권 집계에 따르면 주가와 거래대금 모두 큰 폭의 변동을 보이면서 단기 변동성 확대 가능성에 관심이 쏠린다. 향후 관련 업종 전반의 투자 심리에도 영향을 줄지 주목된다. 5일 지투지바이오 주가는 전 거래일 종가 대비 8,200원 하락한 80,800원으로 장을 마쳤다. 하락률은 9.21%로, 같은 날 동일 업종 등락률

지투지바이오 9.21% 급락 마감…동일 업종 평균보다 낙폭 확대