“AI가 블로그 글을 숏폼 영상으로”…네이버, 미디어 생성기술 강화 주목
네이버가 인공지능(AI) 기반 미디어 자동 생성기술로 IT·콘텐츠 산업의 제작 방식을 대대적으로 바꾸고 있다. 올해 네이버는 블로그·쇼핑·후기 등 텍스트 콘텐츠를 멀티모달 거대언어모델(LLM)로 분석해 숏폼 영상으로 자동 변환하는 ‘오토클립Ai’를 연내 공개한다고 밝혔다. 영상 맥락을 정밀하게 파악해 챕터별로 핵심 구간을 빠르게 추출·설명하는 기술도 도입된다. 업계는 이번 발표를 'AI+미디어 융합경쟁'의 신호탄으로 평가한다.
오토클립Ai는 네이버가 독자 개발한 미디어 AI 기술로, 사용자 생성 텍스트 콘텐츠(UGC)에서 요리 레시피, 쇼핑 후기, 장소 리뷰 등 다양한 유형을 파인튜닝한다. 이 기술은 블로그 글을 읽고 내용 요약, 영상 클립화, 음성·배경음악·화면 효과 최적 적용을 통해 숏폼에 최적화된 영상을 자동 생성한다. 예를 들어 ‘참외 샐러드 레시피’ 블로그 글이 여름과 어울리는 짧은 소개 내레이션과 이미지를 조합한 15초 내외 영상으로 변환되는 식이다. 텍스트 기반 창작자에게도 영상 제작 참여 문턱을 크게 낮춰준다.

특히 기존 영상 자동편집 기술과 달리, 오토클립Ai는 멀티모달 LLM으로 문맥을 인식함은 물론, 최신 ‘MUAi’ 플랫폼을 통해 영상 전체 맥락을 분석해 챕터별로 구간을 나누고 설명까지 삽입한다. 실제로 네이버 미디어 AI는 쇼핑 라이브·치지직 스트리밍처럼 최대 12시간 단위의 영상에서도 대표 상품, 사은품, 이벤트, 후기 등 테마별 구분이 가능하다. 이와 함께, 저작권 감지·유해성 필터링·영상 품질 관리 등 안전성 확보 기능이 내재화됐다.
시장 파급력 측면에서 네이버의 AI 미디어 기술은 텍스트 중심 플랫폼이 단숨에 영상·실감형 콘텐츠 기반으로 전환될 수 있는 계기를 마련한다. 사용자(창작자)는 ‘클립’ 등 숏폼 영역에서 활동을 확장할 수 있고, 영상 요약·하이라이트 추출을 통한 시청 효율화로 스트리머와 시청자 모두 콘텐츠 소구력이 상승한다. 나아가 네이버는 AIEncode 기술로 동영상 압축률을 30%까지 개선해 실시간 스트리밍 안정성과 전송비용도 절감했다.
글로벌 시장에서는 트웰브랩스, 구글, 아마존 등도 유사한 비전 AI·멀티모달 생성기술을 선점 중이다. 트웰브랩스는 영상을 실시간 분석해 텍스트 요약과 질의응답, 장면 검색 등에서 AI ‘페가수스’와 ‘마렝고’ 모델을 제공한다. 이 회사는 네이버 투자 자회사인 네이버벤처스의 투자처이기도 하다. 다만, 네이버와의 기술 협업은 당장은 없으나 문호를 열어두고 있다고 김성호 리더는 밝혔다.
한편 콘텐츠 자동생성, 영상 요약 등 비전 AI는 저작권, 데이터 안전, 플랫포머 책임 등 규제 이슈도 동반한다. 네이버는 저해상, 불법콘텐츠 AI 감지, 창작자 보호 도구까지 내장하며, 국내외 데이터 처리 및 AI 알고리즘의 투명성 확보에도 힘을 쏟는 분위기다.
산업 전문가는 “텍스트·영상·음성·가상현실을 아우르는 AI 미디어 기술은 향후 플랫폼 패권·디지털 생태계 변화의 밀도가 높아지는 분기점이 될 것”이라 분석한다. 산업계는 이번 기술이 실제 시장에 안착할 수 있을지 주시하고 있다.