"망고로 소라 추격"...메타, 생성AI 각축전 점화
텍스트 한 줄로 영상과 이미지를 생성하는 생성 인공지능이 빅테크 3강 구도로 재편되고 있다. 오픈AI 챗GPT와 구글 제미나이가 선점한 가운데, 메타가 차세대 이미지·영상 생성 모델 망고를 앞세워 시장에 본격 가세하면서 경쟁이 한층 가열되는 양상이다. 월드 모델을 표방하는 메타의 접근, 디즈니와 어도비를 등에 업은 오픈AI의 플랫폼 확장, 나노 바나나를 통해 생산성 도구 중심 생태계를 키운 구글의 전략이 맞물리며 영상·이미지 기반 크리에이티브 산업 전반의 판도 변화를 예고한다는 평가가 나온다.
메타는 2025년 상반기 공개를 목표로 차세대 이미지·영상 생성 모델 망고를 준비 중이다. 월스트리트저널에 따르면 알렉산더 왕 메타 최고AI책임자는 최근 사내 회의에서 망고 출시 일정을 직접 공유한 것으로 알려졌다. 업계는 오픈AI 소라와 구글 제미나이가 사실상 시장 초기 표준을 선점한 상황에서, 메타가 후발 주자로 역전 계기를 마련하기 위해 고성능 영상 생성 모델을 전면에 내세운 움직임으로 보고 있다.

망고의 핵심은 단순한 프롬프트 기반 이미지·비디오 생성이 아니라 월드 모델 개념을 구현하려는 데 있다. 월드 모델은 카메라 시점 이동, 물체 간 충돌과 상호작용, 조명 변화 등 현실 세계의 물리와 맥락을 일관성 있게 학습해 장면 전체를 추론하는 AI 구조를 의미한다. 기존 텍스트 투 비디오 모델이 프레임 단위로 장면을 이어 붙이는 데 그쳤다면, 월드 모델은 장면 안에서 시간이 흐르고 환경이 변화하는 과정을 시뮬레이션하는 방식으로 자연스러운 스토리텔링 영상 구현을 지향한다는 점이 차별점이다.
메타는 망고와 동시에 코딩 능력에 특화된 대규모 언어 모델 아보카도도 내년 상반기 공개할 계획이다. 코드 생성과 디버깅, 리팩토링을 자동화하는 아보카도와 시각 콘텐츠를 담당하는 망고를 결합해, 페이스북과 인스타그램 전반에 걸쳐 게시물, 광고, 릴스 영상까지 대규모로 개인화된 콘텐츠를 생산하는 것이 메타의 청사진이다. 광고 소재를 자동으로 A B 테스트하고, 사용자 피드백을 반영해 실시간으로 변형하는 크리에이티브 자동화가 가능해질 수 있다는 전망도 나온다.
조직 개편도 공격적이다. 메타는 알렉산더 왕을 영입한 뒤 메타 슈퍼인텔리전스 랩을 신설하고, 오픈AI 출신 연구원 20명을 포함해 50명 이상의 생성 AI 인력을 한꺼번에 끌어모았다. 지난해 이미지 생성 스타트업 미드저니와 손잡고 선보인 AI 영상 서비스 바이브스가 오픈AI 소라에 주목도를 빼앗긴 경험이, 핵심 모델을 외부에 의존하지 않고 직접 개발하는 방향으로 전략을 틀게 만들었다는 분석이다.
선두 주자인 오픈AI 소라는 이미 2세대 모델을 통해 기술적 격차를 벌리고 있다. 2024년 9월 공개된 소라2는 물리 법칙과 재질 표현을 고도화해 액체, 연기, 천과 같은 난해한 질감도 자연스럽게 재현하고, 등장인물의 동선과 카메라 워크를 매끄럽게 연결하는 방향으로 발전했다. 여기에 대사와 효과음, 배경음악을 장면과 동기화하는 오디오 엔진이 더해지면서, 광고나 영화 예고편, 게임 시네마틱 등 완성도 높은 숏폼 영상을 한 번에 생성하는 플랫폼으로 진화했다.
콘텐츠 제휴 전략도 공격적이다. 오픈AI는 2024년 10월 디즈니와 3년 장기 라이선스 계약을 체결해, 디즈니가 보유한 200여 개 캐릭터와 세계관을 자사 이미지·영상 생성 모델에 활용할 수 있는 권리를 확보했다. 이에 따라 소라와 챗GPT의 이미지 생성 기능에서는 디즈니와 픽사 애니메이션 주인공은 물론, 마블 시네마틱 유니버스와 스타워즈 속 캐릭터까지 프롬프트로 호출해 합법적으로 사용할 수 있게 됐다. 단순한 캐릭터 외형 복제를 넘어, 의상과 소품, 상징적인 배경 연출까지 원작에 맞춰 구현하는 기능이 포함되면서, 광고주와 제작사 입장에서 브랜드 규정을 지키는 범위 안에서 2차 창작형 숏폼을 대량 생산할 수 있는 기반이 마련됐다는 평가가 나온다.
오픈AI는 여기에 어도비와의 전략적 제휴를 더했다. 챗GPT 안에서 포토샵, 익스프레스, 애크로뱃을 직접 호출해 편집 작업을 이어갈 수 있도록 연동한 것이다. 사용자는 데스크톱과 웹, 모바일 환경에서 별도 설치나 파일 이동 없이 챗GPT 채팅창에서 바로 사진 편집, 레이아웃 제작, 문서 디자인을 수행할 수 있다. 생성된 이미지나 영상 초안을 챗GPT가 자동으로 어도비 포맷으로 변환해 넘기고, 후반 작업은 기존 크리에이터 워크플로에 맞춰 진행하는 구조다.
업계에서는 이런 연속 제휴의 배경에 구글 제미나이 3.0 기반 이미지·편집 기능 나노 바나나를 견제하려는 의도가 깔려 있다고 본다. 나노 바나나는 제미나이 앱과 웹 화면 안에서 프롬프트를 기반으로 이미지를 생성하고, 기존 사진의 배경과 스타일을 실시간 편집하는 통합 도구다. 사용자는 자연어로 이 사진의 배경을 바다로 바꿔달라, 인물 조명을 스튜디오 조명처럼 보정해달라 등의 지시를 내리면 곧바로 결과물을 받아볼 수 있다.
복수의 이미지를 동시에 업로드해 특정 사진의 색감과 구도를 다른 이미지에 입히거나, 한 번 생성한 이미지를 연속적으로 수정하면서 다양한 버전을 만드는 기능도 눈에 띈다. 구글은 나노 바나나 투입 이후 제미나이 월간 사용자가 2024년 7월 약 4억 5000만 명에서 10월 말 6억 5000만 명을 넘어섰다고 밝혔다. 프레젠테이션용 시각 자료, 쇼핑몰 상품 이미지, SNS용 썸네일 등 업무 현장에서 바로 쓰이는 이미지 작업이 제미나이 플랫폼 안으로 흡수되면서 사용자 체류 시간을 크게 늘린 것으로 해석된다.
나노 바나나가 공개 직후 포토샵을 위협하는 도구로 언급되자, 오픈AI는 아예 포토샵 본연의 편집 기능을 챗GPT 내부에 통합하는 방식으로 대응에 나섰다. 생성 AI로 초안을 만들고, 전통적인 전문가용 편집 툴로 미세 조정하는 과정 전체를 자사 서비스 안에 가두려는 전략이다. 어도비 역시 자체 생성형 AI 파이어플라이에 이어 오픈AI와의 연동을 통해, 빅테크 플랫폼에 종속되지 않으면서도 핵심 크리에이티브 툴 지위를 유지하려는 행보를 보이고 있다.
결국 소라, 망고, 나노 바나나로 대표되는 빅테크의 영상·이미지 생성 경쟁은 기술 성능을 넘어 플랫폼 지배력 싸움으로 확장되는 양상이다. 이용자가 어떤 환경에서 창작을 시작하고, 어떤 앱으로 마무리하느냐가 광고와 구독, 클라우드 사용량으로 직결되기 때문이다. 전문가들은 월드 모델 확산과 저작권 라이선스 체계 정비에 따라, 할리우드와 게임, 광고 산업의 제작 구조가 몇 년 안에 크게 재편될 수 있다고 본다. 산업계는 이 같은 생성 AI 도구들이 실제 현장 워크플로에 얼마나 빠르게 안착하는지가 향후 승부를 가를 변수로 보고 있다.
