IT/바이오

영상 이해 네이티브 파운데이션…트웰브랩스, 마렝고3.0 공개로 글로벌 도약

허예린 기자
입력

영상 이해 특화 인공지능이 클라우드 기반으로 확산되며 디지털 콘텐츠 산업의 판을 바꾸고 있다. 전 세계 디지털 데이터의 대다수를 차지하는 영상 정보가 그동안 검색과 분석 한계로 사장됐던 문제를 풀 핵심 기술로 꼽힌다. 트웰브랩스가 공개한 차세대 비디오 파운데이션 모델 마렝고3.0은 문장·이미지·음성을 동시에 이해하는 멀티모달 구조를 내세워, 스포츠 중계부터 공공보안, 이커머스까지 영상 활용 방식을 재편할 분기점으로 주목받고 있다.

 

트웰브랩스는 미국 라스베이거스에서 현지시각 12월 1일 개막한 아마존웹서비스 리인벤트 2025에서 차세대 영상 인공지능 모델 마렝고3.0을 공식 발표했다. 리인벤트는 AWS가 매년 미국에서 여는 대규모 클라우드 컴퓨팅 콘퍼런스로, 글로벌 파트너 생태계에 신기술을 선보이는 무대다. 이재성 트웰브랩스 대표는 발표 자리에서 전 세계 디지털 데이터의 90퍼센트가 영상이지만 사람 손으로 분석하기에는 시간이 과도하게 들고 기존 기술로는 맥락 이해에 한계가 있었다며, 이를 해결하는 것이 회사의 목표라고 설명했다.

2021년 미국 샌프란시스코에서 설립된 트웰브랩스는 영상 속 사람, 사물, 행동을 자동 인식해 의미 단위로 이해하는 기술을 개발해온 멀티모달 인공지능 스타트업이다. 주력 제품 마렝고는 영상 장면을 자연어 문장으로 검색할 수 있는 비디오 검색 엔진 역할을 하며, 페가수스는 영상 내용을 질문 형태로 입력하면 답변을 생성하는 질의응답형 모델이다. 이 같은 기술력을 바탕으로 CB인사이트가 선정한 글로벌 100대 인공지능 스타트업 AI100 명단에 이름을 올렸고, 엔비디아 자회사 엔벤처스와 뉴엔터프라이즈어소시에이트 등으로부터 약 5천만 달러 규모 투자를 유치했다. 네이버 벤처스와 SK텔레콤도 각각 전략적 투자와 기술 협력에 나서며 국내외에서 자본과 파트너십이 빠르게 몰리고 있다.

 

이번에 공개한 마렝고3.0은 텍스트, 음성, 움직임, 장면 맥락을 한 번에 통합 분석하는 비디오 파운데이션 모델로, 회사 측은 지금까지 개발한 영상 인공지능 가운데 가장 강력한 기능을 구현했다고 강조한다. 업계에서 처음으로 이미지와 텍스트를 동시에 입력해 원하는 장면을 찾는 복합 이미지 검색 기능을 적용했고, 사람이나 제품 등 특정 대상을 고유명사로 사전 등록해 관련 장면만 골라내는 고유명사 검색 기능을 더했다. 예를 들어 브랜드가 특정 모델과 제품을 함께 등록해 두면, 해당 인물이 특정 옷을 입고 등장하는 장면만 선별해 찾는 식이다.

 

특히 마렝고3.0은 이미지 모델과 오디오 모델을 단순 집합처럼 조합해 영상을 해석하던 기존 방식에서 벗어나, 처음부터 시간과 공간 축을 모두 고려해 설계된 네이티브 파운데이션 구조를 채택했다. 네이티브 파운데이션은 영상 전체를 프레임 간 연속성과 맥락 흐름을 중심으로 학습시키는 방식으로, 특정 순간의 장면 인식에 그치지 않고 앞뒤 상황의 인과 관계까지 모델이 파악하도록 설계하는 접근을 의미한다. 이를 통해 영상 속 대사와 몇 분 뒤의 행동을 연결하거나, 사물과 인물의 감정, 상황 변화를 시간의 흐름에 따라 추적하는 등 인간에 가까운 수준의 영상 이해를 목표로 하고 있다.

 

이 기술은 실제 산업 현장에서 활용 시나리오가 뚜렷하다는 평가를 받는다. 프로 스포츠 리그의 경우 특정 선수의 득점 장면이나 결정적 플레이를 영상 라이브러리에서 자연어 또는 이미지 조합으로 즉시 검색해 하이라이트 클립을 자동 구성할 수 있다. 경기 분석팀은 수작업으로 리플레이를 찾는 시간을 줄이고, 장면 유형별 통계 분석을 정교하게 수행할 수 있어 데이터 기반 전략 수립에 유리해진다. 방송과 포스트 프로덕션 분야에서는 수십 년에 걸친 아카이브에서 특정 유명인의 얼굴을 고유명사로 등록해 원하는 행동을 하는 장면만 추려내는 방식으로 편집 효율을 높일 수 있다.

 

공공보안 영역에서는 다수의 폐쇄회로카메라 영상을 장시간 재생할 필요 없이, 특정 인물의 이동 경로, 특정 사건의 전후 상황 등 필요 장면만 빠르게 검색하는 데 활용 가능하다. 이는 범죄 수사나 재난 상황 모니터링에서 시간 단축과 정확도 향상을 동시에 노릴 수 있는 방향으로 보인다. 이커머스 분야에서는 브랜드, 제품, 방송 호스트를 각각 엔터티로 등록해, 언제 어떤 채널에서 어떤 행동과 발화로 노출됐는지 추적함으로써 라이브 커머스 성과 분석과 편성 전략 수립에 활용할 수 있다. 이러한 활용 사례는 멀티모달 인공지능이 단순 검색을 넘어 비즈니스 의사결정을 지원하는 분석 도구로 자리잡고 있다는 점을 보여준다.

 

기술 효율성 측면에서도 개선 폭이 크다고 회사는 설명한다. 마렝고3.0은 36개 언어를 지원해 글로벌 기업 환경에서 다국어 검색과 분석 수요에 대응하며, 반복적인 튜닝과 테스트를 통해 스토리지 비용 50퍼센트 절감, 인덱싱 속도 2배 향상 효과를 확인했다. 인덱싱은 대규모 영상 데이터를 검색 가능한 상태로 변환하는 과정으로, 속도 향상은 곧 실시간에 가까운 검색 경험과 운영비 절감으로 이어질 수 있다. 이재성 대표는 마렝고3.0이 그동안 영상 이해 기술이 지닌 한계를 뛰어넘어 기업과 개발자에게 새로운 기준을 제시할 것이라고 강조하면서, 현장에서 체감할 수 있는 효율성 개선을 강점으로 꼽았다.

 

트웰브랩스는 영상 이해 인공지능을 글로벌 클라우드 생태계에 연결하는 전략도 병행하고 있다. 회사는 국내 인공지능 기업 가운데 처음으로 마렝고와 페가수스 등 자사 모델 2종을 아마존 베드록에 등록했다. 국내에서 개발된 파운데이션 모델이 글로벌 대규모 언어 모델 플랫폼에 원천 모델로 공급된 첫 사례다. 아마존 베드록은 AWS가 제공하는 생성형 인공지능 개발 플랫폼으로, 개발자와 기업이 인프라를 직접 운영하지 않고도 다양한 모델을 호출해 애플리케이션과 에이전트를 구축할 수 있도록 설계돼 있다.

 

베드록 연동을 통해 기업은 자체 서버를 증설하지 않고도 트웰브랩스의 비디오 이해 모델을 호출해 자연어 기반 영상 검색, 장면 분류, 콘텐츠 요약 등 기능을 자사 시스템에 통합할 수 있다. 예를 들어 글로벌 미디어 기업은 베드록 콘솔에서 마렝고3.0을 선택한 뒤, 기존 콘텐츠 관리 시스템과 연동해 자동 태깅과 요약 기능을 붙이는 방식으로 서비스 고도화를 추진할 수 있다. 이재성 대표는 클라우드 마이그레이션 2점대가 비디오로 확장될 것이라는 전망에 따라 AWS와 그 방향을 맞춰 협력하고 있다며, 베드록에 모델을 올린 지난 7월 이후 개념검증과 파일럿, 실제 서비스 단계까지 포함해 고객사가 3만 곳을 넘는 수준으로 추산된다고 소개했다.

 

엔터프라이즈 고객이 AWS를 깊게 사용하는 만큼 데이터 보안과 안정성 요구가 높다는 점도 베드록 연동 전략의 배경으로 작용했다. 트웰브랩스 모델을 베드록에서 제공하면, 고객은 기존 AWS 보안 정책과 네트워크 구성을 유지한 채 영상 인공지능 기능만 추가로 호출할 수 있다. 이 대표는 이러한 구조가 고객 입장에서 기존 환경을 바꾸지 않고도 모델을 활용할 수 있다는 점에서 매력을 느끼는 요소로 작용하고 있다고 설명했다. 글로벌 시장에서는 이미 텍스트 중심의 생성형 인공지능 경쟁을 넘어, 영상과 음성을 포함한 멀티모달 파운데이션 모델 경쟁이 본격화되는 흐름이어서, 베드록 입점은 트웰브랩스 입장에서도 기술력 검증과 동시에 시장 진입 장벽을 낮추는 수단이 될 전망이다.

 

연구개발과 사업 확장 과정에서 투자와 규제 환경도 변수로 꼽힌다. 트웰브랩스는 엔비디아 계열 투자사와 대형 벤처캐피털, 국내 통신사와 포털 기업의 연이은 투자를 발판으로 연산 자원과 데이터 확보 경쟁에 속도를 높이고 있다. 한편 영상 데이터를 다루는 특성상 개인정보 보호와 감시 사회 우려가 동반될 수 있어, 각국 규제 기관과의 가이드라인 정립이 중요해지고 있다. 특히 공공보안과 리테일 CCTV 분석에 모델을 적용할 때 얼굴 인식과 위치 정보 결합 수준에 따라 법적 쟁점이 발생할 여지도 있다. 업계에서는 모델을 활용하는 기업이 데이터 비식별화와 접근 통제 등 기술적 안전장치를 얼마나 갖추는지에 따라 상용화 속도가 달라질 것으로 보고 있다.

 

전문가들은 마렝고3.0과 같은 비디오 파운데이션 모델이 본격 상용화될 경우, 텍스트 위주로 설계된 현재 생성형 인공지능 생태계가 영상 중심으로 재편될 가능성에 주목한다. 스포츠, 미디어, 보안, 커머스 등에서 축적된 방대한 영상 자산이 검색과 분석 가능한 구조로 전환되면, 광고 타기팅, 시청 경험 개인화, 실시간 리스크 모니터링 같은 새로운 서비스가 등장할 수 있어서다. 동시에 영상 인공지능의 성능과 영향력이 커질수록, 알고리즘 편향과 프라이버시 침해를 막기 위한 기술적 통제와 제도 정비도 병행돼야 한다는 지적이 나온다. 산업계는 트웰브랩스의 마렝고3.0을 비롯한 영상 이해 인공지능이 글로벌 시장에 안착하며 실제 수익 모델을 만들어낼 수 있을지, 그리고 기술과 제도의 균형을 어떻게 맞출지 예의주시하고 있다.

허예린 기자
share-band
밴드
URL복사
#트웰브랩스#마렝고3.0#아마존베드록