IT/바이오

“무한 영상 생성 AI”…한보형, 피포 디퓨전으로 글로벌 주목

전서연 기자
입력

생성형 인공지능(AI) 기술의 한계를 뛰어넘는 혁신적 알고리즘이 개발되며, 영상 생성 AI 산업의 설계도와 가능성이 바뀌고 있다. 한보형 서울대학교 전기정보공학부 교수가 선보인 새로운 영상 생성 추론 알고리즘은 추가 학습 과정 없이 무한히 긴 영상을 생성할 수 있다는 점에서, 산업적 파급력이 클 것으로 주목받고 있다. 업계에서는 이번 연구 성과를 영상 기반 AI의 효율성 경쟁 분기점으로 평가하고 있다.

 

한보형 교수는 2023년 12월 신경정보처리시스템학회(NeurIPS)에서 ‘피포 디퓨전(FIFO-Diffusion·First-In-First-Out)’ 알고리즘을 공개했다. 이 기술은 확산(diffusion) 기반의 기존 영상 생성 모델과 달리, 생성하는 영상의 길이에 관계없이 일정한 수준의 메모리만 사용한다. 대각선 디노이징(diagonal denoising)이라는 핵심 원리를 통해, 영상 프레임을 컨베이어 벨트처럼 순차적으로 생성하며 앞부분부터 단계적으로 노이즈를 제거하는 방식이다. 이를 통해 기존 확산 모델의 ‘영상 길이 증가에 따른 메모리 폭증’ 구조를 극복했다는 점이 특징이다.

피포 디퓨전은 추가적인 모델 재학습 없이, 이미 훈련된 모델에 새로운 추론 방식을 적용하는 기법이다. 여기에 ‘잠재 구간 분할(latent chunking)’을 활용해 긴 동영상을 다수의 짧은 구간으로 나눔으로써 획기적으로 안정성을 높였다. 또 시간적 일관성과 화질을 끌어올리기 위해 ‘미래 참조 디노이징(future reference denoising)’ 방법을 적용, 이전보다 장시간 고화질 영상을 실시간에 가깝게 생성할 수 있도록 설계했다. 기존 방식보다 메모리 효율성이 크게 개선된 점이 기술적 차별점이다.

 

산업계에서는 이 같은 무한 영상 생성 기술이 딥러닝 인프라를 크게 절감시키고, 영화, 게임, 광고 등 대용량 미디어 제작 시장에서 실질적 비용 및 시간 단축에 기여할 것으로 기대하고 있다. 콘텐츠 제공사와 스타트업, 연구기관 중심으로 해당 알고리즘의 오픈소스 활용도 빠르게 확산 중이다. 실제로 해당 소스코드는 깃허브(GitHub)에서 450개 이상의 별(Star)을 받을 정도로 세계 각국 연구자와 개발자들에게 채택되고 있다.

 

글로벌 AI 업계에서는 영상 생성 모델의 ‘확장성’ 경쟁이 가속화되고 있다. 딥마인드(DeepMind), 오픈AI(OpenAI) 등 선도 기업들도 텍스트-이미지-영상 간 복합 생성 플랫폼을 다각도로 연구 중이나, 한보형 교수팀의 연구처럼 메모리 병목을 기술적으로 해소한 사례는 드물다는 평이 나온다. 전문가들은 향후 피포 디퓨전과 유사한 방식이 압도적 데이터 처리량을 요구하는 AI 영상 분야의 표준이 될 수 있을지 주목하고 있다.

 

아직 국내외 법제도나 윤리 기준에서는 생성형 영상 AI에 대한 포괄적 규율이 구축되지 않은 상황이다. 지속적인 알고리즘 공개와 활용 가이드라인 마련, 저작권·프라이버시 이슈 관리 등이 기술 상용화의 관건으로 꼽힌다.

 

한보형 교수는 “이번 연구로 영상 생성 AI의 고정 길이 및 메모리 병목 한계를 새로운 추론 알고리즘을 통해 극복했다”며 “영화, 게임, 광고 등 분야별로 콘텐츠 제작 효율 극대화와 혁신적 변화를 기대할 수 있다”고 말했다. 산업계는 무한 영상 생성 알고리즘이 실제 시장에 얼마나 빠르게 정착할지 주시하고 있다.

전서연 기자
share-band
밴드
URL복사
#한보형#피포디퓨전#생성형ai