logo
“방송영상 학습데이터 대형 구축”…MBC·KT ENA·KBS, AI 혁신 가속
IT/바이오

“방송영상 학습데이터 대형 구축”…MBC·KT ENA·KBS, AI 혁신 가속

이도윤 기자
입력

방송영상을 기반으로 한 인공지능(AI) 학습용 데이터가 국내 방송사 중심으로 대규모로 구축된다. 과학기술정보통신부와 한국전파진흥협회는 8일 ‘방송영상 인공지능 학습용 데이터 구축’ 사업자로 문화방송(MBC) 컨소시엄, MBC충북 컨소시엄, KT ENA 컨소시엄, 한국방송공사(KBS) 컨소시엄 등 네 곳을 선정했다고 밝혔다. 디지털 방송콘텐츠를 학습 기반으로 삼는 AI 개발 공식 프로젝트로, 국내 방송제작 문화와 산업 생태계에 구조적 변화를 예고하는 사업이다. 올해 1차 추가경정예산으로 각 컨소시엄에 48억3000만원씩 총 193억2000만원이 지원된다.

 

선정된 컨소시엄은 저작권 문제가 해결된 원본 방송영상 4만2000시간에서 총 2만1000시간에 달하는 고품질 방송영상 AI 학습데이터를 구축한다. MBC 컨소시엄에는 iMBC, 크라우드웍스, 데이터메이커, LG경영개발원 AI연구원 등, MBC충북 컨소시엄에는 14개 지역MBC사와 도스트11, 제머나이소프트, 한국전자통신연구원 등이 참여한다. KT ENA 컨소시엄은 디오비스튜디오, 메트릭스 등과, KBS 컨소시엄은 네이버클라우드, 국가유산진흥원 등이 팀을 이룬 구조다.

이번 사업의 핵심은 기존 AI 모델 개발에서 가장 큰 진입장벽이던 양질의 학습용 방송영상데이터를 고유 콘텐츠 중심으로 대량 확보·정제하는 데 있다. 특히 버추얼 스튜디오 고정밀 배경영상(문화방송), 지역문화 생활상 이미지(엠비씨충북), 감정 및 배경·예능 특화 데이터(KT ENA), 촬영구도·자막·3D 소품 등 제작 자동화 데이터(KBS)로 역할이 분화돼 산업 내 니즈별 활용 가능성을 높였다. 기존 학습데이터 대비 문화적 특수성과 저작권 안정성이 강화됐다는 점에서 차별화된다.

 

고품질 데이터는 AI 방송제작 자동화, 가상인물·가상배경 생성, 편집·촬영 최적화 등 실제 방송 현장에서 활용도가 높을 것으로 전망된다. AI 허브 내 안심존, 연구·교육용 공개 등 데이터는 전체의 10~35% 이상이 공개·개방돼 민간·공공개발자 접근성도 확대된다. 특히 정부와 데이터 품질 검증 전문기관이 단계별 기준 설정, 관리·컨설팅, 품질 달성 검증까지 전 주기적 품질 관리를 담당한다.

 

글로벌 AI 산업에서는 구글, 엔비디아 등 주요 기업들이 방송 및 영상 데이터셋 확보 경쟁에 주력하고 있다. 이번 국내 프로젝트에서는 우리 사회 고유의 방송콘텐츠가 AI 학습 자산으로 재구성된다는 점에서 글로벌 표준 개발에도 기여할 가능성이 있다. 전문가들은 대규모 방송영상 데이터가 독자 파운데이션 모델 개발이나 영상생성 AI(GenAI) 분야 국내 경쟁력 강화의 교두보가 될 것으로 내다보고 있다.

 

방송영상 데이터의 활용 확대를 위한 실무협의체도 신설된다. 데이터 수요기업, AI·데이터 전문가, 방송사 간 유기적 논의를 통해 배포·거래 기준과 체계를 함께 설계할 예정이다. 향후 방송 인프라에 기반한 AI 신산업, 정보보호·저작권·윤리 문제 등 정책적 논의와 연계해 데이터 거래·확산 생태계가 정립될지 주목된다.

 

배경훈 과학기술정보통신부 장관은 “데이터는 그래픽처리장치(GPU)와 함께 AI 모델 개발의 핵심 연료”라며 “고품질 방송영상이 독자 AI 모델을 위한 최적의 데이터가 될 것”이라고 의미를 부여했다. 산업계는 이번 대규모 사업을 계기로 방송영상 AI 학습데이터가 시장에 빠르게 확산될 수 있을지 관심을 집중하고 있다.

이도윤 기자
share-band
밴드
URL복사
#mbc#ktena#kbs