logo
“K-AI 학습데이터도 국산화”…크라우드웍스, KT와 파운데이션모델 구축
IT/바이오

“K-AI 학습데이터도 국산화”…크라우드웍스, KT와 파운데이션모델 구축

김서준 기자
입력

국산 인공지능(AI) 파운데이션 모델 개발을 위한 핵심 데이터 공급망이 재편되고 있다. 크라우드웍스가 과학기술정보통신부 주관 ‘독자 인공지능 파운데이션 모델 개발 사업’에 KT 컨소시엄 파트너로 공식 합류했다. 국내외 대형 AI 기업 중심의 모델 개발 경쟁에서, 고품질 멀티모달 데이터 체계가 한국형 AI의 완성도를 좌우할 변수로 부각된다. 업계는 이번 참여를 ‘국산 AI 기술 자립화’의 시험대이자 국내 데이터 산업 표준화 경쟁의 분수령으로 보고 있다.

 

크라우드웍스가 맡는 중추적 역할은 텍스트·음성·비전 등 대규모 멀티모달 AI 학습 데이터 구축이다. 이번 사업은 KT, 솔트룩스, 경찰청, 고려대 의료원, 서울대, 매스프레소 등 총 18개 기관·기업이 컨소시엄을 구성해 진행된다. 크라우드웍스는 국내 주요 AI 모델에 학습데이터를 공급해온 이력을 바탕으로, 고난도의 대용량 데이터를 단기간, 정밀하게 구축하는 책임을 진다. 특히 자사의 지능형 데이터 전처리 기술과 전문화된 데이터 작업자 풀을 통해 품질·속도 모두 확보하겠다는 방침이다.

구체적으로는 한국어 텍스트부터 음성, 이미지, 의료·과학·수학 등 전문 분야 데이터셋을 총망라한다. 이미 저작권이 확보된 국내 도서 데이터, 30만 건 이상 의료 데이터 등 다층적 데이터셋을 안정적으로 공급할 수 있는 체계를 갖췄다는 설명이다. 올바른 데이터 라벨링과 신뢰성을 검증하는 프로세스 또한 이번 사업의 핵심 경쟁력으로 꼽힌다.

 

KT 컨소시엄 방안은 데이터 생산-확보-검증 과정을 산업 현장과 공공분야에서 동시에 수행하는 방식이다. 미국, 중국, 유럽 등에서는 이미 초거대 AI 기반 멀티모달 데이터 구축 경쟁이 격화된 상황이다. 글로벌 상위권 모델이 영어, 중국어 등에 초점이 맞춰진 반면, 이번 ‘K-AI’ 개발은 한국어와 국내 발생 데이터 중심으로 차별화된다. 전문가들은 “국내 의료, 과학, 수학 등 기술 특화 영역에서 한국형 AI 모델 경쟁력이 실제 구현될지 여부가 시장 파급력을 결정지을 수 있다”고 진단한다.

 

한편, 이번 사업이 데이터 수집·가공 과정에서의 저작권, 개인정보 보호 등 규제 이슈도 주요 과제로 꼽힌다. 과학기술정보통신부 등은 식별가능 정보 비식별화, 데이터 보안 시스템 요건을 엄격히 적용하도록 한다는 입장이다. 산업계에서는 데이터 거래 및 AI 학습 데이터 활용과 관련한 법제도 개선이 병행돼야 한다는 목소리가 높다.

 

김우승 크라우드웍스 대표는 “AI 경쟁력의 출발점은 고품질 데이터”라며 “한국형 AI 기술 자립 실현에 데이터 전문성을 집중하겠다”고 강조했다. 산업계는 이번 단일 국산 AI 데이터 구축 사업이 실제 시장에서 혁신 효과로 이어질지 예의주시하는 분위기다.

김서준 기자
share-band
밴드
URL복사
#크라우드웍스#kt컨소시엄#k-ai