logo
“한국어 데이터 결집”…KT, K 데이터 얼라이언스 출범으로 토종 AI 가속
IT/바이오

“한국어 데이터 결집”…KT, K 데이터 얼라이언스 출범으로 토종 AI 가속

한유빈 기자
입력

KT가 한국형 인공지능(AI) 시장의 판도를 바꿔놓을 빅데이터 생태계 조성에 나선다. KT는 16일 교육방송공사(EBS), 고려대학교 민족문화연구원, 한글학회 등과 함께 ‘K 데이터 얼라이언스’ 협약식을 개최했다. 협약에는 두산디지털이노베이션, 아이스크림에듀, 중앙일보 등 총 7개 대표 기관·기업이 참여해, 교육·언론·학술 등 각 분야가 보유한 고유 한국어 데이터와 지식 자산을 공유하기로 했다.  

KT가 주관하는 이번 협력체는, 대형 언어모델(LLM) 구축과 학습의 토대가 되는 데이터 품질을 한층 높이는 데 초점을 맞췄다. 특히 한국어 고유 표현, 사회·문화적 맥락과 배경, 다양한 사용자 목적을 정밀하게 반영한 정보 수집과 통합이 핵심이다. 기존 글로벌 AI 모델과 달리, 현지 문화와 복합적 언어 특성을 고도화하는 시도가 본격화된 셈이다.  

실제 국내 AI 서비스나 챗봇들은 영미권 중심의 학습데이터 한계를 지적받아왔다. 이 때문에 한국어 자연어 처리 정확성, 맥락 인지, 실제 활용성 등에서 한계가 노출되곤 했다. 얼라이언스 참여 기관들은 우수한 한국학 자료, 교육 콘텐츠, 언론 텍스트 등 데이터를 개방하고, KT의 데이터 정제·처리 기술로 통합해 AI 모델의 품질을 끌어올릴 방침이다.  

이러한 데이터 기반은 KT가 자체 개발 중인 ‘믿:음 2.0’과 마이크로소프트 협력 GPT 모델, 오픈소스 기반 모델 등 다양한 국산 AI 서비스의 핵심 학습자원으로 연결된다. 업계에서는 한국형 AI의 학습 데이터 생태계가 기존 글로벌 AI와 차별화된 경쟁력을 갖추는 전기(轉機)로 주목하고 있다.  

현재 미국, 유럽 등은 자국어 LLM 및 특화 데이터 확보에 국가 차원 투자를 확대 중이다. 독일, 프랑스, 일본 등도 공공-민간 협력을 통해 문화·언어 자체의 고유성을 살린 AI 개발에 박차를 가하고 있다. 이에 맞서 국내 K 데이터 얼라이언스도 장기적으로는 글로벌 AI 시장에서 경쟁력을 높일 수 있을 것으로 보인다.  

관련 기관들은 앞으로 한국어 기반 AI 데이터 공동 구축, 도메인 선도 사례 창출, 인문·사회 분야 연구 협력, 대외 확산 활동 등을 이어간다. 전문가들은 데이터 품질과 활용 가치, 연결 고리로서의 규범 정립이 중요하다고 보고 있다.  

허은 고려대학교 민족문화연구원장은 “한국학 전문 자료를 AI 학습 데이터로 제공하는 플랫폼 자체가 의미가 크다”고 설명했다. 유규오 EBS 디지털학교교육본부장은 “국가 핵심 교육 데이터와 KT의 기술 결합이 미래 학습 혁신을 앞당긴다”고 강조했다.  

KT는 “한국적 맥락과 정체성을 담은 AI가 기업 혁신과 국민 생활 혁신 모두를 뒷받침할 것”이라며, 이번 K 데이터 얼라이언스가 실질적 고도화의 기폭제가 될 것으로 기대를 내비쳤다.  

산업계는 데이터-모델-서비스 연계가 실제 AI 시장에 어떻게 적용·확산될지 면밀히 주시하고 있다. 기술 독립성과 윤리, 데이터 보호 등 균형 있는 제도 기반 역시 강조되는 분위기다.

 

한유빈 기자
share-band
밴드
URL복사
#kt#k데이터얼라이언스#한국적ai