“국산 AI 평가 기준 마련”…정부, 독자 성능평가 데이터셋 구축
한국형 인공지능 개발에 필수적인 성능평가 데이터셋 구축이 본격화되고 있다. 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 국내 독자 인공지능 기초 모델을 대상으로 한 성능평가 데이터셋 구축 사업 참가 기관을 7월 17일부터 8월 7일까지 모집한다고 밝혔다. 정부는 이번 사업이 글로벌 AI 성능평가의 편향성을 극복하고, 한국적 환경에 걸맞은 AI 평가 체계를 마련하는 데 중대한 계기가 될 것으로 보고 있다. 특히 이번 데이터셋 개발은 국내 AI 생태계 경쟁력 확보를 위한 ‘국산 AI 경쟁’의 분기점이자, 산업 전반의 파트너십 재편을 촉발할 전망이다.
주요 사업 내용은 국내 문화와 사회적 특수성을 반영한 AI 성능평가 데이터셋을 마련해, 독자 AI 파운데이션 모델의 우수성을 객관적으로 검증하는 것이다. 이를 위해 정부는 3개 과제에 총 24억원을 투입한다. 올해는 우선 수학 문제 해결력을 평가하는 LLM용 수학 데이터, 한국형 지식 평가용 주제별 질의-정답 및 추론 데이터, 장문 문맥 등 고난도 과업 평가용 데이터 등 3개 분야 데이터셋 구축이 추진된다. 각각의 과제별로 8억원을 지원하며, 향후 멀티모달·에이전트 등 다양한 AI 모델에 대비한 데이터 범주 확대도 예고된 상태다.

기술적으로 이번 사업은 기존 영어 위주의 글로벌 벤치마크 평가 지표와 달리, 한국어 환경과 맥락적 이해력, 실제 서비스 경험을 고려한 ‘현지화 객관식 테스트셋’ 구축이라는 점에서 차별화된다. 예를 들어, 장문 이해력이나 한국 사회 이슈에 대한 정답성 등 기존 평가의 사각지대를 메울 수 있도록 설계된다. 또한 AI 모델의 개발 구조상, 학습 데이터를 넘어 실제 활용 환경에서의 예측력, 문제 해결능력 등 실효성 중심의 평가지표를 제시하는 것이 특징이다.
본 사업에는 초거대 AI, 자연어처리, 멀티모달 등 대규모 데이터셋 기반 모델 개발 역량을 보유한 국내외 산학연 전문가들이 참여해야 하며, 과기정통부 및 NIA는 이러한 실무 전문가 의견을 바탕으로 세부 데이터셋 기획 및 품질 기준을 결정했다.
글로벌 시장에서는 이미 각국의 언어 및 문화 환경을 반영한 AI 성능평가 경쟁이 본격화되고 있다. 미국과 유럽의 대형 AI 기업들은 자국 법규와 사회정책에 특화된 자체 벤치마크 개발에 돌입했으며, 일본·중국 등도 자국어 모델의 상용화 및 신뢰성 평가 체계를 강화하는 추세다. 국내 역시 이번 데이터셋 사업을 통해 글로벌 Big Tech 의존도를 낮추고, 토종 기업 중심의 AI 신뢰성 평가 및 활용이 가능해질 것으로 업계는 내다보고 있다.
관련 법제도 측면에서도, 정부는 향후 데이터셋 구축 과정의 공개성과 공정성을 강화할 방침이다. 데이터 품질, AI 윤리, 프라이버시 보호 등 표준 가이드라인 역시 병행 수립 중이다. 사업에서 구축된 데이터셋은 정예팀에 우선 제공 후 국내 AI 개발기관 전반에 단계적 공개가 이뤄질 예정이다.
전문가들은 국가 차원의 평가용 데이터셋 확보가 곧 “AI 상용화 시대의 신뢰성 경쟁력”이 될 것으로 전망한다. 김경만 과기정통부 인공지능기반정책관은 “국민이 체감할 수 있는 고성능 국산 AI 모델을 위해서는 사회·문화적 환경이 충분히 반영된 데이터셋이 필수적”이라며, “이번 평가용 데이터셋 구축이 국내 AI 개발 생태계 전반의 경쟁력 강화로 이어질 것”이라고 밝혔다. 산업계는 이번 기술이 실제 시장에 안착해 국산 AI가 글로벌 경쟁력을 가질 수 있을지 주목하고 있다.