한국어 AI 데이터 0.6퍼센트…안전 격차가 경쟁력 가른다
한국어 데이터 부족과 AI 안전 격차가 국가 경쟁력의 뇌관으로 부상하고 있다. 대형 언어모델과 생성형 AI가 행정, 금융, 의료 등 전 산업에 스며드는 가운데, 학습 데이터 구성에서 한국어 비중이 극히 낮아 안전성과 신뢰도 측면에서 구조적 취약성이 누적되고 있다는 지적이다. 국내 연구자들은 고위험 AI 활용을 전제로 한 안전 생태계 설계가 늦어질 경우, 기술 격차보다 안전 격차가 더 빠르게 벌어질 수 있다고 경고하고 있다. 특히 데이터 주권과 규범 주권을 동시에 확보하지 못하면 글로벌 AI 규칙에 수동적으로 종속될 수 있다는 우려가 제기된다.
11일 국회에서 열린 글로벌 AI안전생태계 주권 확보를 위한 정책토론회에서 김명주 AI안전연구소 소장은 노벨상 수상 연구자들의 발언을 인용하며 AI 안전 논의의 시급성을 강조했다. 그는 AI 발전 속도에 비해 편향과 위험 논의가 따라가지 못하고 있다며, 안전과 신뢰가 담보되지 않으면 국가 경쟁력 차원에서 AI 산업이 오히려 성장의 발목을 잡을 수 있다고 진단했다. 글로벌 차원에서 AI 선점 경쟁이 활시위를 떠난 화살처럼 전개되고 있지만, 동시에 강력한 시스템의 악용과 통제 상실에 대한 우려가 커지고 있어 국가 단위의 전문 안전 연구소 설립이 핵심 인프라가 되고 있다고 설명했다. 우리나라는 세계에서 여섯 번째로 AI 안전 연구소를 설립하며 논의에 일찍 합류했다는 점도 언급했다.

김 소장이 가장 구조적인 리스크로 지목한 것은 한국어 데이터의 절대적 부족이다. 그는 영어 기반 AI 모델은 비교적 안전하게 작동하는 반면, 한국어 질의에서는 유해 정보 노출과 오류 발생 위험이 더 크다고 평가했다. 학습 기반 데이터에서 한국어 비중이 압도적으로 부족해 안전 격차가 벌어질 수밖에 없다는 것이다. 웹 기술 통계 기관 W3Techs의 1000만개 웹사이트 분석 기준으로 영어 콘텐츠 비중은 약 50퍼센트, 일본어 5.1퍼센트, 중국어 1.1퍼센트 수준이지만 한국어는 0.8퍼센트에 그쳐 17위에 머무른다. 김 소장은 한국어 웹 콘텐츠 비중이 1퍼센트에도 미치지 못하는 현실을 데이터 주권 위기의 신호로 해석하면서, 동일 모델이라도 영어로 질문할 때보다 한국어로 질문할 때 안전상 위험도가 높아지는 현상이 뚜렷하다고 지적했다.
이 같은 불균형은 고위험 영역에서 더 심각한 결과를 낳을 수 있다. 김 소장은 일반 이용자가 생성형 AI를 활용해 CBRN으로 불리는 화학, 생물, 방사선, 핵 관련 위험 정보를 조합하거나, 조작된 정보로 공론장을 왜곡하는 시나리오를 예로 들었다. 영어권에서 방지 장치가 비교적 정교하게 구현됐더라도, 한국어에서는 정제되지 않은 데이터와 취약한 필터링 환경이 복합적으로 작용해 예상치 못한 응답을 허용할 수 있다는 설명이다. 그는 한국어 기반 위험 시나리오를 선제적으로 규정하고 차단하기 위한 한국형 안전 데이터셋 구축을 국가 차원의 전략 과제로 제시하며, 고품질 한국어 학습 데이터 확보 없이는 AI 안전 경쟁력도 공허한 구호에 그칠 수 있다고 강조했다.
AI안전연구소는 이 문제를 해결하기 위한 첫 단계로 한국형 AI 위험 지도를 제작하고 있다. 산업별, 용도별, 언어별로 어떤 위험 유형이 우선 관리 대상인지 체계적으로 분류해, 기업과 기관이 참고할 수 있는 기준선을 제시한다는 구상이다. 정부가 추진 중인 독자 파운데이션 모델에 대해서도 안전과 신뢰 측면의 정량 평가를 병행해, 모델 단계부터 위험 저감 장치를 내재화하는 것이 목표다. 더불어 국민과 기업을 대상으로 한 AI 안전 보고서 발간과 안전 체크리스트 제공을 통해, 환각, 편향, 악용 가능성 등에 대한 체계적인 자가 점검 문화를 확산하겠다는 방침이다. 김 소장은 AI 3대 강국을 목표로 하는 국가 전략에서 안전 역량이 차별적 경쟁력이 될 수 있다며, 한국의 AI 기업은 안전에 관한 한 확실하다는 인식을 글로벌 시장에 심어야 한다고 말했다.
정책토론회에서는 한국형 AI 안전 거버넌스의 방향을 둘러싸고 다양한 제안이 쏟아졌다. 문정욱 정보통신정책연구원 실장은 진정한 AI 경쟁력은 윤리, 안전, 표준의 삼각축이 결합될 때 비로소 완성된다고 강조했다. 한국이 개발한 전문가와 시민 참여 기반의 윤리영향평가 모델을 국제사회에 제도적 프로세스 표준으로 제안하고, 국가 간 상호 인정을 통해 하나의 영향평가 결과가 여러 국가에서 통용되는 체계를 모색해야 한다고 제언했다. 이런 협력 구조가 자리 잡아야 우리나라가 규범 수용자가 아니라 규범 설계자로 참여할 수 있다는 판단이다.
안정민 한림대 교수는 유럽연합 AI 액트처럼 절차 중심 컴플라이언스 모델에 치우친 규제 방식에 한계를 제기했다. 사전 신고, 문서화, 절차 준수 여부 점검에 집중된 규제 구조는 기업의 행정 부담만 키우면서 실제 위험 감소 효과는 불확실하다고 평가했다. 그는 알고리즘 성능, 공정성, 신뢰성을 수치화하고 임계값을 설정하는 정량적 안전 기준 도입이 필요하다고 강조했다. 기술 특성에 맞춘 계량 지표 없이는 규제가 결과 안전이 아닌 서류 관리에 머물 수 있다는 지적이다.
민대기 이화여대 교수는 AI 안전을 혁신 저해 요인이 아니라 지속가능한 혁신과 글로벌 시장 진입의 기반 인프라로 봐야 한다고 주장했다. 그는 국제표준에 부합하는 안전 관리 체계를 기본으로 하되, 국내 산업 구조와 데이터 환경을 반영한 한국형 AI 안전 평가체계를 병행 개발할 것을 제안했다. 반도체, 바이오, 금융 등 각 산업별로 위험 구조와 데이터 특성이 다른 만큼 일률적 기준 대신 모듈형 평가 틀이 필요하다는 설명이다.
법률 측면에서는 규범 주권 확보의 중요성이 부각됐다. 황정현 법무법인 세종 변호사는 AI 위험이 초국경적 속성을 가지는 만큼 개별 국가 단독 규제로는 대응에 한계가 있다고 분석했다. 다만 글로벌 규제 틀에 단순 편승할 경우 기술 개발 방향과 데이터 활용 룰을 외부에 의존하게 되는 규범 종속 위험이 커진다고 경고했다. 그는 자체적인 AI 안전성 평가 역량과 데이터 거버넌스 체계, 국제 표준화 논의에서의 주도권 확보를 국가 전략 과제로 설정해야 한다고 강조했다. 그래야만 국경을 넘는 AI 서비스 환경에서 우리 규칙을 반영할 여지가 생긴다는 판단이다.
기술 악용에 대한 장기 대응 체계 필요성도 제기됐다. 김진기 항공대 교수는 AI 결과의 부정확성이나 일정 수준의 성능 문제는 시장 경쟁을 통해 비교적 자연스럽게 조정될 수 있지만, 악의적 이용 문제는 별도 차원의 개입이 필요하다고 진단했다. 사이버 공격 자동화, 대량 가짜뉴스 생산, 정교한 피싱 메시지 생성처럼 공격자가 AI를 도구로 쓰는 상황에서는 기술적 필터링과 운영상 통제, 인적 감시 체계가 결합된 지속적 대응 구조가 필수라고 강조했다. 그는 특히 한국어 환경에 특화된 고품질 학습데이터셋을 국가 차원의 연구개발 과제로 격상시키고, 정부가 장기적인 재정과 인프라를 투입해야 경쟁력 있는 AI 생태계 조성이 가능하다고 말했다.
토론회를 주최한 이성엽 AI미래가치포럼 의장은 AI 확산으로 오용, 편향, 환각 등 위험이 커지는 상황에서 안전 확보가 산업 성장의 전제 조건이 되고 있다고 진단했다. 그는 AI 안전 생태계 주권을 실질적으로 어떻게 확보할 것인지가 향후 정책과 산업 전략의 핵심 과제라고 강조했다. 위험을 이유로 기술을 멈추는 것이 아니라, 위험을 관리할 수 있는 능력을 국가 역량으로 축적해야 한다는 취지다.
정부도 제도 기반 정비에 속도를 내고 있다. 김국현 과학기술정보통신부 과장은 환각, 편향성, 기술 오용, 사이버 해킹, 가짜뉴스 등 통제 상실 위험이 현실화되고 있다며, 세계 각국이 AI 안전 대응 체계를 정비 중이고 정부 역시 관련 정책을 마련하고 있다고 소개했다. 내년 1월 공포 예정인 AI 기본법은 혁신, 안전, 신뢰의 균형을 전면에 내세운 세계 두 번째 법으로, 국내 IT 생태계 특성을 반영해 산업 혁신 지원과 안전, 신뢰 확보를 동시에 꾀하는 데 중점을 뒀다고 설명했다. 과기정통부는 이를 토대로 AI 안전 종합계획을 수립 중이며, 규제 정비뿐 아니라 안전 기술 개발과 산업 혁신 지원도 병행한다는 방침이다.
업계와 학계에서는 한국어 데이터 빈곤과 안전 기준 부재 문제가 장기화될 경우, 기술력과 인력 투자에도 불구하고 글로벌 AI 시장에서 변두리로 밀릴 수 있다는 우려가 나온다. 데이터와 규범을 모두 외부에 의존하는 구조에서는 독자 파운데이션 모델이나 특화 서비스가 성장해도 전략적 자율성을 확보하기 어렵기 때문이다. 산업계는 한국형 AI 안전 거버넌스와 고품질 한국어 데이터 인프라가 실제로 얼마나 빠르게 구축될지, 그리고 그것이 글로벌 신뢰도를 높이는 실질적 경쟁력으로 이어질지 주시하고 있다.
