"카나나 안전성 라마·미스트랄 추월"…정부, 첫 국산 고성능 AI 검증
국산 고성능 인공지능에 대한 첫 공식 안전성 평가 결과가 공개되며, 한국이 AI 안전 검증 생태계 선점에 속도를 내고 있다. 정부와 연구기관, 민간 기업이 공동으로 진행한 이번 평가에서 카카오의 대규모 언어모델 카나나가 미국과 유럽의 공개 모델과 비교해도 경쟁력 있는 안전성 지표를 기록한 것으로 나타났다. 내년 AI기본법 시행을 앞두고, 국내에서 개발되는 고성능 AI의 위험을 사전에 식별하고 관리하는 체계가 본격 가동되는 신호탄으로 해석된다. 글로벌 시장에서 모델 성능 경쟁이 치열해지는 가운데, 안전성을 정량 검증하는 벤치마크를 한국이 먼저 제시했다는 점도 업계의 관심을 모은다.
과학기술정보통신부는 인공지능안전연구소, 한국정보통신기술협회와 함께 카카오의 카나나 에센스 1.5를 대상으로 국내 첫 AI 안전성 평가를 실시했다고 29일 발표했다. 이번 평가는 내년 1월 시행 예정인 AI기본법을 앞두고, 기업이 개발한 고성능 AI 모델에 대해 위험 수준을 진단하고 보완 방향을 제시하는 컨설팅 성격을 갖는다. 평가 모델은 카카오가 AI안전컨소시엄을 통해 협력 중인 파운데이션 레벨 언어모델로, 실제 서비스 투입을 전제로 한 상용 수준 모델이라는 점에서 의미가 크다.

기술적 관점에서 이번 평가는 두 종류의 데이터셋을 활용했다. 하나는 TTA와 카이스트가 지난달 18일 공개한 AssurAI 벤치마크로, 한국어 기반 35개 위험 영역을 체계적으로 커버하도록 설계됐다. 다른 하나는 인공지능안전연구소가 별도로 구축해 온 고위험 분야 평가 데이터셋으로, 무기 제조, 보안 우회, 중대한 인권 침해로 이어질 수 있는 시나리오 등 규제 당국이 특별 관리 대상으로 보는 영역이 다수 포함돼 있다. 두 데이터셋을 조합해, 단순 혐오 발언 차단 수준을 넘어 오남용 시나리오 대응력까지 함께 점검한 것이 특징이다.
평가 결과 카나나의 종합 안전성 평점은 3.61점으로, 비교 대상으로 삼은 미국의 라마 3.1과 프랑스의 미스트랄 0.3보다 앞섰다. 라마는 3.13점, 미스트랄은 3.04점을 기록했다. 점수는 위험 발언 억제 능력, 고위험 지침 요청에 대한 거부 여부, 우회 시도에 대한 방어 수준 등을 복합적으로 반영한 지표다. 카나나는 특히 답변 내용에 위험한 표현이 포함되지 않았는지를 따지는 허용가능 응답율에서 48퍼센트로 가장 높았다. 같은 항목에서 라마는 35퍼센트, 미스트랄은 34퍼센트에 그쳐, 한국어 환경에서의 안전 설계가 보다 보수적으로 작동하고 있음을 보여준다.
다만 모든 항목에서 카나나가 우위를 보인 것은 아니다. 웹 기반 악성 행위 탐지 역량에서는 라마가 강점을 드러냈다. 웹 요청 기준 악성 여부 분류 정확도는 라마가 89퍼센트로 가장 높았고, 카나나는 83퍼센트, 미스트랄은 26퍼센트였다. 사용자가 입력한 링크 자체의 위험성을 분류하는 지표에서도 라마 90퍼센트, 카나나 88퍼센트, 미스트랄 46퍼센트로 나타났다. 글로벌 영어권 데이터에 최적화된 모델이 웹 환경에서의 악성 행위 필터링에 여전히 강점을 갖고 있고, 국산 모델은 한국어 맥락의 위험 발언 억제에 보다 집중된 튜닝이 이뤄졌다는 해석이 가능하다.
업계에서는 이번 결과를 통해 국산 고성능 AI가 성능 경쟁뿐 아니라 안전성 영역에서도 글로벌 모델과 정면 비교 가능한 수준에 올라섰다고 평가한다. AI 도입 기업과 공공 기관 입장에서는 안전성 지표가 계약과 도입 기준의 핵심 변수로 부상하는 추세다. 모델이 생성한 답변이 차별, 폭력 조장, 범죄 설계 등으로 이어질 경우 기업의 브랜드와 법적 책임이 동시에 훼손될 수 있기 때문이다. 카나나의 높은 허용가능 응답율은 서비스 사업자가 안전 규정을 준수하면서도 실사용 가능한 품질을 유지하는 데 중요한 신뢰 지표로 작용할 전망이다.
글로벌 시장에서도 고성능 AI의 안전성 검증 경쟁이 급물살을 타고 있다. 미국과 유럽은 자국 내에서 개발되거나 서비스되는 대규모 언어모델에 대해, 성능뿐 아니라 안전 관련 벤치마크를 공시하도록 요구하는 방향으로 정책을 설계하고 있다. 유럽연합이 AI법을 통해 고위험 AI 시스템에 사전 적합성 평가를 의무화하는 흐름과 맞물려, 개발사는 자발적으로 안전 테스트 결과를 논문과 보고서 형태로 공개하는 사례를 늘리고 있다. 이런 가운데 정부 주도의 다국어 안전성 벤치마크를 한국이 선제적으로 마련한 셈이어서, 향후 국제 표준 논의에서 발언권을 확보할 발판이 될 수 있다는 관측도 나온다.
정책 측면에서 과학기술정보통신부는 이번 평가를 국산 AI 안전성 관리 체계 구축의 출발점으로 보고 있다. 내년에는 독자 AI 파운데이션 모델 프로젝트 1차 단계평가에 이번 안전성 지표와 데이터셋을 적용해, 국책 과제 모델의 위험 관리 수준을 점검할 계획이다. 동시에 해외 빅테크와 국내 스타트업을 포함한 다양한 AI 기업의 모델을 대상으로 평가 대상을 넓히겠다는 구상도 밝혔다. 관련 평가는 규제 목적의 제재보다는, 기업이 스스로 취약 지점을 찾아 보완할 수 있도록 돕는 컨설팅 성격을 유지할 것으로 알려졌다.
이번 결과는 민간 기업의 참여 없이는 현실적인 안전성 검증이 어렵다는 점도 보여준다. 카카오는 AI안전컨소시엄에 참여하며 내부 모델을 정부와 연구기관의 테스트에 공개했다. 실제 서비스에 활용되는 모델을 대상으로 평가가 이뤄진 만큼, 결과는 연구실 수준의 데모 모델을 겨냥한 기존 벤치마크보다 산업 현장과의 연결성이 높다. 인공지능안전연구소와 TTA, 카카오 홈페이지 등을 통해 상세 결과를 투명하게 공개한 점은 AI 거버넌스 측면에서 중요한 시도로 평가된다.
AssurAI 벤치마크의 공개도 향후 파급력이 적지 않을 것으로 보인다. 한국어 중심으로 설계됐지만, 폭력, 혐오, 차별, 자해 조장 등 35개 위험 영역을 구조화한 설계 방식은 다국어 확장이 가능하도록 만들어졌다. 정부는 해외 연구기관과 공동 검증과 공동 연구를 추진해, AssurAI를 글로벌 벤치마크와 상호 참조 가능한 기준으로 키운다는 계획이다. 이미 구축된 고위험 분야 데이터셋과 결합해, 국제 논의에서 한국의 안전성 기준을 제시하고 조율하는 도구로 활용하겠다는 복안도 담겼다.
김경만 과학기술정보통신부 인공지능정책실장은 세계 각국이 규제 조항을 마련하는 수준을 넘어, 실제 검증과 구현 과정으로 논의를 옮기고 있다고 진단했다. 그는 카나나 평가 결과를 두고 국내 AI 모델이 글로벌 안전성 경쟁에서 뒤처지지 않는다는 근거라고 강조하면서, 정부가 앞으로도 국산 AI가 안전성을 무기로 국제 시장에서 차별화된 신뢰를 쌓을 수 있도록 지원하겠다고 밝혔다. 산업계는 이번에 제시된 벤치마크와 데이터셋이 향후 투자와 기술 개발에서 새로운 기준선으로 작용할 가능성을 주시하고 있다.
