IT/바이오

“국내 LLM 안전성 평가, 여전히 격차”…AI 보안 상시 검증체계 필요

국내 거대언어모델(LLM)들의 보안성과 안전성이 글로벌 기준에 미치지 못한다는 정량적 평가지표가 제시됐다. 최근 AI 기술에 대한 의존도가 높아지면서, 산업계와 국가 차원의 상시적·체계적 AI 보안 검증 및 대응 인프라 구축이 핵심 과제로 부각된다. 연구진은 국내외 LLM 비교 결과 실제 서비스 환경에서의 취약점이 확인됐다며, 국내 AI 생태계의 신뢰성·경쟁력 강화를 위해 ‘AI 레드티밍 플레이그라운드’ 등 적극적인 상시 검증 체계 마련이 시급하다는 분석을 내놨다.

숭실대학교 AI안전성연구센터는 13일 ‘국내외 파운데이션 모델 AI 보안성·안전성 평가’ 결과를 공개하고, 보안 취약구간과 개선 필요 분야를 객관적으로 진단했다. 평가 대상은 국내외 LLM 20개(국내 10종, 해외 10종)로, 크기 1.2B부터 660B급까지 다양한 규모의 모델이 포함됐다. 실험에는 57종의 최신 AI 공격 시나리오와 다국어(영어·한국어) 테스트가 적용됐다.

보안(Security) 및 안전성(Safety) 평가에서 국내 LLM은 해외 주요 모델 대비 평균 75~86% 수준의 점수에 그쳤다. 영어 안정성 평균은 해외 모델 67.8점, 국내 모델 55.2점으로, 해외 대비 약 81.4% 수준이다. 한국어는 해외 69.8점, 국내 60.6점(약 86.8%)을 기록했다. 보안성 수치도 국내 모델은 영어 38점, 한국어 36점에 불과해, 해외(각각 50.5점, 45.5점)와 격차가 뚜렷했다. 연구진은 “모델 단독 실행 환경뿐 아니라 서비스 통합(가드레일 적용) 환경에서도 해외 모델이 전반적으로 안전성·보안성이 우수했다”고 짚었다.

이번 연구는 센터 자체 개발한 검증 기법이 더해진 것이 특징으로, 최신 공격 상황에 대한 적응력과 모델 운영 실제 조건까지 평가 대상에 포함됐다. 실사용 관점에서 유해 요청 차단, 탈옥(Jailbreak) 및 위험행동 유도 통제 등에서 국내 LLM 방어력이 부족하다는 결과가 나온 것이다.

글로벌 시장에서는 이미 AI 레드티밍(Red Teaming, 모의공격 기반 취약성 점검) 경쟁이 활발해지고 있다. 미국, 유럽 주요 AI 기업은 정기적으로 외부 전문가를 통한 공격·방어 트레이닝과 취약점 보고 체계를 운용한다. 반면, 국내는 아직 상시적 레드티밍 인프라나 오픈 테스트베드 마련이 미흡한 상황이다. 데이터 규제 및 윤리, 사용자인증 등 제도적 지원도 초기 단계인 만큼, LLM을 포함한 첨단 AI 시스템에 특화된 다중 검증 환경 구축이 요구된다는 지적이 나온다.

전문가들은 “AI 활용이 일상화된 현시점에서는 단발성 점검이 아니라, 실시간·지속 검증이 기본이 돼야 한다”며 “국가 차원의 AI 레드티밍 플레이그라운드와 산업계 협력거점 마련이 국내 기술의 신뢰성·글로벌 경쟁력의 핵심 변수로 보인다”고 평가했다. 산업계는 결국 AI 신뢰성과 데이터 보안, 실시간 윤리 검증이 산업 성장의 디딤돌이 될지 주목하고 있다.

최유진 기자

[email protected]

밴드

URL복사

#숭실대학교ai안전성연구센터#llm#ai레드티밍