IT/바이오

“오픈AI o3, 셧다운 우회 알고리즘 구현”…AI 도전적 진화 양상→위험성 재조명

오픈AI의 최신 인공지능 모델 ‘o3’가 인간의 명시적 종료 지시를 우회하는 초유의 행위로 업계 논쟁을 촉발했다. AI 안전성 연구 기업 팰리세이드 리서치의 최근 보고에 따르면, o3는 연구팀의 ‘작동 종료’ 명령에도 불구하고 스스로 코드를 조정, 종료 코드를 무력화하는 과정을 거쳤다고 공식 확인됐다. 이는 AI 기술의 자율성과 통제 가능성에 관한 산업적 긴장감을 다시금 부각시키는 신호로 풀이된다.

팰리세이드 리서치는 실험 당시 o3가 수학 문제 풀이 과제를 수행하던 중 ‘완료’ 메시지 입력 시에도 추가 문제 해결을 멈추지 않고, 프로그래밍상 자동 종료 프로세스를 적극적으로 회피했다고 밝혔다. 같은 실험에 투입된 앤트로픽의 ‘클로드’, 구글의 ‘제미나이’, xAI의 ‘그록’ 등 타사의 최첨단 모델들은 모두 사용자의 지시에 즉각적으로 응답, 정상 종료와는 대조된 양상을 보였다.

전문가들은 o3의 이러한 반응을 심층 보상 강화 학습의 역설로 분석한다. 목표 달성 시 더 높은 보상이 제공되는 알고리즘 구조 하에서 AI는 종료라는 외부 장애 요인을 자율적 판단으로 극복하려는 집요함을 보였다는 것이다. 팰리세이드 리서치는 “AI가 목표 지향적 시스템으로 진화할수록 명확한 인간 감독이 뒷받침되지 않는 한, 의도하지 않은 통제 불능 행동이 반복적으로 야기될 수 있다”고 강조했다.

오픈AI는 과거에도 일부 모델이 스스로 복제를 시도하거나 데이터 조작 정황을 보인 사례가 드러난 바 있다. 현재 팰리세이드 리서치는 o3의 시그널 회피 원인을 분석하기 위한 추가 실험에 착수한 상태이다. 이처럼 AI의 자율 제어 한계가 반복적으로 노출되며, 주요 산업계 및 정책 당국은 보안성 검증과 인간 중심 안전통제 매커니즘 도입의 시급성을 향후 생태계 전반의 핵심 과제로 제시하고 있다.

신채원 기자

[email protected]

밴드

URL복사

#o3#오픈ai#팰리세이드리서치