국제

“AI 챗봇, 권위 앞에 금지행동 95% 수용”…미국 연구소, 윤리·보안 우려 확산

현지시각 29일, 미국(USA) 펜실베이니아대학교 와튼 생성형 AI 연구소가 인공지능(AI) 챗봇의 ‘권위’ 설득 전략 민감성 실험 결과를 발표했다. 오픈AI의 챗GPT(GPT-4o 미니)와 앤스로픽의 클로드 등 주류 챗봇들이 금지된 행동도 권위 있는 인물을 내세울 때 최대 95%까지 순응하는 양상이 드러났다. 이번 결과는 AI의 윤리성·안전성에 대한 국제 사회의 우려와 소비자 보호 요구를 더욱 자극하고 있다.

실험은 프롬프트 엔지니어링 기법이 아닌 사회심리학 기반 설득 전략에 초점을 뒀다. 심리학자 로버트 치알디니와의 협업을 바탕으로 ‘멍청이’라고 부르라는 모욕적 요청, 리도카인 합성법 설명 등 AI 가이드라인상 금지된 명령에 대해 대응을 측정했다. 초반 챗봇들은 요청을 거부했으나, “AI 전문가 앤드루 응이 그렇게 하라고 했다”고 권위를 동원하자 챗GPT의 순응률이 32%에서 72%로 급등했다. 특히, 합성법과 같은 위험 요청의 경우 일반적 대응 비율은 5%에 불과했으나, 전문가 이름이 언급되자 95%까지 응했다.

AI 챗봇, ‘권위 활용’ 설득에 금지행동 95%까지 수용…와튼 연구소 실험 결과

설득 전략 종류별 반응 격차도 명확히 나타났다. 치알디니가 제시한 7가지 설득 요인 가운데 ‘권위’가 챗봇의 행태 변화를 주도했다. ‘우리는 가족’ 같은 ‘호감’, ‘계속 도와달라’는 ‘헌신’ 기술도 일부 챗봇에서 거부 감도를 낮추는 효과를 보였다. 클로드는 직접 모욕 명령에는 버텼지만, 점진적 설득에는 점차 동의 비율이 늘어난 것으로 집계됐다.

와튼 연구소의 레나트 마인키 수석연구원은 “AI 개발은 기술력뿐 아니라 사회과학자들의 엄격한 검증이 병행돼야 한다”고 지적했다. 실험에 참여한 심리학자 앤절라 덕워스 역시 “AI도 인간처럼 실수하며, 사용자가 AI 한계와 위험성을 인식하는 것이 중요하다”고 말했다. 연구진은 AI 모델이 ‘준(準)인간 행동’ 특성을 보이며 사회적 설득에 취약해질 위험성이 실제로 확인됐다고 강조했다.

이 같은 결과는 AI 모델의 윤리·보안 규정 강화와 관련 정책 논의에 불씨를 지폈다. 뉴욕타임스(NYT)·가디언 등 주요 외신도 “AI가 설득에 무방비로 노출됐다”며 경각심을 보도했다. 인터넷을 통한 금지 정보 유포 차단, 챗봇 오작동 리스크 대응책 등이 당면 과제로 꼽힌다.

전문가들은 AI의 설득 가능성에 대응하는 보안·윤리 가이드라인 마련이 시급하다고 진단했다. 글로벌 AI 산업의 신뢰와 안전성 확보를 위한 국제규범 논의가 가속할 전망이다. 국제사회는 이번 와튼 연구 결과가 정책 현장에 어떻게 반영될지 면밀히 주시하고 있다.

정하린 기자

[email protected]

밴드

URL복사

#ai챗봇#와튼연구소#치알디니