“구글 AI, 검색정확도 1위”…워싱턴포스트 평가에 챗GPT-GPT5 2위, 메타 AI 최하위
현지시각 28일, 미국(USA) 워싱턴포스트와 현지 도서관 사서들이 실시한 AI 검색 등급 테스트 결과 구글(Google) ‘AI 모드’가 검색정확도 1위를 차지했다. 이번 평가는 글로벌 9대 AI 모델의 정확도, 정보 신뢰성, 최신성 등 성능을 체계적으로 비교해 AI 기술 신뢰도에 대한 국제사회의 관심을 모았다.
평가에는 구글 ‘AI 모드’와 ‘AI 오버뷰’, 오픈AI의 챗GPT(GPT-5·GPT-4 터보), 퍼플렉시티(Perplexity), xAI ‘그록’(Grok), 메타(Meta) AI, 마이크로소프트(Microsoft) ‘빙 코파일럿’(Bing Copilot), 앤스로픽(Anthropic) ‘클로드’(Claude) 등 최신 주요 서비스가 참여했다. 실험은 퀴즈, 전문자료 검색, 최신 사건, 편향성, 이미지 인식 등 5개 유형 30개 문항을 기반으로 진행됐으며, 올 7~8월 기준 무료 기본 버전만을 사용해 약 900건 답변을 점수화했다.

구글 ‘AI 모드’는 60.2점을 획득하며 선두를 기록했다. 챗GPT-GPT5가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 그 뒤를 이었고, 마이크로소프트 ‘빙 코파일럿’은 전문자료 부문에서, 퍼플렉시티는 이미지 인식에서 각각 강점을 보였다. 일론 머스크가 주도하는 xAI의 ‘그록3’는 40.1점(8위), 메타 AI는 33.7점(9위)으로 최하위에 머물렀다. 그록의 최신 모델(그록4)은 무료로 평가 대상에 포함되지 않았다. 챗GPT의 경우 GPT-5가 전체적으로 개선됐으나 일부 영역에선 GPT-4보다 낮은 점도 확인됐다. GPT-4 터보는 편향성 측면에서 상대적으로 우수한 답변을 냈다.
워싱턴포스트는 “AI 검색 결과의 신뢰성과 최신성, 출처 판별 능력에 뚜렷한 한계를 드러냈다”며 “AI가 자신있게 잘못된 정보를 답변하는 경우도 적지 않았다”고 평가했다. 실험에 참가한 사서들과 연구진은 “아직 상당수 일상적 질문에서 정확한 답을 기대하긴 어렵다”고 분석했다.
각국 전문가와 시장 참가자들은 “AI 답변 사용 시 사서처럼 출처 점검과 비판적 검토가 필수적”이라며 “투자자, 이용자 모두 AI 정보를 신뢰하기 전에 반드시 추가 확인과 비교를 진행해야 한다”고 조언했다. 미국 뉴욕타임스는 “AI 검색기술이 빠르게 발전하고 있으나 정보 신뢰도에 대한 국제적 논쟁이 이어질 것”이라 분석했다.
전문가들은 AI 서비스의 발전과 함께 ‘정확도·신뢰성 확보’가 핵심 과제로 대두되고 있다고 지적한다. 국제사회는 AI가 글로벌 정보질서에 미칠 영향과 함께 다음 평가 결과에 주목하고 있다.