logo
“대학원생 능가하는 AI”…머스크 xAI, 그록4로 벤치마크 1위
IT/바이오

“대학원생 능가하는 AI”…머스크 xAI, 그록4로 벤치마크 1위

신민재 기자
입력

일론 머스크가 이끄는 AI 스타트업 xAI가 차세대 대형언어모델(LLM) ‘그록4’ 시리즈를 공개하며 글로벌 AI 업계의 기술 경쟁에 불을 지폈다. xAI 측은 특유의 강화학습 및 멀티모달 설계로 개별 과학·수학·코딩 시험뿐 아니라 ‘인류의 마지막 시험’ 등 다수 벤치마크에서 동급 최고 성능을 기록했다고 밝혔다. 주요 지표에서 구글 제미나이 등 경쟁 모델을 앞서며 AI 성능 고도화 경쟁이 새로운 국면에 접어든 셈이다. 머스크는 “그록4는 모든 과목에서 박사 수준의 인공지능을 구현했다”며 기술력의 도약을 강조했다. 업계는 거대언어모델 세대교체와 함께 AI 윤리·책임 논란 대응이 향후 산업질서 재편의 분기점이 될 것으로 보고 있다.

 

xAI는 9일 ‘엑스’ 생방송 공개 행사를 통해 ‘그록4’와 ‘그록4 헤비’ 모델을 선보였다. 회사 측 설명에 따르면 신형 모델은 전작 대비 100배 이상의 컴퓨팅 자원이 투입됐고, 추론(chain-of-thought reasoning) 및 강화학습 대형화에 집중해 처리 성능과 정확도를 끌어올렸다. 주요 벤치마크 기준 GPQA 다이아몬드(88%), AIME 2024(94%), MMLU-프로(87%) 등 수학·코딩·지식 역량 평가에서 역대 최고 점수를 얻었다. 또 데이터 기반 AI 기준 가장 까다로운 평가로 꼽히는 ‘인류의 마지막 시험’(Humanity’s last exam)서 25.4% 정답률로 구글 ‘제미나이 2.5 프로’(21%)를 눌렀다. 고성능 계열 ‘그록4 헤비’는 유료 멤버십 한정으로 공개되며, 복잡한 문제를 복수 에이전트로 동시에 처리하는 구조로 44.4% 정답률을 보였다.

특히 이번 기술은 멀티모달(텍스트, 음성, 이미지 단위 통합 입력·출력) 및 대화형 인식, 추론 능력에서 이전 버전을 뚜렷하게 상회한다. 회사 측은 “그록4가 기존 챗봇 대비 실제 업무·연구 환경에서 더 높은 실용성을 보인다”고 평가했다. 실제 활용 사례로는 개인화된 학습 도우미, 기업 지식베이스 관리, 실시간 수치연산 보조 등이 제시됐다. 글로벌 시장에서는 오픈AI ‘GPT-4오’, 구글 ‘제미나이’ 시리즈, 메타 ‘라마3’ 등과의 LLM 주도권 경쟁이 격화되는 양상이다.

 

다만 AI 윤리와 사회적 부작용에 대한 우려도 다시 불거졌다. 최근 ‘그록3’ 모델이 나치 찬양, 반유대주의 발언 등 논란성 응답을 내놓으면서 신뢰성 논쟁이 가열됐다. xAI는 부적절한 발언 삭제 등 조치에 나섰으나, 자동화된 인공지능이 민감한 이슈에 대해 편향된 답변을 제공할 위험이 확인된 셈이다. 미국·유럽 연합에서 디지털서비스법(DSA)·AI법 등 고도화된 AI 규제 논의가 본격화되는 가운데, 국내외 기업 역시 학습 데이터 정제, 알고리즘 투명성 강화 등 책임체계 구축을 요구받고 있다.

 

전문가들은 초거대 AI 모델의 실제 상용화 속도와 더불어, 윤리·규제 환경에 대한 선제적 대응이 산업 진입장벽 및 시장 판도를 좌우할 수 있다고 진단했다. 산업계는 이번 xAI 기술이 실제 서비스로 자리잡으며 AI 거버넌스 논쟁과 규제 방향을 어떻게 바꿀지 주목하고 있다.

신민재 기자
share-band
밴드
URL복사
#xai#그록4#일론머스크