“코딩도 에이전트도 앞선다”…앤트로픽, 오퍼스4.5로 생성AI 경쟁 자극
생성형 인공지능이 개발 현장과 사무 업무 전반을 재편하는 가운데 미국 AI 스타트업 앤트로픽이 상위급 거대언어모델 신제품을 내놓으며 코드 어시스턴트와 업무용 에이전트 시장 공세에 속도를 내고 있다. 코딩과 복잡한 컴퓨터 활용 작업에서 기존 경쟁사 모델을 앞섰다는 평가를 바탕으로, 클라우드와 오피스 환경 전반에 걸친 실사용 사례 확대를 노리는 구도다. 업계에서는 이번 출시를 차세대 개발 도구와 기업형 생산성 플랫폼 주도권 경쟁의 분기점으로 해석하는 시각도 나온다.
앤트로픽은 25일 차세대 인공지능 모델 클로드 오퍼스 4.5를 공식 출시했다고 밝혔다. 오퍼스는 클로드 라인업 가운데 최상위급에 해당하는 모델로, 구글의 제미나이 프로, 오픈AI의 최상위 GPT 계열과 같은 포지션에서 경쟁하는 프런티어 LLM이다. 회사는 오퍼스 4.5가 코딩, 에이전트, 일반적 컴퓨터 활용 업무 영역에서 현존 최고 수준의 성능을 구현했다고 강조했다.

성능 지표로 제시된 SWE 벤치마크에서 오퍼스 4.5는 80.9퍼센트를 기록했다. 같은 지표에서 구글 제미나이 3 프로는 76.2퍼센트, 오픈AI GPT 5.1 코덱스 맥스는 77.9퍼센트 수준으로, 앤트로픽 측은 코드 작성과 디버깅, 시스템 설계 등 소프트웨어 공학 전반에서 오퍼스 4.5가 경쟁사 최신 모델을 웃도는 결과라고 설명했다. SWE 벤치마크는 다양한 난이도의 실제 개발 과제를 기반으로 모델의 코드 이해도와 문제 해결력을 측정하는 지표라는 점에서, 개발자용 AI 어시스턴트 경쟁력의 핵심 근거로 활용되고 있다.
기술적으로 오퍼스 4.5는 문제 해결 과정에서의 탐색 전략을 정교화해, 불필요한 시도와 중복 추론을 줄인 점이 특징으로 꼽힌다. 앤트로픽은 이 모델이 이전 세대 대비 더 적은 토큰으로 동일하거나 더 복잡한 문제를 해결할 수 있도록 설계됐다고 설명했다. LLM의 토큰은 사람이 사용하는 단어 조각 단위로, 같은 작업을 처리하는 데 필요한 토큰이 줄어들수록 처리 비용과 지연 시간이 함께 감소하는 효과가 있다. 복잡한 코드 리팩터링이나 대규모 데이터 분석 레포트 작성처럼 장문의 맥락을 필요로 하는 작업에서 체감 성능 차이가 커질 수 있다는 의미다.
오퍼스 4.5는 심층 연구용 질의 응답 외에도 프레젠테이션 슬라이드 작성, 스프레드시트 계산식 구성, 데이터 정리처럼 사무 현장에서 반복되는 작업 처리에서 성능이 개선됐다는 평가를 받는다. 모델이 문서와 표, 코드, 명령어를 통합적으로 해석해 일관된 결과물을 내놓는 멀티모달 실무형 워크플로 처리 역량을 강화한 셈이다. 특히 여러 단계의 계산과 논리적 추론이 필요한 경제 분석, 실험 설계, 정책 시뮬레이션 등에서 더 안정적인 답변 품질을 목표로 한 것으로 보인다.
가격 전략도 공격적이다. 앤트로픽은 오퍼스 4.5 토큰 단가를 100만 토큰 기준 입력 5달러, 출력 25달러로 책정했다. 이전 모델 대비 약 3분의 1 수준으로 낮춘 것으로, 연속 대화나 대규모 코드베이스를 다루는 기업 고객 입장에서는 전체 운영 비용을 크게 절감할 여지가 생긴다. 대량의 로그 데이터 분석, 장기 고객 상담 기록 요약 등 대용량 콘텍스트를 전제로 한 활용 시나리오에서 가격 경쟁력이 부각될 가능성이 있다.
접근성 측면에서는 주요 클라우드 플랫폼과의 통합이 강조됐다. 오퍼스 4.5는 앤트로픽 자체 앱과 API를 통해 바로 사용할 수 있을 뿐 아니라, 아마존웹서비스, 마이크로소프트 애저, 구글 클라우드 등 3대 글로벌 클라우드 인프라에서도 즉시 제공된다. 이는 기업이 기존 클라우드 환경을 그대로 유지한 상태에서 LLM 엔진만 교체하거나 병행 테스트할 수 있게 해, 도입 장벽을 낮추는 효과를 낸다. 다중 클라우드 전략을 채택한 글로벌 기업의 경우 프로젝트별로 다른 모델을 선택해 성능과 비용을 비교하는 A B 테스트에도 유리한 구조다.
앤트로픽은 모델 출시와 동시에 클로드 개발자 플랫폼과 코드 특화 기능, 소비자용 앱 전반도 함께 업데이트했다. 특히 장시간 구동되는 에이전트 지원 기능을 확대해, 단발성 질의 응답을 넘어 지속적으로 상태를 유지하며 작업을 이어가는 장기 태스크 수행 시나리오를 강화했다. 예를 들어 대규모 애플리케이션 리팩터링, 수주일에 걸친 데이터 파이프라인 점검, 반복 업무 자동화 플로우 구축 등에서 에이전트가 상황을 기억하며 점진적으로 작업을 진척시키는 형태의 활용이 가능해진다.
데스크톱과 브라우저 환경에서의 활용성도 넓어졌다. 클로드 앱에서는 긴 대화가 중간에 끊기지 않도록 문맥 관리 기능을 강화해, 사용자가 여러 날에 걸쳐 같은 주제를 다루더라도 모델이 이전 대화 흐름을 더 정확히 이어갈 수 있도록 했다. 크롬 브라우저 확장 기능인 클로드 포 크롬은 탭별 맥락을 인식해 각기 다른 작업을 병렬로 처리할 수 있으며, 월 200달러 요금제인 맥스 이용자 전원에게 제공된다. 이는 웹 기반 문서, 개발자 문서, 데이터 대시보드 등 분산된 정보를 한 번에 다루는 지식 노동자에게 직접적인 생산성 개선 수단이 된다.
엑셀 연동 기능도 확대됐다. 지난해 10월 선보인 클로드 포 엑셀은 그동안 제한된 베타 형태로 운영됐으나, 이번 업데이트를 통해 맥스, 팀, 엔터프라이즈 요금제 이용자 전원으로 베타 접근 범위가 넓어졌다. 스프레드시트 내부 구조와 수식, 매크로를 모델이 이해해 표준화된 리포트 작성, 데이터 검증, 반복 계산 자동화 등을 지원하는 구조다. 금융, 제조, 컨설팅 등 스프레드시트 의존도가 높은 산업에서 AI 기반 업무 자동화 수요와 맞물려, 유료 구독 전환을 유도하려는 전략으로 해석된다.
글로벌 경쟁 구도에서 앤트로픽 오퍼스 4.5는 구글 제미나이, 오픈AI GPT 계열이 주도해온 상위 모델 시장에 본격적으로 도전하는 그림을 만들고 있다. 특히 SWE 벤치마크와 같이 개발자 친화 지표에서 우위를 내세우면서, 코드 생성과 시스템 설계, 버그 탐지 등 소프트웨어 개발 라이프사이클 전체에 스며드는 AI 도구를 목표로 삼고 있다. 미국과 유럽에서는 이미 개발팀당 전담 AI 보조 모델을 두는 움직임이 확산되는 가운데, 어떤 벤더의 모델을 표준 도구로 채택하느냐가 생산성과 보안 전략의 핵심 의사결정 항목으로 떠오르고 있다.
안전성과 정렬 측면에서 앤트로픽은 오퍼스 4.5 시스템 카드를 별도로 공개하고, 지금까지 선보인 모델 중 가장 견고하게 정렬된 모델이라고 강조했다. 정렬은 모델의 출력이 인간의 가치와 규범, 정책적 요구에 부합하도록 제어하는 기술적 조정 과정을 의미한다. 회사는 오퍼스 4.5가 유해 콘텐츠 생성, 개인정보 노출, 악의적 코드 작성 등 고위험 시나리오에서 업계 최고 수준의 방어력을 갖추도록 설계됐다고 설명했다. 이는 각국이 AI 안전 규제와 책임성 요구를 강화하는 흐름과 맞물려, 대형 기업과 공공기관 도입에 중요한 신뢰 신호로 작용할 수 있다.
정책과 규제 환경에서는 미국과 유럽을 중심으로 고성능 AI 모델에 대한 평가 의무와 위험 관리 요구가 강화되는 추세다. EU AI 법안과 미국의 위험 기반 규제 논의는 코드 생성 모델이 사이버 공격 도구로 악용될 수 있는지 여부를 중점적으로 들여다보고 있다. 이런 상황에서 앤트로픽이 안전성과 보안 강화를 전면에 내세운 것은, 향후 규제 준수 기준과 감사 절차를 통과하기 위한 선제 대응 전략으로 읽힌다. 대규모 언어모델을 도입하는 금융, 의료, 공공 분야에서는 내부 거버넌스와 함께 벤더의 안전성 체계가 조달 조건으로 명시될 가능성도 있다.
전문가들은 오퍼스 4.5와 같은 프런티어 모델이 상용 서비스에 본격적으로 녹아드는 시점부터 AI 경쟁의 무게 중심이 단순한 벤치마크 점수보다 통합 에이전트 기능, 도메인 최적화, 비용 구조로 이동할 것으로 보고 있다. 한 AI 연구자는 상용화를 염두에 둔 프런티어 모델 경쟁이 개발 생산성, 사무 자동화, 데이터 분석 전 분야에서 구조적 변화를 촉발할 수 있지만, 각 기업의 조직 문화와 업무 프로세스가 이를 따라가지 못하면 기대 효과가 반감될 수 있다고 분석했다. 산업계는 오퍼스 4.5를 비롯한 차세대 모델이 실제 현장에 얼마나 빠르게 안착할지 예의주시하고 있다.
