아마존 차세대 AI 칩 공개…GPU 대항마로 클라우드 지형 재편
인공지능 에이전트와 전용 칩이 클라우드 산업의 패러다임을 바꾸고 있다. 아마존웹서비스는 3나노 공정 기반 차세대 AI 칩과 이를 탑재한 서버, 온프레미스 수준의 전용 AI 인프라, 멀티모달 모델을 포함한 대규모 AI 플랫폼 업데이트를 한 번에 공개하며 산업 지형 변화를 예고했다. 업계에서는 이번 발표를 GPU 중심 AI 인프라 구도에 균열을 내는 동시에, 기업용 AI 에이전트 경쟁의 분기점으로 보는 시각이 커지고 있다.
아마존웹서비스 최고경영자 맷 가먼은 미국 라스베이거스에서 열린 연례 행사 리인벤트 기조연설에서 트레이니움3 기반의 아마존 트레이니움3 울트라서버를 공식 발표했다. 트레이니움3는 아마존웹서비스가 설계한 첫 3나노미터 AI 칩으로, 대규모 생성형 모델 학습과 동시 추론에 맞춰 최적화됐다. 새 울트라서버는 최대 144개 트레이니움3 칩을 묶어 362FP8 페타플롭스 성능을 구현하며, 이전 세대 트레이니움2 울트라서버 대비 컴퓨팅 성능은 최대 4.4배, 에너지 효율은 4배 높였다. 메모리 대역폭도 약 4배 확장하고 지연 시간을 4분의 1 수준으로 줄여 초거대 모델 학습 기간을 기존 몇 개월에서 몇 주 단위로 단축하는 것을 목표로 한다.

트레이니움3는 FP8 같은 저정밀 부동소수점 연산 포맷을 적극 활용해, 파라미터 수가 수천억 개를 넘는 대형 모델 학습에서 연산 처리량과 전력 효율을 극대화하도록 설계됐다. GPU가 범용 병렬 연산을 폭넓게 지원하는 반면, 트레이니움 시리즈는 딥러닝 연산 패턴에 특화된 연산 유닛과 온칩 네트워크를 통해 학습 속도와 비용 효율을 끌어올리는 구조다. 아마존웹서비스는 동일한 모델을 학습할 때 필요한 장비 수와 전력 사용량을 줄일 수 있어, 데이터센터 운영비와 탄소 배출을 동시에 낮출 수 있다고 설명한다.
특히 이번 세대는 대규모 서버 간 고속 상호 연결을 전제로 설계돼, 수만 개 칩을 묶는 대규모 클러스터 구성에서 통신 병목을 줄이는 데 초점을 맞췄다. 그 결과 수십억 개 이상의 토큰을 학습하는 장기 시퀀스 모델이나, 복수 모달리티를 동시에 학습시키는 멀티모달 모델에서도 효율이 높다는 설명이다. 기존 GPU 기반 인프라에서 빈번히 발생하던 통신 대기 시간이 줄어들면서, 학습 효율이 실질적으로 향상될 수 있다는 주장이다.
아마존웹서비스는 트레이니움3에 이어 차세대 칩 트레이니움4 개발도 병행하고 있다고 밝혔다. 트레이니움4는 FP4 연산 기준 6배, FP8 기준 3배 성능 향상과 메모리 대역폭 4배 확대를 목표로 한다. 여기에 엔비디아 NV링크 퓨전과의 연동을 지원해 GPU와 트레이니움 칩을 혼합한 하이브리드 인프라도 구현할 계획이다. 이는 특정 작업에는 GPU, 대규모 언어모델 학습에는 트레이니움 같은 역할 분담을 가능하게 해, 단일 벤더 의존도를 낮추려는 대형 고객사 요구에 대응하는 전략으로 읽힌다.
시장 측면에서 트레이니움3 울트라서버는 초거대 언어모델과 멀티모달 모델 학습 수요가 폭발하는 가운데, 기존 GPU 기반 클러스터의 긴 대기 시간과 높은 비용 문제를 정면 겨냥했다. 학습 성능과 효율을 모두 끌어올리면서도 클라우드 서비스 형태로 제공하기 때문에, 생성형 AI를 내재화하려는 대형 인터넷 기업과 금융, 제조, 게임사 등에서 관심을 가질 수 있는 구조다. 특히 수천억 토큰 이상 데이터를 정기적으로 재학습해야 하는 기업에게는 모델 업데이트 주기를 앞당겨 서비스 경쟁력을 확보할 수 있는 수단이 될 전망이다.
글로벌 관점에서는 엔비디아가 GPU 기반 AI 가속기 시장을 장악한 가운데, 미국 빅테크 기업들이 자체 설계 칩으로 ‘탈 GPU’ 움직임을 가속하는 흐름과 맞닿아 있다. 구글 TPU, 마이크로소프트의 마이아와 코팔, 메타의 MTIA 등과 비교할 때, 아마존웹서비스는 자사 클라우드와 긴밀히 통합된 전용 칩을 무기로 클라우드 고객 락인을 강화하는 전략을 택하고 있다. 국내외 클라우드 경쟁사들도 유사한 가속기 개발을 선언한 상태여서, 향후 2~3년간 AI 칩 경쟁이 본격화될 가능성이 크다.
아마존웹서비스는 칩과 클라우드 인프라뿐 아니라 온프레미스 환경을 겨냥한 ‘AI 팩토리즈’ 서비스도 공개했다. AI 팩토리즈는 고객이 보유한 기존 데이터센터의 공간, 전력, 네트워크를 활용하면서, 아마존웹서비스가 엔비디아 최신 GPU와 트레이니움 칩, 고성능 네트워크와 스토리지, 데이터베이스, 보안 시스템, 아마존 베드록과 세이지메이커 같은 AI 서비스를 통합 구축해 주는 형태다. 기업 입장에서는 퍼블릭 클라우드로 민감 데이터를 이동하지 않고도, 내부 데이터센터를 고성능 AI 환경으로 전환할 수 있는 일종의 프라이빗 AWS 로컬 존인 셈이다.
AI 팩토리즈는 정부 기관이 요구하는 최고 수준의 보안 기준을 충족하도록 설계돼, 비공개 등급부터 최상위 기밀 수준 데이터 처리까지 다룰 수 있도록 구성된다. 데이터 주권과 규제 준수가 핵심인 국방, 정보기관, 금융, 공공 분야에서 내외부 규제와 지연 시간, 네트워크 제약 때문에 클라우드 활용이 제한됐던 문제를 보완하는 구조다. 특히 일부 국가는 데이터 국외 반출을 제한하는 법제를 강화하고 있어, 아마존웹서비스 입장에서는 각국에 분산 배치된 데이터센터 안으로 직접 들어가는 전략적 통로가 될 수 있다.
글로벌 클라우드 시장에서는 이미 온프레미스와 클라우드를 결합한 하이브리드·멀티클라우드 전략이 핵심 흐름으로 부상해 왔다. 마이크로소프트 애저 스택, 구글 안토스, 오라클의 전용 리전 등과 유사한 경쟁 구도가 펼쳐져 왔지만, 아마존웹서비스는 여기에 AI 전용 인프라와 멀티모달 모델 서비스를 한 번에 얹는 방식으로 차별화를 시도하는 셈이다. 규제 산업에서의 AI 수요가 늘어나는 만큼, 각국 정부와 금융권의 실제 채택 여부가 향후 경쟁의 분기점이 될 전망이다.
소프트웨어 계층에서는 아마존 베드록에 대한 사상 최대 규모 모델 업데이트가 동시에 발표됐다. 베드록은 다양한 대형 언어모델과 멀티모달 모델을 한 플랫폼에서 선택, 비교, 조합해 사용할 수 있도록 하는 서비스로, 아마존웹서비스는 이를 기업용 ‘AI 백화점’에 비유한다. 이번 업데이트를 통해 미스트랄AI의 미스트랄 라지 3와 미니스트랄 3 등 신규 모델 2종, 구글 젬마 3, 미니맥스 M2, 엔비디아 네모트론, 오픈AI GPT OSS 세이프가드 등 18종의 오픈 웨이트 모델이 추가됐다.
미스트랄 라지 3는 긴 문서의 흐름을 파악하고 텍스트와 이미지 등 다양한 입력을 동시에 처리할 수 있는 멀티모달 모델로, 복잡한 지시를 정교하게 수행하는 능력을 강점으로 삼는다. 이는 계약서 검토, 의료 기록 요약, 코드 분석처럼 길고 복잡한 컨텍스트를 다루는 업무에 적합한 구조다. 미니스트랄 3는 소형 모델이지만 범용성과 멀티모달 처리 능력을 겸비해, 엣지 디바이스나 경량 서버 환경에서도 다양한 활용이 가능하도록 설계됐다. 아마존웹서비스는 이를 통해 대형·중형·소형 모델 스펙트럼 전반에 걸친 선택지를 제공하면서, 고객이 비용과 지연 시간, 정확도 요구에 맞춰 모델을 조합하도록 유도하고 있다.
아마존웹서비스는 자체 거대언어모델 계열인 노바 2 모델 패밀리 출시도 예고했다. 노바 2는 논리적 추론과 멀티모달 이해, 대화형 상호작용에서 가격 대비 성능을 극대화한 모델로 제시된다. 텍스트 분석뿐 아니라 이미지나 구조화 데이터까지 한 번에 다룰 수 있는 구조로 알려졌으며, 고객 맞춤형 에이전트 구축을 염두에 두고 설계된 것이 특징이다. 이를 통해 베드록 내에서 서드파티 모델과 자사 모델을 혼합해 쓰는 전략을 강화하려는 포석으로 풀이된다.
AI 에이전트 구축을 위한 플랫폼 기능도 대폭 확장됐다. 아마존 베드록 에이전트코어에 추가된 폴리시 인 에이전트코어 기능은 에이전트가 사용할 수 있는 도구와 작업 범위를 정책 형태로 세밀하게 제어할 수 있게 한다. 예를 들어 금융 상담 에이전트가 특정 금액 이상의 이체를 직접 실행하지 못하게 하거나, 의료 분야 에이전트가 진단 대신 정보 제공에만 머물도록 제한하는 식의 안전장치를 설계할 수 있다. 에이전트코어 이밸류에이션 기능은 에이전트가 실제 환경에서 어떤 성능과 품질을 보일지 사전에 평가할 수 있도록 시뮬레이션과 테스트 지표를 제공해, 대규모 배포 이전 검증 비용을 낮추는 역할을 한다.
규제와 거버넌스 측면에서도 이러한 기능은 의미가 있다. 생성형 AI 에이전트가 실제로 결제, 계정 변경, 의료 정보 열람 등 민감한 작업을 수행할 때, 통제 불능 상태로 오작동하는 위험을 줄이는 방향으로 설계돼 있기 때문이다. 각국 규제기관이 AI 활용 시 책임 소재와 통제 메커니즘을 강조하는 상황에서, 도구 접근 권한과 행동 범위를 명시적으로 제한하는 구조는 향후 인증과 컴플라이언스 측면에서 중요한 기준이 될 수 있다.
이번 발표는 GPU 중심으로 고착된 AI 인프라 시장에 새로운 변수를 던졌다는 평가가 나온다. 엔비디아는 여전히 하드웨어와 소프트웨어 스택을 아우르는 생태계 경쟁력을 유지하고 있지만, 아마존웹서비스가 자체 칩과 클라우드, 온프레미스 서비스, 멀티모달 모델 플랫폼을 묶어 제공하면서 대형 고객사 선택지는 넓어졌다. 동시에 마이크로소프트와 구글도 각자의 독자 칩과 모델, 하이브리드 인프라 전략을 강화하고 있어, AI 칩과 클라우드, 에이전트 플랫폼을 묶은 3중 경쟁 구도가 형성되는 모양새다.
전문가들은 초거대 AI 모델 경쟁이 계속될수록 연산 효율과 전력 효율, 데이터 주권과 규제 준수가 기업 의사결정의 핵심 요소로 부상할 것으로 본다. 자체 칩을 통한 비용 절감과 성능 향상, 전용 데이터센터 내 AI 인프라 구축, 다수 모델을 조합하는 플랫폼 전략이 동시에 작동하는 구조에서, 실제로 어느 조합이 산업 현장에서 채택될지가 향후 관전 포인트다. 산업계는 아마존웹서비스의 이번 기술들이 GPU 대체재이자 보완재로서 실제 시장에 안착할 수 있을지, 그리고 AI 인프라 주도권을 재편할 새로운 축이 될 수 있을지 주시하고 있다.
