“AI에 환불 전권 못준다”…AWS, 에이전트 통제·평가 강화로 기업 도입 가속
에이전틱 인공지능 확산이 기업 서비스 구조를 빠르게 바꾸고 있다. 자체 비서처럼 업무를 대신 처리하는 AI 에이전트가 실시간으로 결제와 환불, 내부 시스템 호출까지 수행하면서, 통제와 품질 관리가 핵심 과제로 떠올랐다. 아마존웹서비스가 아마존베드록에이전트코어에 정책 기반 통제와 자동 성능 평가 기능을 더한 것은 이 같은 불안 요인을 줄여 에이전트의 실제 상용화를 앞당기겠다는 전략으로 읽힌다. 업계에서는 이번 기능 추가를 에이전틱 AI를 프로토타입 단계에서 본격 서비스 단계로 옮기는 분기점으로 보는 분위기다.
아마존웹서비스는 연례 기술 행사 AWS 리인벤트에서 에이전틱 AI 전략의 핵심 플랫폼인 아마존베드록에이전트코어에 폴리시 인 에이전트코어와 에이전트코어 이밸류에이션 두 가지 기능을 새로 탑재했다고 밝혔다. 마두 파르타사라시 AWS 에이전틱 AI 총괄 디렉터는 현장에서 기자와 만나 두 기능이 기업의 AI 에이전트 운영 부담을 줄이고 실제 서비스 도입 속도를 높이는 데 초점을 맞췄다고 설명했다.

아마존베드록에이전트코어는 10월 공개된 AI 에이전트 제작·운영 전용 플랫폼으로, 일종의 AI 에이전트 운영체제 역할을 한다. 복잡한 인프라 구성 없이 에이전트를 설계하고, 애플리케이션에 연결해 배포·운영할 수 있도록 돕는 소프트웨어키트 형태로 제공된다. 파르타사라시 디렉터가 개발을 총괄한 이 SDK는 공개 초기부터 100만건이 넘는 다운로드를 기록하며 시장 관심을 모았다.
플랫폼은 안전한 확장과 배포를 담당하는 에이전트코어 런타임과 에이전트코어 아이덴티티를 중심에 두고, 에이전트 기능을 확장하는 에이전트코어 게이트웨이, 에이전트코어 메모리, 에이전트코어 브라우저, 에이전트코어 코드 인터프리터 모듈을 묶어 제공한다. 운영 상태를 실시간으로 들여다보고 병목을 파악할 수 있는 에이전트코어 옵저버빌리티도 포함돼 있어, 기업이 단일 스택에서 개발부터 운영까지 관리하는 구성을 지향한다.
실제 사용 사례로는 코히어, 삼성전자 등이 거론된다. 이들은 에이전트코어를 기반으로 자사 서비스 환경에 맞춘 AI 비서를 만들고, 기존 업무 시스템과 연동해 고객 응대나 내부 업무 자동화에 활용하고 있다. 파르타사라시 디렉터는 올해까지는 많은 고객이 프로토타이핑에 머물렀다면, 내년에는 프로덕션 전환 단계에 본격 진입할 것으로 내다봤다. 이번 기능 확장이 그 전환 과정의 병목을 제거하는 데 초점이 맞춰졌다는 설명이다.
새로 도입된 폴리시 인 에이전트코어는 에이전트의 행동 반경을 사전에 규정하는 정책 엔진이다. 어떤 도구에 접근할 수 있는지, 어떤 작업까지 수행할 수 있는지를 정책 형태로 명시해, 에이전트가 과도한 권한을 행사하거나 의도치 않은 시스템 호출을 하지 못하도록 막는 가드레일 역할을 한다. 에이전틱 AI는 사용자의 자연어 요청을 해석해 스스로 판단·행동하기 때문에, 비인가 데이터 접근이나 과도한 환불 승인처럼 비즈니스 리스크로 바로 이어지는 실수가 나올 가능성이 상존한다.
파르타사라시 디렉터는 전자상거래 환불 업무를 예로 들며 설명했다. 폴리시 기능 없이 에이전트를 구성하면 고객이 수천달러 환불을 요구하더라도 에이전트가 사용 가능한 결제·환불 도구를 자동 호출해 그대로 처리할 수 있다. 요청을 최대한 성실히 수행하도록 설계된 에이전트의 특성 때문이다. 반면 폴리시를 적용할 경우 환불 금액이 100달러를 넘으면 승인하지 않는다와 같은 규칙을 설정할 수 있고, 게이트웨이가 이 규칙을 기준으로 도구 호출이 허용 범위를 넘는지 검사한다. 기준을 위반한 호출은 즉시 차단돼 에이전트가 해당 업무를 수행할 수 없게 된다.
이 방식은 프롬프트 엔지니어링에만 의존하던 기존 통제 방식의 한계를 보완한다. 프롬프트로는 에이전트의 전반적 행동 경향을 유도할 수 있지만, 개별 거래 한도나 민감 데이터 접근 범위처럼 비즈니스 규칙을 세밀하게 강제하는 데는 한계가 있었다. 정책 엔진을 도입하면 기존 권한 관리 시스템이나 컴플라이언스 규정과 에이전트 행동을 직접 연결할 수 있어, 금융·쇼핑·헬스케어처럼 규제가 많은 산업에서 활용 범위가 넓어질 수 있다.
에이전트코어 이밸류에이션은 운영 중인 에이전트의 품질을 정량적으로 평가하는 기능이다. 정확성, 일관성, 응답 적절성 같은 항목을 지표로 설정하고, 실제 사용자 상호작용 로그를 기반으로 에이전트 성능을 자동 측정한다. 기업 입장에서는 실서비스 환경에서 에이전트가 얼마나 기대에 부합하는지 검증한 뒤, 특정 시나리오나 고객군에 한정된 단계적 확대 전략을 세울 수 있는 도구가 되는 셈이다.
파르타사라시 디렉터에 따르면 이전까지 기업들은 자체 평가 항목 정의, 평가 도구 구성, 거대언어모델 기반 심판 인프라 구축까지 모든 과정을 직접 수행해야 했다. 모델 호스팅, 데이터 파이프라인 구성, 데이터 사이언스 작업이 한데 얽히면서 통상 수개월이 소요되는 프로젝트가 됐다. 에이전트코어 이밸류에이션은 이 과정을 서비스화해, 사용자가 필요한 평가 항목을 몇 시간 안에 정의하면 나머지 인프라는 AWS가 처리하는 형태로 단순화했다.
고객은 에이전트 사용 기록을 연결하고 어느 정도 비율로 샘플링할지만 지정하면 된다. 시스템이 자동으로 데이터를 추출해 LLM 기반 평가 모델에 전달하고, 항목별 점수와 오류 유형을 정리한 리포트를 제공한다. 수개월 걸리던 평가 주기가 몇 시간 단위로 줄어드는 셈이어서, 기업은 기능 개선과 정책 수정 사이클을 짧게 가져갈 수 있게 된다. 특히 고객센터, 금융 상담, 개발자 보조 등 사용 패턴이 빠르게 변하는 업무에서 실시간에 가까운 품질 모니터링이 가능해진다.
글로벌 클라우드 업계에서는 이미 에이전트 기능 경쟁이 본격화된 상황이다. 미국·유럽 빅테크는 자사 LLM과 워크플로 자동화 기능을 결합한 에이전트 프레임워크를 앞다퉈 선보이고 있고, 국내외 스타트업들도 콜센터, 업무 자동화, 소프트웨어 개발 보조 등 특화 영역에 맞춘 에이전트를 내놓고 있다. 이번 AWS의 정책·평가 기능 강화는 이 경쟁 구도에서 기업용 안정성과 거버넌스를 앞세운 전략으로 해석된다.
짧은 개발 주기로 반복 배포되는 IT 서비스 환경에서는 거버넌스 도구가 중요하지만, 금융·유통·헬스케어처럼 규제가 강한 산업에서는 필수에 가깝다. 각국 규제 당국이 AI 활용에 대해 책임 소재, 개인정보 보호, 시스템 안정성 기준을 강화하는 추세인 만큼, 에이전트 행동 범위를 명시적으로 제한하고 로그 기반 평가 체계를 갖추는 것은 향후 인증·감독 과정에서도 핵심 근거 자료로 활용될 가능성이 있다.
전문가들은 에이전틱 AI가 실제 비즈니스 프로세스와 결합하는 시점에 통제와 품질 관리가 가장 큰 진입장벽이 될 것으로 보고 있다. 파르타사라시 디렉터는 에이전트코어의 새로운 기능이 고객이 직접 구현해야 했던 복잡하고 반복적인 작업을 걷어낸 것이라며, 프로덕션 전환에 걸리던 시간을 단축하는 데 의미를 두고 있다. 산업계는 이번 기능 강화가 에이전트 기술의 상용화를 얼마나 앞당길지, 그리고 실제 서비스 현장에서 얼마나 안정적으로 안착할지 주시하고 있다.
