IT/바이오

제미나이3 경량화에도 프로급 추론력 유지…AI 경쟁 판도 흔든다

최하윤 기자
입력

경량 인공지능이 고성능 모델의 전유물로 여겨지던 복잡한 추론 영역까지 파고들고 있다. 구글이 새로 공개한 제미나이3 플래시는 처리 지연을 크게 줄인 경량 모델이지만, 과학 지식과 멀티모달 이해, 소프트웨어 코딩 등에서 상위 모델인 제미나이3 프로와 대등한 수준을 보이며 AI 서비스 설계 전략을 뒤흔들 수 있는 변수로 부상했다. 업계에서는 고가의 초대형 모델을 모든 용도에 일괄 투입하던 구도가 효율·비용 중심의 다계층 모델 구조로 재편되는 분기점이 될 수 있다는 평가가 나온다.

 

구글은 17일 현지 시간 기준으로 제미나이3의 경량 버전인 제미나이3 플래시를 공식 출시하고, 자사 주요 서비스에 즉시 적용했다고 밝혔다. 제미나이3는 복잡한 추론, 멀티모달 및 시각적 이해, 에이전트형 작업 자동화, 코드 생성과 디버깅을 포괄하는 통합 모델 라인업으로 설계됐고, 플래시는 이 아키텍처를 기반으로 지연 시간과 비용을 극단적으로 줄인 변형 모델이다. 구글은 플래시가 제미나이3의 프로급 추론 성능을 상당 부분 유지하면서도 반응 속도와 처리 효율, 운영 비용 측면에서 경량 모델 수준의 스펙을 달성했다고 강조했다.

기술적으로 제미나이3 플래시는 대형 언어 모델에서 사용하는 트랜스포머 계열 구조를 유지하면서도 파라미터 수와 연산량을 줄이고, 추론 경로를 최적화하는 방식으로 경량화를 진행한 것으로 보인다. 여기에 텍스트·이미지·코드 등 복수 형태의 데이터를 동시에 처리하는 멀티모달 토대는 동일하게 유지해, 실시간 질의응답과 시각적 이해가 필요한 작업에서도 품질 저하를 최소화했다. 구글은 에이전틱, 바이브 코딩 등 개발자 보조 기능에서도 플래시가 프로급 코드 이해와 생성, 리팩토링을 지원한다고 설명한다. 특히 이번 모델은 고정밀 벤치마크에서 프로 대비 근소한 차이만 보이거나 일부 과제에서는 오히려 우세한 점수를 기록해, 단순 축소 버전이 아니라 용도별 정교한 튜닝 모델에 가깝다는 해석이 나온다.

 

구글이 제시한 수치에 따르면 제미나이3 플래시는 고난도 과학 지식과 논리력을 평가하는 GPQA 다이아몬드에서 90.4퍼센트 정확도를 기록했다. 제미나이3 프로는 같은 평가에서 91.9퍼센트를 보였기에 격차는 1.5퍼센트포인트에 불과하다. 인간 수준의 이해를 가늠하는 고난도 종합 평가로 꼽히는 인류의 마지막 시험 HLE에서도 툴 미사용 기준 33.7퍼센트를 달성해, 제미나이3 프로의 37.5퍼센트와 비교해도 성능 저하 폭이 제한적이다. 범용 언어 이해와 전문 지식을 측정하는 MMLU 프로 점수는 플래시가 81.2퍼센트, 프로가 81퍼센트로 사실상 동급이며, 실전 코딩 과제를 검증하는 SWE 벤치 베리파이드에서도 플래시는 78퍼센트, 프로는 76.2퍼센트를 기록해 오히려 경량 모델이 앞서는 결과를 보였다.

 

특히 이번 기술은 고난도 추론과 코딩, 멀티모달 이해에서 경량 모델이 상위 모델을 능가할 수 있다는 점을 정량적으로 보여줬다. 전통적으로는 더 큰 파라미터 수와 연산량이 곧 성능 향상으로 이어져, 기업과 연구기관이 초대형 모델 경쟁에 집중하는 흐름이 강했다. 그러나 플래시 사례는 특정 태스크에 특화된 파인튜닝과 데이터 커리어링, 추론 경로 최적화만으로도 중간급 모델이 상위 모델과의 격차를 좁히거나 뒤집을 수 있음을 시사한다. 이는 서비스 사업자 입장에서 고비용 단일 초거대 모델 대신 경량·중형·대형 모델을 상황별로 조합하는 아키텍처로 전환할 유인을 키운다.

 

제미나이3 플래시는 이미 구글의 사용자용 서비스 전반에 연동되기 시작했다. 구글은 이날부터 제미나이 앱과 검색 서비스의 AI 모드에 플래시 모델을 적용해, 일상 질의응답과 검색 보조, 생산성 작업에서 빠른 응답과 낮은 지연을 제공한다. 기업과 개발자를 위한 버텍스 AI, 제미나이 엔터프라이즈, 구글 AI 스튜디오에도 플래시를 탑재해, 대규모 트래픽 환경에서 비용 대비 성능을 요구하는 비즈니스 고객이 선택할 수 있도록 했다. 예를 들어 고객 상담 챗봇, 문서 자동 분류, 코드 리뷰와 같은 반복적이면서도 정확도가 필요한 업무에서는 플래시가 사실상 기본 선택지가 될 수 있고, 초고난도 설계나 연구용 분석에는 프로 또는 상위 모델을 함께 배치하는 식의 이중 구조가 가능해진다.

 

글로벌 AI 시장에서는 이미 경량 모델을 전면에 내세우는 경쟁이 본격화된 상황이다. 미국과 유럽에서는 실시간 상호작용과 대규모 사용자 기반을 가진 메신저, 검색, 소셜 플랫폼이 저지연 경량 모델을 전면에 배치해 UX를 차별화하는 흐름이 뚜렷하다. 이번 제미나이3 플래시 출시는 이런 추세 속에서 구글이 AI 코파일럿, 코드 어시스턴트, 검색 통합 서비스에서 대응력을 확보하려는 전략적 행보로 해석된다. 경쟁사들이 추론 지연을 줄이기 위해 모델 슬라이싱, 온디바이스 모델, 서버·단말 하이브리드 구조를 실험하는 가운데, 구글은 동일한 제미나이 아키텍처에서 용도별 모델 계층을 세분화해 대응하겠다는 그림을 제시한 셈이다.

 

향후 과제는 규제와 책임 통제에 있다. 플래시와 같이 경량이면서도 고성능을 갖춘 모델이 검색과 생산성 도구, 기업용 소프트웨어의 기본 엔진으로 자리 잡을 경우, 허위 정보 생성과 코드 보안 취약점 유도, 개인정보 유출 등 위험이 동시에 확대될 수 있다. 미국과 유럽에서는 AI 투명성, 안전성 기준을 강화하는 법·제도 논의가 진행 중이고, 한국에서도 생성 AI 서비스에 대한 가이드라인과 데이터 보호 규제가 구체화되는 흐름이 나타난다. 경량 모델은 빠른 배포와 서비스 확장이 장점인 만큼, 기업이 자체 검증 체계와 오용 방지 장치를 얼마나 정교하게 구축하느냐가 상용화의 핵심 변수로 떠오를 전망이다.

 

업계 전문가들은 제미나이3 플래시가 보여준 성능과 효율성의 조합이 향후 AI 인프라 설계의 기준선을 바꿀 수 있다고 본다. 대형 모델의 절대 성능 경쟁 못지않게, 특정 업무에 최적화된 경량 모델을 어떻게 조합해 실제 서비스에 녹여내느냐가 산업의 승패를 가를 가능성도 있다. 산업계는 제미나이3 플래시가 구글 서비스 전반에 안착하면서 사용 경험과 비용 구조를 어떻게 바꿀지, 그리고 이에 맞춰 경쟁사들이 어떤 경량화 전략을 내놓을지 예의주시하고 있다.

최하윤 기자
share-band
밴드
URL복사
#구글#제미나이3#제미나이3플래시