IT/바이오

"B200 GPU 2040장 조기 가동"…카카오, 국가 AI 인프라 앞당겨 구축

장예원 기자
입력

대규모 GPU 인프라가 국가 인공지능 경쟁력의 분수령이 되고 있다. 정부가 추진하는 AI 3대 강국 전략의 핵심 인프라인 GPU 지원 사업에서 최종 사업자로 선정된 카카오가 엔비디아 B200 그래픽처리장치 대규모 클러스터를 당초 계획보다 앞당겨 구축했다. 연구자가 직접 물리 인프라를 관리하지 않고도 대형 언어모델과 생성형 AI를 실험할 수 있는 환경이 조기에 갖춰지면서, 국내 산학연의 AI 연구 속도가 빨라질 수 있다는 평가가 나온다. 업계에서는 이번 인프라가 글로벌 빅테크와의 AI 연산격차를 줄이는 시험대가 될지 주목하고 있다.

 

카카오는 정부 지원으로 확보한 엔비디아 B200 GPU 2424장 가운데 2040장을 자사 데이터센터에 이미 구축했다고 29일 밝혔다. 전체 할당량의 약 84퍼센트에 해당하는 255노드를 가동 가능한 상태로 올려놓은 것이다. 원래 연내 목표는 64노드였지만, 실제 구축 규모는 이의 4배를 넘겼다. 정부는 지난 8월 카카오를 국가 AI 컴퓨팅 자원 지원 사업의 최종 사업자로 선정했으며, 카카오가 확보한 2424장의 GPU는 향후 5년간 국내 AI 연구개발 과제를 위해 위탁 운영된다.

엔비디아 B200은 생성형 AI 학습과 초거대 언어모델 운용에 특화된 차세대 GPU로, 대량 병렬 연산과 고대역폭 메모리 구성을 특징으로 한다. 카카오는 이 B200 기반 GPU 서버를 고밀도로 집적한 클러스터 형태로 구성해 대규모 모델을 한 번에 학습하거나 여러 연구 과제가 동시에 자원을 나눠 쓰는 환경을 만든다. 다수 GPU를 묶어 하나의 거대한 논리 연산 자원처럼 활용하는 방식으로, 기존 소규모 GPU 서버 분산 환경보다 모델 크기와 학습 속도 면에서 우위를 노린다.

 

특히 이번 인프라는 카카오 데이터센터 안산의 설계와 운영 역량을 전제로 구축됐다. 데이터센터 안산은 고집적 서버 운용에 필수적인 안정적인 전력 공급 시스템과 고효율 냉각 인프라를 기반으로 한다. 고성능 GPU 서버에서 발생하는 고열을 처리하기 위해 열복도 밀폐시스템을 적용해 뜨거운 공기를 별도 통로로 격리한 뒤 냉각 장치로 바로 순환시키는 구조를 구현했다. 일반 개방형 냉각 방식보다 냉각 효율을 높여 전력 소모를 줄이면서도, GPU 집적도를 극대화할 수 있도록 한 점이 특징으로 꼽힌다.

 

카카오는 공급사들과의 협업을 통해 핵심 장비를 조기 확보하고, 본 구축에 앞서 사전 기술 검증을 거쳐 실제 가동 단계에서 발생할 수 있는 장애 요인을 줄였다. GPU 서버, 고속 네트워크 스위치, 스토리지 등 주요 장비를 사전에 통합 테스트하며 성능과 안정성을 확인했고, 이 과정을 바탕으로 물리적 설치와 논리적 구성 일정을 압축했다는 설명이다. 이러한 선행 검증이 있었기에 정부 사업 일정보다 빠르게 대규모 노드를 운영 가능한 단계까지 끌어올릴 수 있었다는 분석이다.

 

하드웨어 인프라와 동시에 카카오는 소프트웨어 측면에서도 연구 친화적인 환경을 제공한다. 국가 AI 컴퓨팅 자원 지원 포털과 연동된 통합 플랫폼을 통해 연구자와 개발자가 포털에서 카카오엔터프라이즈가 운영하는 카카오클라우드로 자연스럽게 이동해 자원을 신청하고 사용할 수 있도록 연계했다. 인프라 접근 경로를 통합해 사용자의 진입 장벽을 낮추고, 계정 관리와 과제 배분 같은 행정 절차를 간소화하는 구조다.

 

특히 카카오클라우드의 AI 플랫폼인 쿠브플로우를 전면에 내세웠다. 쿠브플로우는 쿠버네티스 기반의 클라우드 네이티브 환경에서 머신러닝 워크플로우를 설계하고 운영하기 위한 플랫폼으로, 데이터 전처리부터 모델 개발, 학습, 배포, 추론까지 전 과정을 하나의 파이프라인으로 구성해 자동화할 수 있게 한다. 연구자는 개별 서버 설정보다 실험 설계에 집중할 수 있고, 관리자는 GPU 자원을 작업 단위로 배분해 클러스터 활용도를 높일 수 있다. 대규모 연산 자원을 효율적으로 나눠 쓰는 것이 국가 단위 GPU 인프라에서 가장 중요한 과제라는 점에서, 이러한 소프트웨어 계층의 지원은 활용도 제고에 직접적인 영향을 줄 전망이다.

 

현재 카카오는 구축을 마친 255노드를 대상으로 네트워크 지연시간, 대역폭, 실제 학습 성능 등 각종 성능 검증을 진행하고 있다. 과학기술정보통신부와 정보통신산업진흥원은 내년 1월 2일부터 베타서비스 공모를 통해 선정한 산학연 과제에 이 자원을 단계적으로 배분할 계획이다. 언어모델, 멀티모달 AI, 바이오 신약 후보물질 탐색, 제조 공정 최적화 등 고성능 연산이 필요한 다양한 프로젝트가 대상에 포함될 수 있다.

 

글로벌 시장에서는 구글, 마이크로소프트, 메타 등 빅테크 기업들이 수십만 장 규모의 GPU 클러스터를 앞다퉈 구축하며 초거대 모델 경쟁을 벌이고 있다. 이에 비하면 국내 단일 사업자 수준의 GPU 수량은 절대 규모에서 격차가 존재하지만, 국가 차원의 공용 연산 인프라가 조기 가동된다는 점에서 의미가 있다는 분석이 나온다. 연구기관과 중견기업, 스타트업이 개별적으로 확보하기 어려운 고급 GPU 자원을 공동 활용할 수 있는 토대가 마련되기 때문이다.

 

국가 지원 사업 특성상 공정한 자원 배분과 연구 성과 환류 체계도 과제로 꼽힌다. 베타서비스 단계에서 확보한 운영 데이터와 과제별 성과가 향후 정규 서비스 설계에 반영될 것으로 보인다. 데이터센터 운영 측면에서는 고집적 GPU 인프라의 전력 수요와 탄소 배출 관리 이슈도 함께 제기될 수 있어, 냉각 효율 개선과 재생에너지 연계 같은 추가 전략이 요구될 수 있다는 전망도 나온다.

 

김세웅 카카오 AI시너지 성과리더는 대규모 GPU 인프라를 안정적으로 구축하고 운영하는 것이 AI 경쟁력의 핵심이라고 강조했다. 그는 카카오의 데이터센터와 클라우드 기술을 바탕으로 안정적이면서도 효율적인 AI 개발 환경을 제공해 국내 AI 생태계 발전에 기여하겠다는 목표를 밝혔다. 산업계는 이번 GPU 인프라가 실제 연구 현장에서 얼마나 활발히 사용되고, 후속 투자와 제도 개선으로 이어질지 지켜보고 있다.

장예원 기자
share-band
밴드
URL복사
#카카오#b200#카카오데이터센터안산