IT/바이오

AI 데이터센터 자동화…KT클라우드, 리퀴드쿨링 선도하며 운영 혁신

오태희 기자
입력

AI 인프라 수요 폭증 속에서 데이터센터 기술 패러다임이 빠르게 바뀌고 있다. KT클라우드는 서울 목동에 문을 연 AI 이노베이션 센터를 통해 자율주행 로봇, 액체 냉각, 차세대 네트워크를 결합한 고밀도 AI 데이터센터 운영 모델을 제시했다. GPU 집적도가 급격히 높아지는 상황에서 냉각, 전력, 운용 인력을 동시에 최적화하는 실증 플랫폼을 구축했다는 점에서 업계 관심이 쏠린다. 국내 클라우드 사업자의 AI 데이터센터 경쟁이 본격화되는 분기점으로 평가된다.  

 

KT클라우드는 11일 서울 목동 AI 이노베이션 센터를 공개하고 리퀴드 쿨링과 AI 기반 자동화 운영 시스템을 실증 중이라고 밝혔다. 센터에는 D2C 수냉식 냉각 시스템, 자율주행 순찰 로봇, AI 기반 장애 예측 솔루션, RoCEv2 기반 전용 AI 네트워크 등이 집약됐다. KT클라우드는 가산 AI 데이터센터에 국내 최초로 D2C 수냉식 시스템을 상용 적용했으며, 목동 센터를 통해 실제 부하 조건에서 기술 완성도를 높이는 중이다.  

센터 내 D2C 수냉식 시스템은 1kW급 모듈 8개로 구성된 8kW급 서버형 수냉 부하기를 활용해 실환경 수준의 성능을 검증하고 있다. 현재 부하 10kW 구간에서 냉각수 기반 온도 33도를 안정적으로 유지하고 있으며, 부하를 120kW까지 높여도 약 35도 수준에서 안정적인 냉각이 가능한 것으로 확인됐다. 공냉식으로는 랙당 100kW 이상 GPU 열원을 처리하기 어렵다는 점에서, 고밀도 AI 서버를 전제로 한 수냉식 구조 전환 가속을 뒷받침하는 수치다.  

 

D2C 수냉식은 냉각수를 서버 내부의 칩과 가까운 위치까지 직접 공급해 열을 제거하는 방식이다. 공기를 식히는 기존 공냉과 달리, 열전도율이 높은 액체를 활용해 짧은 경로로 열을 빼내므로 동일 면적에서 더 많은 전력을 소화할 수 있다. KT클라우드는 엔비디아 B200, NVL72 규격에 맞춰 냉각수 유량, 압력, 온도 등 주요 변수를 단계별로 실증하고 있다. 프로필렌글리콜 25퍼센트 용액에 부식 억제 첨가제와 살생제를 혼합해 배관 재질 반응성을 시험하는 등 장기 운용을 전제로 한 내구성 확보에도 집중하고 있다.  

 

센터에는 액침 냉각 모형도 함께 전시됐다. 액침 냉각은 서버 전체를 절연 특수액에 담가 열을 직접 흡수하게 하는 구조로, 공냉 대비 냉각 효율이 크게 높다. KT클라우드는 사전 PoC를 통해 최대 60퍼센트 수준의 전력 절감 효과를 확인했다고 설명했다. 냉각 효율이 높을수록 데이터센터 전체 전력 사용량에서 차지하는 쿨링 비중을 줄일 수 있어, 전기요금과 탄소배출 감축 효과가 동시에 발생할 수 있다는 것이 회사 측 설명이다.  

 

허영만 KT클라우드 데이센터본부장은 리퀴드 쿨링 상용화가 국내에서는 KT클라우드가 처음이라고 강조했다. GPU 고집적 환경에서는 고객들이 전력비 절감보다는 고온에 따른 서버 다운타임을 줄이는 안정성에 더 큰 비중을 둔다고 분석했다. 다만 기존 레거시 인프라와 고객 요구를 감안해 공냉식과 수냉식이 일정 기간 병존할 것으로 보고, 두 방식을 모두 수용할 수 있는 유연한 데이터센터 설계를 유지하고 있다.  

 

AI 이노베이션 센터의 또 다른 특징은 운영 자동화 수준이다. 센터 내 서버룸에서는 자율주행 로봇이 24시간 순찰하며 랙별 온도, 습도, 조도, 가스 농도 등 환경 데이터를 수집한다. 로봇은 사전에 설정된 경로와 스케줄에 따라 랙 사이를 이동하며, 관제 시스템을 통해 위치와 센서 값이 실시간으로 모니터링된다. 특정 구역에서 설정 기준을 벗어난 이상 징후가 감지되면 자동으로 알림이 발생해 운영자가 즉각 대응할 수 있는 구조다.  

 

KT클라우드는 이 같은 지능형 자동화를 통해 데이터센터 운영 인력을 현재의 3분의 1 수준까지 줄이는 것을 목표로 잡았다. 현재 대형 데이터센터에서는 규모에 따라 20명에서 70명까지 상주 인력이 필요하지만, 각종 설비 점검과 환경 모니터링을 로봇과 AI가 대체하면 야간·심야 인력을 크게 경감할 수 있다는 계산이다. 허 본부장은 인간과 로봇이 협력하는 운영 체계를 단계적으로 고도화하고, 장기적으로는 업무별 무인화를 순차 추진하겠다는 계획을 제시했다.  

 

KT클라우드는 자체 개발한 패스파인더 솔루션을 통해 전력 운용의 디지털 전환도 시도한다. 패스파인더는 데이터센터 설비를 디지털트윈으로 구현해 가상 환경에서 전력 흐름을 시뮬레이션하고, 이를 기반으로 자율형 전력 제어를 구현하는 소프트웨어다. 부하 수준, 계통 안정성, 이중화 구성 등을 고려해 최적의 전력 공급 경로를 선택함으로써 장애 위험을 줄이고 운영 신뢰도를 높인다. KT클라우드는 해당 기술에 대해 특허 등록을 완료했다.  

 

또 다른 핵심 솔루션인 DIMS 인사이트는 FMS 데이터를 AI로 분석해 장애 예측 및 예지 정비를 지원한다. 전력, 냉각, 보안, 소방 등 주요 설비에서 발생하는 방대한 로그와 센서 정보를 통합 분석해 이상 패턴을 사전에 포착하는 구조다. 특정 장비에서 온도나 전류 패턴의 미세한 흐름 변화를 감지하면 경고를 발령해 계획 정비로 전환하는 식이다. KT클라우드는 이러한 AI 기반 분석 체계를 통해 설비 다운타임을 줄이고 유지보수 인력의 투입 시간을 최소화한다는 전략이다.  

 

AI 네트워크 측면에서는 글로벌 장비사 아리스타와 함께 RoCEv2 기반 전용 네트워크를 구축했다. RoCEv2는 RDMA 기술을 이더넷 위에서 구현하는 차세대 표준으로, 기존 인피니밴드 대비 범용 이더넷 인프라를 활용해 비용 효율성과 확장성을 높인 점이 특징이다. RDMA는 서버 간 데이터 교환 시 CPU를 거치지 않고 메모리끼리 직접 통신하도록 해 지연시간을 줄이고 처리량을 끌어올리는 기술이다. 대규모 AI 모델 학습처럼 노드 간 파라미터 교환이 잦은 워크로드에서 필수적인 네트워크 구조로 꼽힌다.  

 

KT클라우드는 전력 인프라 역시 AI 특화 구조로 재설계했다. 자체 개발한 표준 랙 기반 전력 인프라는 랙당 20kW 이상의 고밀도 AI 서버를 안정적으로 구동할 수 있게 구성해, 기존 범용 IT 랙 대비 수용 전력을 크게 끌어올렸다. DC 48V 전원을 적용해 변환 단계에서 발생하는 손실을 줄였고, 과열·과전류 등 이상 상황에 대한 보호 기능도 강화했다. 글로벌 OCP 표준을 준수해 다양한 서버와 스위치 장비와의 호환성을 확보, 고객사가 특정 벤더에 종속되지 않고 인프라를 구성할 수 있도록 했다.  

 

조현재 KT클라우드 DC기술전략팀장은 OCP와 오픈소스 기술을 적극 채택한 이유를 고객 범용성 확보라고 설명했다. 특정 제조사에 맞춘 폐쇄형 구조가 아닌, 글로벌 커뮤니티에서 검증된 레퍼런스를 바탕으로 고객별 최적 구성을 조합하는 편이 초고밀도 AI 인프라 시대에 유리하다는 판단에서다. 목동 AI 이노베이션 센터는 이러한 표준 기반 솔루션을 실제 환경에서 조합·실증해, 고객에게 추천할 수 있는 최적 세트를 빠르게 찾아내는 역할을 맡는다.  

 

글로벌 시장에서는 하이퍼스케일 사업자를 중심으로 리퀴드 쿨링과 AI 자동화 도입이 이미 본격화된 상황이다. 미국과 유럽의 선도 데이터센터 사업자들은 50kW를 넘어 100kW급 랙 전력을 수용할 수 있는 수냉 구조를 준비하고 있으며, 일부는 액침 냉각 실증을 마치고 특정 AI 클러스터에 적용 범위를 넓혀가고 있다. 국내에서는 KT클라우드가 선제적으로 상용 수냉식 도입에 나서면서, 통신사와 대형 IT기업 간 AI 데이터센터 경쟁이 한층 가속화될 전망이다.  

 

정책 측면에서는 데이터센터의 전력 효율과 탄소배출이 점차 규제와 인센티브의 핵심 변수로 떠오르고 있다. 유럽연합은 데이터센터 에너지 효율성과 재생에너지 사용 비율 공개를 강화하는 방향으로 제도를 정비 중이고, 국내에서도 전력 피크 관리와 RE100 이행 요구가 강화되는 흐름이다. 고효율 냉각과 지능형 전력 제어 기술은 이러한 규제 환경에서 사업자의 비용 부담을 줄이고, ESG 평가에서 유리한 위치를 선점하는 수단이 될 수 있다.  

 

KT클라우드는 목동 AI 이노베이션 센터를 단순 전시 공간이 아닌 차세대 데이터센터 기술의 검증 플랫폼으로 정의한다. 최지웅 대표는 고객 가치 중심 AI 인프라 구현을 위한 핵심 거점으로 활용하겠다고 강조했다. 기술 상용화 단계마다 실증 결과를 반영해 설계 표준을 갱신하고, 고객이 AI 인프라 투자 의사결정을 내릴 때 필요한 성능·효율 데이터를 제공하겠다는 구상이다.  

 

업계에서는 고성능 GPU 공급이 풀리면서 AI 데이터센터의 차별화 포인트가 하드웨어 확보 경쟁에서 운영 기술 경쟁으로 이동할 것으로 보고 있다. 냉각, 전력, 네트워크, 자동화 소프트웨어를 얼마나 효율적으로 결합하느냐에 따라 같은 전력과 면적에서 처리할 수 있는 AI 연산량이 크게 달라지기 때문이다. 산업계는 KT클라우드가 제시한 리퀴드 쿨링 기반 AI 데이터센터 모델이 실제 상용 서비스에서 어떤 성과를 낼지, 그리고 국내 AI 인프라 경쟁 구도를 어떻게 바꿀지 주시하고 있다.

오태희 기자
share-band
밴드
URL복사
#kt클라우드#ai이노베이션센터#리퀴드쿨링