IT/바이오

“또 멈춘 인터넷 관문” 클라우드플레어 장애…글로벌 서비스 타격

윤찬우 기자
입력

글로벌 콘텐츠 전송 네트워크와 인터넷 인프라 기업 클라우드플레어에서 보름여 만에 또다시 장애가 발생하며 서비스 의존도가 높은 주요 플랫폼이 일제히 타격을 받았다. 네트워크 경로를 최적화해 전 세계 트래픽을 우회·분산시키는 클라우드플레어 특성상, 장애 발생 시 단일 기업 문제를 넘어 인터넷 생태계 전반에 연쇄 충격을 줄 수 있다는 점이 다시 확인됐다는 평가가 나온다. 업계에서는 핵심 인프라를 소수 글로벌 사업자에 집중시킨 구조가 지속될 경우, 유사한 사고가 반복될 소지가 크다고 본다.

 

클라우드플레어에 따르면 한국 시간 기준 5일 오후 5시 56분께 대시보드와 API 서비스에서 문제를 감지했고, 원인 규명과 복구 작업에 착수했다. 공식 상태 페이지에서는 관리 콘솔과 프로그래밍 인터페이스를 중심으로 장애가 발생했다고 공지했다. 하지만 실제 영향 범위는 훨씬 넓어, 클라우드플레어 네트워크를 경유하는 다수의 인터넷 서비스에서 접속 장애와 지연이 동시에 나타났다.

이번 장애는 지난달 18일 발생한 글로벌 네트워크 성능 저하 이후 약 보름 만에 다시 발생했다. 당시에는 챗GPT와 소셜 플랫폼 엑스, 리그 오브 레전드, 음악 스트리밍 서비스 스포티파이 등 대형 서비스들이 일시적으로 불안정해졌다. 연속적인 사고로 인해 클라우드플레어의 장애 대응 체계와 내부 트래픽 제어 구조에 대한 업계의 관심도 커지고 있다.

 

클라우드플레어는 전 세계 엣지 서버를 기반으로 한 CDN과 DNS, 보안 게이트웨이 서비스를 제공한다. 이용 기업들은 이 인프라를 통해 웹페이지와 API 응답을 더 빠르게 전달하고, 디도스 공격 방어와 트래픽 필터링을 수행한다. 그러나 이번처럼 대시보드와 API 계층에서 장애가 발생하면, 서비스 운영사들이 설정을 변경하거나 새로운 배포를 진행하지 못하는 것은 물론, 일부 경우에는 백엔드와의 연결이 끊기며 사용자에게 ‘500 Internal Server Error’가 표시되는 상황이 벌어진다. 서버는 살아 있어도 경로와 정책 관리가 막히면서 사실상 서비스가 멈춰 서는 셈이다.

 

뉴시스 취재를 종합하면 이번 장애로 인공지능 챗봇 퍼플렉시티와 클로드, 온라인 게임 리그 오브 레전드, 비즈니스 인맥관리 서비스 리멤버, 화상회의 플랫폼 줌 등에서 접속 불가 또는 극심한 지연이 발생했다. 공통점은 상당수가 클라우드플레어의 CDN이나 DNS, 보안 프록시를 활용해 트래픽을 처리하고 있다는 점이다. 이용자들은 웹과 앱에서 오류 메시지를 연달아 접했고, 다수 사이트에서 ‘500 Internal Server Error’ 코드가 출력되며 요청 처리 실패가 확인됐다.

 

장애 감지 플랫폼인 다운디텍터 역시 클라우드플레어 인프라 위에서 운영되는 탓에, 관련 상황을 모니터링하는 기능마저 부분적으로 영향을 받았다. 글로벌 인터넷 건강 상태를 보여주는 대시보드와 알림 시스템의 상당 부분이 동일 인프라에 의존하는 구조가 가진 역설적인 취약점이 드러난 대목이다.

 

클라우드플레어 측은 “대시보드와 클라우드플레어 API를 사용하는 고객은 요청 실패나 오류 메시지가 발생할 수 있어 영향을 받을 수 있다”며 “해당 문제를 계속 조사하고 있다”고 설명했다. 다만 구체적인 장애 원인과 영향 범위, 복구 예상 시점 등은 아직 공개하지 않았다. 업계에서는 내부 설정 배포 오류나 특정 리전에 대한 라우팅 정책 변경, 인증 시스템 이상 등 소프트웨어 정의 인프라 계층에서의 문제가 누적되며 광범위한 장애로 번졌을 가능성을 염두에 두고 있다.

 

이번 사례는 인터넷 서비스 구조가 얼마나 소수 인프라 사업자에 집중돼 있는지를 다시 한 번 보여준다. 클라우드플레어와 같은 CDN 사업자는 전 세계 수백 개 도시에 분산된 서버를 통해 콘텐츠를 캐싱하고, 사용자와 가장 가까운 지점에서 응답을 제공한다. 동시에 DNS 해석과 웹 방화벽, 애플리케이션 보안까지 통합 제공하는 경우가 많아 기술적 효율은 크지만, 특정 사업자에 대한 의존도가 높아질수록 장애 시 파급 범위도 커진다. 장애 감지부터 복구까지의 시간 동안 글로벌 트래픽은 사실상 병목 구간을 통과하지 못하는 상황에 놓이게 된다.

 

비슷한 구조적 리스크는 다른 글로벌 인프라 사업자에서도 나타난 바 있다. 과거 주요 퍼블릭 클라우드의 리전 장애가 발생했을 때, 특정 지역에 워크로드를 집중했던 웹서비스와 핀테크, 스트리밍 업체들이 동시다발적으로 다운된 사례가 대표적이다. 미국과 유럽에서는 이를 계기로 멀티 클라우드, 멀티 CDN 전략을 채택하는 기업이 늘고 있다. 핵심 트래픽을 두 개 이상의 인프라 사업자에 분산하고, 자동 페일오버 구조를 구성해 특정 사업자 장애 시에도 최소 기능을 유지하려는 시도다.

 

국내 기업들 역시 유사한 방향을 검토해 왔지만, 실제 구현 단계에서는 비용과 운영 복잡도, 보안 정책 차이 등을 이유로 단일 사업자에 머무는 사례가 적지 않다. 특히 게임과 동영상, 대규모 AI 서비스처럼 트래픽이 폭증하는 업종에서는 낮은 지연 시간과 DDoS 방어, 글로벌 PoP 밀도를 중시해 클라우드플레어와 같은 소수 글로벌 사업자를 택하는 경우가 많다. 이번 사고는 이런 선택이 가져오는 편익과 리스크를 동시에 재점검할 계기가 될 것으로 보인다.

 

전문가들은 반복되는 인프라 장애가 이용자 경험뿐 아니라 데이터 신뢰성과 서비스 평판에도 중장기적 영향을 줄 수 있다고 지적한다. 동일한 오류 코드가 반복될 경우, 단기적인 이용 포기뿐 아니라 이탈과 대체 서비스 이동으로 이어질 여지도 있다. 특히 AI 챗봇과 원격 업무 플랫폼은 이미 일상 업무 인프라의 일부로 편입된 만큼, 수 분에서 수십 분 수준의 다운타임이 실제 생산성 손실로 이어진다는 점에서 기업 고객의 반응이 민감해질 가능성도 있다.

 

글로벌 시장에서는 인터넷 인프라를 국가 기반시설로 보고 가용성과 복원력을 제도적으로 관리하려는 논의도 진행 중이다. 유럽연합은 클라우드와 네트워크 사업자를 대상으로 사이버 복원력 규정을 단계적으로 강화하고 있고, 주요국 통신 당국은 대규모 장애 발생 시 보고 의무와 재발 방지 대책 제출을 요구하는 등 관리 강도를 높이는 추세다. 다만 CDN과 DNS와 같이 국경을 넘나드는 민간 인프라에 대해 어느 수준까지 규제를 적용할지에 대해서는 각국의 입장이 엇갈려 있다.

 

업계 한 관계자는 “전 세계 대형 서비스 상당수가 클라우드플레어와 유사한 인프라에 얹혀 있고, 개별 기업이 이를 완전히 대체하기는 사실상 어렵다”며 “결국 단일 사업자 의존도를 줄이는 기술·계약 구조와, 장애 발생 시 투명한 정보 공유를 요구하는 제도적 장치가 함께 마련돼야 한다”고 말했다. 산업계는 이번 클라우드플레어 장애가 다시 한 번 서비스 가용성 논쟁을 촉발시키는 계기가 될지, 그리고 실제 시장 구조와 기업 아키텍처 전략 변화로 이어질지 지켜보고 있다.

윤찬우 기자
share-band
밴드
URL복사
#클라우드플레어#리그오브레전드#퍼플렉시티