“CDN 20퍼센트 멈추자”…클라우드플레어 장애, 인터넷 인프라 리스크 드러내
클라우드플레어의 글로벌 네트워크에서 대규모 장애가 발생하며 전 세계 주요 온라인 서비스가 한때 멈춰 섰다. 인공지능 챗봇 서비스 챗GPT와 소셜미디어 X, 게임 플랫폼, 스트리밍 서비스까지 연쇄적으로 접속이 지연되거나 차단됐다. 콘텐츠 전송 네트워크와 보안 서비스를 단일 사업자에 집중시킨 인터넷 구조의 취약성이 다시 부각되는 장면이다. 업계에서는 이번 사고를 계기로 대체 경로 확보와 다중 클라우드 도입 등 인프라 분산 전략이 본격 논의될 가능성도 제기된다.
클라우드플레어는 한국 시간 18일 오후 8시 48분께 글로벌 네트워크 관련 내부 서비스 저하가 발생했다고 공지했다. 해당 시점부터 자사 인프라를 활용하는 일부 웹사이트에서 접속 지연과 차단 현상이 번갈아 나타났다. 회사 측은 일부 서비스에서 간헐적 영향이 발생하고 있다며 원인 분석과 복구 작업에 착수했다고 밝혔다. 장애는 19일 오전 0시께 1차적으로 해소됐고, 클라우드플레어는 모든 서비스의 정상 복구 여부를 확인하기 위해 오류 모니터링을 이어가고 있다고 설명했다. 이후 오전 0시 40분께에도 잔여 이슈를 해결 중이며 추가 문제 발생 여부를 주시하고 있다고 공지했다.

영향 범위는 짧은 시간에 넓게 확산됐다. X와 오픈AI, 챗GPT, 온라인 게임 리그오브레전드와 같은 대규모 트래픽 사이트를 비롯해 스포티파이, 드롭박스, 코인베이스, 무디스 신용평가 서비스 등이 줄줄이 접속 장애를 겪었다. 미국 뉴저지 교통국은 일부 디지털 서비스가 일시적으로 이용 불가하거나 로딩 속도가 현저히 느려질 수 있다고 밝혔고, 뉴욕시 역시 시 서비스에 차질이 발생했다는 보고를 접수했다고 전했다. 웹사이트 모니터링 업체 다운디텍터도 클라우드플레어 인프라를 사용하는 탓에 자체 서비스 접속 지연을 겪었다.
다운디텍터 집계에 따르면 이날 X 관련 접속 장애 신고는 분당 최대 1만 522건까지 치솟았다. 스포티파이는 분당 최대 970건, 리그오브레전드는 743건의 접속 문제 신고가 몰렸다. 이용자 단에서는 웹사이트 접속 시 계속하려면 challenges.cloudflare.com 차단을 해제하라는 메시지가 떴고, 다수 사이트가 로딩 실패 또는 인증 절차 무한 반복 현상을 보였다. 특정 서비스의 장애가 아니라 공통 인프라 계층에서 발생한 네트워크 실패가 광범위한 서비스에 동시 다발적으로 전파된 전형적 사례에 해당한다.
클라우드플레어는 전 세계 웹사이트 약 20퍼센트가 이용하는 것으로 알려진 대형 콘텐츠 전송 네트워크이자 보안 서비스 사업자다. 전 세계 수천 개 서버에 고객 웹사이트 콘텐츠를 미러링해 보관하고, 사용자의 디지털 기기와 웹 애플리케이션 사이에서 트래픽을 중계한다. 사용자는 자신이 접속하려는 웹사이트 서버에 직접 연결되는 대신, 지리적으로 가장 가까운 클라우드플레어 엣지 서버에 먼저 도달한다. 이 구조가 콘텐츠 전송 네트워크이자 웹 방화벽, 디도스 방어, 봇 차단 등 보안 기능을 함께 제공하는 현대 인터넷 인프라의 핵심 계층이다.
사이버보안 전문가 마이클 채플 미국 노트르담대 멘도사 경영대 정보기술 교수는 AP와 인터뷰에서 웹사이트에 접속할 때 사용자 컴퓨터는 해당 사이트에 바로 연결되지 않고 인근 클라우드플레어 서버를 경유한다고 설명했다. 그는 웹사이트를 트래픽 폭주로부터 보호하고 사용자에게 빠른 응답을 제공해 사이트 운영자와 이용자 모두에게 유리한 구조라고 평가하면서도, 이런 시스템이 고장 나면 인터넷의 약 20퍼센트가 동시에 다운될 수 있다는 점을 지적했다. 속도와 보안을 위해 구축된 글로벌 분산 네트워크가 역설적으로 단일 실패 지점처럼 작동할 수 있다는 경고다.
콘텐츠 전송 네트워크는 정적 파일을 캐싱하는 전통적 역할을 넘어, 오늘날에는 인증, 접근 제어, 애플리케이션 방화벽, 봇 필터링 등 애플리케이션 계층의 핵심 기능까지 담당한다. 클라우드플레어의 도전 과제는 이러한 복합 기능이 하나의 통합 플랫폼에서 동작하는 만큼, 내부 설정 오류나 특정 모듈 장애가 다수 서비스에 동시 파급될 수 있다는 구조적 위험을 관리하는 데 있다. 특히 이번 사례에서처럼 챌린지 페이지가 표시되거나 도메인 필터링이 오작동하면, 사용자는 해당 웹사이트 자체에 문제가 있다고 오해하기 쉽다.
시장 관점에서는 대규모 트래픽을 처리하는 기업이 클라우드플레어와 같은 글로벌 콘텐츠 전송 네트워크에 의존할 수밖에 없는 구조가 확인됐다. 인공지능 서비스인 챗GPT와 대형 소셜미디어, 글로벌 스트리밍과 게임 플랫폼은 접속 속도와 가용성을 유지하기 위해 지리적으로 분산된 엣지 서버와 지능형 라우팅 기능에 기대고 있다. 이번 장애로 사용자들은 로그인 불가, 서비스 로딩 실패, 결제 기능 지연 등 직접적인 불편을 겪었다. 특히 암호화폐 거래소와 금융 관련 웹 서비스 장애는 거래 지연과 가격 변동 시 대응 기회 상실 같은 손해로 이어질 소지도 있어 산업계 민감도가 높은 영역이다.
글로벌 경쟁 구도에서는 클라우드플레어 외에도 아카마이, 패스트리, 주요 클라우드 사업자들의 자체 콘텐츠 전송 네트워크가 존재하지만, 시장 점유율 상위 사업자 몇 곳이 상당 비중을 나눠 가진 과점 구조다. 미국, 유럽, 아시아 각 지역에서 국가 또는 통신사 단위의 소규모 콘텐츠 전송 네트워크가 운영되고 있지만, 글로벌 웹 서비스가 요구하는 규모와 지연 시간, 보안 기능을 단독으로 충족시키기 어렵다. 결국 주요 서비스 다수가 동일한 글로벌 인프라에 집중되는 경향이 강화되고, 그만큼 단일 사업자 장애의 파급 범위가 커지는 구조가 유지되고 있다.
정책과 규제 측면에서 이번 사태는 인터넷 인프라의 공공성 논의를 재점화할 소재로 볼 수 있다. 일부 국가는 대형 클라우드와 콘텐츠 전송 네트워크 사업자를 필수 통신 인프라에 준하는 중요 시설로 분류해 보안 점검과 장애 보고 의무를 강화해 왔다. 다만 소프트웨어 정의 네트워크와 클라우드 기반 인프라의 특성상, 장애 원인 규명과 실시간 공유, 사후 재발 방지 의무를 얼마나 강제할지에 대한 글로벌 공감대는 아직 형성 단계에 가깝다. 이용자 데이터 보호와는 별개로, 서비스 중단 자체가 사회 인프라 리스크로 간주될 수 있는 수준에 도달했다는 점에서 새로운 규제 논의도 나올 수 있다.
업계와 전문가들은 콘텐츠 전송 네트워크와 보안 게이트웨이를 단일 사업자에 몰아 쓰는 구조를 재검토해야 할 시점으로 보고 있다. 다중 콘텐츠 전송 네트워크를 병행 활용해 트래픽을 분산하거나, 네임서버와 라우팅 계층에서 장애 감지 시 자동으로 대체 경로를 선택하는 설계를 강화하는 방안이 거론된다. 한 네트워크 보안 업계 관계자는 애플리케이션 개발 단계에서부터 특정 사업자 서비스에 고정 의존하지 않고 추상화 계층을 두는 방식이 필요하다고 분석했다. 산업계는 이번 사고 이후 클라우드플레어의 후속 조치와 재발 방지 대책을 지켜보면서, 자체 인프라 리스크 관리 전략을 얼마나 수정할지 저울질할 것으로 보인다.
