IT/바이오

"클라우드플레어 또 멈췄다"…16분만 복구에도 글로벌 불안

이예림 기자
입력

클라우드플레어의 핵심 관리 시스템에서 또다시 장애가 발생하며 글로벌 인터넷 인프라 의존도에 대한 불안이 커지고 있다. 콘텐츠 전송 네트워크와 보안, DNS를 묶은 클라우드 기반 경계 인프라가 한 번 흔들리면 수십 개 서비스가 동시에 멈추는 구조적 취약성이 다시 드러났다는 평가도 나온다. 업계에서는 보름 남짓한 기간 안에 두 차례 발생한 장애가 클라우드 인프라 다중화와 벤더 리스크 관리 전략의 분기점이 될 수 있다고 본다.

 

클라우드플레어는 한국 시간 5일 오후 5시56분 대시보드와 API에서 서비스 오류가 발생했다고 공지했다. 이 구간은 고객사가 트래픽 제어 정책을 수정하고 방화벽 규칙, 캐시 설정, DNS 레코드 등을 관리하는 핵심 관리 채널로, 장애 시 설정 변경과 신규 배포가 사실상 중단된다. 회사는 장애 인지 후 조사에 착수했고, 오후 6시12분께 문제를 수정했다고 밝히면서 복구 결과를 실시간 모니터링 중이라고 설명했다.

이번 장애는 단순 모니터링 화면 오류에 그치지 않았다. 뉴시스 취재와 업계 제보를 종합하면 당시 퍼플렉시티, 클로드 등 인공지능 챗봇과 리그 오브 레전드, 배달의민족, 줌, 리멤버 등 다수 온라인 서비스에서 접속 장애와 기능 저하가 동시에 나타났다. 사용자 단에서는 웹 브라우저에 500 Internal Server Error 메시지가 반복 출력되며 서비스 이용이 중단됐다. 웹사이트 모니터링 서비스 다운디텍터 역시 클라우드플레어 인프라를 사용하고 있어, 각 서비스의 장애 상황을 확인하려던 이용자들까지 접속 지연을 겪었다.

 

클라우드플레어 구조상 대시보드·API 장애는 여러 경로로 파급된다. 고객사는 이 인터페이스를 통해 전 세계 엣지 노드에 규칙과 설정을 전파하는데, 해당 레이어가 불안정해지면 신규 트래픽 경로 설정, 공격 대응 규칙 변경, 인증서 갱신 등이 지연되거나 실패한다. 특히 API를 통해 자동으로 설정을 업데이트하는 대형 서비스는 요청 실패가 반복되면 롤백 로직 작동, 타임아웃 등 2차 오류가 연쇄적으로 발생할 수 있다. 이번 사례에서도 일부 서비스는 자체 애플리케이션 문제로 오인해 내부 점검에 들어가며 복구 시간이 더 길어지는 양상이 나타났다.

 

클라우드플레어는 장애 공식 보고 16분 만에 수정 완료를 통보하며 비교적 짧은 복구 시간을 강조했다. 회사는 공지를 통해 대시보드와 API를 사용하는 고객에게 요청 실패와 에러 메시지 노출 가능성을 경고하고, 루트 원인 분석과 후속 보고를 예고했다. 다만 전 세계 수많은 인터넷 서비스가 동일 사업자의 엣지 네트워크와 DNS, 보안 게이트웨이에 집중된 상황에서, 수십 분 단위 장애도 이용자 체감 피해와 사업자 매출에 상당한 영향을 줄 수 있다는 지적이 뒤따른다.

 

이번 사고는 지난달 18일 발생한 글로벌 네트워크 성능 저하에 이은 것이다. 당시에는 글로벌 네트워크 내부 트래픽 경로 일부에서 병목이 발생해 챗GPT, 엑스, 리그 오브 레전드, 스포티파이 등 주요 서비스 접속이 느려지거나 끊겼다. 두 사건 모두 물리 서버의 전원 장애 같은 전통적 사고가 아니라 소프트웨어 정의 네트워크와 제어 플레인에서 비롯된 내부 서비스 저하로 추정돼, 대규모 클라우드 인프라의 복잡성이 새로운 리스크로 부각되는 상황이다.

 

시장 측면에서 보면, 클라우드플레어에 의존하는 AI 스타트업과 게임·커머스 플랫폼의 리스크 관리 수준도 재점검이 불가피해 보인다. 특히 퍼플렉시티, 클로드 등 생성형 AI 서비스는 대규모 실시간 요청을 전 세계 사용자에게 지연 없이 제공해야 해, 엣지 네트워크 장애 시 사용자 이탈과 브랜드 신뢰도 하락이 바로 나타난다. 온라인 게임과 배달 플랫폼 역시 피크 타임 장애가 매출 손실로 직결되므로, 단일 글로벌 인프라에 대한 과집중을 피하려는 멀티 벤더 전략 수요가 커질 수 있다.

 

글로벌 차원에서 인터넷 인프라 중단 위험은 반복적으로 제기돼 왔다. 앞서 다른 CDN 및 DNS 사업자의 설정 오류나 BGP 경로 오배포로 인해 대형 소셜미디어와 스트리밍 서비스가 한꺼번에 멈춘 사례가 다수 보고됐다. 특히 DNS와 엣지 보안, 트래픽 가속 기능이 한 플랫폼으로 통합되면서, 사업자당 장애 영향 반경이 과거보다 넓어진 점이 부담 요인이다. 미국과 유럽에서는 주요 클라우드 및 CDN 사업자 다변화, 중요 서비스의 이중·삼중 경로 확보를 가이드라인으로 제시하는 움직임도 나타난다.

 

규제와 정책 측면에서 한국을 포함한 각국 정부는 아직 특정 글로벌 인프라 사업자 장애를 직접 규율하기보다는, 중요 정보통신기반시설 보안과 재해 복구 계획 수립 의무를 통해 간접적으로 리스크를 관리하는 구조다. 다만 공공기관과 금융권, 의료기관처럼 서비스 연속성이 핵심인 영역에서는 해외 사업자 인프라를 사용할 때도 장애 대응 시나리오와 대체 경로 확보 계획을 제출하도록 요구하는 사례가 늘었다. 클라우드플레어와 같은 글로벌 인프라 기업에 대한 가용성, 투명성, 사고 보고 의무를 강화해야 한다는 논의가 정책 커뮤니티에서 다시 부상할 가능성도 있다.

 

전문가들은 단일 사업자의 기술 완성도보다, 다중 인프라 조합과 운영 프로세스가 실제 장애 리스크를 좌우한다고 본다. 한 네트워크 보안 전문가는 글로벌 인프라 사업자조차 제어 플레인과 설정 관리 레이어에서의 실수를 완전히 피하기는 어렵다며, 인터넷 서비스 사업자들이 DNS와 CDN, 보안 게이트웨이까지 한 회사에 집중하는 구조를 재설계할 필요가 있다고 말했다. 이어 다중 리전과 다중 사업자를 전제로 한 설계가 비용을 높일 수 있지만, 반복되는 글로벌 장애를 고려하면 사실상 선택이 아니라 필수에 가까워지고 있다고 덧붙였다.

 

IT 업계에서는 클라우드플레어가 이번 장애의 정확한 원인과 재발 방지 대책을 투명하게 공개할지 주목하고 있다. 장애 복구 속도 못지않게, 아키텍처 수준에서의 리스크 감소 전략과 고객사와의 공유 방식이 향후 신뢰도에 영향을 줄 수 있어서다. 산업계는 반복되는 글로벌 인프라 장애 속에서, 핵심 인터넷 서비스가 실제 시장에서 안정적으로 운영될 수 있을지 예의주시하고 있다.

이예림 기자
share-band
밴드
URL복사
#클라우드플레어#퍼플렉시티#리그오브레전드