Cloudflare / bgp

6 개의 포스트

cloudflare

ASPA: making Internet routing more secure (새 탭에서 열림)

인터넷 라우팅의 핵심 프로토콜인 BGP는 설정 오류나 악의적인 공격으로 인해 트래픽이 엉뚱한 경로로 흐르는 '경로 리크(Route Leak)' 취약점을 안고 있습니다. 이를 해결하기 위해 기존의 목적지 검증 기술인 ROA를 넘어, 전체 이동 경로를 암호화 기술로 보호하는 새로운 표준인 ASPA(Autonomous System Provider Authorization)가 도입되고 있습니다. 클라우드플레어는 이러한 흐름에 발맞춰 ASPA 채택 현황을 실시간으로 추적할 수 있는 모니터링 기능을 Radar 서비스에 추가하며 더욱 안전한 인터넷 환경 구축을 지원합니다. ### ASPA의 개념과 필요성 * **기존 RPKI(ROA)의 한계**: 현재 사용되는 ROA(Route Origin Authorization)는 특정 IP 주소를 선언할 권한이 있는 AS(자율 시스템)가 누구인지, 즉 '목적지'만 확인하며 트래픽이 거치는 중간 경로는 검증하지 못합니다. * **경로 검증의 도입**: ASPA는 각 AS가 자신의 상위 프로바이더(Upstream Provider) 목록을 RPKI 시스템에 공식적으로 등록하게 함으로써, 데이터가 승인된 네트워크 체인을 통해서만 이동하는지 확인합니다. * **디지털 인증 기반**: ASPA 레코드는 일종의 인증서 역할을 하여, 수신 측 네트워크가 BGP 내의 AS_PATH를 보고 해당 경로가 사전에 정의된 상위 공급자 관계와 일치하는지 대조할 수 있게 합니다. ### "Valley-Free" 원리를 이용한 리크 탐지 * **상향 및 하향 램프 검증**: 인터넷 라우팅은 일반적으로 고객에서 프로바이더로 올라갔다가(Up-Ramp), 다시 목적지 고객으로 내려가는(Down-Ramp) 산 모양의 계층 구조를 가집니다. * **경로 일관성 확인**: ASPA는 경로의 양단에서 검증을 시작합니다. 출발지부터 상위 프로바이더로 이어지는 체인과 목적지부터 거꾸로 올라오는 체인이 정상적으로 만나는지 확인하여 경로의 유효성을 판단합니다. * **계곡(Valley) 현상 방지**: 고객 네트워크가 두 대형 프로바이더 사이에서 원치 않는 중계 역할을 할 때 발생하는 '경로 리크'는 ASPA 검증 과정에서 두 체인이 연결되지 않는 '단절'로 나타나며, 시스템은 이를 즉시 차단 대상으로 식별합니다. ### 위조된 근원지 하이재킹 방어 * **공격 차단**: 공격자가 실제 목적지 AS인 것처럼 속이면서 가짜 BGP 경로를 생성하는 '위조된 근원지 하이재킹(Forged-origin hijack)' 상황에서 ASPA는 강력한 방어 수단이 됩니다. * **관계의 진실성**: 공격자가 경로 상에 존재하더라도 피해 네트워크가 사전에 정의한 '승인된 프로바이더' 목록에 공격자가 포함되어 있지 않다면, 해당 경로는 유효하지 않은 것으로 간주되어 거부됩니다. * **기술적 한계**: 다만, 프로바이더가 자신의 고객에게 직접 가짜 경로를 광고하는 특수한 형태의 위조 공격 등은 ASPA만으로는 완벽하게 방어하기 어려운 영역으로 남아 있습니다. 인터넷 보안 강화를 위해 네트워크 운영자는 자신의 AS에 대한 ASPA 레코드를 발행하고, 클라우드플레어 Radar와 같은 도구를 통해 전 세계적인 ASPA 채택 추이를 주시하며 라우팅 보안 표준을 준수할 것을 권장합니다.

cloudflare

Cloudflare outage on February 20, 2026 (새 탭에서 열림)

2026년 2월 20일, Cloudflare는 사용자 지정 IP(BYOIP) 서비스 관리 방식의 변경 과정에서 발생한 소프트웨어 오류로 인해 약 6시간 동안 서비스 장애를 겪었습니다. 이번 장애는 내부 자동화 시스템이 유효한 IP 접두사(Prefix)들을 실수로 인터넷 경로(BGP)에서 철회하면서 발생했으며, 이로 인해 일부 고객 서비스와 Cloudflare의 1.1.1.1 웹사이트 접속이 불가능해졌습니다. Cloudflare는 즉각적인 롤백과 수동 복구 작업을 통해 문제를 해결했으며, 향후 자동화 배포의 안전성을 강화하기 위한 체계적인 개선을 약속했습니다. ### Addressing API와 자동화 프로세스의 결함 * **Addressing API의 역할**: Cloudflare 네트워크에 존재하는 주소 데이터의 단일 진실 공급원(Source of Truth)으로, 여기서 발생한 변경 사항은 즉시 전 세계 에지(Edge) 네트워크로 전파됩니다. * **위험한 수동 작업의 자동화**: 기존에 수동으로 이루어지던 BYOIP 접두사 삭제 작업을 자동화하기 위해 '정기 정리 하위 태스크'를 도입했습니다. 이는 배포 규모를 작게 유지하고 안전성을 높이려는 'Code Orange: Fail Small' 프로젝트의 일환이었습니다. * **API 쿼리 버그**: 정리 태스크가 API를 호출할 때 `pending_delete` 매개변수를 처리하는 로직에 버그가 있었습니다. 삭제 대기 중인 객체만 불러와야 했으나, 코드상에서 매개변수의 존재 여부만 체크하는 오류로 인해 정상적인 접두사들까지 삭제 대상에 포함되는 결과를 초래했습니다. ### 고객 서비스 영향 및 BGP 경로 탐색 현상 * **IP 접두사 철회**: 전체 BYOIP 접두사 중 약 25%에 해당하는 1,100개의 접두사가 인터넷 광고에서 제외되었습니다. 이로 인해 해당 IP를 사용하는 서비스는 외부에서 접근할 수 없는 상태가 되었습니다. * **BGP 경로 탐색(Path Hunting)**: 접두사가 철회되자 사용자 연결은 목적지를 찾기 위해 여러 네트워크를 헤매는 '경로 탐색' 현상을 겪었으며, 결국 연결 타임아웃과 실패로 이어졌습니다. * **특정 서비스 오류**: Cloudflare의 재귀 DNS 리졸버 웹사이트(1.1.1.1) 접속 시 403 오류("Edge IP Restricted")가 발생했습니다. 다만, 실제 DNS 질의 서비스와 DoH(DNS over HTTPS)는 이번 장애의 영향을 받지 않았습니다. ### 복구 과정에서의 기술적 난관 * **단계적 복구**: 엔지니어들이 변경 사항을 감지하고 롤백을 시작하면서 약 800개의 접두사가 먼저 복구되었습니다. 일부 고객은 대시보드를 통해 직접 IP를 재광고함으로써 자가 복구를 수행하기도 했습니다. * **소프트웨어 버그로 인한 지연**: 나머지 300여 개의 접두사는 단순한 경로 철회를 넘어 에지 서버에서 서비스 구성 정보 자체가 삭제되는 추가적인 소프트웨어 버그가 발생했습니다. 이로 인해 대시보드 설정만으로는 복구가 불가능했습니다. * **수동 상태 전파**: 엔지니어들은 삭제된 설정 상태를 에지 서버에 다시 강제로 전파하는 수동 작업을 수행해야 했으며, 장애 발생 6시간 7분 만인 23:03 UTC에 모든 서비스가 정상화되었습니다. Cloudflare는 이번 사고를 계기로 모든 주소 관리 워크플로우에서 수동 개입을 완전히 배제하고, 자동화된 헬스 체크 기능을 강화할 계획입니다. BYOIP를 사용하는 기업 고객은 유사한 장애 발생 시 Cloudflare 대시보드를 통해 IP 광고 상태를 직접 제어함으로써 복구 시간을 단축할 수 있는 운영 매뉴얼을 숙지해 두는 것이 권장됩니다.

cloudflare

Cable cuts, storms, and DNS: a look at Internet disruptions in Q4 2025 (새 탭에서 열림)

2025년 4분기 전 세계 인터넷 환경은 정부 주도의 차단부터 해저 케이블 절단, 기상 이변에 이르기까지 180건 이상의 다양한 장애로 인해 큰 변동성을 보였습니다. 특히 탄자니아의 선거 관련 차단과 같은 정치적 요인 외에도, 해저 케이블 사고와 전력망 불안정이 국가 단위의 연결성에 심각한 타격을 입히는 주요 원인으로 분석되었습니다. 이러한 사례들은 물리적 인프라의 취약성과 더불어 클라우드 플랫폼 및 DNS 서비스의 기술적 오류가 현대 인터넷 가용성에 미치는 복합적인 영향을 잘 보여줍니다. ## 정부 주도의 인터넷 차단: 탄자니아 사례 * **대선 관련 통제:** 10월 29일 탄자니아 대통령 선거 중 발생한 시위로 인해 약 26시간 동안 인터넷이 차단되었으며, 트래픽이 평소보다 90% 이상 급감했습니다. * **BGP 및 IP 공간 분석:** 트래픽은 거의 소멸했으나 IPv4 및 IPv6 주소 공간의 공고(Announcement)는 완전히 사라지지 않았습니다. 이는 국가가 인터넷에서 완전히 분리된 것이 아니라 트래픽 흐름만 인위적으로 차단했음을 시사합니다. * **간헐적 복구와 재차단:** 10월 30일 잠시 복구되었으나 2시간 만에 다시 차단되었으며, 11월 3일이 되어서야 정상적인 트래픽 수준을 회복했습니다. ## 해저 및 지상 케이블 절단 사고 * **아이티(Digicel Haiti):** 10월 16일과 11월 25일 두 차례에 걸쳐 국제 광섬유 인프라가 절단되는 사고가 발생하여 전국적인 트래픽 중단이 발생했습니다. * **파키스탄(PEACE 케이블):** 10월 20일 홍해 인근의 PEACE 해저 케이블 절단으로 인해 Cybernet/StormFiber의 트래픽이 50% 급감하고 발표된 IPv4 주소 공간의 1/3이 사라지는 타격을 입었습니다. * **카메룬 및 서아프리카(WACS 케이블):** 10월 23일 WACS(West Africa Cable System) 해저 케이블 장비 결함으로 카메룬, 중앙아프리카공화국, 콩고공화국 등에서 90~99%의 트래픽 손실이 관찰되었습니다. 타 케이블 시스템으로 트래픽을 우회하는 과정에서 매우 불안정한 패턴이 나타나기도 했습니다. * **도미니카 공화국(Claro):** 12월 9일 두 개의 광섬유 노선이 동시에 단선되면서 전국적으로 77%의 트래픽 감소가 발생했습니다. ## 전력망 붕괴 및 기상 이변에 의한 장애 * **국가 단위 정전:** 도미니카 공화국(11월 11일), 파나마(12월 23일), 케냐(12월 28일)에서 전력망 변전소 사고 및 시스템 장애로 인해 인터넷 트래픽이 40~70%까지 하락하는 현상이 발생했습니다. * **극단적 기후 현상:** * **브라질:** 10월 11일 상파울루를 강타한 폭풍과 강풍으로 트래픽이 40% 감소했습니다. * **필리핀:** 10월 22~26일 태풍 '트라미'의 영향으로 여러 지역에서 40~75%의 연결성 저하가 나타났습니다. * **스페인:** 10월 29일 발렌시아 지역의 돌발 홍수로 인해 인프라가 파손되며 40~50%의 트래픽 하락이 관찰되었습니다. ## 기술적 결함 및 클라우드 플랫폼 이슈 * **ISP 및 교환 노드 오류:** 10월 1일 미국 컴캐스트(Comcast)의 대규모 장애와 10월 17일 벨기에 Equinix IX의 피어링 인프라 문제가 발생하여 트래픽이 급락했습니다. * **DNS 및 하이퍼스케일러 사고:** 11월 15일 Cloudflare의 1.1.1.1 DNS 서비스 이슈를 비롯하여, 분기 동안 Azure, AWS, Google Cloud 플랫폼에서 발생한 간헐적인 기술적 사고들이 웹 애플리케이션의 가용성에 영향을 미쳤습니다. 글로벌 인터넷 환경은 갈수록 복잡해지고 있으며, 단일 케이블 절단이나 지역적 정전이 국가 전체의 연결성을 위협할 수 있습니다. 따라서 기업과 기관은 다중 경로 네트워크 구성(Redundancy)을 강화하고, Cloudflare Radar와 같은 실시간 모니터링 도구를 활용하여 인프라 이상 징후에 신속히 대응할 수 있는 복원력을 갖추어야 합니다.

cloudflare

Route leak incident on January 22, 2026 (새 탭에서 열림)

2026년 1월 22일, Cloudflare 마이애미 데이터 센터에서 자동화된 라우팅 정책 설정 오류로 인해 약 25분간 IPv6 BGP 경로 유출(Route Leak) 사고가 발생했습니다. 특정 접두사 목록(Prefix-list)을 제거하는 과정에서 정책 필터가 의도치 않게 모든 내부 경로를 허용하게 되었고, 이로 인해 전 세계 IPv6 트래픽이 마이애미로 잘못 유도되어 네트워크 혼잡과 서비스 지연이 초래되었습니다. 이 사고는 자동화 코드가 생성한 구성 파일의 논리적 허점으로 인해 발생했으며, 운영진의 수동 복구와 자동화 일시 중지를 통해 해결되었습니다. ### BGP 경로 유출의 메커니즘과 영향 * **경로 유출의 정의**: 네트워크(Autonomous System, AS)가 원래 전달해서는 안 될 트래픽을 자신에게 보내도록 인터넷 경로 정보를 잘못 광고하는 현상을 의미합니다. * **위반 사항**: 이번 사고는 RFC 7908에 정의된 유형 3 및 유형 4 유출의 혼합 형태로, 피어(Peer)나 상위 제공자(Provider)로부터 받은 경로를 다시 다른 피어나 제공자에게 재분배함으로써 '계곡 없는 라우팅(Valley-free routing)' 원칙을 위반했습니다. * **네트워크 충격**: 마이애미 데이터 센터의 백본 인프라에 트래픽이 집중되면서 혼잡이 발생했고, Cloudflare 서비스뿐만 아니라 외부 네트워크의 트래픽도 마이애미로 유입되었다가 방화벽 필터에 의해 차단되거나 높은 지연 시간을 겪었습니다. ### 설정 오류의 기술적 원인: 과도하게 허용된 정책 * **변경 목적**: 보고타(Bogotá) 데이터 센터로 향하던 IPv6 트래픽을 마이애미를 거치지 않게 하기 위해, 정책 자동화 플랫폼을 통해 기존의 특정 접두사 목록(`6-BOG04-SITE-LOCAL`)을 제거하려고 했습니다. * **JunOS 동작 특성**: JunOS 및 JunOS EVO 운영체제에서 `from route-type internal` 조건은 모든 내부 BGP(iBGP) 경로와 일치합니다. * **논리적 결함**: 특정 접두사 필터가 삭제되자, 해당 정책 구문은 "모든 내부 경로를 수락하고 외부로 광고하라"는 광범위한 규칙으로 변질되었습니다. 이로 인해 마이애미 라우터는 수천 개의 내부 경로를 Telia, Cogent, GTT와 같은 외부 피어와 제공자에게 대량으로 전송하게 되었습니다. ### 사고 대응 타임라인 * **20:25 UTC**: 마이애미 에지 라우터에서 자동화 도구가 실행되어 잘못된 설정이 적용되었고, 즉시 경로 유출과 서비스 영향이 시작되었습니다. * **20:40 UTC**: 네트워크 팀이 의도치 않은 경로 광고를 감지하고 조사를 시작했으며, 4분 뒤 공식적인 장애 대응 프로세스가 가동되었습니다. * **20:50 UTC**: 네트워크 운영자가 문제가 된 설정을 수동으로 되돌리고 해당 라우터의 자동화를 일시 중지함으로써 경로 유출 상황이 종료되었습니다. * **22:40 UTC**: 자동화 코드 저장소의 버그를 수정한 후, 마이애미 라우터의 자동화 기능을 다시 활성화하여 정상 상태로 복구했습니다. ### 기술적 교훈 및 추천 사항 * **정책 검증 강화**: 라우팅 정책을 자동 생성할 때, 특정 필터(Prefix-list 등)가 제거된 결과가 '기본 허용(Default Accept)' 상태가 되지 않도록 방어적인 로직을 설계해야 합니다. * **운영체제 특성 이해**: JunOS의 `route-type internal`과 같이 벤더별로 상이하게 동작할 수 있는 매칭 조건을 사용할 때는 예상치 못한 경로 광고를 막기 위한 추가적인 안전장치(Safety-net)를 마련해야 합니다. * **단계적 배포**: 대규모 인프라 변경 시 자동화 도구가 전체 라우터에 동시에 적용되지 않도록 카나리(Canary) 배포나 단계적 적용을 통해 영향 범위를 최소화하는 것이 권장됩니다.

cloudflare

What we know about Iran’s Internet shutdown (새 탭에서 열림)

2025년 말 이란 내 경제적 불만과 정권 교체 요구로 촉발된 대규모 시위에 대응하여 이란 정부가 전국적인 인터넷 차단 조치를 단행했습니다. Cloudflare Radar 데이터 분석 결과, 2026년 1월 8일부터 이란의 인터넷 트래픽은 사실상 전무한 상태로 떨어졌으며 이는 과거 2019년과 2022년의 사례와 유사한 국가 차원의 의도적인 차단으로 확인됩니다. 현재 이란은 전 세계 인터넷으로부터 거의 완전히 고립된 상태이며, 이러한 기술적 단절은 시위 확산을 막기 위한 정부의 강력한 통제 수단으로 활용되고 있습니다. **1월 8일 발생한 급격한 연결 단절** - 1월 8일 11:50(UTC)경, 이란 네트워크에서 공고되는 IPv6 주소 공간이 98.5% 급감하며 글로벌 인터넷에서 해당 주소로 접근할 수 있는 경로가 사라졌습니다. - 이로 인해 인간이 생성하는 트래픽 중 IPv6가 차지하는 비중이 12%에서 2%로 떨어졌으며, 100분 뒤에는 사실상 0%에 수렴했습니다. - 같은 날 16:30~17:00(UTC) 사이, MCCI(AS197207), IranCell(AS44244), TCI(AS58224) 등 이란 주요 통신사들의 트래픽이 90% 이상 빠지기 시작해 18:45(UTC)에는 국가 전체 트래픽이 0에 도달했습니다. **일시적인 연결 복구와 제한된 접근** - 차단 다음 날인 1월 9일, 테헤란 대학교(AS29068)와 샤리프 공과대학교(AS12660) 등 일부 주요 교육 기관의 네트워크 연결이 몇 시간 동안 일시적으로 복구되었다가 다시 중단되었습니다. - Cloudflare의 공용 DNS resolver(1.1.1.1)에 대한 요청 트래픽이 잠시 급증하는 현상이 관찰되었으나, 곧 이전 최고치의 0.01% 미만 수준으로 다시 떨어졌습니다. **전면 차단에 앞선 기술적 검열 징후** - 전면적인 인터넷 셧다운이 발생하기 수일 전인 12월 31일부터 주요 네트워크에서 HTTP/3 및 QUIC 프로토콜의 사용 비중이 40%에서 5% 미만으로 급격히 감소했습니다. - 이는 정부가 전면 차단을 시행하기 전, 고도화된 레이어 기반의 필터링과 화이트리스트 시스템을 적용하여 특정 통신 방식을 먼저 차단했음을 시사합니다. **지속되는 셧다운 상황** - 1월 10일 이후 현재까지 이란의 인터넷 트래픽은 회복될 기미를 보이지 않고 있으며, 전 세계와 연결된 통로가 대부분 막혀 있는 상태입니다. 이란 내부의 실시간 연결 상태와 네트워크별 지표는 Cloudflare Radar의 트래픽 및 라우팅 페이지를 통해 지속적으로 모니터링할 수 있습니다.

cloudflare

A closer look at a BGP anomaly in Venezuela (새 탭에서 열림)

최근 베네수엘라 국영 ISP인 CANTV(AS8048)에서 발생한 BGP 라우팅 리크(Route Leak) 현상은 정치적 상황과 맞물려 배후 의혹을 샀으나, 데이터 분석 결과 악의적인 개입보다는 기술적 숙련도 부족에 의한 사고일 가능성이 큽니다. Cloudflare의 분석에 따르면 해당 ISP의 라우팅 정책 설정 미흡으로 인해 상위 공급자의 경로가 다른 공급자로 재배포되는 '타입 1 경로 누출'이 12월 이후 반복적으로 발생하고 있습니다. 특히 누출된 경로에 적용된 과도한 AS-Prepending은 트래픽을 강제로 유인하려는 의도와 정면으로 배치되므로, 이는 단순한 운영상 실수로 판단됩니다. ### BGP 라우팅 리크와 계곡 자유(Valley-Free) 원칙 - BGP 라우팅 리크는 네트워크 경로 광고가 의도된 범위를 벗어나 전파되는 현상으로, RFC7908에서 정의된 비즈니스 관계에 따른 경로 전파 규칙을 위반할 때 발생합니다. - 정상적인 네트워크 환경은 '계곡 자유(Valley-Free)' 규칙을 따르는데, 이는 고객 네트워크가 자신의 상위 공급자(Provider)로부터 받은 경로를 또 다른 공급자에게 다시 광고하여 중간 전달자 역할을 하지 않아야 함을 의미합니다. - 이번 사고는 AS8048이 이탈리아 텔레콤(AS6762)으로부터 받은 경로를 콜롬비아의 네트워크 서비스 제공업체(AS52320)에게 다시 광고하면서 발생한 전형적인 경로 누출 사례입니다. ### CANTV(AS8048)의 반복적인 이상 징후 - Cloudflare Radar 데이터 분석 결과, 12월 초부터 해당 ISP에서 총 11차례의 유사한 라우팅 리크 이벤트가 감지되었으며 이는 일시적인 현상이 아닙니다. - 누출된 IP 접두사(Prefix)들은 모두 베네수엘라 기업인 Dayco Telecom(AS21980)의 소유였으며, AS8048은 이 기업의 상위 공급자 관계에 있는 것으로 확인되었습니다. - 이러한 반복적인 패턴은 특정 목적을 가진 공격이라기보다, CANTV 네트워크가 경로 수출입(Export/Import) 정책을 제대로 구현하지 못해 발생하는 만성적인 기술적 문제임을 시사합니다. ### 악의적 공격 가능성을 부정하는 기술적 근거 - 만약 특정 국가나 단체가 중간자 공격(MITM)을 목적으로 경로를 조작했다면, 트래픽을 자신에게 끌어오기 위해 해당 경로를 가장 선호되는 경로로 만들어야 합니다. - 그러나 이번 사례에서는 AS8048이 자신의 AS 번호를 경로에 9번이나 반복해서 추가하는 'AS-Prepending'을 적용한 것이 관찰되었습니다. - AS-Prepending은 해당 경로의 우선순위를 인위적으로 낮추어 트래픽이 유입되지 않도록 하는 기법으로, 이는 트래픽 폭주를 막으려 했던 운영자의 서툰 시도로 해석될 뿐 정보 탈취를 위한 행위로 보기는 어렵습니다. 인터넷 라우팅 리크는 대부분 악의적인 의도보다는 설정 오류로 인해 발생합니다. 네트워크 운영자는 이러한 사고를 방지하기 위해 RPKI(자원 공키 구조)를 도입하여 경로의 유효성을 검증하고, 상위 공급자와의 피어링 설정 시 엄격한 필터링 정책을 적용하는 등 모범적인 기술 실무를 준수해야 합니다.