network-configuration

3 개의 포스트

AWS Interconnect 정식 출시, 라스트 마일 연결을 간소화하는 새로운 옵션 제공 | Amazon Web Services (새 탭에서 열림)

AWS는 멀티클라우드 및 하이브리드 환경의 네트워크 구축을 간소화하는 매니지드 프라이빗 연결 서비스인 'AWS Interconnect'를 정식 출시했습니다. 이 서비스는 AWS VPC를 타사 클라우드나 온프레미스 데이터 센터에 직접 연결하여, 복잡한 VPN 관리나 물리적 인프라 구성 없이도 고속의 전용 네트워크를 구축할 수 있게 해줍니다. 기업은 이를 통해 인터넷을 거치지 않는 보안 경로를 확보하고, 일관된 네트워크 성능과 높은 가용성을 바탕으로 멀티클라우드 워크로드를 운영할 수 있습니다. ### 멀티클라우드 연결의 단순화와 보안성 강화 * **매니지드 Layer 3 연결**: AWS VPC와 타사 클라우드(현재 Google Cloud 지원, 2026년 Azure 지원 예정) 간의 전용 경로를 제공하며, 모든 트래픽은 공용 인터넷이 아닌 AWS 글로벌 백본과 파트너 네트워크를 통해 이동합니다. * **기본 암호화 및 가용성**: 모든 물리적 링크에 IEEE 802.1AE MACsec 암호화가 기본 적용되어 보안성이 높으며, 두 개 이상의 물리적 시설에 논리적 링크를 분산 배치하여 하드웨어 장애 시에도 연결이 중단되지 않는 회복탄력성을 갖추고 있습니다. * **오픈 사양 협업**: AWS는 Interconnect의 기반 기술 사양을 GitHub(Apache 2.0 라이선스)에 공개하여, 다른 클라우드 서비스 제공업체들이 표준화된 방식으로 연결 서비스에 참여할 수 있도록 독려하고 있습니다. ### 라스트 마일 연결의 편의성 * **기존 네트워크 활용**: AWS Interconnect - Last mile 기능을 통해 지사나 원격 데이터 센터에서 기존 네트워크 제공업체를 이용해 AWS로의 고속 프라이빗 연결을 쉽게 설정할 수 있습니다. * **운영 부담 감소**: 코로케이션 시설 관리나 제3자 네트워크 패브릭 설정과 같은 복잡한 작업(Undifferentiated heavy lifting)을 AWS가 관리함으로써 네트워크 팀이 핵심 비즈니스 애플리케이션에 집중할 수 있도록 지원합니다. ### 모니터링 및 관리 통합 * **CloudWatch 통합**: 각 연결에는 'Network Synthetic Monitor'가 포함되어 왕복 지연 시간(Latency)과 패킷 손실을 실시간으로 추적하며, 대역폭 사용량 지표를 통해 용량 계획을 수립할 수 있습니다. * **신속한 프로비저닝**: AWS Direct Connect 콘솔에서 대상 클라우드 사업자와 지역, 대역폭을 선택한 뒤 생성된 활성화 키를 상대 클라우드 측에 입력하는 것만으로 몇 분 내에 연결을 완료할 수 있습니다. 라우팅 정보가 양방향으로 자동 전파되므로 수동 설정의 번거로움이 없습니다. 멀티클라우드 전략을 추진 중이거나 지사 환경에서 안정적인 AWS 접속 경로가 필요한 기업은 AWS Interconnect를 통해 인프라 복잡성을 획기적으로 낮출 수 있습니다. 특히 인터넷 기반 VPN의 불규칙한 성능에 노출된 워크로드를 운영 중이라면, 예측 가능한 성능과 강력한 보안을 제공하는 이 매니지드 연결 서비스를 도입하는 것을 권장합니다.

2023-03-08 incident: A deep dive into the platform-level impact (새 탭에서 열림)

이 글은 2023년 3월 8일 발생한 Datadog의 대규모 서비스 장애 원인을 분석하고 있습니다. 장애의 근본 원인은 Ubuntu 22.04에 포함된 **systemd-networkd의 기본 동작 변경**과 **자동 보안 업데이트(unattended-upgrades)**가 결합되어, 전 세계 모든 리전의 호스트에서 네트워크 라우팅 규칙이 동시에 삭제되었기 때문입니다. 결과적으로 리전 간 격리 원칙에도 불구하고 클라우드 제공업체와 무관하게 전사적인 네트워크 마비가 발생했습니다. ### systemd-networkd의 동작 변경과 잠복된 위험 * **새로운 기본값 도입:** systemd v248부터 `systemd-networkd`가 시작될 때 자신이 인식하지 못하는 모든 IP 규칙(IP rules)을 삭제(flush)하는 동작이 추가되었습니다. * **버전별 차이:** 이전 LTS 버전인 Ubuntu 20.04(systemd v245)에서는 이 문제가 없었으나, Datadog이 도입한 **Ubuntu 22.04(systemd v249)**는 이 새로운 동작이 기본값으로 설정되어 있었습니다. * **발견 지연의 이유:** 이 현상은 호스트가 처음 생성될 때가 아니라, 실행 중인 상태에서 `systemd-networkd`가 **재시작**될 때만 발생합니다. 평상시에는 재시작할 일이 거의 없었기 때문에 대규모 배포 과정에서도 위험이 감지되지 않았습니다. ### 자동 업데이트(Unattended Upgrades)와 트리거 * **보안 패치의 배포:** 2023년 3월 7일, systemd의 CVE 취약점 해결을 위한 패치가 Ubuntu 저장소에 배포되었습니다. * **자동 업데이트의 동작:** Datadog 서버들은 Ubuntu 기본 설정에 따라 `unattended-upgrades`가 활성화되어 있었으며, 매일 정해진 시간(06:00~07:00 UTC 사이)에 보안 업데이트를 수행하도록 설정되어 있었습니다. * **네트워크 규칙 삭제:** 보안 패치가 설치되면서 `systemd-networkd` 서비스가 재시작되었고, 이 과정에서 Kubernetes 네트워킹 등에 필요한 커스텀 IP 라우팅 규칙들이 "알 수 없는 규칙"으로 간주되어 모두 삭제되었습니다. ### 전 리전 동시 장애 발생 원인 * **일관된 구성의 역설:** 모든 리전이 동일하게 Ubuntu 22.04를 사용하고 동일한 업데이트 타이머 설정을 가지고 있었기 때문에, 리전 간의 물리적 격리에도 불구하고 업데이트와 그에 따른 네트워크 마비가 전 세계적으로 거의 동시에 일어났습니다. * **점진적 배포의 한계:** Datadog은 평소 인프라 변경 시 리전별로 단계적 배포를 수행하지만, OS 패키지 저장소에서 직접 내려받는 자동 보안 업데이트는 이러한 통제된 배포 프로세스를 우회하여 직접 호스트에 적용되었습니다. 이 사건은 인프라의 안정성을 위해 도입한 **자동 보안 패치**가 오히려 시스템의 기저 동작(low-level behavior) 변경과 맞물려 거대한 단일 장애점(Single Point of Failure)이 될 수 있음을 시사합니다. 운영 환경에서는 OS 패키지 업데이트를 포함한 모든 변경 사항이 통제된 파이프라인과 단계적 배포 전략을 거치도록 관리하는 것이 중요합니다.

2023-03-08 사건: 플랫폼 수준의 영향 깊이 살펴보기 | Datadog (새 탭에서 열림)

2023년 3월 8일 발생한 Datadog의 전사적 서비스 장애는 시스템 관리 데몬인 systemd의 동작 변경과 자동 보안 업데이트 설정이 결합되어 발생한 이례적인 사건입니다. Ubuntu 22.04 환경에서 systemd-networkd가 재시작될 때 기존 IP 라우팅 규칙을 모두 삭제하는 새로운 기본 동작이 활성화되었고, 이것이 전 지역 노드에 동시다발적인 자동 패치로 실행되면서 대규모 네트워크 중단으로 이어졌습니다. 이 사고는 인프라 전반에 걸친 자동화된 변경 관리와 점진적 배포 원칙이 보안 패치라는 예외 상황에서 어떻게 무력화될 수 있는지를 보여줍니다. **systemd-networkd의 IP 규칙 삭제 동작** * 2020년 12월 배포된 systemd v248부터 `systemd-networkd`는 시작 시 자신이 파악하지 못한 모든 IP 규칙(IP rules)을 삭제(flush)하는 동작을 도입했습니다. * 이후 v249에서 `ManageForeignRoutingPolicyRules` 설정을 통해 이 동작을 거부할 수 있는 옵션이 추가되었으나, 기본값은 여전히 기존 규칙을 삭제하는 방식이었습니다. * Datadog이 마이그레이션 중이던 Ubuntu 22.04는 이 위험한 기본 설정이 포함된 systemd v249를 사용하고 있었습니다. **보안 패치와 자동 업데이트의 결합** * 2023년 3월 7일, systemd의 CVE 취약점을 해결하기 위한 보안 패치가 Ubuntu 저장소에 업데이트되었습니다. * Datadog의 서버들은 Ubuntu의 기본 설정인 `unattended-upgrades`를 사용하고 있었으며, 이는 매일 특정 시간(06:00 UTC)에 보안 업데이트를 자동으로 수행하도록 설정되어 있었습니다. * 이 보안 패치가 설치되면서 `systemd-networkd` 서비스가 재시작되었고, 그 즉시 노드의 핵심적인 네트워크 라우팅 규칙들이 모두 삭제되었습니다. **점진적 배포 전략의 무력화** * Datadog은 평소 새로운 OS나 설정을 도입할 때 실험용 클러스터부터 시작해 스테이징, 소규모 리전, 대규모 리전 순으로 수주에 걸쳐 점진적으로 배포하는 엄격한 프로세스를 따릅니다. * 하지만 시스템 레벨의 자동 업데이트(unattended-upgrades)는 이러한 점진적 배포 통제를 우회하여 전 세계 모든 리전의 노드에 거의 동시에 적용되었습니다. * 결과적으로 전체 서버의 90% 이상을 차지하던 Ubuntu 22.04 노드들이 동시다발적으로 네트워크 불능 상태에 빠지게 되었습니다. **실용적인 교훈과 권장사항** 운영 환경에서 OS 배포판을 업그레이드할 때는 시스템 구성 요소(특히 systemd와 같은 핵심 데몬)의 기본 동작 변경 사항을 상세히 검토해야 합니다. 또한, 보안을 위한 자동 업데이트라 할지라도 인프라 전체에 동시에 적용되는 방식은 위험할 수 있으므로, 업데이트 주기를 리전별로 분산하거나 자체적인 패키지 미러를 통해 보안 패치 역시 점진적 배포 파이프라인의 통제하에 두는 것이 권장됩니다.