quality-of-service

2 개의 포스트

에어비앤비의 키-값 저장소에서 정적 속도 제한에서 적응형 트래픽 관리로 (새 탭에서 열림)

에어비앤비는 분산 키-밸류 저장소인 'Mussel'의 트래픽 관리 방식을 단순 요청 횟수 제한(QPS)에서 자원 기반의 적응형 제어 시스템으로 진화시켰습니다. 이 시스템은 요청의 실제 비용을 계산하는 자원 인식형 속도 제한(RARC)과 우선순위 기반의 부하 차단(Load Shedding) 계층을 도입하여 시스템의 유용 작업량(Goodput)을 극대화합니다. 결과적으로 Mussel은 예기치 못한 트래픽 급증이나 DDoS 공격 상황에서도 핵심 서비스의 성능을 안정적으로 유지할 수 있게 되었습니다. ### 정적 QPS 제한의 한계와 자원 인식형 제어(RARC)의 도입 기존의 단순 QPS 제한 방식은 요청의 복잡도와 상관없이 동일한 할당량을 차감했기에 효율적인 자원 관리가 불가능했습니다. * **비용 가변성 해결**: 단일 행 조회와 수만 행의 스캔 작업을 동일하게 취급하던 문제를 해결하기 위해, 행 수, 바이트 크기, 대기 시간(latency)을 결합한 '요청 단위(RU, Request Unit)' 개념을 도입했습니다. * **RU 계산 모델**: 읽기 비용은 $1 + w_r \times \text{읽은 바이트} + w_l \times \text{대기 시간}$과 같은 선형 모델을 통해 산출되며, 이는 하드웨어 리소스(CPU, I/O)에 가해지는 실제 부하를 더 정확하게 반영합니다. * **토큰 버킷 알고리즘**: 각 디스패처(Dispatcher)는 짧은 에포크(Epoch)마다 할당된 RU를 로컬 토큰 버킷에 채우고, 요청마다 실시간으로 계산된 비용을 차감하여 할당량 초과 시 즉각적으로 요청을 거부합니다. ### 지연 시간 비율 기반의 적응형 부하 차단 트래픽이 급격히 변하거나 특정 샤드에 병목이 발생할 때, 시스템 전체의 붕괴를 막기 위해 실시간 신호를 기반으로 한 부하 차단 메커니즘을 운용합니다. * **지연 시간 비율(Latency Ratio) 활용**: '장기 p95 지연 시간'을 '단기 p95 지연 시간'으로 나눈 비율을 시스템 스트레스 지표로 사용합니다. 이 비율이 설정값(예: 0.3) 이하로 떨어지면 시스템 부하가 급증한 것으로 판단합니다. * **임계치 기반의 단계적 대응**: 시스템 스트레스가 감지되면 낮은 우선순위의 클라이언트 그룹부터 RU 비용을 가중해 부과함으로써 자연스럽게 트래픽 백프레셔(Backpressure)를 유도합니다. * **P² 알고리즘 적용**: 고정된 메모리 내에서 대기 시간의 백분위수(Percentile)를 추정하는 P² 알고리즘을 사용하여, 별도의 샘플 저장소나 노드 간 통신 없이도 개별 디스패처가 신속하게 의사결정을 내릴 수 있습니다. ### 데이터 접근 패턴 최적화 및 안정성 확보 단순히 요청을 차단하는 것을 넘어, 데이터 접근의 불균형으로 인한 병목 현상을 해결하는 메커니즘을 포함합니다. * **핫키(Hot-key) 탐지 및 완화**: 특정 키에 대한 요청이 집중되는 패턴을 실시간으로 감지하여, 백엔드 저장소에 도달하기 전 캐싱하거나 중복 요청을 하나로 합치는(Coalescing) 방식으로 저장소 계층을 보호합니다. * **트래픽 분리 및 고립**: 특정 클라이언트의 데이터 패턴으로 인해 발생한 병목이 전체 클러스터로 전이되지 않도록 격리 수준을 높여 다중 사용자(Multi-tenant) 환경의 안정성을 강화했습니다. 멀티 테넌트 환경의 대규모 시스템을 운영한다면 단순한 횟수 기반의 제한보다는 자원 소비량을 기반으로 한 RU 모델과 시스템 상태에 반응하는 적응형 부하 차단 전략을 도입하는 것이 서비스 가용성 확보에 훨씬 유리합니다.

LINE 앱 영상 통화를 가장 많이 사용하는 나라, 태국에서 LINE 앱의 영상 통화 품질을 점검했습니다 (새 탭에서 열림)

LINE은 태국 현지 점검을 통해 자사 영상 통화 서비스가 경쟁사 대비 높은 화질과 비트레이트를 제공하며 우수한 통화 품질을 유지하고 있음을 확인했습니다. 초기 연결 단계부터 고품질 미디어를 전송하는 전략을 통해 사용자 체감 품질(QoE)을 극대화하고 있으나, 이는 네트워크 환경에 따른 프리징 발생 가능성이라는 기술적 트레이드오프를 동반합니다. 결과적으로 LINE은 지역별 네트워크 특성에 최적화된 비트레이트 균형점을 찾는 정교한 튜닝을 통해 글로벌 시장에서의 기술적 경쟁력을 확보하고 있습니다. **태국 시장의 영상 통화 특수성과 점검 배경** * 태국은 1:1 통화 중 영상 통화가 차지하는 비중이 30.43%로, 일본이나 대만 등 타 국가 대비 2배 이상 높은 영상 통화 핵심 시장입니다. * 2022년 이후 2년 만에 진행된 이번 점검은 현지 네트워크(True, AIS)의 변화를 반영하고, 점유율이 상승 중인 경쟁사 메신저와의 기술적 격차를 분석하기 위해 수행되었습니다. * 엔지니어가 직접 방콕 시내 쇼핑몰과 외곽 시장 등 사람이 붐비는 환경에서 4G 및 5G 네트워크를 통해 실시간 품질을 정성·정량적으로 평가했습니다. **현지 네트워크 기반의 실질적 품질 측정 방식** * 제한된 출장 일정과 장비의 한계를 극복하기 위해 엔지니어의 정성적 체감 품질 평가와 사후 패킷 분석을 병행했습니다. * 서비스 품질(QoS) 지표인 패킷 손실률, 지연 시간 편차 등을 수집하여 실제 사용자 체감 품질(QoE)을 추정하는 방식을 채택했습니다. * 측정 결과 LINE은 VGA 해상도, 20 FPS 이상의 프레임 레이트, 평균 150ms 수준의 낮은 지연 시간을 기록하며 전반적으로 우수한 성능을 입증했습니다. **비트레이트 전략과 화질 우위 확보** * 화질 비교 결과, LINE은 4G와 5G 모든 환경에서 경쟁사 대비 선명한 영상을 제공하며 높은 사용자 만족도를 보였습니다. * 비트레이트 설정값에서 LINE은 5G 1Mbps, 4G 600kbps의 최대치를 적극적으로 활용하는 반면, 경쟁사는 낮은 비트레이트에서 보수적으로 수치를 올리는 전략을 사용합니다. * LINE은 통화 시작 단계에서 전송 가능한 최대 비트레이트를 예측하여 즉시 고화질로 연결하는 기술을 적용해 초기 미디어 품질을 확보했습니다. **네트워크 상태와 비트레이트의 기술적 트레이드오프** * 비트레이트가 높을수록 화질은 좋아지지만, 네트워크가 불안정한 환경(이동 중이거나 혼잡한 지역)에서는 패킷 지연과 유실로 인해 화면이 멈추는 '프리징' 현상이 발생할 가능성이 커집니다. * 경쟁사는 화질을 다소 희생하더라도 네트워크 악조건에서 일관된 안정성을 유지하는 방향을 택한 것으로 분석됩니다. * LINE은 200ms 이상의 프레임 노출을 프리징으로 정의하고 관리하며, 고화질 제공과 안정성 사이의 최적의 균형점을 찾기 위해 비트레이트 제어 알고리즘을 지속적으로 고도화하고 있습니다. 네트워크 환경이 시시각각 변하는 모바일 환경에서는 절대적인 설정값보다 실시간 네트워크 예측 기술이 핵심입니다. 사용자에게 초기부터 고화질 경험을 제공하되, 환경 악화 시 유연하게 대응할 수 있는 적응형 비트레이트 제어(Adaptive Bitrate Control) 최적화가 글로벌 통화 품질 경쟁력을 결정짓는 요소가 될 것입니다.