google-borg

2 개의 포스트

회귀 언어 모델을 이용한 (새 탭에서 열림)

구글 리서치와 딥마인드 팀은 모든 수치 예측 문제를 텍스트-투-텍스트(text-to-text) 방식으로 해결하는 '회귀 언어 모델(Regression Language Model, RLM)'을 제안했습니다. 이 방법론은 복잡하고 구조화되지 않은 대규모 시스템의 데이터를 텍스트로 변환하여 LLM이 직접 수치를 예측하게 함으로써, 기존의 정형 데이터 기반 회귀 모델이 가졌던 한계를 극복합니다. 특히 구글의 클러스터 관리 시스템인 Borg의 효율성 예측에서 기존 모델보다 뛰어난 성능과 유연성을 입증하며 대규모 시스템 시뮬레이션의 새로운 가능성을 제시했습니다. **텍스트 기반 회귀 모델의 메커니즘** * 모든 입력 데이터($x$)와 타깃 수치($y$)를 구조화된 텍스트 스트링(예: YAML, JSON)으로 표현하여 모델에 입력합니다. * 모델은 일반적인 LLM과 마찬가지로 다음 토큰 예측(Next Token Prediction) 방식을 사용하며, 교차 엔트로피 손실 함수를 통해 학습합니다. * 별도의 피처 엔지니어링이나 데이터 정규화 과정이 필요 없으며, 사전 학습된 모델을 활용하거나 처음부터 무작위 초깃값으로 학습시키는 것 모두 가능합니다. * 수치를 텍스트로 처리함으로써 새로운 데이터 유형이나 하드웨어 사양, 워크로드 패턴이 추가되더라도 모델 구조를 변경하지 않고 유연하게 대응할 수 있습니다. **구글 Borg 시스템을 통한 실증 연구** * 구글의 컴퓨팅 인프라인 Borg의 자원 효율성 지표인 'MIPS per GCU'를 예측하는 데 RLMs를 적용했습니다. * 약 6,000만 개의 파라미터를 가진 2레이어 인코더-데코더 구조의 모델을 사용해 대규모 클러스터의 상태를 시뮬레이션했습니다. * 입력 데이터가 최대 100만 토큰에 달하는 경우, 중요도가 높은 피처를 앞쪽에 배치하는 전처리 과정을 통해 모델의 토큰 제한(8,000개) 내에서도 핵심 정보를 보존했습니다. * 퓨샷(few-shot) 그래디언트 업데이트만으로도 새로운 태스크와 데이터 유형에 빠르게 적응하는 성능을 보여주었습니다. **확률 분포 캡처 및 불확실성 모델링** * RLM의 출력 결과를 여러 번 샘플링함으로써 단순한 점 예측을 넘어 출력값 $y$의 확률 밀도(Density)를 정확하게 추정할 수 있습니다. * 이를 통해 시스템 내부의 고유한 무작위성(우연적 불확실성, Aleatoric Uncertainty)과 관측 데이터 부족으로 인한 불확실성(인식적 불확실성, Epistemic Uncertainty)을 동시에 파악합니다. * 실험 결과, RLM은 복잡한 다봉형(multimodal) 분포를 가진 타깃 값도 기존의 MLP(다층 퍼셉트론)나 XGBoost보다 훨씬 정교하게 모사하는 능력을 갖췄음이 확인되었습니다. **성능 비교 및 확장성** * 데이터 양이 적은 상황(Low-data regime)에서 RLM은 전통적인 회귀 모델들보다 월등히 높은 예측 정확도를 기록했습니다. * 복잡한 시스템의 설정값, 로그 정보, 메타데이터 등을 텍스트 형태로 통합 학습함으로써 시스템 전반에 대한 깊은 이해를 바탕으로 한 시뮬레이션이 가능해졌습니다. * 구글은 이 방법론을 누구나 활용할 수 있도록 'regress-lm'이라는 오픈소스 라이브러리를 공개하여 연구 커뮤니티의 참여를 독려하고 있습니다. 복잡하고 변화가 빠른 시스템에서 데이터 스키마를 정의하고 피처를 추출하는 데 드는 비용을 줄이고 싶다면, 입력을 텍스트로 직렬화하여 RLM을 적용해 보는 것을 추천합니다. 특히 시뮬레이션 대상의 불확실성이 크고 데이터가 비정형인 환경일수록 텍스트 기반 회귀 모델이 기존 방식보다 더 강력한 범용 근사 도구가 될 수 있습니다.

무작위 작업 도착 상황에서의 (새 탭에서 열림)

구글 리서치(Google Research)의 Ravi Kumar와 Manish Purohit는 대규모 클러스터 관리 시스템에서 필수적인 부하 분산(Load balancing) 문제를 최신 온라인 알고리즘 이론으로 분석했습니다. 연구팀은 작업이 무작위 순서로 도착하는 환경을 가정하고, 결정적(deterministic) 온라인 알고리즘이 가질 수 있는 성능의 이론적 한계를 새롭게 정립했습니다. 이 연구는 기존의 최악 조건 분석을 넘어 현실적인 무작위 작업 흐름에서 알고리즘이 달성할 수 있는 최선의 성능이 $\sqrt{\log n}$ 수준임을 입증하며 이론적 간극을 메웠습니다. ### 트리 균형 게임을 통한 부하 분산 모델링 * **모델의 정의**: 부하 분산 문제를 기하학적인 '트리 균형 게임'으로 치환하여 설명합니다. 트리 내의 노드는 서버(머신)를, 노드를 연결하는 간선(edge)은 처리해야 할 작업(job)을 의미합니다. * **목표와 규칙**: 간선이 하나씩 제시될 때마다 알고리즘은 이를 두 끝점 중 하나로 방향을 정해야(orient) 합니다. 최종 목표는 특정 노드로 향하는 간선의 수(내차수, indegree)의 최댓값을 최소화하는 것입니다. * **경쟁 분석(Competitive Analysis)**: 미래의 모든 정보를 알고 있는 오프라인 최적 알고리즘의 결과와 온라인 알고리즘의 결과를 비교하여 알고리즘의 효율성을 측정합니다. ### 결정적 알고리즘의 전통적 한계 * **최악의 시나리오**: 1990년대부터 알려진 바에 따르면, 적대적인 공격자(adversary)가 작업 순서를 정할 경우 어떤 결정적 알고리즘도 최대 부하를 $\log n$($n$은 노드 수) 미만으로 유지할 수 없습니다. * **정보의 비대칭성**: 공격자는 알고리즘이 어떤 선택을 해도 부하가 높아질 수밖에 없는 순서로 간선을 배치하며, 이는 시스템 성능의 하한선을 결정하는 근거가 됩니다. * **그리디 알고리즘의 한계**: 단순히 부하가 적은 쪽으로 작업을 배정하는 탐욕적(Greedy) 방식은 작업 도착 순서에 따라 성능이 크게 좌우되는 취약점을 가집니다. ### 무작위 도착 순서에서의 새로운 이론적 하한선 * **무작위 순서 모델**: 모든 작업의 순열이 동일한 확률로 발생하는 환경을 가정합니다. 이는 실제 데이터 센터의 워크로드와 더 유사한 모델입니다. * **성능 격차의 발견**: 이전 연구에서는 무작위 순서일 때 그리디 알고리즘이 $\log n$보다 약간 나은 성능을 보인다는 점을 밝혔으나, 다른 정교한 알고리즘이 얼마나 더 잘할 수 있는지는 미지로 남아있었습니다. * **재귀적 구조를 통한 증명**: 본 연구는 재귀적으로 구성된 새로운 사례를 통해, 무작위 순서에서도 결정적 알고리즘이 $\sqrt{\log n}$보다 나은 경쟁비를 보장할 수 없음을 증명했습니다. 이는 기존 예측보다 하한선을 지수적으로 높인 결과입니다. 이 연구는 구글의 보그(Borg)와 같은 대규모 클러스터 관리 시스템에서 자원 할당 효율성을 높이기 위한 이론적 토대를 제공합니다. 작업이 무작위로 유입되는 실제 환경에서도 알고리즘이 극복할 수 없는 수학적 한계가 존재함을 이해함으로써, 더욱 견고하고 현실적인 스케줄링 전략을 설계하는 지침으로 활용될 수 있습니다.