approximation-algorithms

변화하는 세상에서의 스케 (새 탭에서 열림)

클라우드 인프라의 가용 자원이 끊임없이 변동하는 환경에서 중단 없이 실행되어야 하는 비선점형(Non-preemptive) 작업들을 효율적으로 배치하기 위한 새로운 알고리즘이 제시되었습니다. Google Research는 이번 연구를 통해 가용량이 시간에 따라 변하는 환경에서도 작업 처리량(Throughput)을 최대로 확보할 수 있는 최초의 상수 요인(Constant-factor) 근사 알고리즘을 개발했습니다. 이 알고리즘은 변동성이 큰 클라우드 환경에서 작업 손실을 최소화하고 스케줄러의 안정성을 이론적으로 보장하는 기틀을 마련했습니다. ### 동적 클라우드 환경과 스케줄링의 난제 * 현대 클라우드 환경은 하드웨어 장애, 유지보수, 고순위 작업의 자원 점유 등으로 인해 가용 자원이 실시간으로 변동하는 특성을 가집니다. * 특히 비선점형 작업은 한 번 시작하면 중간에 멈출 수 없으며, 자원 부족으로 중단될 경우 지금까지의 모든 작업 진행 내용이 소실되는 리스크가 있습니다. * 스케줄러는 각 작업의 방출 시간(Release time), 마감 기한(Deadline), 처리 시간, 가중치를 고려하여 전체 처리량의 합계(가중치 또는 작업 수)를 극대화해야 합니다. ### 오프라인 설정에서의 최적화 전략 * 미래의 작업 도착 정보와 자원 변동 추이를 미리 알고 있는 오프라인 환경에서는 단순한 그리디(Greedy) 전략이 효과적임이 입증되었습니다. * 가장 먼저 끝나는 작업을 우선 배치하는 그리디 알고리즘은 동일 가치 작업들을 스케줄링할 때 최적해의 최소 1/2 성능을 보장(1/2-approximation)합니다. * 작업마다 가치가 다른 가중치 모델의 경우, Primal-dual 프레임워크를 활용하여 최적해의 1/4 성능을 보장하는 알고리즘을 구현했습니다. ### 온라인 환경의 복잡성과 중단 모델 * 실시간으로 작업이 도착하는 온라인 환경에서는 단 하나의 잘못된 결정(긴 작업 배치)이 미래의 수많은 짧은 작업을 막을 수 있어 기존 방식의 효율성이 급격히 떨어집니다. * **재시작 허용 모델(Interruption with restarts):** 작업 중단 시 진행 데이터는 소실되지만 나중에 다시 시도할 수 있는 모델로, 오프라인과 동일하게 1/2 수준의 경쟁비(Competitive ratio)를 달성할 수 있습니다. * **재시작 불가 모델(Interruption without restarts):** 중단된 작업을 영구히 폐기해야 하는 엄격한 모델로, 일반적인 상황에서는 효율적인 스케줄링이 어렵지만 '공통 마감일'이 있는 실무적 시나리오에서는 해결책을 찾았습니다. ### 공통 마감일 시나리오를 위한 상수 경쟁 알고리즘 * 모든 작업이 동일한 마감 시한을 가지는 실제 배치 작업 환경을 위해 최초의 상수 경쟁 알고리즘(1/11 경쟁비)을 설계했습니다. * 이 알고리즘은 새로운 작업이 도착할 때마다 다음 네 가지 우선순위에 따라 잠정적 스케줄을 갱신합니다. 1. 빈 시간대에 작업 추가. 2. 기존에 예약된 미래 작업보다 현저히 작은 작업으로 교체. 3. 현재 실행 중인 작업의 남은 시간보다 도착한 작업이 더 짧을 경우 실행 중인 작업 중단 및 교체. 4. 위 조건에 해당하지 않을 경우 새 작업 폐기. 이 연구 결과는 자원 공급이 불규칙한 클라우드 시스템에서 이론적 보장을 갖춘 견고한 스케줄러를 구축할 수 있는 근거를 제공하며, 특히 저순위 배치 작업의 효율성을 극대화하는 데 실질적인 도움을 줄 수 있습니다.

approximation-algorithms cloud-computing scheduling-algorithms theoretical-computer-science+3

google

]" or "[Name] 소개: (새 탭에서 열림)

Google Research가 발표한 GIST(Greedy Independent Set Thresholding) 알고리즘은 거대 데이터셋에서 데이터의 다양성과 효용성을 동시에 극대화하는 혁신적인 샘플링 기술입니다. 이 알고리즘은 수학적으로 증명 가능한 성능 보장을 제공하며, 이미지 분류와 같은 기계 학습 작업에서 기존의 최첨단 벤치마크 모델들을 능가하는 효율적인 데이터 부분 집합 선택을 가능하게 합니다. 이를 통해 모델 학습에 필요한 컴퓨팅 자원을 획기적으로 줄이면서도 모델의 정확도를 유지할 수 있는 최적의 데이터 구성이 가능해졌습니다. ### 데이터 다양성과 효용성의 충돌 데이터 샘플링 과정에서는 중복을 피하는 '다양성'과 정보의 가치를 높이는 '효용성'이라는 두 가지 상충하는 목표를 균형 있게 달성해야 합니다. * **다양성(Diversity):** 데이터 포인트 간의 최소 거리를 최대화(Max-min diversity)하여 중복을 제거하고 데이터의 전체적인 분포를 포괄하는 것을 목표로 합니다. * **효용성(Utility):** 단조 부차함수(Monotone submodular functions)를 기반으로, 선택된 데이터셋이 가진 고유 정보의 총합을 극대화하는 것입니다. * **복잡성:** 다양성만 추구하면 관련 없는 데이터가 섞일 수 있고, 효용성만 따지면 유사한 고가치 데이터가 밀집되는 문제가 발생하며, 이 둘을 동시에 최적화하는 것은 NP-난해(NP-hard) 문제로 알려져 있습니다. ### GIST의 작동 원리와 알고리즘 단계 GIST는 복잡한 최적화 문제를 해결하기 위해 거리 임계값(Threshold)을 설정하고 이를 기반으로 독립 집합(Independent Set)을 근사화하는 방식을 취합니다. * **거리 임계값 설정:** 특정 최소 거리를 기준으로 그보다 가까운 데이터 포인트들을 그래프로 연결합니다. 이 연결된 포인트들은 서로 너무 유사하여 동시에 선택될 수 없는 '갈등' 관계로 간주됩니다. * **최대 독립 집합 문제 해결:** 연결된 포인트(중복 데이터)를 피하면서 전체 효용성을 극대화하는 '최대 독립 집합' 문제를 해결합니다. 이는 전산학에서 매우 어려운 문제이므로 GIST는 이를 효율적으로 풀기 위한 근사 기법을 사용합니다. * **이중 기준 그리디(Bicriteria Greedy) 알고리즘:** 다양한 거리 임계값을 체계적으로 테스트하며, 각 단계에서 이미 선택된 데이터와 일정 거리를 유지하면서도 가장 가치가 높은 데이터를 선택하여 최적의 '스위트 스폿'을 찾아냅니다. ### 기술적 성과 및 이론적 보장 GIST는 이론적 성능 보장과 실제 적용 결과 모두에서 기존 방식들을 압도하는 성과를 보여주었습니다. * **수학적 보장:** GIST는 이론적 최적해의 최소 50% 이상의 가치를 보장하는 최초의 알고리즘입니다. 연구진은 최적값의 56% 이상을 찾는 것이 수학적으로 불가능함을 증명함으로써 GIST가 이론적 한계치에 근접했음을 입증했습니다. * **실전 벤치마크 결과:** 무작위 추출(Random), 모델 불확실성 기반 추출(Margin), 기하학적 커버리지 중심의 k-center 방식보다 높은 성능을 기록했습니다. * **범용성:** 이미지 분류 등 다양한 ML 애플리케이션에서 데이터 중복은 줄이고 유용한 정보량은 극대화하는 안전장치(Safety net) 역할을 수행합니다. 방대한 데이터를 다루는 LLM이나 고해상도 비전 모델의 학습 비용을 절감하고자 하는 연구자와 개발자에게 GIST는 매우 유용한 도구입니다. 특히 데이터의 중복성이 높거나 학습 자원이 제한된 환경에서 수학적으로 검증된 샘플링 전략을 통해 효율적인 모델 학습 파이프라인을 구축할 것을 권장합니다.

approximation-algorithms machine-learning subset-selection data-sampling+4

google

연구 파트너로서의 AI (새 탭에서 열림)

Google DeepMind는 LLM 기반 코딩 에이전트인 AlphaEvolve를 활용해 복잡도 이론(Complexity Theory)의 난제를 해결하고 새로운 수학적 구조를 발견하는 성과를 거두었습니다. 이 연구는 AI가 단순히 문제를 푸는 수준을 넘어, '리프팅(Lifting)' 기법을 통해 유한한 구조를 최적화함으로써 보편적인 수학적 정리를 증명하는 강력한 연구 파트너가 될 수 있음을 보여줍니다. 결과적으로 MAX-4-CUT 문제의 근사 난이도와 무작위 그래프 특성 인증 분야에서 기존 기록을 경신하며 이론 전산학의 지평을 넓혔습니다. ### AlphaEvolve의 반복적 진화 메커니즘 * AlphaEvolve는 Gemini와 같은 LLM을 기반으로 코드를 반복적으로 진화시키는 피드백 루프 시스템입니다. * 초기 코드 조각(Population)에서 시작하여 생성된 구조의 성능을 평가하고, 가장 우수한 코드를 LLM이 변형(Morph)하여 더 나은 솔루션을 찾아가는 과정을 반복합니다. * 수학 및 이론 전산학에서 요구되는 절대적인 정확성을 보장하기 위해, AI가 생성한 모든 수학적 구조는 인간의 개입 없이 컴퓨터 프로그램에 의해 자동으로 검증되도록 설계되었습니다. ### '리프팅(Lifting)'을 통한 유한 구조의 보편적 증명 확장 * AI는 특정 사례(유한한 구조)를 찾는 데 능숙하지만, 전산학 정리는 모든 문제 크기($\forall n$)에 대해 성립해야 한다는 간극이 존재합니다. * 연구진은 전체 증명 프레임워크 내에서 특정 부분(유한한 구조)만 AI로 최적화하고, 이를 다시 전체 증명에 결합하여 보편적인 결과로 확장하는 '리프팅' 기법을 도입했습니다. * 특히 기존에 연구자들이 수작업으로 설계하던 복잡한 '가젯 리덕션(Gadget reduction)'을 AlphaEvolve가 수행하게 함으로써, 인간이 발견하기 어려운 정교하고 효율적인 구조를 도출해냈습니다. ### 복잡도 이론에서의 주요 성과 * **MAX-4-CUT 문제의 한계 돌파:** 그래프의 노드를 4개의 집합으로 분할할 때 가로지르는 엣지를 최대화하는 문제에서, 기존 기록을 경신하는 새로운 근사 불가능성(Inapproximability) 하한선을 제시했습니다. * **무작위 그래프(Random Graphs) 인증:** 무작위 그래프의 특정 성질을 인증하는 데 필요한 '평균 사례 난이도(Average-case hardness)'의 경계를 더욱 정밀하게 좁히는 데 성공했습니다. * 이러한 성과들은 AI가 발견한 유한한 구조를 기존의 견고한 수학적 증명 체계에 성공적으로 통합할 수 있음을 입증합니다. 이 연구는 AI가 정교한 증명 요소를 생성하고 이를 시스템이 검증하는 협업 모델이 이론적 난제 해결에 실질적인 돌파구를 마련할 수 있음을 보여줍니다. 이론 전산학 연구자들은 앞으로 AI를 단순한 보조 도구가 아닌, 인간의 직관을 넘어서는 복잡한 증명 구조를 설계하고 최적화하는 핵심 연구 파트너로 활용할 수 있을 것입니다.

approximation-algorithms ai llm gemini+5