Meta

9 개의 포스트

engineering.fb.com

태그로 필터

meta

* Option (새 탭에서 열림)

페이스북 릴스(Facebook Reels)는 단순한 '좋아요'나 시청 시간 같은 지표를 넘어, 사용자 피드백을 직접 활용하여 개인화된 추천 시스템의 성능을 대폭 개선했습니다. 새롭게 도입된 UTIS(User True Interest Survey) 모델은 사용자의 실제 관심사를 정밀하게 파악함으로써 니치(Niche)한 고품질 콘텐츠의 노출을 늘리고 사용자의 만족도와 유지율을 높이는 데 성공했습니다. 결과적으로 이번 연구는 암묵적인 행동 데이터와 명시적인 사용자 설문을 결합했을 때 추천 시스템의 장기적인 가치가 어떻게 극대화될 수 있는지를 보여줍니다. **기존 행동 지표의 한계와 진정한 관심사 측정** * 기존의 추천 시스템은 시청 시간이나 공유와 같은 행동 신호에 의존하지만, 이러한 데이터는 노이즈가 많고 사용자의 장기적인 만족도를 완전히 반영하지 못하는 한계가 있습니다. * 조사 결과, 기존의 휴리스틱 기반 관심사 파악 방식은 실제 사용자의 관심사를 식별하는 데 있어 정밀도가 48.3%에 불과한 것으로 나타났습니다. * 페이스북은 단순한 주제 정합성을 넘어 오디오, 제작 스타일, 분위기 등 사용자가 체감하는 다양한 차원을 측정하기 위해 대규모 실시간 설문을 피드 내에 도입했습니다. **UTIS(User True Interest Survey) 모델 프레임워크** * 매일 무작위로 선정된 사용자에게 "이 영상이 당신의 관심사와 얼마나 일치합니까?"라는 질문을 1~5점 척도로 제시하여 실시간 피드백을 수집합니다. * 수집된 설문 데이터는 노이즈를 줄이기 위해 이진화(Binarized) 처리를 거치며, 샘플링 편향을 보정하기 위해 가중치를 적용하여 학습 데이터셋으로 구축됩니다. * 메인 랭킹 모델의 예측값을 입력 피처로 사용하는 경량화된 '인지 레이어(Perception Layer)'를 설계하여, 희소한 설문 데이터를 전체 추천 시스템에 일반화할 수 있도록 구현했습니다. **추천 시스템 파이프라인으로의 통합** * **지연 단계 랭킹(Late Stage Ranking, LSR):** UTIS 모델의 점수를 최종 랭킹 공식의 추가 피처로 투입하여, 관심사 일치도가 높은 영상에는 가산점을 주고 낮은 영상은 순위를 낮추는 정밀 조정을 수행합니다. * **초기 단계 랭킹(Retrieval):** 설문 데이터를 집계하여 사용자의 진정한 관심사 프로필을 재구축하고, 이를 기반으로 후보군을 추출합니다. 또한 지식 증류(Knowledge Distillation) 기법을 활용해 LSR의 UTIS 예측값을 검색 모델 학습에 반영합니다. * 이러한 다단계 통합을 통해 단순 인기 기반의 저품질 콘텐츠 추천은 줄이고, 사용자 개인에게 최적화된 고품질 니치 콘텐츠의 비중을 높였습니다. **성과 및 실용적 함의** * UTIS 모델 도입 이후 리텐션(재방문율) 지표가 유의미하게 개선되었으며 좋아요, 공유, 팔로우와 같은 능동적 참여율도 상승했습니다. * 시청 시간만을 최적화할 때 발생할 수 있는 '저품질 대중 콘텐츠 도배' 문제를 해결하고, 장기적인 플랫폼 건강도를 높이는 결과를 얻었습니다. * 이번 사례는 대규모 추천 시스템을 운영할 때 사용자 행동 데이터(Implicit)와 직접적인 피드백(Explicit)을 결합한 '인지 모델'을 구축하는 것이 정교한 개인화를 위해 필수적임을 시사합니다.

meta

StyleX를 활용한 대 (새 탭에서 열림)

메타는 대규모 코드베이스에서 발생하는 CSS 관리의 어려움을 해결하기 위해 오픈 소스 스타일링 시스템인 StyleX를 개발하여 표준으로 운용하고 있습니다. StyleX는 CSS-in-JS의 편리한 개발 경험과 정적 CSS의 뛰어난 성능을 결합하여, 원자적(Atomic) 스타일링을 통한 번들 크기 최적화와 단순한 API 구조를 동시에 제공합니다. 현재 페이스북, 인스타그램 등 메타의 주요 서비스는 물론 피그마, 스노우플레이크와 같은 외부 대형 기술 기업들에서도 표준 시스템으로 채택되어 그 효용성을 입증하고 있습니다. **StyleX의 핵심 기술적 접근** * **하이브리드 아키텍처:** 런타임 오버헤드가 적은 CSS-in-JS의 사용성을 유지하면서도, 최종 결과물은 정적인 CSS 파일로 추출되어 브라우저 성능을 최적화합니다. * **원자적(Atomic) 스타일링:** 스타일 정의를 최소 단위로 쪼개어 관리하며, 중복된 정의를 제거하는 디두플리케이션(Deduplication) 과정을 통해 웹 사이트의 전체 번들 크기를 효과적으로 줄입니다. * **확장성 있는 API:** 대규모 개발 팀이 협업할 때 일관된 스타일 규칙을 적용할 수 있도록 설계되었으며, 복잡한 UI 구성 요소에서도 성능 저하 없이 스타일을 적용할 수 있습니다. **메타 내부 및 외부 생태계의 도입 현황** * **글로벌 서비스의 표준화:** 페이스북, 인스타그램, 왓츠앱, 메신저, 스레드 등 메타의 모든 주요 플랫폼에서 표준 스타일링 라이브러리로 사용되고 있습니다. * **업계 전반의 확산:** 메타 외부에서도 기술적 완성도를 인정받아 피그마(Figma)와 스노우플레이크(Snowflake) 같은 기업들이 자사 시스템에 StyleX를 도입하여 운영 중입니다. * **오픈 소스 시너지:** 프로젝트 메인테이너들은 외부 기업 및 커뮤니티와의 상호작용을 통해 프로젝트의 완성도를 높이고 있으며, 이는 기술적 발전을 가속화하는 기폭제 역할을 하고 있습니다. **실무적 가치와 권장 사항** StyleX는 대규모 웹 애플리케이션을 구축할 때 성능과 유지보수성 사이의 타협점을 찾는 팀에게 강력한 해결책이 됩니다. 특히 프로젝트의 규모가 커짐에 따라 CSS 파일 크기가 비대해지는 문제를 겪고 있다면, 메타의 검증된 원자적 CSS 기법을 제공하는 StyleX 도입을 통해 효율적인 번들링과 일관된 스타일 아키텍처를 구축할 것을 권장합니다.

meta

2025 파이썬 타이 (새 탭에서 열림)

2025년 파이썬 타입(Typed Python) 설문조사 결과, 응답자의 86%가 타입 힌트를 일상적으로 사용할 만큼 파이썬 생태계에서 타입 시스템이 핵심적인 위치를 차지하고 있음이 확인되었습니다. 개발자들은 타입 힌트를 통해 코드 가독성 향상과 버그 예방 효과를 누리고 있지만, 외부 라이브러리의 불완전한 타입 지원과 복잡한 제네릭 사용에는 여전히 어려움을 느끼고 있습니다. 향후 파이썬 타입 시스템은 TypeScript 수준의 유연한 타입 표현력과 런타임 성능 최적화를 지향하는 방향으로 발전할 것으로 보입니다. ### 높은 채택률과 경험 수준별 활용 양상 * 전체 응답자의 86%가 타입 힌트를 "항상" 또는 "자주" 사용한다고 답하여, 파이썬 개발에서 타입 시스템이 표준으로 자리 잡았음을 보여주었습니다. * 경력 5~10년 차 개발자의 채택률이 93%로 가장 높았으며, 이는 중견 개발자들이 타입 시스템의 이점을 가장 적극적으로 수용하고 있음을 시사합니다. * 반면 10년 이상의 숙련된 개발자(80%)와 2년 미만의 신입 개발자(83%)는 상대적으로 낮은 채택률을 보였는데, 이는 각각 레거시 코드베이스의 영향과 타입 시스템의 학습 곡선 때문으로 분석됩니다. ### 파이썬 타입 시스템의 주요 장점 * **점진적 채택(Gradual Adoption):** 기존 코드에 선택적으로 타입을 도입할 수 있는 유연성이 개발자들에게 가장 큰 매력으로 작용합니다. * **문서화 및 가독성:** 타입 힌트가 코드 내 문서 역할을 하여 대규모 프로젝트에서 로직을 이해하고 협업하는 효율을 높여줍니다. * **IDE 도구 지원:** 자동 완성, 정의 이동(Jump-to-definition), 인라인 타입 힌트 등 개발 환경의 생산성을 비약적으로 향상시킵니다. * **Pydantic 및 FastAPI 연동:** 런타임에 타입을 검사하고 활용하는 라이브러리와의 강력한 시너지 효과를 높게 평가했습니다. ### 현장에서 겪는 주요 기술적 난관 * **서드파티 라이브러리 지원 부족:** NumPy, Pandas, Django 등 널리 쓰이는 라이브러리의 타입 주석이 불완전하거나 부정확하여 연동에 어려움을 겪고 있습니다. * **고급 기능의 복잡성:** 제네릭(Generics), TypeVar, 공변성/반공변성(Co/Contravariance), 복잡한 콜백 함수 정의 등이 이해하기 어렵다는 의견이 많았습니다. * **도구의 파편화 및 성능:** Mypy와 Pyright 간의 검사 결과가 일치하지 않는 경우가 잦으며, 대규모 코드베이스에서 Mypy의 검사 속도가 느린 점이 페인 포인트로 지적되었습니다. * **가독성과 장황함:** 복잡한 데이터 구조에 타입을 적용할 때 코드가 지나치게 길어지고 '파이썬답지(Pythonic)' 않게 느껴진다는 비판도 존재합니다. ### 향후 요구되는 주요 기능 * **TypeScript 스타일의 기능 도입:** 교차 타입(Intersection types, `&`), 매핑 타입(Mapped types), 조건부 타입 등 더 강력한 타입 표현력을 요구하고 있습니다. * **유틸리티 타입:** TypeScript의 `Pick`, `Omit`, `keyof`와 같은 편리한 타입 조작 도구에 대한 수요가 높습니다. * **런타임 강제성 및 성능:** 타입 정보를 활용하여 런타임에 실제 성능을 최적화하거나, 타입을 강제로 검증할 수 있는 기능이 필요하다는 의견이 많았습니다. 파이썬 타입 시스템은 이제 선택이 아닌 현대적 파이썬 개발의 표준으로 진화했습니다. 신규 프로젝트라면 Pyright와 같은 최신 도구를 적극 활용하여 엄격한 타입 체크를 권장하며, 복잡한 제네릭보다는 명확한 프로토콜(Protocols)과 데이터 클래스를 활용하여 가독성과 안정성을 동시에 챙기는 전략이 실무적으로 유용합니다.

meta

DrP: 대규모 환경을 위한 (새 탭에서 열림)

Meta가 개발한 **DrP(Root Cause Analysis platform)**는 대규모 시스템에서 발생하는 장애 조사 과정을 프로그래밍 방식으로 자동화하여 평균 복구 시간(MTTR)을 혁신적으로 단축하는 플랫폼입니다. 기존의 수동 조사와 노후화된 플레이북이 유발하는 온콜(On-call) 엔지니어의 피로도 문제를 해결하기 위해, 분석 로직을 코드로 작성하고 실행할 수 있는 통합 환경을 제공합니다. 현재 Meta 내 300개 이상의 팀에서 매일 5만 건 이상의 분석을 수행하며, 장애 복구 시간을 20%에서 최대 80%까지 줄이는 성과를 내고 있습니다. ### DrP의 핵심 구성 요소 * **표현력이 풍부한 SDK**: 엔지니어가 조사 워크플로우를 '분석기(Analyzer)'라는 코드로 구현할 수 있게 돕습니다. 이상 탐지, 시계열 상관관계 분석, 차원 분석 등 복잡한 데이터 분석을 위한 머신러닝 알고리즘과 헬퍼 라이브러리를 포함합니다. * **확장 가능한 백엔드**: 수만 건의 분석을 동시에 처리할 수 있는 멀티 테넌트 실행 환경을 제공하며, 각 분석 작업이 안전하게 격리되어 실행되도록 보장합니다. * **워크플로우 통합 및 후처리**: 알림(Alert) 시스템 및 장애 관리 도구와 긴밀하게 통합되어 장애 발생 시 자동으로 분석을 시작합니다. 분석 후에는 티켓 생성이나 코드 수정 요청(PR)과 같은 후속 조치를 자동으로 수행하는 기능도 갖추고 있습니다. ### 분석기(Analyzer)의 작성 및 실행 흐름 * **코드 기반 플레이북 작성**: 엔지니어는 SDK를 사용하여 장애 조사의 의사결정 트리를 코드로 작성합니다. 이 과정에서 종속된 서비스들의 분석기를 서로 연결(Chaining)하여 복합적인 장애 원인을 추적할 수 있습니다. * **자동화된 검증**: 작성된 분석기는 배포 전 코드 리뷰 도구와 통합된 백테스트(Backtesting) 과정을 거쳐 품질과 신뢰성을 검증받습니다. * **즉각적인 통찰력 제공**: 장애가 감지되면 DrP 백엔드가 즉시 분석기를 가동합니다. 온콜 엔지니어는 장애 알림을 받는 동시에 시스템이 이미 분석해 놓은 근본 원인과 권장 조치 사항을 확인할 수 있습니다. ### 도입 효과 및 운영 가치 * **MTTR의 획기적 단축**: 수동으로 몇 시간씩 걸리던 데이터 수집과 분류 작업을 자동화함으로써 장애 복구 속도를 가속화하고 시스템 가용성을 높입니다. * **온콜 생산성 향상**: 반복적이고 소모적인 디버깅 작업을 기계가 대신 처리하게 함으로써 엔지니어가 더 복잡하고 가치 있는 문제 해결에 집중할 수 있게 합니다. * **조사의 일관성 확보**: 개인의 숙련도에 의존하던 조사 방식을 코드화된 워크플로우로 표준화하여, 어떤 엔지니어가 대응하더라도 동일한 수준의 고품질 분석 결과를 얻을 수 있습니다. **결론적으로**, DrP는 대규모 마이크로서비스 환경에서 발생하는 복잡한 장애를 해결하기 위해 '운영의 코드화'를 실현한 사례입니다. 시스템 규모가 커짐에 따라 수동 대응의 한계를 느끼는 조직이라면, DrP와 같은 자동화된 RCA 플랫폼을 도입하여 인프라의 안정성과 엔지니어의 생산성을 동시에 확보하는 전략이 권장됩니다.

meta

Meta Ray-Ban 디 (새 탭에서 열림)

메타(Meta)의 가장 진보된 AI 안경인 '메타 레이밴 디스플레이(Meta Ray-Ban Display)'는 스타일과 기술의 경계를 허물며 웨어러블 디바이스의 새로운 기준을 제시합니다. 이 프로젝트는 하드웨어 설계의 물리적 한계와 AR 전용 사용자 인터페이스(UI) 개발이라는 복잡한 과제를 해결하며, 단순한 안경을 넘어선 고도의 컴퓨팅 환경을 구축하는 데 집중했습니다. 결과적으로 신경계 손목밴드(EMG Band)와의 결합을 통해 인간과 컴퓨터의 상호작용 방식을 근본적으로 혁신하고자 하는 비전을 담고 있습니다. **차세대 디스플레이 및 하드웨어 설계** * 안경이라는 제한된 폼팩터 내에서 고성능 디스플레이를 구현하기 위해 기존 하드웨어 설계를 뛰어넘는 독창적인 기술이 적용되었습니다. * 하드웨어 설계 과정에서 입자 물리학(Particle Physics)의 원리를 비유적으로 활용할 만큼 정밀하고 복잡한 엔지니어링 접근 방식을 채택했습니다. * 단순한 시각 정보 전달을 넘어 AI 기능이 실시간으로 구동될 수 있는 최적화된 하드웨어 구조를 갖추었습니다. **근전도(EMG) 손목밴드와의 통합** * 메타 뉴럴 밴드(Meta Neural Band)라고 불리는 EMG 손목밴드와 연동되어 작동하며, 이는 안경의 제어 방식을 획기적으로 개선합니다. * 근육의 미세한 전기 신호를 감지하여 사용자의 의도를 파악함으로써, 별도의 물리적 버튼이나 큰 동작 없이도 안경의 기능을 제어할 수 있습니다. * 이러한 결합은 웨어러블 기기가 인체의 일부처럼 자연스럽게 작동하도록 만드는 핵심 요소입니다. **AR 환경을 위한 새로운 UI 패턴** * 스마트폰이나 PC와는 완전히 다른, 안경 형태의 디바이스에 최적화된 새로운 UI 디자인 패턴을 개발했습니다. * 사용자의 시야를 가리지 않으면서도 필요한 정보를 직관적으로 전달할 수 있는 사용자 경험(UX) 설계에 집중했습니다. * 초기 프로토타입 단계인 'Zero'에서 제품의 완성도를 높이는 'Polish' 단계까지 끊임없는 반복 수정을 거쳐 인터페이스를 다듬었습니다. **점진적 혁신을 중시하는 개발 문화** * 빠르게 변화하는 기술 환경 속에서 최종 결과물뿐만 아니라 과정 중의 작은 성취(Incremental Wins)를 축하하고 공유하는 문화를 유지합니다. * 서로 다른 분야의 엔지니어들이 협업하며 하위 수준의 프레임워크부터 상위 사용자 기능까지 유기적으로 연결하는 구조를 지향합니다. 메타 레이밴 디스플레이의 개발 사례는 하드웨어와 소프트웨어, 그리고 인간 공학의 경계에서 발생하는 난제들을 어떻게 해결해야 하는지 보여줍니다. 미래의 웨어러블 엔지니어링은 단순히 기기를 만드는 것이 아니라, 일상에 스며드는 '보이지 않는 기술'을 구현하기 위해 물리학적 정밀함과 심도 있는 UX 연구를 병합하는 방향으로 나아가야 할 것입니다.

meta

AI가 기본 보안 설계( (새 탭에서 열림)

Meta는 잠재적으로 위험한 OS 및 서드파티 기능을 안전한 기본값(Secure-by-default)으로 래핑하는 프레임워크를 통해 개발자의 속도를 유지하면서도 보안을 강화하고 있습니다. 이러한 프레임워크는 기존 API와 유사한 구조를 가져가고 공개된 안정적 API를 기반으로 설계되어 개발자의 마찰을 최소화하고 채택률을 극대화합니다. 특히 생성형 AI와 자동화 기술을 결합함으로써 대규모 코드베이스 전반에 걸쳐 취약한 패턴을 식별하고 보안 프레임워크로의 전환을 가속화하고 있습니다. ### 기본 보안 프레임워크의 설계 원칙 * **기존 API와의 유사성 유지**: 보안 API를 기존의 익숙한 API와 유사하게 설계하여 개발자의 인지적 부담을 줄이고, 불안전한 코드에서 안전한 코드로의 자동 변환을 용이하게 합니다. * **공개 및 안정적 API 기반 구축**: OS 제조사나 서드파티의 비공개 API 대신 공개된 안정적 API 위에 프레임워크를 빌드하여, OS 업데이트 시 발생할 수 있는 호환성 문제와 유지보수 위험을 방지합니다. * **범용적 사용성 확보**: 특정 보안 사례에만 국한되지 않고 다양한 앱과 OS 버전에서 폭넓게 사용할 수 있도록 소규모 라이브러리 형태로 설계하여 배포와 유지보수의 효율성을 높입니다. ### SecureLinkLauncher(SLL)를 통한 인텐트 하이재킹 방지 * **인텐트 유출 차단**: Android의 인텐트 시스템을 통해 민감한 정보가 외부로 유출되는 '인텐트 하이재킹' 취약점을 해결하기 위해 개발되었습니다. * **의미론적 API 래핑**: `startActivity()`나 `startActivityForResult()` 같은 표준 Android API를 `launchInternalActivity()`와 같은 보안 API로 래핑하여, 내부적으로 보안 검증 절차를 거친 후 안전하게 인텐트를 전송합니다. * **범위 검증(Scope Verification) 강제**: 인텐트가 타겟팅하는 패키지를 명확히 제한함으로써, 악성 앱이 동일한 인텐트 필터를 사용하여 민감한 데이터를 가로채는 것을 원천적으로 방지합니다. ### AI 및 자동화를 활용한 보안 채택 가속화 * **취약 패턴 자동 식별**: 생성형 AI 도구를 활용하여 방대한 코드베이스 내에서 보안에 취약한 API 사용 패턴을 실시간으로 감지합니다. * **코드 마이그레이션 자동화**: AI가 안전하지 않은 API 호출을 적절한 보안 프레임워크 호출로 자동 교체하거나 수정 제안을 제공하여 대규모 코드 전환 비용을 절감합니다. * **일관된 보안 규정 준수**: 자동화된 모니터링을 통해 개발 초기 단계부터 보안 프레임워크 사용을 강제함으로써 전체 에코시스템의 보안 수준을 상향 평준화합니다. 보안을 위해 개발자 경험(DX)을 희생하는 대신, 기존 개발 워크플로우에 자연스럽게 스며드는 도구를 제공하는 것이 핵심입니다. 특히 대규모 조직일수록 AI를 활용한 자동 마이그레이션 전략을 병행하여 보안 프레임워크의 도입 장벽을 낮추고 코드의 안전성을 지속적으로 유지할 것을 권장합니다.

meta

Zoomer: 지능형 디 (새 탭에서 열림)

Meta는 수십만 개의 GPU를 운용하는 대규모 AI 인프라의 효율성을 극대화하기 위해 자동화된 디버깅 및 최적화 플랫폼인 **Zoomer**를 도입했습니다. Zoomer는 트레이닝과 추론 워크로드 전반에 걸쳐 심층적인 성능 인사이트를 제공하여 에너지 소비를 줄이고 워크플로우를 가속화하는 역할을 합니다. 이를 통해 Meta는 모델 트레이닝 시간을 단축하고 초당 쿼리 처리 수(QPS)를 유의미하게 개선하며 AI 인프라 최적화의 표준을 구축했습니다. **통합 분석을 위한 3계층 아키텍처** * **인프라 및 플랫폼 계층**: Meta의 블롭 스토리지 플랫폼인 Manifold를 기반으로 분산 저장 시스템을 구축하여, 수천 대의 호스트에서 발생하는 방대한 트레이스 데이터를 안정적으로 수집하고 처리합니다. * **분석 및 인사이트 엔진**: Kineto와 NVIDIA DCGM을 통한 GPU 분석, StrobeLight 기반의 CPU 프로파일링, dyno 원격 측정을 통한 호스트 지표 분석을 결합합니다. 이를 통해 분산 학습 시 발생하는 스트래글러(straggler) 감지, 메모리 할당 패턴 분석, 통신 패턴 최적화 등의 기능을 수행합니다. * **시각화 및 UI 계층**: 복잡한 성능 데이터를 직관적인 타임라인, 히트맵, 대시보드로 변환합니다. Perfetto와 통합되어 커널 수준의 검사가 가능하며, 하드웨어 활용도가 낮은 outlier를 신속하게 식별할 수 있는 요약 정보를 제공합니다. **지능형 프로파일링 트리거 및 데이터 수집** * **자동화된 트리거**: 트레이닝 워크로드의 경우 초기 시작 시점의 노이즈를 피해 안정적인 상태인 550~555회 반복(iteration) 시점에서 자동으로 프로파일링을 수행합니다. 추론 워크로드는 온디맨드 방식이나 자동화된 부하 테스트 시스템과 연동하여 트리거됩니다. * **포괄적 데이터 캡처**: SM 활용도, 텐서 코어 가동률, GPU 메모리 대역폭 등 하위 레벨 지표뿐만 아니라 CPU, 네트워크 I/O, 스토리지 액세스 패턴을 동시에 수집하여 시스템 전반의 병목 현상을 파악합니다. * **추론 및 통신 특화 분석**: 추론 환경에서는 서버 레이턴시와 요청당 메모리 할당 패턴을 정밀 분석하며, 분산 학습 환경에서는 NCCL 집합 통신 작업과 노드 간 통신 효율성을 집중적으로 검사합니다. **실제 적용 성과 및 운영 효율화** * Zoomer는 광고 추천, 생성형 AI(GenAI), 컴퓨터 비전 등 Meta의 핵심 모델 서비스에 적용되어 매일 수만 개의 프로파일링 보고서를 생성하고 있습니다. * 성능 안티 패턴을 자동으로 감지하고 실행 가능한 최적화 권고 사항을 제공함으로써, 엔지니어가 수동으로 병목 지점을 찾는 데 드는 시간을 대폭 줄였습니다. * 불필요한 리소스 낭비를 제거하여 확보된 컴퓨팅 자원을 더 큰 모델 트레이닝이나 사용자 서비스 확대에 재투자함으로써 인프라 전반의 선순환 구조를 실현했습니다. Zoomer는 대규모 GPU 클러스터를 운영하는 조직에서 성능 튜닝을 자동화하고 표준화하는 것이 얼마나 중요한지를 보여주는 사례입니다. 인프라의 1% 효율 개선이 막대한 비용 절감과 혁신 가속화로 이어지는 만큼, Zoomer와 같은 통합 최적화 플랫폼은 생성형 AI 시대의 핵심 인프라 기술로 평가받습니다.

meta

메신저에 도입된 키 투 (새 탭에서 열림)

메타(Meta)는 메신저의 종단간 암호화(E2EE) 보안을 한 단계 강화하기 위해 '키 투명성(Key Transparency)' 시스템을 도입했습니다. 이 시스템은 사용자가 대화 상대의 공개 키가 변조되지 않았음을 자동으로 검증할 수 있게 하여, 메타를 포함한 그 누구도 중간에서 메시지를 가로챌 수 없도록 보장하는 강력한 신뢰 계층을 제공합니다. **키 투명성의 개념과 사용자 편의성** * 키 투명성은 메시지 암호화에 사용되는 공개 키의 변경 이력을 누구나 확인하고 감사할 수 있도록 기록하는 시스템입니다. * 기존에는 사용자가 보안 코드를 직접 비교하는 수동 검증 방식이 있었으나, 여러 기기를 사용하거나 기기를 교체할 때마다 매번 확인해야 하는 번거로움이 있었습니다. * 새로운 시스템은 이러한 검증 과정을 자동화하여, 사용자가 복잡한 절차 없이도 자신의 대화가 올바른 키로 암호화되고 있음을 확신할 수 있게 합니다. **신뢰성 확보를 위한 외부 감사 아키텍처** * 메타는 자사의 AKD(Auditable Key Directory) 라이브러리를 활용하여 키를 안전하게 배포하고 관리합니다. * 시스템의 객관성을 높이기 위해 클라우드플레어(Cloudflare)를 독립적인 외부 감사자(Auditor)로 지정했습니다. * 클라우드플레어는 키 투명성 대시보드를 통해 실시간 로그를 유지하며, 이를 통해 누구나 키 배포 과정이 투명하게 이루어지고 있는지 직접 확인할 수 있습니다. **대규모 데이터 처리를 위한 기술적 최적화** * 메신저의 방대한 규모로 인해 약 2분마다 수십만 개의 새로운 키가 추가되며, 현재 데이터베이스에는 이미 수십억 개의 키 항목이 저장되어 있습니다. * 데이터가 기하급수적으로 늘어나는 상황에서도 빠른 검증을 유지하기 위해, 키 버전이 증가해도 증명(Proof) 데이터의 크기가 일정 수준을 유지하도록 알고리즘 효율성을 대폭 개선했습니다. * 과거 트리 높이에 따라 선형적으로 증가하던 증명 크기 문제를 해결하여, 수십억 개의 노드가 존재하는 트리 구조에서도 실시간 조회가 가능하도록 최적화했습니다. * 왓츠앱(WhatsApp)의 키 투명성 운영 경험을 바탕으로, 일시적인 장애 상황에서도 데이터 순서가 뒤섞이지 않고 신속하게 복구될 수 있는 인프라 탄력성을 확보했습니다. 이 기능은 현재 메신저의 1:1 채팅에 적용되어 있으며, 사용자들은 별도의 설정 없이도 자동화된 보안 검증의 혜택을 누릴 수 있습니다. 보안에 민감한 사용자라면 클라우드플레어의 공개 대시보드를 통해 시스템의 무결성을 직접 모니터링해 보는 것을 추천합니다.

meta

적응형 실험을 위한 오픈 (새 탭에서 열림)

메타(Meta)에서 공개한 Ax 1.0은 기계 학습을 활용해 복잡하고 자원 소모가 큰 실험 과정을 자동화하고 최적화하는 오픈소스 적응형 실험 플랫폼입니다. 베이지안 최적화를 기반으로 시스템의 다양한 설정을 효율적으로 탐색하며, AI 모델 튜닝부터 인프라 최적화까지 폭넓은 분야에서 실질적인 성능 향상을 이끌어내고 있습니다. 연구자와 개발자는 Ax를 통해 최소한의 실험 횟수로 최적의 설정을 찾는 동시에 시스템에 대한 심도 있는 통찰을 얻을 수 있습니다. **적응형 실험의 필요성과 Ax의 활용 사례** * 현대 AI 모델이나 복잡한 인프라 시스템은 설정 가능한 변수가 방대하며, 단 한 번의 설정을 테스트하는 데도 막대한 시간과 자원이 소모되는 문제가 있습니다. * Ax는 이전 실험 결과를 바탕으로 다음 실험 대상을 순차적으로 제안하는 '적응형 실험' 방식을 통해 실험 효율을 극대화합니다. * 메타 내부에서는 하이퍼파라미터 최적화(HPO)뿐만 아니라 생성형 AI의 데이터 혼합 비율 탐색, 컴파일러 플래그 튜닝, AR/VR 하드웨어 설계 등 하드웨어와 소프트웨어를 아우르는 다양한 영역에 적용되고 있습니다. **베이지안 최적화 기반의 핵심 작동 원리** * Ax는 내부적으로 BoTorch 라이브러리를 사용하여 탐색(새로운 영역 학습)과 활용(기존 우수 영역 정밀화)의 균형을 맞추는 베이지안 최적화를 수행합니다. * 가우시안 프로세스(Gaussian Process)를 대리 모델(Surrogate Model)로 활용하여, 데이터가 적은 상태에서도 예측값과 불확실성을 동시에 정량화합니다. * 기대 개선량(Expected Improvement, EI) 획득 함수를 통해 현재까지 발견된 최적값보다 더 나은 결과를 낼 가능성이 가장 높은 다음 후보 지점을 식별합니다. * 이러한 반복적인 루프를 통해 수백 개의 파라미터가 얽힌 고차원 공간에서도 실험 예산을 낭비하지 않고 최적의 해에 도달합니다. **다중 목적 최적화와 시스템 분석 기능** * 실제 운영 환경에서의 실험은 단일 지표 개선뿐 아니라 여러 제약 조건과 가드레일 사이의 균형을 맞춰야 하며, Ax는 이러한 다중 목적 최적화를 지원합니다. * 단순히 최적값을 찾는 것을 넘어, 파레토 프런티어(Pareto frontier) 분석을 통해 서로 충돌하는 지표 간의 트레이드오프를 시각적으로 보여줍니다. * 민감도 분석(Sensitivity Analysis) 도구를 제공하여 각 입력 변수가 최종 결과에 얼마나 기여하는지 설명하고, 시스템의 작동 원리에 대한 깊은 이해를 돕습니다. * 실험 상태 관리 및 오케스트레이션 자동화 기능을 갖추고 있어 연구용 프로토타입부터 실제 프로덕션 시스템까지 유연하게 통합 가능합니다. 복잡한 시스템의 성능 최적화가 필요하거나 실험 비용을 절감하고자 하는 조직이라면 `pip install ax-platform`을 통해 Ax를 도입해 볼 것을 추천합니다. 특히 블랙박스 형태의 최적화에 그치지 않고 시각화 및 진단 도구를 통해 시스템 내부의 변수 간 상호작용을 파악할 수 있다는 점이 큰 강점입니다.