Meta

33 개의 포스트

engineering.fb.com

태그로 필터

meta

메타가 종단간 암호화된 백업을 강화하는 방법 (새 탭에서 열림)

Meta는 하드웨어 보안 모듈(HSM) 기반의 백업 키 저장소를 통해 왓츠앱(WhatsApp)과 메신저(Messenger)의 종단간 암호화(E2EE) 백업 보안을 강화하고 있습니다. 이 시스템은 사용자의 복구 코드를 위변조 방지 하드웨어에 저장하여 Meta나 클라우드 제공업체를 포함한 제3자의 접근을 원천 차단하며, 최근 무선(OTA) 키 배포 방식과 배포 투명성 강화를 통해 인프라의 신뢰성을 한층 더 높였습니다. ### HSM 기반 백업 키 저장소의 구조 * 지리적으로 분산된 여러 데이터 센터에 HSM 함대(Fleet)를 구축하고, 다수결 합의(Majority-consensus) 복제 방식을 통해 하드웨어 수준의 복원력과 보안성을 확보합니다. * 사용자의 메시지 복구 코드는 HSM 내부에서만 관리되므로 외부에서는 절대 탈취할 수 없는 구조를 가집니다. * 최근 패스키(Passkeys) 지원을 통해 편의성을 높인 데 이어, 기존 비밀번호 기반 암호화 백업 인프라를 보호하기 위한 보안 업데이트를 지속적으로 적용하고 있습니다. ### 무선(OTA) 함대 키 배포 메커니즘 * 메신저 앱의 경우 앱 업데이트 없이도 새로운 HSM 함대를 유연하게 도입할 수 있도록, HSM 응답 과정에서 함대 공개 키를 무선(Over-the-Air)으로 전달하는 방식을 구축했습니다. * 키 배포의 신뢰성을 보장하기 위해 공개 키는 '검증 번들(Validation bundle)' 형태로 제공되며, 이는 Cloudflare의 서명과 Meta의 교차 서명을 통해 독립적인 암호화 증명을 제공합니다. * Cloudflare는 모든 검증 번들에 대한 감사 로그를 유지하여 배포 과정의 무결성을 외부에서 확인할 수 있도록 지원합니다. ### 배포 투명성 및 검증 가능성 * Meta는 시스템이 설계대로 작동하며 사용자 백업에 접근할 수 없음을 증명하기 위해, 새로운 HSM 함대를 배포할 때마다 보안 증거를 블로그 등을 통해 외부에 공개하기로 했습니다. * 함대 배포는 보통 수년 주기로 드물게 발생하지만, 매 배포 시마다 사용자가 기술 백서의 감사(Audit) 절차를 따라 보안성을 직접 검증할 수 있는 환경을 제공합니다. * 이러한 투명성 강화 조치는 Meta가 보안 백업 분야에서 기술적 리더십을 공고히 하고 사용자 신뢰를 얻기 위한 핵심 전략입니다. 종단간 암호화 백업 시스템의 구체적인 작동 원리와 감사 절차가 궁금한 개발자나 보안 전문가는 Meta가 공개한 "Security of End-To-End Encrypted Backups" 기술 백서를 통해 전체 사양을 상세히 확인할 수 있습니다.

meta

커뮤니티 지식의 힘을 활용하기 위한 페이스북 그룹 검색 현대화 (새 탭에서 열림)

페이스북은 커뮤니티 내 방대한 정보를 사용자가 더 쉽고 정확하게 찾을 수 있도록 그룹 검색 시스템을 하이브리드 검색 아키텍처로 전면 개편했습니다. 기존의 단순 키워드 매칭 방식에서 벗어나 의미론적 이해를 더한 결과, 검색 정확도와 사용자 참여도가 크게 향상되었으며 오류율은 안정적으로 유지되었습니다. 특히 Llama 3를 활용한 자동화된 모델 기반 평가 시스템을 도입함으로써, 대규모 데이터 환경에서도 고도화된 품질 관리가 가능해졌습니다. ### 기존 커뮤니티 검색의 세 가지 마찰 지점 * **발견의 한계(Discovery):** 과거의 어휘 기반 검색은 정확한 키워드가 일치해야만 결과를 반환했습니다. 예를 들어 사용자가 '프로스팅을 얹은 작은 케이크'를 검색할 때, 게시물에 '컵케이크'라는 단어만 있다면 검색 결과에 노출되지 않는 언어적 간극이 존재했습니다. * **소비의 피로도(Consumption):** 사용자가 원하는 답을 얻기 위해 수많은 댓글을 일일이 읽고 합의된 의견을 찾아내야 하는 '노력의 세금(Effort Tax)' 문제가 발생했습니다. * **검증의 어려움(Validation):** 중고 거래나 전문적인 결정이 필요한 상황에서 커뮤니티의 집단 지성을 활용하고 싶어도, 흩어져 있는 전문 지식과 검증된 조언을 체계적으로 수집하기가 쉽지 않았습니다. ### 현대적인 하이브리드 검색 아키텍처 * **병렬 검색 전략:** 쿼리가 들어오면 토큰화 및 정규화를 거친 후, 어휘적 경로와 의미론적 경로라는 두 가지 파이프라인을 동시에 가동합니다. * **어휘적 경로 (Unicorn):** 페이스북의 역색인(Inverted Index) 시스템인 Unicorn을 사용해 고유 명사나 특정 문구가 포함된 게시물을 정확하게 찾아냅니다. * **의미론적 경로 (SSR):** 12레이어, 2억 개의 파라미터를 가진 검색 의미론적 리트리버(SSR) 모델이 쿼리를 벡터로 변환합니다. 이후 Faiss 벡터 인덱스에서 근사 최근접 이웃(ANN) 검색을 수행하여, 키워드가 겹치지 않더라도 개념적으로 유사한 콘텐츠를 추출합니다. ### MTML 아키텍처 기반의 L2 랭킹 * **특징 통합:** 검색 단계에서 수집된 후보군들을 대상으로 TF-IDF, BM25와 같은 어휘적 점수와 코사인 유사도 같은 의미론적 점수를 통합하여 분석합니다. * **다중 작업 다중 레이블(MTML) 모델:** 단일 목표가 아닌 클릭, 공유, 댓글 등 여러 사용자 참여 지표를 동시에 최적화하는 슈퍼모델 구조를 채택했습니다. 이를 통해 단순히 관련성만 높은 글이 아니라, 실제 커뮤니티에서 의미 있는 상호작용을 이끌어낼 수 있는 양질의 콘텐츠를 상위에 노출합니다. ### Llama 3 기반 자동화 평가 * **LLM 판독관 도입:** 고차원 벡터 공간에서의 검색 품질을 사람이 일일이 검증하기 어려운 한계를 극복하기 위해, Llama 3를 빌드 검증 테스트(BVT) 과정에 통합했습니다. * **정교한 품질 측정:** 검색 결과를 단순히 '좋음/나쁨'으로 나누지 않고, 주제나 도메인이 일치하는 '다소 관련 있음' 등의 세분화된 범주를 두어 검색 결과의 다양성과 미세한 관련성 개선 수치를 측정합니다. --- **실용적 제언** 방대한 커뮤니티 데이터를 다루는 서비스라면 단순 키워드 검색만으로는 사용자의 자연어 의도를 충족하기 어렵습니다. 페이스북의 사례처럼 정확도를 보장하는 **어휘적 검색**과 맥락을 파악하는 **의미론적 검색**을 병렬로 운영하고, 랭킹 단계에서 **사용자 반응 데이터(클릭, 공유 등)**를 다각도로 결합하는 하이브리드 전략이 검색 만족도를 높이는 핵심입니다. 또한, LLM을 평가 도구로 활용하면 수동 라벨링 비용을 줄이면서도 정교한 품질 관리가 가능해집니다.

meta

메타의 용량 효율성: 통합 AI 에이전트가 하이퍼스케일에서 성능을 최적화하는 방법 (새 탭에서 열림)

메타(Meta)는 방대한 인프라 전반에서 발생하는 성능 문제를 자동으로 탐지하고 해결하기 위해 시니어 엔지니어들의 전문 지식을 인코딩한 통합 AI 에이전트 플랫폼을 구축했습니다. 이 플랫폼은 수동 조사에 소요되던 시간을 대폭 단축하고 수백 메가와트(MW)의 전력을 절감함으로써, 인력의 증가 없이도 인프라 효율성을 극대화하는 성과를 거두었습니다. 결과적으로 엔지니어들이 반복적인 성능 최적화 작업에서 벗어나 제품 혁신에 더 집중할 수 있는 자가 지속 가능한 효율성 엔진을 구현했습니다. ### 인프라 효율성을 위한 공세와 수비 전략 메타는 30억 명 이상의 사용자에게 서비스를 제공하는 만큼, 단 0.1%의 성능 저하도 막대한 전력 낭비로 이어집니다. 이를 관리하기 위해 두 가지 전략을 병행합니다. * **공세(Offense):** 기존 시스템을 더 효율적으로 만들기 위해 선제적으로 코드 개선 기회를 탐색하고 최적화를 배포합니다. * **수비(Defense):** 프로덕션 환경의 리소스 사용량을 모니터링하여 성능 저하(Regression)를 감지하고, 원인이 된 코드 변경사항을 찾아내어 수정을 배포합니다. * **통합 플랫폼:** 과거에는 이를 위해 별도의 시스템이 필요했으나, 현재는 동일한 구조를 공유하는 단일 AI 에이전트 플랫폼을 통해 두 과정을 모두 자동화합니다. ### MCP 도구와 스킬 기반의 아키텍처 AI 에이전트가 숙련된 엔지니어처럼 행동할 수 있도록 플랫폼은 두 가지 핵심 레이어로 구성됩니다. * **MCP 도구(Tools):** LLM이 코드를 호출할 수 있는 표준화된 인터페이스입니다. 프로파일링 데이터 조회, 실험 결과 추출, 코드 검색, 문서 추출 등 개별적인 작업을 수행합니다. * **스킬(Skills):** 시니어 엔지니어들의 도메인 지식을 인코딩한 영역입니다. "엔드포인트 지연 시 GraphQL 엔드포인트를 확인하라"와 같이 특정 상황에서 어떤 도구를 사용하고 결과를 어떻게 해석할지에 대한 추론 패턴을 LLM에 제공합니다. * **효율성 극대화:** 도구와 스킬의 결합을 통해 범용 언어 모델이 전문적인 성능 최적화 지식을 갖춘 에이전트로 진화하며, 동일한 도구 세트로 공세와 수비 업무를 모두 수행합니다. ### FBDetect와 AI 회귀 해결사(Regression Solver) 수비 측면에서는 미세한 성능 변화를 감지하고 즉각적으로 대응하는 시스템이 작동합니다. * **정밀 탐지:** 사내 도구인 'FBDetect'는 노이즈가 많은 환경에서도 0.005% 수준의 미세한 성능 저하를 잡아냅니다. * **Fix-forward 방식:** 기존에는 성능 저하 발생 시 코드를 롤백하거나 방치하는 경우가 많았으나, 이제는 AI 에이전트가 직접 수정 PR(Pull Request)을 생성합니다. * **자동화 프로세스:** 에이전트가 문제의 증상과 원인이 된 PR을 분석한 후, 로깅 샘플링 조정과 같은 전문 지식을 적용해 수정안을 작성하고 원본 작성자에게 검토를 요청합니다. ### 최적화 기회의 코드화 공세 측면에서는 추상적인 최적화 아이디어를 실제 실행 가능한 코드로 전환합니다. * **조사 시간 단축:** 엔지니어가 수동으로 수행하던 10시간 분량의 조사를 약 30분으로 단축하여 효율성을 높였습니다. * **컨텍스트 분석:** AI 에이전트가 최적화 패턴 문서, 유사 사례, 관련 함수 및 검증 기준을 분석하여 최적화안을 도출합니다. * **원클릭 적용:** 예를 들어 CPU 사용량을 줄이기 위한 메모이제이션(Memoization) 적용 등의 작업을 수행하며, 엔지니어는 에디터에서 AI가 생성한 코드를 확인하고 클릭 한 번으로 적용할 수 있습니다. --- **결론 및 추천** 메타의 사례는 단순한 모니터링을 넘어 **'전문 지식의 스킬화'**를 통해 AI가 직접 코드를 수정하는 단계까지 나아갔음을 보여줍니다. 대규모 인프라를 운영하는 조직이라면 성능 지표의 상관관계를 분석하는 '도구'와 이를 해석하는 시니어의 '노하우(스킬)'를 분리하여 AI 플랫폼에 이식하는 접근 방식을 고려해 볼 필요가 있습니다. 이는 인력 증설 없이도 기술 부채와 인프라 비용을 동시에 해결할 수 있는 강력한 모델이 될 것입니다.

meta

Meta의 양자 내성 암호 마이그레이션: 프레임워크, 교훈 및 시사점 (새 탭에서 열림)

양자 컴퓨터의 발전은 기존의 공개키 암호화 체계를 무력화할 수 있으며, 특히 현재 데이터를 수집해 미래에 복호화하는 '선저장 후복호화(SNDL)' 공격은 지금 당장 대비가 필요한 보안 위협입니다. 메타(Meta)는 이러한 위협에 대응하기 위해 다년간의 포스트 양자 암호(PQC) 전환 계획을 수립하고, NIST 표준(ML-KEM, ML-DSA) 도입과 함께 조직의 준비 상태를 평가할 수 있는 'PQC 성숙도 단계'를 제안합니다. 이를 통해 기업들은 성능 저하를 최소화하면서도 경제적이고 체계적으로 양자 내성 보안 환경으로 이행할 수 있습니다. ### PQC 전환의 핵심 원칙과 동기 * **SNDL(Store Now, Decrypt Later) 대응:** 양자 컴퓨터가 상용화되기 전이라도 적대 세력이 현재의 암호화된 데이터를 수집해둘 수 있으므로, 장기적 데이터 보호를 위해 즉각적인 PQC 도입이 필요합니다. * **전환 원칙:** 양자 공격에 대한 실질적인 '유효성', 표준화에 맞춘 '적시성', 시스템 부하를 최소화하는 '성능', 그리고 리스크와 투자 사이의 균형을 맞추는 '비용 효율성'을 4대 원칙으로 삼습니다. * **글로벌 표준 협력:** 메타는 NIST에서 선정한 HQC 알고리즘 등의 공동 저자로 참여하며 업계 전반의 보안 강화를 주도하고 있습니다. ### PQC 성숙도 단계 (Maturity Levels) 조직의 각 애플리케이션이나 유스케이스가 양자 위협에 얼마나 준비되었는지 측정하기 위해 5단계의 모델을 제안합니다. * **PQ-Enabled (최종 목표):** PQC 솔루션이 실제로 구현 및 배포되어 양자 보호가 활성화된 상태입니다. 메타는 이미 내부 트래픽의 상당 부분에 이 단계를 적용 중입니다. * **PQ-Hardened:** 가용한 모든 PQC 기술을 적용했으나, 아직 효율적인 양자 내성 OPRF(망각 프록시 함수) 같은 특정 원천 기술이 업계에 존재하지 않아 완벽한 방어가 지연되는 상태입니다. * **PQ-Ready:** 기술적 구현은 완료되었으나 비용이나 우선순위 문제로 아직 활성화하지 않은 상태로, 필요 시 즉시 가동할 수 있는 준비 단계입니다. * **PQ-Aware:** 위협을 인지하고 초기 리스크 평가를 마쳤으나 아직 구체적인 설계나 구현에는 착수하지 않은 단계입니다. * **PQ-Unaware:** 양자 위협에 대한 인식이 전혀 없는 가장 취약한 상태입니다. ### 메타의 체계적인 마이그레이션 전략 단순한 암호 교체를 넘어 전사적인 인프라를 보호하기 위한 단계적 접근법을 취합니다. * **암호화 인벤토리 구축:** 조직 내에서 어떤 암호화 기술이 어디에 사용되고 있는지 전수 조사하여 리스크가 있는 지점을 파악합니다. * **우선순위 정의:** 오프라인 공격(SNDL)에 취약한 공개키 암호화 및 키 교환 알고리즘을 사용하는 애플리케이션을 '고우선순위'로 분류합니다. * **외부 의존성 및 하드웨어 해결:** PQC 표준 준수 여부와 더불어 PQC를 지원하는 HSM(하드웨어 보안 모듈) 등 하드웨어 가용성을 확인합니다. * **가드레일(Guardrails) 설정:** 암호화 표준 지침을 변경하고, 취약한 구식 API 사용이나 새로운 구식 키 생성을 금지하는 정책적 제어 장치를 도입합니다. 기업들은 먼저 자산의 인벤토리를 확보하고 데이터의 민감도와 수명에 따라 우선순위를 설정해야 합니다. 특히 장기 보존이 필요한 데이터는 지금 당장 PQC를 적용하지 않더라도 최소한 'PQ-Ready' 수준의 설계 역량을 확보하는 것이 미래의 대응 시간을 단축하는 핵심입니다.

meta

포크에서 벗어나기: Meta가 50개 이상의 유스케이스에서 WebRTC를 현대화한 방법 (새 탭에서 열림)

메타는 대규모 오픈소스 프로젝트인 WebRTC를 커스터마이징하여 사용하며 겪었던 '포크 트랩(Forking Trap)'을 해결하기 위해, 최신 업스트림 버전과 내부 최적화 버전을 동시에 실행할 수 있는 듀얼 스택 아키텍처를 구축했습니다. 이를 통해 50개 이상의 유즈케이스에서 안전하게 A/B 테스트를 수행하며 성공적인 마이그레이션을 마쳤고, 결과적으로 성능 향상과 바이너리 크기 최적화 및 보안 강화를 달성했습니다. 현재 메타는 이 구조를 바탕으로 모노레포 환경에서도 업스트림의 최신 업데이트를 지속적으로 반영하며 기술적 부채 없이 서비스를 운영하고 있습니다. **포크 트랩과 모노레포 환경의 도전 과제** * 오픈소스 프로젝트를 내부적으로 포크하여 오래 사용하면 업스트림과의 격차가 벌어져 최신 기능을 반영하기 어려워지는 '포크 트랩'이 발생합니다. * 빌리언 단위의 사용자를 보유한 서비스에서 대규모 라이브러리를 한 번에 교체하는 것은 리스크가 크기 때문에, 구버전과 신버전을 동시에 실행하며 검증할 수 있는 A/B 테스트 역량이 필수적이었습니다. * 하지만 메타의 모노레포 환경과 정적 링크(Static Linking) 방식에서는 동일한 라이브러리의 두 버전을 동시에 포함할 때 '단일 정의 원칙(ODR)' 위반으로 인한 수천 개의 심볼 충돌 문제가 발생했습니다. **심(Shim) 레이어와 듀얼 스택 아키텍처** * 애플리케이션과 WebRTC 구현체 사이에 프록시 역할을 하는 '심(Shim) 레이어'를 구축하여 통합된 API를 제공했습니다. * 애플리케이션은 버전과 무관한 심 API를 호출하고, 심 레이어는 런타임 설정(Flavor)에 따라 레거시 또는 최신 구현체로 호출을 전달합니다. * 모든 라이브러리를 복제하는 대신 최하위 레이어에서 심을 구현함으로써, 바이너리 크기 증가폭을 예상치(38MB) 대비 약 87% 감소한 5MB 수준으로 억제했습니다. **심볼 충돌 해결과 하위 호환성 유지** * 자동화된 네임스페이스 재명명(Renamespacing) 스크립트를 통해 `webrtc::` 네임스페이스를 각 버전에 맞게 `webrtc_legacy::`, `webrtc_latest::` 등으로 분리했습니다. * 네임스페이스 외부에 존재하는 글로벌 C 함수와 변수들은 버전별 식별자를 추가하여 충돌을 방지했습니다. * 기존 코드의 수정을 최소화하기 위해 C++의 `using` 선언을 활용하여, 외부 호출부에서는 여전히 기존 네임스페이스를 사용하는 것처럼 보이게 하면서 내부적으로는 올바른 버전에 연결되도록 설계했습니다. **런타임 버전 디스패치 및 관리** * 템플릿 기반의 헬퍼 라이브러리를 사용하여 중복 로직을 줄이고 버전별 특화 동작을 정의했습니다. * 앱 시작 시점에 결정되는 글로벌 플래그(Enum)를 통해 어떤 WebRTC 버전을 사용할지 동적으로 결정합니다. * 패치 관리의 복잡성을 해결하기 위해 모노레포 내에서 업스트림 버전을 주기적으로 가져오고 내부 패치를 반복적으로 적용하는 워크플로우를 정립했습니다. 대규모 오픈소스 프로젝트를 운영할 때 직접적인 포크보다는 이와 같은 모듈식 아키텍처와 자동화된 네임스페이스 관리를 도입하는 것이 기술적 고립을 막는 효과적인 전략이 될 수 있습니다. 이는 특히 안전한 배포와 지속적인 업스트림 동기화가 중요한 대규모 시스템에서 실무적인 해법을 제시합니다.

meta

Trust But Canary: 대규모 환경에서의 설정 안정성 (새 탭에서 열림)

AI 기술의 발전으로 개발 속도와 생산성이 비약적으로 상승함에 따라, 대규모 시스템에서의 안전한 구성(Configuration) 배포를 위한 방어 기제의 중요성이 더욱 커지고 있습니다. 메타는 수많은 서버와 서비스에 설정을 적용할 때 카나리 배포와 단계적 롤아웃을 활용하며, 정교한 모니터링을 통해 잠재적인 장애를 조기에 차단합니다. 특히 장애 발생 시 개인을 탓하기보다 시스템적인 개선책을 찾는 문화를 통해 지속 가능한 운영 안정성을 확보하고 있습니다. **단계적 배포와 실시간 모니터링을 통한 리스크 관리** * 카나리(Canarying) 배포와 단계적 롤아웃(Progressive Rollouts) 전략을 사용하여 설정 변경 사항을 소규모 환경에 먼저 적용하고 전체 시스템으로 점진적으로 확대합니다. * 배포 과정 전반에 걸쳐 실시간 헬스 체크와 모니터링 시그널을 운영하여, 성능 저하나 예기치 못한 동작(Regression)이 감지될 경우 즉각적으로 대응합니다. * 대규모 인프라 환경에서 발생할 수 있는 휴먼 에러를 최소화하기 위해 자동화된 안전 장치를 시스템 곳곳에 배치합니다. **AI와 머신러닝을 활용한 장애 대응 효율화** * 데이터 분석과 머신러닝 기술을 도입하여 수많은 알람 중 실제 유효한 신호를 구분함으로써 운영자의 '알람 피로도(Alert Noise)'를 획기적으로 줄였습니다. * 장애 발생 시 문제의 근본 원인이 된 지점을 찾아내는 '바이섹팅(Bisecting)' 과정에 AI를 활용하여, 문제 해결 및 복구 속도를 가속화합니다. * 대량의 모니터링 데이터를 학습하여 평상시와 다른 이상 징후를 더 빠르고 정확하게 포착합니다. **시스템 중심의 사고 분석과 문화적 접근** * 인시던트 리뷰(Incident Reviews) 시 특정 개인의 실수를 비난하기보다는, 그런 실수가 발생할 수밖에 없었던 시스템적 결함을 찾아 보완하는 데 집중합니다. * 실패를 학습의 기회로 삼는 '비난 없는(Blameless)' 문화를 통해 엔지니어들이 위축되지 않고 더 안전한 시스템을 설계할 수 있도록 장려합니다. * 개발 생산성 향상이 시스템의 불안정성으로 이어지지 않도록 기술적 도구와 조직 문화를 긴밀하게 연결합니다. 대규모 인프라를 운영하는 조직이라면 AI 기반의 자동화된 모니터링과 단계적 배포 프로세스를 결합하여 운영 안정성을 확보하는 것이 필수적입니다. 단순히 빠른 배포에 치중하기보다 장애를 조기에 발견하고 시스템적으로 방어할 수 있는 구조를 만드는 것이 장기적인 생산성 향상의 핵심입니다.

meta

메타가 AI를 활용해 대규모 데이터 파이프라인 내 암묵지를 매핑한 방법 (새 탭에서 열림)

메타(Meta)는 대규모 데이터 처리 파이프라인에서 AI 코딩 에이전트의 효율성을 극대화하기 위해, 코드베이스의 암묵적 지식(Tribal Knowledge)을 스스로 학습하고 구조화하는 '프리컴퓨트 엔진(Pre-compute Engine)'을 구축했습니다. 50개 이상의 전문 AI 에이전트가 4,100개가 넘는 파일과 3개의 언어로 구성된 복잡한 저장소를 분석하여 59개의 핵심 컨텍스트 파일을 생성했으며, 이를 통해 AI의 도구 호출 횟수를 40% 줄이고 며칠이 걸리던 탐색 작업을 30분으로 단축했습니다. 결과적으로 AI는 단순한 코드 소비자가 아닌, 스스로 지식 지도를 제작하고 유지보수하는 능동적인 엔진으로 거듭났습니다. ## 코드의 이면에 숨겨진 '암묵적 지식'의 한계 * 대규모 시스템은 Python 설정, C++ 서비스, Hack 자동화 스크립트 등 여러 언어와 저장소가 얽혀 있어 단순한 코드 읽기만으로는 전체 맥락을 파악하기 어려움. * 직렬화 호환성을 위해 삭제해서는 안 되는 '권장되지 않는(deprecated)' 값이나, 단계별로 이름이 바뀌는 필드 규약 등 엔지니어들의 머릿속에만 있는 비직관적인 패턴들이 존재함. * 이러한 맥락이 없는 AI 에이전트는 컴파일은 가능하지만 논리적으로는 오류가 있는 코드를 생성하거나, 정답을 찾기 위해 불필요한 탐색 과정을 반복하며 리소스를 낭비함. ## 전문 에이전트 군단을 활용한 지식 추출 워크플로 * **역할 분담:** 탐색(Explorer), 분석(Analyst), 집필(Writer), 비평(Critic), 수정(Fixer) 등 50개 이상의 전문화된 에이전트가 단일 세션 내에서 협업함. * **5대 핵심 질문:** 분석 에이전트는 각 모듈에 대해 '무엇을 설정하는가?', '주요 수정 패턴은?', '빌드 실패를 유발하는 비직관적 패턴은?', '모듈 간 의존성은?', '주석에 숨겨진 지식은?'이라는 다섯 가지 질문에 답하며 정보를 추출함. * **비직관적 패턴의 문서화:** 코드 자체로는 드러나지 않는 50개 이상의 설계 의도와 종속 관계를 찾아내어 AI가 실수하기 쉬운 지점을 명확히 함. ## 백과사전이 아닌 '나침반' 원칙의 컨텍스트 파일 * **간결성 유지:** 각 컨텍스트 파일은 25~35줄(약 1,000토큰) 내외로 작성되어 모델의 컨텍스트 윈도우 부하를 최소화하며, 모든 파일의 합계가 현대적 모델 용량의 0.1% 미만을 차지함. * **4대 구성 요소:** 빠른 명령(Quick Commands), 핵심 파일 리스트, 비직관적 패턴, 참고 자료 섹션으로 구성하여 군더더기 없는 실행 가능한 정보를 제공함. * **그래프 기반 탐색:** 다중 저장소 간의 의존성 인덱스를 생성하여, 수천 토큰이 소모되던 영향도 분석 과정을 단 수백 토큰의 그래프 조회로 대체함. ## 시스템의 신뢰도와 지속 가능성 확보 * **품질 게이트:** 3단계의 독립적인 비평 에이전트 검토를 통해 컨텍스트의 품질 점수를 3.65에서 4.20(5점 만점)으로 끌어올렸으며, 모든 파일 경로는 자동 검증되어 환각 현상을 제거함. * **자기 유지보수:** 몇 주 단위로 자동화된 작업이 실행되어 경로 유효성을 검사하고, 정보 누락을 감지하며, 오래된 참조를 자동으로 수정하여 '정보의 부패'를 방지함. * **모델 독립성:** 특정 AI 모델에 종속되지 않는 지식 레이어를 구축하여, 향후 더 뛰어난 모델이 등장하더라도 동일한 구조화된 지식을 활용할 수 있음. 이러한 접근 방식은 독자적인 대규모 코드베이스를 운영하는 모든 개발 팀에 적용될 수 있습니다. AI 에이전트에게 방대한 문서를 읽히는 대신, 핵심적인 '비직관적 패턴'과 '의존성 지도'를 간결한 나침반 형태로 제공하는 것이 AI의 문제 해결 속도와 정확도를 높이는 가장 실무적인 전략입니다.

meta

KernelEvolve: 메타의 랭킹 엔지니어 에이전트가 AI 인프라를 최적화하는 방법 (새 탭에서 열림)

Meta는 하드웨어와 모델 아키텍처의 급격한 다양화로 인해 발생하는 커널 최적화 병목 현상을 해결하기 위해 에이전트 기반 시스템인 'KernelEvolve'를 도입했습니다. KernelEvolve는 숙련된 엔지니어가 수주간 작업해야 했던 커널 튜닝 및 최적화 과정을 단 몇 시간 만의 자동화된 탐색으로 단축하며, NVIDIA GPU부터 자체 칩인 MTIA에 이르기까지 다양한 이기종 하드웨어에서 성능을 극대화합니다. 이를 통해 Meta는 수조 건의 일일 추론 요청을 효율적으로 처리하고 복잡한 ML 모델 혁신 속도를 가속화하고 있습니다. **폭발적인 커널 요구량과 수동 최적화의 한계** * **복잡도의 증가:** 최적화가 필요한 커널의 수는 {하드웨어 종류 및 세대 × 모델 아키텍처 × 연산자 수}의 곱에 비례하여 기하급수적으로 증가하며, 수천 개의 고유 구성을 생성합니다. * **하드웨어 이질성:** NVIDIA 및 AMD GPU, Meta 자체 칩인 MTIA는 각기 다른 메모리 계층, 명령어 집합, 실행 모델을 가집니다. 특정 플랫폼에 최적화된 커널이 다른 플랫폼에서는 성능이 저하되거나 작동하지 않는 문제가 발생합니다. * **모델 아키텍처의 진화:** 초기 임베딩 중심 모델에서 시퀀스 학습 및 어텐션 기반 모델을 거쳐, 최신 생성형 광고 추천 모델(GEM)과 대규모 추론 모델에 이르기까지 연산자의 유형이 끊임없이 변화하고 있습니다. * **확장성 부족:** 전문가에 의존하는 수동 튜닝 방식은 하드웨어와 모델의 빠른 진화 속도를 따라잡지 못해 모델 배포를 늦추는 결정적인 병목 구간이 됩니다. **KernelEvolve: 에이전트 기반 커널 저작 시스템** * **탐색 중심의 최적화:** 단순한 일회성 코드 생성이 아니라, 커널 최적화를 '탐색 문제'로 정의하여 수백 개의 대안 구현을 시도하고 최적의 솔루션을 식별합니다. * **피드백 루프 아키텍처:** LLM이 생성한 커널 후보를 전용 작업 하네스(Job-harness)에서 평가하고, 실행 결과 및 진단 정보를 다시 LLM에 피드백하여 지속적으로 개선하는 구조를 갖췄습니다. * **광범위한 언어 및 하드웨어 지원:** Triton, Cute DSL, FlyDSL과 같은 고수준 DSL은 물론 CUDA, HIP, MTIA C++ 등 저수준 언어까지 생성할 수 있어 공개 및 독점 하드웨어를 모두 지원합니다. **성능 혁신 및 실질적 도입 성과** * **처리량(Throughput) 대폭 향상:** NVIDIA GPU 기반 Andromeda 광고 모델의 추론 처리량을 60% 이상 개선했으며, Meta 자체 MTIA 칩 환경에서도 광고 모델 학습 처리량을 25% 이상 높였습니다. * **개발 주기 단축:** 프로파일링, 최적화, 교차 하드웨어 디버깅 등 수주가 소요되던 전문가의 엔지니어링 작업을 단 몇 시간의 자동 탐색으로 대체했습니다. * **실제 서비스 적용:** KernelEvolve가 최적화한 코드는 현재 Meta의 프로덕션 환경에서 매일 수조 건의 추론 요청을 처리하는 데 사용되고 있습니다. KernelEvolve는 커널 개발을 수동 프로세스에서 자동화된 적응형 시스템으로 전환함으로써 소프트웨어와 하드웨어 간의 결합 방식을 근본적으로 바꾸고 있습니다. 하드웨어 포트폴리오가 다양해질수록 이러한 에이전트 기반 인프라 최적화는 새로운 칩을 통합하는 데 필요한 엔지니어링 노력을 획기적으로 줄여줄 것입니다.

meta

Meta Adaptive Ranking Model: Bending the Inference Scaling Curve to Serve LLM-Scale Models for Ads (새 탭에서 열림)

메타는 광고 추천 시스템의 성능을 비약적으로 높이기 위해 LLM 수준의 복잡도를 갖춘 '적응형 랭킹 모델(Adaptive Ranking Model)'을 도입하여 추론의 복잡성, 지연 시간, 비용 효율성 사이의 상충 관계를 해결했습니다. 이 모델은 모든 요청에 동일한 연산을 적용하는 대신 지능형 요청 라우팅과 하드웨어 인지형 설계를 통해 1초 미만의 응답 시간을 유지하면서도 광고 전환율을 3% 이상 향상시키는 성과를 거두었습니다. 결과적으로 메타는 인프라 비용의 급증 없이도 수십억 명의 사용자에게 고도로 개인화된 광고 경험을 제공할 수 있는 기술적 토대를 마련했습니다. ### 추론 효율성을 극대화하는 모델 확장 기술 * **요청 중심의 계산 공유:** 기존의 개별 광고 단위 처리 방식에서 벗어나, 한 번의 요청 내에서 공통된 사용자 신호를 한 번만 계산하고 이를 여러 광고 후보군이 공유하는 '요청 지향 최적화(Request-Oriented Optimization)'를 도입했습니다. * **서브 리니어(Sub-linear) 비용 구조:** GPU 커널 내에서 요청 수준의 임베딩을 직접 브로드캐스트함으로써 연산량 증가에 따른 비용 상승 곡선을 완만하게 만들고 메모리 대역폭 압박을 줄였습니다. * **장기 사용자 시퀀스 활용:** 연산 오버헤드 때문에 제한적이었던 긴 사용자 행동 데이터를 중앙 집중식 키-값(KV) 저장소와 실시간 결합 방식을 통해 효율적으로 처리하여 사용자 의도 파악의 깊이를 더했습니다. ### 모델과 시스템의 통합 설계: Wukong Turbo * **구조적 처리량 최적화:** 메타의 내부 아키텍처인 Wukong을 발전시킨 'Wukong Turbo'는 수치적 불안정성을 제거하는 'No-Bias' 접근법을 통해 파라미터 수 증가 없이도 처리량을 극대화했습니다. * **하드웨어 친화적 파라미터 배치:** 전체 샤딩 데이터 병렬 처리(FSDP)와 분산 데이터 병렬 처리(DDP) 사이에서 파라미터 역할을 적절히 분배하여 네트워크 오버헤드를 줄이고, 모델 플롭스 이용률(MFU)을 다양한 하드웨어 환경에서 35%까지 끌어올렸습니다. * **지연 시간 중립화:** GPU가 데이터를 기다리며 공회전하는 '데이터 기아' 현상을 방지하기 위해, 기존 CPU 중심이었던 피처 전처리를 GPU로 이관하여 엔드투엔드 실행 경로를 단순화했습니다. ### 1조 파라미터 시대를 여는 서빙 인프라 * **멀티 카드 GPU 아키텍처:** 단일 장치의 메모리 한계를 극복하기 위해 다중 GPU 카드 구성을 활용하여, 추천 시스템에서도 1조(1T) 단위의 파라미터 확장이 가능하도록 인프라를 재설계했습니다. * **지능형 요청 라우팅:** 사용자의 문맥과 의도에 따라 모델의 복잡도를 동적으로 조절함으로써, 시스템 자원을 가장 효과적인 요청에 우선적으로 배정하여 전체적인 ROI를 높였습니다. 이번 적응형 랭킹 모델의 성공은 대규모 언어 모델(LLM) 수준의 복잡도를 실시간 서비스에 적용하기 위해서는 단순한 하드웨어 확장이 아닌, 모델 아키텍처와 서빙 인프라의 심층적인 협업 설계가 필수적임을 보여줍니다. 실시간 추천 성능을 개선하고자 하는 기업들은 연산 단위를 개별 아이템에서 요청 단위로 전환하고, GPU 활용도를 극대화할 수 있는 하드웨어 인지형 소프트웨어 스택 구축에 집중할 필요가 있습니다.

meta

미국산 시멘트와 콘크리트를 위한 AI (새 탭에서 열림)

메타(Meta)는 건설 산업이 고품질의 지속 가능한 콘크리트 배합을 개발할 수 있도록 돕는 AI 모델인 'BOxCrete(Bayesian Optimization for Concrete)'와 관련 기초 데이터를 공개했습니다. 이 기술은 미국 내 수입 시멘트 의존도를 낮추고 국산 원료를 활용한 최적의 배합을 빠르게 찾아냄으로써, 제조 공정의 효율성과 경제적 가치를 동시에 높이는 것을 목표로 합니다. 메타는 이를 통해 탄소 배출을 줄인 친환경 콘크리트가 실제 데이터 센터 건설 등 대규모 인프라에 즉시 적용될 수 있음을 증명하고 있습니다. **콘크리트 산업의 국산화와 AI의 역할** - 미국은 매년 막대한 양의 콘크리트를 생산하지만, 핵심 원료인 시멘트의 약 20~25%를 수입에 의존하고 있어 공급망 안정성과 환경 표준 준수에 어려움을 겪고 있습니다. - 시멘트는 화학적 성질이 매우 다양하여 원료를 바꿀 경우 기존 배합이 실패할 확률이 높으며, 전통적인 시행착오 방식의 실험은 시간과 비용이 많이 소요됩니다. - 메타의 AI 모델은 미국산 원료에 최적화된 새로운 배합을 신속하게 탐색하고 검증함으로써, 국내 제조 일자리 창출과 경제 활성화(리쇼어링)를 지원합니다. **BOxCrete 모델의 기술적 특징** - 베이지안 최적화(Bayesian Optimization)를 활용한 '적응형 실험(Adaptive Experimentation)' 방식을 통해 수많은 재료 조합 중 목표 성능을 만족하는 최적의 배합을 지능적으로 제안합니다. - 기존 모델보다 노이즈가 많은 데이터에 대해 더 강력한 회복탄력성을 보이며, 콘크리트의 작업성을 나타내는 중요한 지표인 '슬럼프(Slump)' 예측 기능이 추가되었습니다. - 사용자가 설정한 강도, 비용, 탄소 배출량 등의 제약 조건을 사전에 반영하며, 매 실험 결과가 나올 때마다 모델이 스스로 학습하여 예측 정확도를 높입니다. **현장 적용 및 실질적 성과** - **미네소타 데이터 센터:** BOxCrete로 설계된 배합을 로즈마운트 데이터 센터 기초 공사에 적용한 결과, 미국산 원료만으로 기존보다 43% 빠르게 구조적 강도에 도달했으며 균열 위험을 10% 감소시켰습니다. - **일리노이 협력:** 북미 최대 시멘트 제조사인 암라이즈(Amrize)와 협력하여 'Made in America' 인증 시멘트를 활용한 대규모 산업용 배합 최적화 가능성을 확인했습니다. - **펜실베이니아 소프트웨어 통합:** 콘크리트 산업용 SaaS 플랫폼인 쿼드렐(Quadrel)은 메타의 오픈소스 프레임워크를 자사 소프트웨어에 내장하여 전처리, 특성 공학, 품질 관리 워크플로우에 실시간으로 활용하고 있습니다. 콘크리트 제조사 및 건설 관계자들은 GitHub에 공개된 메타의 오픈소스 모델과 데이터를 활용하여 독자적인 최적화 시스템을 구축할 수 있습니다. AI를 통한 배합 설계는 단순히 속도를 높이는 것을 넘어, 미국산 원재료 사용을 극대화하고 탄소 발자국을 줄이는 등 건설 산업의 지속 가능한 미래를 위한 강력한 도구가 될 것입니다.

meta

친구 버블: 페이스북 릴스의 소셜 디스커버리 강화 (새 탭에서 열림)

페이스북 릴스(Reels)의 '친구 버블(Friend Bubbles)'은 친구가 좋아하거나 반응한 콘텐츠를 사용자에게 추천하여 새로운 발견과 사회적 연결을 돕는 기능입니다. 이 시스템은 머신러닝을 활용해 사용자 간의 친밀도를 측정하고 소셜 그래프 신호를 비디오 랭킹 로직에 결합함으로써, 단순한 콘텐츠 소비를 넘어 친구와의 대화로 이어지는 의미 있는 상호작용을 창출합니다. 결과적으로 친구 버블은 개인의 관심사와 소셜 신호를 동시에 충족시켜 플랫폼의 체류 시간과 사회적 가치를 모두 높이는 역할을 합니다. **사용자 간 친밀도 모델을 통한 핵심 관계 식별** 친구 버블 시스템은 사용자가 누구의 상호작용에 더 민감하게 반응할지 판단하기 위해 두 가지 상호 보완적인 머신러닝 모델을 사용합니다. * **설문 기반 친밀도 모델:** 실제 사용자들을 대상으로 한 설문 데이터와 소셜 그래프(함께 아는 친구, 위치 정보, 상호작용 패턴 등)를 결합하여 학습합니다. 매주 수조 개의 친구 관계를 대상으로 추론(Inference)을 실행하여 오프라인에서의 실제 친밀도를 예측합니다. * **플랫폼 내 활동 기반 모델:** 친구 버블이 표시되었을 때 발생하는 좋아요, 댓글, 공유 등의 실시간 반응을 학습합니다. 이를 통해 사용자가 특정 소셜 맥락에서 누구의 추천을 더 가치 있게 여기는지 동적으로 파악합니다. * **관계의 질 중심:** 단순히 친구가 많다고 해서 더 많은 버블을 보여주는 것이 아니라, 사용자가 진정으로 의미 있다고 느낄 만한 관계를 소수 정예로 선별하여 추천의 품질을 높입니다. **소셜 신호를 반영한 비디오 랭킹 최적화** 좋은 친구 콘텐츠가 일반적인 인기 콘텐츠에 밀려나지 않도록 랭킹 시스템 전반에 소셜 컨텍스트를 주입합니다. * **검색(Retrieval) 단계 확장:** 친밀도 모델이 식별한 가까운 친구들이 상호작용한 영상을 명시적으로 검색 결과에 포함시켜, 순위 모델(Ranking)에 충분한 후보군이 전달되도록 퍼널 상단을 확장합니다. * **MTML(Multi-Task Multi-Label) 모델 적용:** 기존 랭킹 모델에 '친구 친밀도'와 '버블 노출 시 참여도'를 새로운 특징(Feature)과 과업(Task)으로 추가합니다. 이를 통해 모델은 영상 자체의 품질뿐만 아니라 관계의 힘이 주는 고유한 가치를 학습합니다. * **연속적 피드백 루프:** `P(비디오 참여 | 버블 노출)`라는 조건부 확률을 활용해 사용자가 버블을 보고 실제로 반응할 가능성을 예측하며, 소셜 연결성과 콘텐츠 몰입도 사이의 균형을 맞추기 위해 가중치를 미세하게 조정합니다. **성능 저하 없는 실시간 인프라 구축** 릴스는 성능에 매우 민감한 서비스이므로, 추가적인 데이터 처리가 사용자 경험을 해치지 않도록 설계되었습니다. * **프리페치(Prefetch) 활용:** 비디오가 화면에 나타나기 전 메타데이터와 썸네일을 미리 불러오는 기존 윈도우에 친구 버블 데이터를 통합하여 로드 지연을 방지했습니다. * **최적화된 자원 관리:** 부드러운 스크롤을 유지하고 CPU 오버헤드를 최소화하기 위해 캐싱된 결과를 재사용하고 데이터 호출 구조를 단순화했습니다. 친구 버블의 성공 사례는 추천 시스템이 단순히 사용자의 과거 이력만을 쫓는 것이 아니라, 사용자 주변의 사회적 맥락을 깊이 있게 이해할 때 더 큰 가치를 만들 수 있음을 보여줍니다. 기술적으로는 모델에 관계 중심의 특징(Feature)을 직접 주입하고, 인프라 측면에서는 데이터 로딩의 우선순위를 정교하게 관리하는 것이 핵심입니다. 단순히 '인기 있는' 콘텐츠를 보여주는 것을 넘어 '내 지인에게 의미 있는' 콘텐츠를 상위에 노출하고 싶다면, 이와 같은 하이브리드 소셜 랭킹 접근법이 효과적인 전략이 될 것입니다.

meta

랭킹 엔지니어 에이전트(REA): 메타의 광고 랭킹 혁신을 가속화하는 자율형 AI 에이전트 (새 탭에서 열림)

Meta는 광고 랭킹 모델의 머신러닝(ML) 생태 주기를 자율적으로 수행하는 '랭킹 엔지니어 에이전트(REA)'를 개발하여 모델 최적화 과정을 혁신했습니다. REA는 가설 생성부터 학습 실행, 오류 디버깅, 결과 분석에 이르는 전 과정을 수동 개입 없이 관리하며, 기존 엔지니어링 방식 대비 모델 정확도를 2배 높이고 업무 효율을 5배 향상시키는 성과를 거두었습니다. 이는 단순 보조 도구를 넘어 복잡하고 긴 시간이 소요되는 ML 실험 과정을 독립적으로 주도할 수 있는 자율형 AI 에이전트의 가능성을 증명한 사례입니다. **장기 워크플로우를 위한 동면 및 깨우기(Hibernate-and-Wake) 메커니즘** * ML 모델 학습은 수 시간에서 수일이 소요되므로, 세션 기반의 일반 AI 비서로는 전체 과정을 관리하기 어렵습니다. * REA는 학습 작업을 실행한 후 대기 상태(동면)로 전환하여 자원을 보존하고, 작업이 완료되면 자동으로 복귀하여 다음 단계를 진행합니다. * 내부 AI 에이전트 프레임워크인 'Confucius'를 기반으로 구축되어 코드 생성, 내부 도구 통합, 실험 추적 인프라와의 유기적인 연결을 지원합니다. * 이를 통해 며칠에서 몇 주에 걸친 긴 실험 과정에서도 일관된 상태와 메모리를 유지하며 자율적으로 업무를 지속합니다. **데이터 기반의 하이브리드 가설 생성 엔진** * REA는 단순히 임의의 실험을 반복하는 것이 아니라, 두 가지 핵심 소스를 통해 고품질의 가설을 수립합니다. * **과거 통찰 데이터베이스:** 이전의 실험 성공 및 실패 패턴을 학습하여 맥락에 맞는 최적화 방향을 제시합니다. * **ML 리서치 에이전트:** 기준 모델의 설정을 조사하고 최신 ML 연구 트렌드를 반영하여 혁신적인 전략을 제안합니다. * 두 소스의 결합을 통해 모델 구조 최적화와 학습 효율성 개선이 결합된, 엔지니어가 단독으로 생각하기 어려운 독창적이고 효과적인 실험 구성을 도출합니다. **3단계 계획 프레임워크와 자율적 복원력** * REA는 엔지니어가 승인한 예산 범위 내에서 효율적으로 자원을 배분하기 위해 '검증(Validation) → 조합(Combination) → 활용(Exploitation)'의 3단계 전략을 사용합니다. * 먼저 개별 가설의 성능을 병렬로 검증한 뒤, 유망한 가설들을 조합하여 시너지 효과를 탐색하고, 최종적으로 가장 가능성 높은 후보에 자원을 집중 투입합니다. * 인프라 장애나 메모리 부족(OOM), 손실 발산(Loss Explosion) 같은 기술적 오류 발생 시, 미리 정의된 가이드라인과 원천 원리(First Principles)를 바탕으로 스스로 디버깅을 수행합니다. * 엔지니어는 매 순간을 감시하는 대신 전략적 결정 지점에서만 검토를 수행하므로, 적은 인원으로도 다수의 모델을 동시에 개선할 수 있습니다. REA의 사례는 AI 에이전트가 단순한 코딩 보조 도구를 넘어, 도메인 지식과 인프라 제어 능력을 갖춘 '자율적인 동료'로 진화하고 있음을 보여줍니다. 대규모 ML 시스템을 운영하는 조직이라면 REA와 같이 과거 데이터를 자산화하고 장기적인 실험 로드맵을 스스로 실행할 수 있는 에이전트 도입을 검토해야 합니다. 이는 반복적인 디버깅과 모니터링 작업에서 엔지니어를 해방시켜 더 고차원적인 전략 수립에 집중할 수 있는 환경을 제공할 것입니다.