federated-learning

2 개의 포스트

토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구 (새 탭에서 열림)

토스는 데이터 주권 문제를 해결하면서도 미지의 데이터를 효과적으로 학습할 수 있는 새로운 연합학습 알고리즘 'FedLPA'를 개발하여 세계 최고 권위의 AI 학회인 NeurIPS 2025에 게재했습니다. 이 기술은 국가별로 상이하고 라벨이 부족한 현실 세계의 데이터 분포를 클라이언트 스스로 파악하여 모델을 최적화함으로써, 개인정보를 보호하는 동시에 글로벌 서비스의 정확도를 획기적으로 높입니다. 이를 통해 토스는 규제 리스크 없는 글로벌 진출과 초개인화된 금융 서비스 제공을 위한 독보적인 기술적 토대를 마련했습니다. ### 연합학습의 도입 배경과 기존 기술의 한계 - **데이터 주권과 보안**: '페이스페이'와 같은 서비스가 해외에 진출할 때, 현지 법령에 따라 생체 데이터를 국외로 반출할 수 없는 문제를 해결하기 위해 데이터를 서버로 모으지 않고 기기 내에서 학습하는 연합학습(Federated Learning)이 필수적입니다. - **데이터 불균형(Non-IID)**: 기존 연합학습은 모든 사용자의 데이터 분포가 유사하다고 가정하지만, 실제로는 국가나 지역별로 얼굴형, 조명, 결제 패턴 등이 판이하게 달라 성능이 저하되는 한계가 있습니다. - **미지 범주 대응 불가**: 서비스 운영 중 발생하는 새로운 인종적 특성이나 신종 부정 결제 패턴(Novel Class)을 기존 기술은 '알고 있는 범주'로만 분류하려다 보니 새로운 변화에 유연하게 대응하지 못했습니다. ### FedLPA의 3단계 혁신 파이프라인 - **신뢰도 기반 로컬 구조 발견(CLSD)**: 단순히 이미지 특징을 비교하는 수준을 넘어, 모델이 확신하는 데이터(High-confidence)의 예측 결과를 활용해 데이터 간의 유사도 그래프를 정교하게 구축하고 정제합니다. - **인포맵 클러스터링(InfoMap)**: 사람이 범주의 개수를 미리 정해주지 않아도, 그래프 내에서 데이터들이 자연스럽게 뭉치는 커뮤니티를 찾아내는 알고리즘을 통해 클라이언트가 스스로 데이터 내의 범주 개수를 파악합니다. - **로컬 사전 확률 정렬(LPA)**: 모델의 예측 결과 분포가 앞서 파악한 실제 데이터의 분포(Empirical Prior)와 일치하도록 강제하는 정규화 과정을 거칩니다. 이를 통해 특정 클래스에 데이터가 쏠려 있어도 모델이 편향되지 않고 균형 잡힌 학습을 수행할 수 있습니다. ### 기술 도입에 따른 비즈니스 기대 효과 - **글로벌 진출 가속화**: 각국의 금융 및 개인정보 규제를 준수하면서도 현지 데이터를 활용한 고성능 모델을 구축할 수 있어, 기술적 진입 장벽 없이 동남아나 유럽 등 글로벌 시장에 빠르게 안착할 수 있습니다. - **초개인화 금융 서비스**: 개별 사용자의 로컬 환경과 특이 패턴을 실시간으로 학습하여, 이상거래탐지(FDS)의 정확도를 높이고 국가별 특수성을 반영한 정교한 신용평가(CSS) 모델을 운영할 수 있습니다. - **운영 효율 극대화**: 새로운 유형의 데이터가 등장할 때마다 사람이 직접 라벨링하고 재학습시키는 과정을 줄여주며, AI가 스스로 새로운 패턴을 감지하고 학습하므로 모델 업데이트 주기와 운영 비용을 획기적으로 단축합니다. FedLPA는 데이터 보안과 모델 성능이라는 상충하는 목표를 동시에 달성함으로써 AI 기술의 실질적인 비즈니스 적용 가능성을 입증했습니다. 데이터 규제가 엄격한 글로벌 환경이나 사용자마다 데이터 특성이 극명하게 다른 금융 도메인에서 AI 서비스를 운영하고자 한다면, FedLPA와 같은 자가 학습 기반의 연합학습 구조를 적극적으로 검토할 것을 권장합니다.

사용자 수준 차분 프라이버 (새 탭에서 열림)

Google Research는 대규모 언어 모델(LLM)을 사용자 수준의 차분 프라이버시(User-level Differential Privacy)를 유지하며 미세 조정하는 알고리즘을 연구하고 개선했습니다. 기존의 예시 수준 프라이버시보다 강력한 이 기법은 모델이 특정 사용자의 전체 데이터 포함 여부를 노출하지 않도록 보장하지만, 모델이 커질수록 노이즈가 증가하여 성능이 저하되는 한계가 있었습니다. 연구진은 데이터센터의 유연한 환경을 활용해 사용자 수준 샘플링(ULS) 알고리즘을 최적화함으로써, 프라이버시 보호와 모델 성능 사이의 균형을 효과적으로 맞출 수 있음을 증명했습니다. ### 사용자 수준 차분 프라이버시의 의의 * **프라이버시 강화:** 예시 수준 차분 프라이버시(Example-level DP)가 개별 데이터 포인트만 보호하는 반면, 사용자 수준 DP는 특정 사용자가 제공한 모든 데이터의 영향을 제한하여 훨씬 강력한 익명성을 보장합니다. * **실제 데이터 소유 구조 반영:** 오늘날 데이터는 개별 기기나 계정 단위로 묶여 있는 경우가 많으며, 공격자가 사용자의 특정 데이터 한 조각이 아닌 전체 활동 내역을 유추하는 것을 방지하는 데 최적화되어 있습니다. * **LLM 미세 조정의 필수성:** LLM을 특정 도메인에 맞게 최적화할 때 민감한 데이터가 포함되는 경우가 많으므로, 성능을 유지하면서도 프라이버시를 지키는 기술적 장치가 필수적입니다. ### ELS와 ULS 알고리즘 비교 * **예시 수준 샘플링(ELS):** 전체 데이터셋에서 무작위로 예시를 샘플링한 후, 기존 DP-SGD 알고리즘에 더 많은 노이즈를 추가하여 사용자 수준의 프라이버시를 확보하는 방식입니다. * **사용자 수준 샘플링(ULS):** 학습 배치(Batch)를 구성할 때 예시 단위가 아닌 사용자 단위로 무작위 샘플링을 진행하며, 선택된 사용자의 모든 데이터를 학습에 활용합니다. * **연합 학습과의 유사성:** ULS는 분산된 기기에서 학습하는 연합 학습(Federated Learning)과 유사한 구조를 가지지만, 데이터센터 환경에서는 모든 사용자의 데이터를 자유롭게 쿼리할 수 있어 더 유연한 최적화가 가능합니다. ### 기여 제한(Contribution Bound)을 통한 성능 최적화 * **데이터 전처리:** 각 사용자가 학습에 기여할 수 있는 예시의 최대 개수를 제한하는 '기여 제한' 설정이 성능의 핵심 변수로 작용합니다. * **노이즈와 정보의 균형:** 기여 제한을 너무 낮게 잡으면 사용자당 정보량이 부족해지고, 너무 높게 잡으면 프라이버시를 위해 추가해야 할 노이즈가 급격히 늘어나 학습 품질이 떨어집니다. * **데이터센터의 유연성 활용:** 연구진은 데이터센터 학습의 장점을 활용해 사용자와 예시를 모두 쿼리하며 기여 제한 파라미터를 정밀하게 조정함으로써, 연합 학습 기반의 알고리즘보다 더 높은 품질의 LLM 미세 조정이 가능함을 보여주었습니다. 사용자 수준의 프라이버시를 보장하면서 LLM을 미세 조정할 때는 **사용자 수준 샘플링(ULS)** 방식을 우선적으로 고려해야 합니다. 특히 데이터센터 환경에서 학습을 진행한다면, 특정 사용자의 데이터가 지나치게 편중되어 모델에 영향을 주지 않도록 **기여 제한(Contribution Bound)** 파라미터를 사전에 실험적으로 최적화하는 것이 모델의 정확도 손실을 최소화하는 가장 실용적인 전략입니다.