data-privacy

2 개의 포스트

토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구 (새 탭에서 열림)

토스는 데이터 주권 문제를 해결하면서도 미지의 데이터를 효과적으로 학습할 수 있는 새로운 연합학습 알고리즘 'FedLPA'를 개발하여 세계 최고 권위의 AI 학회인 NeurIPS 2025에 게재했습니다. 이 기술은 국가별로 상이하고 라벨이 부족한 현실 세계의 데이터 분포를 클라이언트 스스로 파악하여 모델을 최적화함으로써, 개인정보를 보호하는 동시에 글로벌 서비스의 정확도를 획기적으로 높입니다. 이를 통해 토스는 규제 리스크 없는 글로벌 진출과 초개인화된 금융 서비스 제공을 위한 독보적인 기술적 토대를 마련했습니다. ### 연합학습의 도입 배경과 기존 기술의 한계 - **데이터 주권과 보안**: '페이스페이'와 같은 서비스가 해외에 진출할 때, 현지 법령에 따라 생체 데이터를 국외로 반출할 수 없는 문제를 해결하기 위해 데이터를 서버로 모으지 않고 기기 내에서 학습하는 연합학습(Federated Learning)이 필수적입니다. - **데이터 불균형(Non-IID)**: 기존 연합학습은 모든 사용자의 데이터 분포가 유사하다고 가정하지만, 실제로는 국가나 지역별로 얼굴형, 조명, 결제 패턴 등이 판이하게 달라 성능이 저하되는 한계가 있습니다. - **미지 범주 대응 불가**: 서비스 운영 중 발생하는 새로운 인종적 특성이나 신종 부정 결제 패턴(Novel Class)을 기존 기술은 '알고 있는 범주'로만 분류하려다 보니 새로운 변화에 유연하게 대응하지 못했습니다. ### FedLPA의 3단계 혁신 파이프라인 - **신뢰도 기반 로컬 구조 발견(CLSD)**: 단순히 이미지 특징을 비교하는 수준을 넘어, 모델이 확신하는 데이터(High-confidence)의 예측 결과를 활용해 데이터 간의 유사도 그래프를 정교하게 구축하고 정제합니다. - **인포맵 클러스터링(InfoMap)**: 사람이 범주의 개수를 미리 정해주지 않아도, 그래프 내에서 데이터들이 자연스럽게 뭉치는 커뮤니티를 찾아내는 알고리즘을 통해 클라이언트가 스스로 데이터 내의 범주 개수를 파악합니다. - **로컬 사전 확률 정렬(LPA)**: 모델의 예측 결과 분포가 앞서 파악한 실제 데이터의 분포(Empirical Prior)와 일치하도록 강제하는 정규화 과정을 거칩니다. 이를 통해 특정 클래스에 데이터가 쏠려 있어도 모델이 편향되지 않고 균형 잡힌 학습을 수행할 수 있습니다. ### 기술 도입에 따른 비즈니스 기대 효과 - **글로벌 진출 가속화**: 각국의 금융 및 개인정보 규제를 준수하면서도 현지 데이터를 활용한 고성능 모델을 구축할 수 있어, 기술적 진입 장벽 없이 동남아나 유럽 등 글로벌 시장에 빠르게 안착할 수 있습니다. - **초개인화 금융 서비스**: 개별 사용자의 로컬 환경과 특이 패턴을 실시간으로 학습하여, 이상거래탐지(FDS)의 정확도를 높이고 국가별 특수성을 반영한 정교한 신용평가(CSS) 모델을 운영할 수 있습니다. - **운영 효율 극대화**: 새로운 유형의 데이터가 등장할 때마다 사람이 직접 라벨링하고 재학습시키는 과정을 줄여주며, AI가 스스로 새로운 패턴을 감지하고 학습하므로 모델 업데이트 주기와 운영 비용을 획기적으로 단축합니다. FedLPA는 데이터 보안과 모델 성능이라는 상충하는 목표를 동시에 달성함으로써 AI 기술의 실질적인 비즈니스 적용 가능성을 입증했습니다. 데이터 규제가 엄격한 글로벌 환경이나 사용자마다 데이터 특성이 극명하게 다른 금융 도메인에서 AI 서비스를 운영하고자 한다면, FedLPA와 같은 자가 학습 기반의 연합학습 구조를 적극적으로 검토할 것을 권장합니다.

차분 프라이버시 파 (새 탭에서 열림)

구글 리서치는 대규모 데이터셋에서 개인정보를 보호하면서도 유용한 데이터를 추출할 수 있는 혁신적인 차분 프라이버시(Differential Privacy, DP) 파티션 선택 알고리즘인 'MAD(MaxAdaptiveDegree)'를 공개했습니다. 이 알고리즘은 수천억 개의 아이템이 포함된 방대한 데이터를 처리할 수 있는 병렬 구조를 갖추고 있으며, 기존 비적응형 방식보다 훨씬 더 많은 유효 데이터를 안전하게 식별해 냅니다. 이를 통해 연구자들은 개별 사용자의 민감한 정보를 노출하지 않으면서도 AI 모델 학습이나 데이터 분석에 필요한 고품질의 데이터셋을 확보할 수 있게 되었습니다. **차분 프라이버시(DP) 파티션 선택의 역할** * **개념 정의:** 수많은 사용자가 기여한 방대한 데이터 집합에서 특정 임계치 이상의 빈도를 가진 공통 아이템(예: 자주 사용되는 단어나 n-gram)을 안전하게 선택하는 프로세스입니다. * **프라이버시 보호:** 특정 개별 사용자의 데이터 포함 여부를 알 수 없도록 제어된 노이즈를 추가하며, 노이즈가 섞인 상태에서도 충분히 공통적인 아이템만 최종 리스트에 포함합니다. * **활용 분야:** 대규모 텍스트 코퍼스의 어휘 추출, 데이터 스트림 분석, 사용자 데이터 기반 히스토그램 생성, 프라이버시 보존형 모델 미세 조정(Fine-tuning)의 효율성 증대 등에 필수적입니다. **기존 가중치 산정 방식의 한계** * **표준 패러다임:** 일반적으로 '가중치 계산(빈도 측정) → 노이즈 추가(가우시안 노이즈 등) → 필터링(임계값 적용)'의 3단계를 거칩니다. * **가중치 낭비:** 기존의 비적응형 방식은 매우 인기 있는 아이템에 필요 이상의 가중치를 할당하는 경향이 있으며, 이로 인해 임계값 바로 아래에 있는 유용한 아이템들이 노이즈에 의해 삭제되는 문제가 발생합니다. * **확장성 문제:** 기존의 순차적(Sequential) 알고리즘은 현대의 거대 데이터셋을 처리하기에 속도가 너무 느려 실무 적용에 한계가 있었습니다. **적응형 가중치 재배분을 통한 MAD 알고리즘의 혁신** * **적응형 가중치(Adaptive Weighting):** MAD 알고리즘은 아이템 간의 가중치를 독립적으로 두지 않고, 다른 사용자의 기여도를 고려하여 전략적으로 가중치를 재할당합니다. * **효율적 재배분:** 임계값을 훨씬 상회하는 인기 아이템의 '과잉 가중치'를 식별하고, 이를 임계값 근처에 있는 아이템들에 재배분하여 더 많은 유효 아이템이 프라이버시 기준을 통과하도록 돕습니다. * **병렬 대규모 처리:** 수천억 개의 아이템을 동시에 처리할 수 있는 병렬 구조로 설계되어, 기존 순차 알고리즘 대비 최대 1,000배 더 큰 규모의 데이터셋까지 확장 가능합니다. * **성능 유지:** 가중치를 재배분하면서도 차분 프라이버시의 핵심인 '낮은 민감도(Low-sensitivity)'와 계산 효율성을 그대로 유지합니다. **실용적 의의 및 권고** 데이터 규모가 커질수록 프라이버시 보호와 데이터 유용성 사이의 균형을 맞추는 것이 어려워지지만, MAD 알고리즘은 병렬 처리를 통해 이 문제를 해결했습니다. 대규모 사용자 데이터를 다루는 연구자나 엔지니어는 구글이 오픈소스로 공개한 'DP 파티션 선택' 라이브러리를 활용하여, 데이터의 유실을 최소화하면서도 강력한 프라이버시 보증을 제공하는 데이터 파이프라인을 구축할 것을 권장합니다.