synthetic-data

5 개의 포스트

사진 한 장이 천 마디 (비공식적인) 말을 전한다: 일관된 합성 사진 앨범의 계층적 생성 (새 탭에서 열림)

구글 리서치(Google Research)는 차분 프라이버시(Differential Privacy, DP) 기술을 적용하여 데이터의 프라이버시를 완벽히 보호하면서도, 사진 앨범과 같이 복잡한 구조를 가진 합성 데이터를 생성하는 새로운 방법론을 제시했습니다. 이 방식은 이미지를 직접 생성하는 대신 중간 단계로 '텍스트' 표현을 활용하고 이를 계층적으로 구성함으로써, 개별 사진 간의 주제적 일관성을 유지하는 동시에 연산 효율성까지 확보했습니다. 결과적으로 조직은 복잡한 분석 도구마다 프라이버시 기술을 개별 적용할 필요 없이, 안전하게 생성된 합성 앨범 데이터셋만으로도 고도화된 모델 학습과 분석을 수행할 수 있게 됩니다. ### 중간 텍스트 표현을 활용한 프라이버시 강화 기존의 합성 데이터 생성 방식이 단일 이미지나 짧은 텍스트에 치중했던 것과 달리, 본 연구는 이미지를 텍스트로 변환하는 과정을 핵심 기제로 활용합니다. * **손실 압축을 통한 프라이버시 증진:** 이미지를 상세한 텍스트 캡션으로 설명하는 과정은 본질적으로 정보의 일부를 생략하는 '손실 연산'이며, 이는 원본 데이터의 미세한 고유 정보를 보호하는 자연스러운 방어막 역할을 합니다. * **LLM의 강점 활용:** 거대언어모델(LLM)의 뛰어난 텍스트 생성 및 요약 능력을 활용하여, 원본 이미지의 핵심적인 의미 정보(Semantic information)를 효과적으로 포착합니다. * **리소스 최적화:** 이미지 생성은 비용이 많이 들지만 텍스트 생성은 상대적으로 저렴합니다. 텍스트 단계에서 먼저 콘텐츠를 필터링하고 선별함으로써, 불필요한 이미지 생성에 소요되는 연산 자원을 절약할 수 있습니다. ### 계층적 구조를 통한 앨범의 일관성 유지 사진 앨범은 여러 장의 사진이 하나의 주제나 캐릭터를 공유해야 하므로 단순한 개별 이미지 생성보다 난이도가 높습니다. 연구팀은 이를 해결하기 위해 계층적 생성 전략을 채택했습니다. * **2단계 모델 구조:** 앨범 전체의 요약을 생성하는 모델과, 이 요약을 바탕으로 개별 사진의 상세 캡션을 생성하는 모델을 분리하여 학습시킵니다. * **문맥적 일관성 확보:** 모든 개별 사진 캡션이 동일한 '앨범 요약'을 문맥(Context)으로 공유하기 때문에, 생성된 결과물들이 서로 조화를 이루며 하나의 일관된 스토리를 형성하게 됩니다. * **연산 효율성 증대:** 트레이닝 비용은 컨텍스트 길이에 따라 제곱으로 증가합니다. 하나의 긴 컨텍스트를 처리하는 대신 짧은 컨텍스트를 가진 두 개의 모델을 학습시킴으로써 전체적인 연산 비용을 대폭 낮췄습니다. ### 프라이버시가 보장된 학습 알고리즘 합성 데이터가 원본 사용자의 고유한 정보를 유출하지 않도록 엄격한 수학적 증명을 기반으로 하는 학습 기술을 적용했습니다. * **DP-SGD 적용:** DP-SGD(Differentially Private Stochastic Gradient Descent) 알고리즘을 사용하여 모델을 미세 조정(Fine-tuning)함으로써, 생성된 데이터셋이 실제 데이터의 공통적인 패턴은 학습하되 특정 개인의 세부 사항은 포함하지 않도록 보장합니다. * **안전한 데이터 대체제:** 이렇게 생성된 합성 데이터는 프라이버시 위험이 제거된 상태이므로, 데이터 과학자들은 별도의 복잡한 보안 절차 없이 표준적인 분석 기법을 즉시 적용할 수 있습니다. 이 방법론은 단순히 사진 앨범에 국한되지 않고 비디오나 복합 문서와 같이 구조화된 멀티모달 데이터를 안전하게 생성하는 데 광범위하게 응용될 수 있습니다. 고품질의 데이터 확보가 어렵거나 프라이버시 규제가 엄격한 환경에서, 이와 같은 계층적 합성 데이터 생성 방식은 안전하고 효율적인 대안이 될 것입니다.

대규모 대화형 AI 평가를 (새 탭에서 열림)

대규모 언어 모델(LLM) 기반의 애플리케이션은 겉으로 보기에 단순해 보이지만, 내부적으로는 검색, 랭킹, 프롬프트 구성 등 복잡한 확률적 단계들이 체인처럼 연결되어 있어 미세한 수정만으로도 성능이 급변할 수 있습니다. Dropbox Dash 개발팀은 이러한 불확실성을 통제하기 위해 평가 프로세스를 단순한 사후 점검이 아닌 '프로덕션 코드'와 동일한 수준의 엄격한 표준으로 관리해야 한다고 강조합니다. 성공적인 AI 서비스를 위해서는 공공 및 내부 데이터를 혼합한 정교한 데이터셋 구축과 더불어, 단순 NLP 지표를 넘어선 LLM 기반의 자동화된 평가 체계를 구축하는 것이 핵심입니다. ### 다각적인 데이터셋 구축 전략 * **공공 데이터셋을 통한 베이스라인 수립**: Google의 Natural Questions, MS MARCO, MuSiQue 등을 활용해 대규모 문서 검색, 다중 문서 처리, 멀티홉(multi-hop) 질의응답 성능을 초기 단계에서 검증합니다. * **실제 사용자 패턴 반영**: 사내 테스트(Dogfooding)를 통해 수집된 로그 데이터를 익명화하고 랭킹화하여 실제 사용자의 질문 방식과 의도를 반영한 대표 쿼리셋을 구성합니다. * **합성 데이터(Synthetic Data) 활용**: 표, 이미지, 튜토리얼 등 다양한 콘텐츠 타입에 대해 LLM이 직접 질문과 답변 쌍을 생성하게 함으로써 실세계의 복잡한 사례들을 포괄합니다. ### 전통적 지표의 한계와 LLM 평가 도입 * **전통적 NLP 지표의 제약**: BLEU, ROUGE, BERTScore 등은 계산이 빠르지만, 답변의 사실 관계나 출처 인용의 정확성, 할루시네이션(환각) 여부를 판단하는 데에는 한계가 있습니다. * **LLM 기반 판독(LLM-as-a-judge)**: 평가 모델(Judge Model)이 답변의 사실성, 질문에 대한 직접적인 응답 여부, 톤앤매너 등을 검토하며, 단순 점수뿐만 아니라 판단 근거(Justification)를 함께 제공하도록 설계합니다. * **평가 모듈의 소프트웨어화**: 평가 프롬프트와 기준(Rubric)을 소프트웨어 모듈처럼 버전 관리하고, 정기적으로 정답 셋(Gold Standard)과 비교하여 평가 모델 자체의 성능을 교정합니다. ### 엄격한 워크플로우와 품질 관리 * **구조화된 평가 결과 산출**: JSON 형식으로 결과(사실 정확도, 인용 적절성, 명확성 등)를 출력하여 시스템이 즉각적으로 성공과 실패를 판단할 수 있는 '라이브 알람' 체계를 구축합니다. * **휴먼 인 더 루프(Human-in-the-loop)**: 자동화된 평가가 전체의 대부분을 담당하더라도, 매 배포 시 엔지니어가 회귀 테스트 세트의 5~10%를 수동으로 검수하여 평가 모델의 편향이나 오류를 잡아냅니다. * **반복적인 프롬프트 개선**: 수동 검수에서 발견된 불일치 사례를 추적하여 평가 프롬프트를 수정하거나 모델을 교체함으로써 전체적인 평가 루프의 신뢰도를 높입니다. 실질적인 AI 성능 향상을 위해서는 모델 훈련만큼이나 정교한 평가 인프라에 투자해야 합니다. 공공 데이터로 기초를 다지고 내부 로그로 실전 감각을 더하며, LLM 평가자를 엄격하게 관리하는 일련의 과정이 뒷받침될 때 비로소 신뢰할 수 있는 AI 서비스를 운영할 수 있습니다.

합성 및 연합: 모바일 애플리케이션을 위한 LLM 기반 개인정보 보호 도메인 적응 (새 탭에서 열림)

구글 리서치는 개인정보를 보호하면서도 모바일 사용자 경험을 혁신하기 위해 거대언어모델(LLM)을 활용한 합성 데이터 생성과 연합 학습(Federated Learning) 기술을 결합하는 방안을 제시했습니다. 이 기술은 Gboard의 오타 교정, 다음 단어 예측 등 핵심 기능을 고도화하는 데 사용되며, 실제 사용자 데이터를 직접 노출하지 않고도 모델의 도메인 적응 성능을 획기적으로 높였습니다. 결과적으로 차등 개인정보 보호(Differential Privacy)가 적용된 연합 학습 모델이 실제 서비스에 성공적으로 배포되어, 보안과 성능을 동시에 확보할 수 있음을 입증했습니다. **LLM을 활용한 고품질 합성 데이터 생성** * 공개된 데이터를 학습한 강력한 LLM을 사용하여 모바일 사용자의 타이핑 특성을 반영한 합성 데이터를 생성합니다. * 사용자의 민감한 개인 데이터에 직접 접근하는 대신, LLM이 공개 데이터셋에서 모바일 상호작용과 유사한 텍스트를 필터링하거나 직접 생성하도록 유도하는 프롬프트 엔지니어링을 활용합니다. * 이렇게 생성된 합성 데이터는 소형 모델(Small LM)의 사전 학습 단계에서 활용되어, 개인정보 암기 위험을 최소화하면서도 타겟 도메인에 최적화된 성능을 낼 수 있도록 돕습니다. **연합 학습과 차등 개인정보 보호의 결합 (DP-FL)** * Gboard의 모든 생산용 언어 모델은 사용자 기기 내에서 데이터를 처리하는 연합 학습(FL)과 데이터 노출을 통계적으로 제한하는 차등 개인정보 보호(DP) 기술을 적용합니다. * 새로운 알고리즘인 'BLT-DP-FTRL'을 도입하여 개인정보 보호 수준과 모델 성능 사이의 최적의 균형을 유지하며, 배포의 편의성을 높였습니다. * 온디바이스 환경에 최적화된 'SI-CIFG' 모델 아키텍처를 사용하여 기기 내에서의 효율적인 학습과 DP 알고리즘 간의 호환성을 확보했습니다. **오류 교정 및 도메인 적응 성능 강화** * LLM을 통해 정제된 텍스트를 생성한 후, 의도적으로 오타나 문법 오류를 삽입하여 '오류-교정' 쌍의 합성 데이터를 대량으로 확보합니다. * 이 합성 데이터로 모델을 학습시킴으로써 모바일 기기에서의 교정 제안 및 맞춤법 검사 기능을 정교화했습니다. * 실제 환경 적용 결과, 주요 생산성 지표에서 3%~13%의 성능 향상을 기록하며 모바일 타이핑 경험을 실질적으로 개선했습니다. 합성 데이터와 연합 학습의 조합은 개인정보를 철저히 보호하면서도 고성능 AI 서비스를 제공할 수 있는 강력한 기술적 프레임워크를 제공합니다. 특히 데이터 보안이 중요한 모바일 환경에서 LLM의 생성 능력을 활용해 데이터 부족 문제를 해결하고 모델을 고도화하는 전략은 향후 다양한 AI 애플리케이션의 핵심적인 표준이 될 것으로 기대됩니다.

글로벌 보건을 위한 (새 탭에서 열림)

구글 리서치는 전 세계적인 보건 불평등을 해소하고 저개발 지역의 의료 지원을 강화하기 위해, 열대 및 감염성 질환(TRINDs)에 특화된 LLM 벤치마킹 데이터셋과 평가 파이프라인을 개발했습니다. 연구 결과, 기존 의료 시험(USMLE)에서 우수한 성적을 거둔 모델들도 특정 지역의 질병 데이터나 맥락 정보가 부족할 경우 성능이 현저히 저하되는 '분포 변화' 문제를 겪는 것으로 나타났습니다. 이 연구는 LLM이 실제 글로벌 보건 현장에서 진단 보조 도구로 활용되기 위해서는 증상뿐만 아니라 지역, 위험 요인 등 구체적인 컨텍스트를 정밀하게 학습해야 함을 시사합니다. ### TRINDs 데이터셋 구축과 합성 페르소나 기술 * WHO, CDC 등 신뢰할 수 있는 기관의 데이터를 기반으로 50가지 질병에 대한 '시드 페르소나' 템플릿을 생성했습니다. * LLM 프롬프팅을 활용해 증상, 인구통계학적 특성, 임상 및 소비자 관점의 표현, 언어(영어 및 프랑스어) 등을 변주하여 11,000개 이상의 합성 페르소나 데이터셋을 구축했습니다. * 단순한 질병 정의를 넘어 환자의 생활 방식, 위치 정보, 위험 요인 등 실제 의료 현장에서 발생할 수 있는 복합적인 시나리오를 포함했습니다. ### 모델 성능과 컨텍스트의 상관관계 * Gemini 1.5 모델을 대상으로 평가한 결과, 증상 정보만 제공했을 때보다 위치 정보(Location)와 특정 위험 요인(Risk factors)을 결합했을 때 진단 정확도가 가장 높게 나타났습니다. * 일반적인 증상만으로는 정확한 진단에 한계가 있으며, 질병이 발생하는 지역적 맥락이 LLM의 추론 성능을 최적화하는 핵심 요소임을 확인했습니다. * 이는 LLM이 의료 지원 도구로 작동할 때 환자의 거주지나 여행 기록 같은 외부 환경 데이터를 통합하는 것이 필수적임을 뒷받침합니다. ### 편향성 및 언어적 다양성 분석 * 인종이나 성별 언급이 모델 성능에 미치는 통계적으로 유의미한 차이는 발견되지 않았으나, 언어에 따른 차이는 존재했습니다. * 시드 데이터를 프랑스어로 번역하여 테스트했을 때 영어에 비해 성능이 낮게 나타나, 비영어권 지역에서의 활용을 위해 다국어 성능 개선이 필요함을 입증했습니다. * '반사실적 위치(Counterfactual location)' 실험을 통해 질병 발생 지역을 임의로 변경했을 때 모델의 판단이 흔들리는 현상을 확인했으며, 이는 모델이 특정 질병과 지역을 고정관념적으로 연결하고 있을 가능성을 시사합니다. 의료용 AI가 전 세계적으로 공정하게 기여하기 위해서는 표준화된 의료 시험 점수를 넘어, 지역 특화된 데이터셋을 통한 정밀한 검증이 선행되어야 합니다. 특히 저의료 지역의 보건 요원들이 LLM을 신뢰할 수 있는 도구로 쓰기 위해서는 지역적 맥락(Context-aware)을 반영한 모델 튜닝과 벤치마킹이 지속적으로 이루어져야 할 것입니다.

차분 프라이버시 LL (새 탭에서 열림)

구글 리서치는 별도의 미세 조정(Fine-tuning) 과정 없이 기성 대규모 언어 모델(LLM)의 추론만을 활용하여 차분 프라이버시(Differential Privacy, DP)가 보장된 합성 데이터를 생성하는 새로운 접근 방식을 제안했습니다. 이 방법은 여러 개의 민감한 예시를 병렬 프롬프트로 입력하고 그 응답을 프라이버시를 보호하는 방식으로 집계하여, 기존 방식보다 훨씬 많은 양의 고품질 데이터를 생성할 수 있게 합니다. 결과적으로 복잡한 DP 학습 파이프라인 없이도 민감한 데이터를 안전하게 대체할 수 있는 고성능 합성 데이터셋 구축이 가능해졌습니다. ### 병렬 프롬프팅과 토큰 집계 메커니즘 * 민감한 데이터 하나당 하나의 프롬프트를 할당하여 여러 개의 독립적인 프롬프트를 LLM에 동시에 입력합니다. * 각 프롬프트에서 도출된 다음 토큰 예측(Next-token prediction) 결과들을 집계하고, 특정 개인의 데이터가 결과에 과도한 영향을 미치지 않도록 DP 기법을 적용해 토큰을 최종 선택합니다. * 선택된 토큰을 모든 프롬프트 끝에 다시 추가하고 다음 토큰을 예측하는 과정을 반복함으로써, 개별 데이터의 세부 정보는 가리면서도 데이터셋 전체의 통계적 특성은 유지하는 합성 텍스트를 생성합니다. ### 지수 메커니즘을 통한 프라이버시 예산 최적화 * LLM의 표준 생성 과정인 소프트맥스 샘플링(Softmax sampling)과 DP의 핵심 기법인 지수 메커니즘(Exponential mechanism) 사이의 수학적 연결 고리를 활용합니다. * 다음 토큰을 샘플링할 때 발생하는 고유한 무작위성을 프라이버시 보호를 위한 노이즈로 활용하여, 제한된 프라이버시 예산 안에서도 출력 데이터의 양을 극대화했습니다. * 이를 통해 기존 연구들이 10개 미만의 데이터 포인트 생성에 그쳤던 것과 달리, 수천 개의 고품질 합성 데이터를 성공적으로 생성하며 실무 적용 가능성을 입증했습니다. ### 연산 효율성 개선 및 공개 드래프터 도입 * 기존 방식은 매 토큰 생성 시마다 새로운 데이터 배치를 사용해야 했으나, 이번 연구에서는 동일한 문맥을 유지하며 여러 토큰을 생성할 수 있는 새로운 프라이버시 분석 기법을 도입했습니다. * 이를 통해 KV 캐싱(KV caching)과 같은 표준적인 추론 최적화 기술을 그대로 적용할 수 있어 연산 속도와 효율성을 비약적으로 높였습니다. * 또한, 민감한 데이터가 아닌 공개 데이터에만 기반해 토큰을 제안하는 '공개 드래프터(Public Drafter)' 모델과 희소 벡터 기법(Sparse Vector Technique)을 결합했습니다. 문장 구조나 서식 등 일반적인 정보 생성에는 프라이버시 예산을 소모하지 않도록 설계하여 효율성을 더욱 강화했습니다. 이 방식은 민감한 개인 정보를 다루는 조직이 복잡한 DP 모델 학습 없이도 안전한 합성 데이터를 생성하여 데이터 과학자나 외부 협업 팀에 제공할 수 있는 실무적인 인터페이스 역할을 할 수 있습니다. 특히 데이터 형식이 정형화된 작업에서 높은 성능을 보이므로, 보안이 중요한 환경에서의 데이터 활용도를 높이는 데 적극 권장됩니다.