synthetic-data-generation

2 개의 포스트

AI에게 지도 읽는 법 가 (새 탭에서 열림)

구글 연구진은 멀티모달 거대언어모델(MLLM)이 지도의 기하학적 구조를 이해하고 경로를 추적할 수 있도록 돕는 합성 데이터 생성 파이프라인인 'MapTrace'를 제안했습니다. 기존 모델들이 이미지 내 객체 인식에는 능숙하지만 벽과 길을 구분하는 정밀한 공간 추론에는 한계를 보인다는 점에 착안하여, 200만 개의 데이터 쌍을 자동으로 생성해 학습시키는 방법론을 정립했습니다. 연구 결과, 이러한 합성 데이터를 통한 미세 조정(Fine-tuning)만으로도 모델의 공간 추론 능력을 비약적으로 향상시킬 수 있음이 증명되었습니다. **공간 추론 능력 결여와 데이터 확보의 어려움** * 기존 MLLM은 물리적 세계에 대한 '접지(Grounding)'가 부족하여 지도의 선을 벽으로 인식하지 못하고 통과하는 등 물리적 제약을 무시하는 경향이 있습니다. * 이를 해결하기 위한 정밀한 경로 데이터는 수동으로 구축하기에 비용이 지나치게 비싸고, 쇼핑몰이나 테마파크 같은 복잡한 지도는 대개 저작권 문제로 수집이 어렵습니다. * 결과적으로 모델은 지도를 구조화된 공간이 아닌 단순한 픽셀의 집합으로만 인식하게 되는 '데이터 병목 현상'을 겪게 됩니다. **MapTrace: 4단계 합성 데이터 생성 파이프라인** * **다양한 지도 생성:** LLM이 동물원, 쇼핑몰 등 다양한 장소에 대한 묘사를 생성하면, 이를 이미지 생성 모델(Imagen-4 등)에 입력하여 복잡한 지도 이미지를 얻습니다. * **이동 가능 영역 식별(Mask Critic):** 색상 기반 클러스터링으로 통행 가능한 경로 마스크를 추출한 뒤, MLLM '마스크 비평가'가 실제 사람이 다닐 수 있는 길인지 품질을 검증합니다. * **내비게이션 그래프 구축:** 검증된 2D 마스크를 노드(교차로)와 엣지(길)로 구성된 디지털 그래프 형태로 변환하여 계산 가능한 네트워크를 만듭니다. * **최적 경로 생성 및 검증(Path Critic):** 다익스트라(Dijkstra) 알고리즘으로 최단 경로를 계산한 후, 최종적으로 '경로 비평가' MLLM이 해당 경로가 논리적이고 인간의 이동 양식에 부합하는지 최종 승인합니다. **성능 검증 및 기술적 성과** * 연구진은 생성된 200만 개의 Q&A 쌍 중 일부(23,000개)만으로 Gemma 3 27B 및 Gemini 2.5 Flash 모델을 학습시켰으며, 실제 지도 데이터셋인 MapBench에서 성능 향상을 확인했습니다. * 성능 측정에는 두 좌표 시퀀스 사이의 거리를 비교하는 NDTW(Normalized Dynamic Time Warping) 지표를 활용하여 경로의 정확도를 정밀하게 평가했습니다. * 이미지 생성 과정에서 텍스트 렌더링 오류가 간혹 발생하지만, 경로 추적의 정확성 측면에서는 합성 데이터만으로도 충분한 학습 효과를 거둘 수 있음을 시사합니다. **실용적 제언** AI 모델에 물리적 공간에 대한 상식을 부여하고 싶다면 대규모 수동 레이블링 대신 '비평가(Critic)' 모델이 포함된 자동화된 합성 데이터 파이프라인을 구축하는 것이 비용 효율적입니다. 특히 복잡한 제약 조건이 있는 도메인일수록 모델의 크기를 키우는 것보다 특정 태스크에 맞춤화된 '공간 문법'을 데이터로 가르치는 것이 더 효과적입니다.

억 개 이상의 매개변수 부담을 넘어서: 조건부 생성기로 데이터 합성을 여는 방법 (새 탭에서 열림)

구글 리서치에서 발표한 **CTCL(Data Synthesis with ConTrollability and CLustering)** 프레임워크는 수십억 개의 파라미터를 가진 대규모 언어 모델(LLM) 없이도 고품질의 차분 프라이버시(DP) 합성 데이터를 생성할 수 있는 혁신적인 방법론을 제시합니다. 1억 4천만 개의 파라미터를 가진 경량 모델을 활용함으로써 자원이 제한된 환경에서도 효과적인 데이터 합성을 가능하게 하며, 프라이버시 보존과 데이터 유용성 사이의 균형을 성공적으로 달성했습니다. 이 방식은 기존 LLM 미세 조정 방식보다 비용 효율적이면서도 특정 주제별 분포를 정확하게 재현할 수 있다는 결론을 도출했습니다. ### 기존 합성 데이터 생성의 한계와 CTCL의 등장 * **기존 방식의 문제점:** 차분 프라이버시(DP)를 준수하는 대규모 합성 데이터를 만들려면 일반적으로 수십억 파라미터 규모의 LLM을 미세 조정해야 하므로 막대한 계산 비용이 발생합니다. * **API 기반 방식의 한계:** 최근 제안된 Aug-PE나 Pre-Text 같은 알고리즘은 모델 직접 학습 대신 API를 활용하지만, 수동 프롬프트에 의존도가 높고 프라이빗 정보를 데이터 선택 과정에 효과적으로 반영하지 못하는 단점이 있습니다. * **CTCL의 대안:** CTCL은 경량 모델(140M BART-base)을 사용하면서도, 프라이빗 데이터의 주제 분포를 자동으로 매칭하는 조건부 생성 방식을 채택하여 이러한 제약을 극복합니다. ### 핵심 구성 요소: CTCL-Topic과 CTCL-Generator * **CTCL-Topic (주제 모델):** 위키피디아 데이터를 기반으로 구축된 범용 주제 모델입니다. 약 600만 개의 문서를 1,000개의 클러스터(주제)로 분류하고, 각 주제를 대표하는 10개의 키워드를 추출하여 데이터의 고차원적 테마를 포착합니다. * **CTCL-Generator (조건부 생성기):** 1억 4천만 파라미터 규모의 BART-base 모델을 기반으로 합니다. Gemma-2-2B를 이용해 생성한 4억 3천만 개의 '설명-문서' 쌍으로 사전 학습되어, 특정 키워드나 문서 유형이 주어지면 그에 맞는 내용을 생성하는 강력한 제어 능력을 갖췄습니다. ### 3단계 데이터 합성 프로세스 1. **사전 개발:** 대규모 공개 코퍼스를 사용하여 CTCL-Topic과 CTCL-Generator를 단 한 번 개발합니다. 이 모델들은 이후 다양한 프라이빗 도메인에 범용적으로 적용될 수 있습니다. 2. **프라이빗 도메인 학습:** 프라이빗 데이터 세트의 주제별 분포(히스토그램)를 DP 방식으로 수집합니다. 동시에 프라이빗 문서에서 추출된 주제 키워드를 활용해 CTCL-Generator를 DP 미세 조정하여 해당 도메인의 특성을 학습시킵니다. 3. **합성 데이터 생성:** 수집된 DP 주제 히스토그램의 비율에 맞춰 생성 모델을 샘플링합니다. DP의 '후처리 속성(Post-processing property)' 덕분에, 한 번 학습된 모델로부터 추가적인 프라이버시 비용 소모 없이 무제한으로 합성 데이터를 생성할 수 있습니다. ### 성능 평가 및 실무적 시사점 * **성능 우위:** 다양한 데이터 세트에서 평가한 결과, 특히 강력한 프라이버시 보장(Strong DP) 조건 하에서 기존 베이스라인 모델들을 일관되게 능가하는 성능을 보였습니다. * **확장성 및 효율성:** 수십억 파라미터 모델을 쓰지 않고도 주제별 분포 매칭이 가능하며, Aug-PE 알고리즘 대비 뛰어난 확장성을 입증했습니다. * **실용적 권장:** 자원이 제한된 환경에서 프라이버시를 보호하며 특정 도메인의 텍스트 데이터를 대량으로 생성해야 하는 경우, 무거운 LLM 미세 조정 대신 CTCL과 같은 경량 조건부 생성 프레임워크를 도입하는 것이 비용과 품질 면에서 매우 효율적인 전략이 될 수 있습니다.