관계형 데이터를 위한 그래프 파 (새 탭에서 열림)

구글 리서치는 관계형 데이터베이스의 테이블 간 연결 구조를 그래프로 변환하여 처리하는 '그래프 파운데이션 모델(Graph Foundation Models, GFM)'을 제안합니다. 이 모델은 기존의 테이블 기반 머신러닝이나 특정 그래프에 고착된 기존 GNN과 달리, 학습되지 않은 새로운 도메인의 테이블 구조와 기능, 작업에도 추가 학습 없이 일반화할 수 있는 성능을 보여줍니다. 데이터 간의 상호작용과 연결성을 학습함으로써 대규모 관계형 데이터를 보다 정교하게 예측하고 분석할 수 있는 것이 핵심입니다.

관계형 데이터의 그래프 구조화

  • 수많은 테이블로 구성된 복잡한 관계형 데이터를 하나의 이종 그래프(Heterogeneous Graph)로 통합하여 데이터 간의 연결성을 보존합니다.
  • 각 테이블은 고유한 노드 유형이 되고, 테이블의 각 행(Row)은 개별 노드가 되며, 외래 키(Foreign Key) 관계는 노드 사이의 유형화된 엣지(Edge)로 변환됩니다.
  • 수치형이나 범주형 데이터가 포함된 나머지 열(Column)들은 노드의 특성(Feature)으로 처리되며, 시간 정보 또한 노드나 엣지의 특성으로 반영할 수 있습니다.
  • 이러한 변환 과정을 통해 단순한 테이블 단위 분석에서는 놓치기 쉬운 행 간의 유기적인 연결 구조를 모델이 학습할 수 있게 됩니다.

범용성을 갖춘 그래프 파운데이션 모델 설계

  • 언어 모델의 트랜스포머와 유사하게, 그래프 데이터에서도 도메인에 구애받지 않고 전이 가능한 표현력을 학습하는 고용량 신경망 구조를 채택했습니다.
  • 그래프 데이터에는 텍스트의 토큰이나 이미지의 패치와 같은 공통된 단위가 없으므로, 임의의 데이터베이스 스키마와 노드/엣지 유형을 처리할 수 있는 전이 가능한 인코딩 방식을 도입했습니다.
  • 특정 데이터 분포에 고정된 임베딩 테이블을 사용하는 대신, 다양한 작업에서 기능들이 서로 상호작용하는 방식을 캡처함으로써 학습하지 않은 새로운 그래프(예: 인용 그래프에서 학습 후 제품 그래프로 추론)에서도 작동하는 일반화 성능을 확보했습니다.

구글 규모의 실전 적용 및 성능

  • JAX 환경과 대규모 TPU 인프라를 활용해 수십억 개의 노드와 엣지를 포함하는 거대 그래프를 효율적으로 처리할 수 있도록 설계되었습니다.
  • 광고 스팸 탐지와 같이 수십 개의 테이블이 얽혀 있는 구글 내부의 실제 대규모 분류 작업에 적용하여 그 실효성을 검증했습니다.
  • 기존의 테이블 머신러닝 베이스라인 모델들이 행 간의 연결 관계를 고려하지 못하는 한계를 극복하고, 복잡한 관계형 데이터에서 뛰어난 예측 성능을 입증했습니다.

기업 내부에 산재한 수많은 관계형 테이블을 개별적으로 모델링하는 대신, 이를 하나의 거대한 그래프 생태계로 통합하여 바라보는 접근이 필요합니다. GFM은 데이터 스키마가 변경되거나 새로운 도메인이 추가되어도 다시 처음부터 모델을 학습시킬 필요가 없으므로, 대규모 데이터 인프라를 운영하는 환경에서 유연하고 강력한 분석 도구가 될 것입니다.