구글 딥마인드의 바이오어쿠스틱 파운데이션 모델인 Perch 2.0은 주로 조류와 육상 동물의 소리로 학습되었음에도 불구하고, 수중 환경의 고래 음향 분류 작업에서 탁월한 성능을 보여주었습니다. 이 모델은 직접적인 수중 데이터를 학습하지 않고도 전이 학습(Transfer Learning)을 통해 다양한 해양 생물 종과 생태형을 정밀하게 식별할 수 있음을 입증했습니다. 이는 대규모 데이터로 학습된 범용 모델이 물리적 환경이 전혀 다른 영역에서도 강력한 일반화 능력을 발휘할 수 있음을 시사하며, 해양 생태계 연구의 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다.

전이 학습을 활용한 효율적인 음향 분류

임베딩 생성: Perch 2.0과 같은 사전 학습된 모델은 복잡한 오디오 데이터를 '임베딩(Embedding)'이라고 불리는 작은 특징 배열로 압축합니다.
저비용 모델 구축: 대규모 신경망 전체를 처음부터 학습시키는 대신, 추출된 임베딩을 입력값으로 사용하는 단순한 로지스틱 회귀(Logistic Regression) 분류기만 추가하여 새로운 소리를 학습할 수 있습니다.
자원 절약: 이 방식은 연구자가 고성능 컴퓨팅 자원을 대량으로 소모하지 않고도 몇 개의 라벨링된 샘플(Few-shot)만으로 특정 해양 생물에 최적화된 맞춤형 분류기를 신속하게 만들 수 있게 해줍니다.

다양한 해양 데이터셋을 통한 성능 검증

평가 데이터셋: 혹등고래, 대왕고래 등 발린고래류를 포함한 'NOAA PIPAN', 산호초의 생물학적 소음이 담긴 'ReefSet', 그리고 범고래의 세부 생태형(Ecotype)을 구분하는 'DCLDE' 데이터셋을 사용하여 모델을 평가했습니다.
비교 모델: 기존의 수중 전용 모델인 SurfPerch를 비롯하여 Perch 1.0, 조류 전용 모델인 BirdNet, 그리고 AVES 등 타사의 바이오어쿠스틱 모델들과 성능을 대조했습니다.
분류 정확도: Perch 2.0은 거의 모든 테스트 데이터셋과 샘플 수(4~32개) 조건에서 1위 혹은 2위의 AUC_ROC 점수를 기록하며, 수중 오디오로 학습된 모델들에 뒤지지 않거나 오히려 앞서는 성능을 보였습니다.

조류 모델이 수중 소리를 잘 식별하는 이유

일반화 능력: 대규모의 다양한 데이터셋으로 학습된 거대 파운데이션 모델은 특정 종의 소리에 국한되지 않고 소리의 본질적인 패턴을 파악하는 능력이 뛰어납니다.
음향적 유사성: 조류의 지저귐과 고래의 노랫소리는 주파수나 구조적 측면에서 공통적인 특징을 공유하는 경우가 많아, 육상 동물 데이터로 구축된 특징 추출 메커니즘이 수중 환경에도 유효하게 작용합니다.
연구 확장성: 구글은 연구자들이 이 기술을 쉽게 활용할 수 있도록 Google Colab 튜토리얼을 제공하며, 이를 통해 NOAA의 수동 음향 데이터 아카이브를 활용한 맞춤형 고래 분류기 구축을 지원합니다.

해양 생물학 연구자들은 Perch 2.0의 임베딩 기능을 활용함으로써 방대한 수중 녹음 데이터에서 미지의 소리를 분류하는 시간을 단축할 수 있습니다. 특히 새롭게 발견된 '바이오트왱(Biotwang)'과 같은 정체불명의 소리를 식별하거나, 특정 지역의 범고래 하위 집단을 구분하는 정밀한 연구에 이 모델을 적극적으로 활용해 볼 것을 권장합니다.