Techlist.io - 한국 테크 블로그 큐레이터

검증 가능한 양자 우위 (새 탭에서 열림)

구글 퀀텀 AI(Google Quantum AI) 연구팀은 최근 '양자 에코(Quantum Echoes)' 알고리즘을 통해 검증 가능한 양자 우위(Verifiable Quantum Advantage)를 입증하는 데 성공했습니다. 이 연구는 시간 순서가 바뀐 상관 함수(OTOC, Out-of-Time-Order Correlators)를 측정하여 양자 시스템의 혼돈(Chaos) 현상을 제어하고, 기존 고전 컴퓨터로는 불가능했던 계산 영역에 도달했음을 보여줍니다. 이는 단순한 이론적 증명을 넘어 핵자기공명(NMR) 연구와 같은 실제 세계의 복잡한 물리 문제를 해결할 수 있는 실질적인 토대를 마련한 것으로 평가받습니다. ## 고전적 한계를 극복하는 새로운 측정 방식 * 2019년 구글이 선보인 무작위 회로 샘플링(RCS) 방식은 양자 우위를 처음 증명했으나, 결과물인 비트스트링이 실질적인 정보를 제공하기 어렵고 검증이 까다롭다는 한계가 있었습니다. * 이번 연구에서 도입한 OTOC 측정은 전류, 자화율, 밀도와 같은 '양자 기대값'을 결과로 산출하며, 이는 서로 다른 양자 컴퓨터에서도 동일하게 나타나는 검증 가능한 수치입니다. * 이러한 검증 가능성은 양자 컴퓨터가 단순히 고전 컴퓨터보다 빠르다는 것을 넘어, 실제 물리적 특성을 정확히 시뮬레이션하는 도구로 활용될 수 있음을 의미합니다. ## 양자 에코 알고리즘과 나비 효과의 응용 * '윌로우(Willow)' 퀀텀 칩의 103개 큐비트를 활용하여 시스템을 순방향($U$)으로 진화시킨 후, 특정 큐비트에 미세한 섭동($B$)을 가하고 다시 역방향($U^\dagger$)으로 되돌리는 과정을 거칩니다. * 이 과정에서 발생하는 '나비 효과'로 인해 시스템은 초기 상태와 완전히 다른 혼돈 상태에 빠지게 되며, 이를 통해 큐비트 간의 복잡한 상관관계를 추적할 수 있습니다. * 고차 OTOC로 갈수록 시스템은 간섭계와 같은 역할을 수행하며, 다체 간섭(Many-body interference) 현상을 통해 양자 신호를 증폭하거나 감쇄시킵니다. ## 양자 에르고드성 경계에서의 보강 간섭 * 실험 결과, 특정 공명 조건이 충족될 때 '보강 간섭'이 발생하여 혼돈 상태 속에 숨겨진 양자 상관관계가 증폭되는 것을 확인했습니다. * 이러한 간섭 현상은 OTOC 신호의 크기를 키워 혼돈의 영향을 일부 상쇄하고, 양자 컴퓨터가 측정 가능한 유의미한 신호를 추출할 수 있게 돕습니다. * 연구팀은 이 현상을 활용해 두 큐비트 사이의 상관관계가 어떻게 형성되는지 정밀하게 캐릭터라이징(Characterization)할 수 있음을 보여주었습니다. ## 검증 가능한 양자 우위의 달성 * 고전 컴퓨터로 103개 큐비트와 12.5 사이클 깊이의 회로에서 발생하는 OTOC를 계산하려면 지수적으로 증가하는 연산 비용이 발생하여 사실상 불가능합니다. * 양자 에코 알고리즘은 혼돈 시스템의 복잡성을 그대로 유지하면서도 그 결과값을 검증할 수 있는 통로를 제공함으로써 고전 슈퍼컴퓨터의 한계를 뛰어넘었습니다. * 이 기술은 향후 신소재 개발을 위한 해밀토니안 학습(Hamiltonian learning)이나 고온 초전도체 내의 전자 흐름 분석 등 실용적인 과학적 난제 해결에 직접 기여할 것으로 기대됩니다. 이번 성과는 양자 컴퓨터가 단순한 실험 장치를 넘어, 복잡한 양자 역학적 시스템을 탐구하고 실질적인 데이터를 산출하는 정밀한 과학 도구로서의 단계에 진입했음을 시사합니다. 향후 재료 과학이나 화학 분야에서 복잡한 양자 상태를 분석해야 할 때, 양자 에코 알고리즘은 유력한 해결책이 될 것입니다.

quantum-computing quantum-algorithms quantum-advantage out-of-time-order-correlators+3

netflix

비하인드 더 스트 (새 탭에서 열림)

넷플릭스는 수천만 명의 시청자가 동시에 접속하는 라이브 이벤트 상황에서 시스템 과부하를 방지하면서도 실시간 개인화 추천을 제공하기 위해 '프리페칭(Prefetching)'과 '실시간 브로드캐스팅'이라는 2단계 전략을 도입했습니다. 이 시스템은 이벤트 시작 전 미리 데이터를 기기에 저장해 두었다가, 실제 시작 시점에는 최소한의 신호만 보내 로컬에서 추천 정보를 활성화함으로써 '천둥 번개 효과(Thundering Herd)' 문제를 효과적으로 해결합니다. 이를 통해 넷플릭스는 클라우드 자원을 무리하게 확장하지 않고도 전 세계 수억 대의 기기에 지연 없는 실시간 스트리밍 경험을 제공할 수 있게 되었습니다. **라이브 이벤트와 시동 시간의 제약** * VOD와 달리 라이브 이벤트는 모든 시청자가 특정 시점에 동시에 접속하므로, 짧은 시간 내에 수억 개의 기기에 업데이트를 전달해야 하는 기술적 난관이 존재합니다. * 단순히 서버를 증설하는 선형적 확장은 비효율적이며, 다른 핵심 서비스의 자원을 고갈시킬 위험이 있습니다. * 성공적인 실시간 추천을 위해서는 업데이트 소요 시간(Time), 서비스 처리 용량(Request Throughput), 요청의 다양성(Compute Cardinality)이라는 세 가지 제약 조건을 동시에 최적화해야 합니다. **프리페칭을 통한 트래픽 분산** * 이벤트 시작 전 사용자가 평소처럼 앱을 탐색하는 동안, 라이브 이벤트와 관련된 메타데이터, 아트워크, 개인화된 추천 리스트를 미리 기기 캐시에 저장합니다. * 이를 통해 서버 요청을 시간에 따라 자연스럽게 분산시켜, 이벤트 직전 발생하는 트래픽 스파이크를 제거하고 시스템 안정성을 확보합니다. * 서버 측에서 미리 계산된 '구체화된 추천(Materialized Recommendations)'을 제공함으로써 기기별 요청의 복잡도를 낮춥니다. **저카디널리티 실시간 브로드캐스팅** * 이벤트가 실제로 시작되거나 일정이 변경될 때, 넷플릭스의 푸시 서비스(Zuul Push)를 통해 연결된 모든 기기에 '저카디널리티(Low-cardinality)' 메시지를 전송합니다. * 이 메시지는 복잡한 데이터를 담지 않고 단순히 미리 캐싱된 데이터를 화면에 표시하라는 트리거 역할만 수행하여 네트워크 부하를 최소화합니다. * '최소 한 번(At-least-once)' 전달 방식을 채택하여 네트워크 상태가 불안정한 기기도 다시 온라인 상태가 되면 누락된 업데이트를 즉시 따라잡을 수 있도록 설계되었습니다. **데이터 기반의 동적 적응** * 라이브 이벤트의 특성상 경기 시간이 지연되거나 일정이 변동될 수 있는데, 브로드캐스팅 시스템은 이러한 실시간 제작 상황에 맞춰 전송 타이밍을 동적으로 조절합니다. * 수천만 대의 기기가 동시에 서버에 데이터를 재요청하는 대신 로컬 데이터를 활용하게 함으로써, 전 세계 모든 사용자가 동일한 순간에 일관된 추천 UI를 볼 수 있게 합니다. 라이브 이벤트와 같은 초고부하 상황에서는 무조건적인 서버 증설보다는 클라이언트의 로컬 자원을 활용하고 서버 부하를 시간적으로 분산하는 아키텍처가 필수적입니다. 실시간성이 중요한 서비스라면 모든 데이터를 실시간으로 전송하기보다, 정적인 데이터는 미리 배치하고 상태 변화를 알리는 최소한의 신호만 실시간으로 처리하는 하이브리드 접근 방식을 권장합니다.

distributed-systems recommendation-systems scalability caching+4

google

단 몇 개의 예시 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

ai gen-ai gemini multimodal-ai+4

google

사진 한 장은 천 마디 ( (새 탭에서 열림)

구글 리서치(Google Research)는 차분 프라이버시(Differential Privacy, DP) 기술을 적용하여 데이터의 프라이버시를 완벽히 보호하면서도, 사진 앨범과 같이 복잡한 구조를 가진 합성 데이터를 생성하는 새로운 방법론을 제시했습니다. 이 방식은 이미지를 직접 생성하는 대신 중간 단계로 '텍스트' 표현을 활용하고 이를 계층적으로 구성함으로써, 개별 사진 간의 주제적 일관성을 유지하는 동시에 연산 효율성까지 확보했습니다. 결과적으로 조직은 복잡한 분석 도구마다 프라이버시 기술을 개별 적용할 필요 없이, 안전하게 생성된 합성 앨범 데이터셋만으로도 고도화된 모델 학습과 분석을 수행할 수 있게 됩니다. ### 중간 텍스트 표현을 활용한 프라이버시 강화 기존의 합성 데이터 생성 방식이 단일 이미지나 짧은 텍스트에 치중했던 것과 달리, 본 연구는 이미지를 텍스트로 변환하는 과정을 핵심 기제로 활용합니다. * **손실 압축을 통한 프라이버시 증진:** 이미지를 상세한 텍스트 캡션으로 설명하는 과정은 본질적으로 정보의 일부를 생략하는 '손실 연산'이며, 이는 원본 데이터의 미세한 고유 정보를 보호하는 자연스러운 방어막 역할을 합니다. * **LLM의 강점 활용:** 거대언어모델(LLM)의 뛰어난 텍스트 생성 및 요약 능력을 활용하여, 원본 이미지의 핵심적인 의미 정보(Semantic information)를 효과적으로 포착합니다. * **리소스 최적화:** 이미지 생성은 비용이 많이 들지만 텍스트 생성은 상대적으로 저렴합니다. 텍스트 단계에서 먼저 콘텐츠를 필터링하고 선별함으로써, 불필요한 이미지 생성에 소요되는 연산 자원을 절약할 수 있습니다. ### 계층적 구조를 통한 앨범의 일관성 유지 사진 앨범은 여러 장의 사진이 하나의 주제나 캐릭터를 공유해야 하므로 단순한 개별 이미지 생성보다 난이도가 높습니다. 연구팀은 이를 해결하기 위해 계층적 생성 전략을 채택했습니다. * **2단계 모델 구조:** 앨범 전체의 요약을 생성하는 모델과, 이 요약을 바탕으로 개별 사진의 상세 캡션을 생성하는 모델을 분리하여 학습시킵니다. * **문맥적 일관성 확보:** 모든 개별 사진 캡션이 동일한 '앨범 요약'을 문맥(Context)으로 공유하기 때문에, 생성된 결과물들이 서로 조화를 이루며 하나의 일관된 스토리를 형성하게 됩니다. * **연산 효율성 증대:** 트레이닝 비용은 컨텍스트 길이에 따라 제곱으로 증가합니다. 하나의 긴 컨텍스트를 처리하는 대신 짧은 컨텍스트를 가진 두 개의 모델을 학습시킴으로써 전체적인 연산 비용을 대폭 낮췄습니다. ### 프라이버시가 보장된 학습 알고리즘 합성 데이터가 원본 사용자의 고유한 정보를 유출하지 않도록 엄격한 수학적 증명을 기반으로 하는 학습 기술을 적용했습니다. * **DP-SGD 적용:** DP-SGD(Differentially Private Stochastic Gradient Descent) 알고리즘을 사용하여 모델을 미세 조정(Fine-tuning)함으로써, 생성된 데이터셋이 실제 데이터의 공통적인 패턴은 학습하되 특정 개인의 세부 사항은 포함하지 않도록 보장합니다. * **안전한 데이터 대체제:** 이렇게 생성된 합성 데이터는 프라이버시 위험이 제거된 상태이므로, 데이터 과학자들은 별도의 복잡한 보안 절차 없이 표준적인 분석 기법을 즉시 적용할 수 있습니다. 이 방법론은 단순히 사진 앨범에 국한되지 않고 비디오나 복합 문서와 같이 구조화된 멀티모달 데이터를 안전하게 생성하는 데 광범위하게 응용될 수 있습니다. 고품질의 데이터 확보가 어렵거나 프라이버시 규제가 엄격한 환경에서, 이와 같은 계층적 합성 데이터 생성 방식은 안전하고 효율적인 대안이 될 것입니다.

ai llm gen-ai differential-privacy+4

line

앱 성공을 위한 필수 요소: 장애 모니터링 (새 탭에서 열림)

모바일 서비스의 성공을 위해서는 사용자 신고 이전에 장애를 포착하고 대응할 수 있는 체계적인 모니터링 시스템 구축이 필수적입니다. 단순히 에러를 수집하는 것에 그치지 않고, 로그 레벨을 정교하게 설계하고 핵심 이벤트를 시각화함으로써 운영 환경의 예기치 못한 문제를 실시간으로 파악할 수 있습니다. 이를 통해 장애 대응 시간을 단축하고 사용자 이탈을 방지하여 서비스의 전반적인 품질과 신뢰도를 높일 수 있습니다. **Flutter 환경에서의 Sentry 초기 설정과 데이터 보호** * **의존성 및 환경 설정**: `sentry_flutter`와 네트워크 로그 자동 기록을 위한 `sentry_dio` 패키지를 사용하며, DSN 설정 시 운영(production)과 개발(dev) 환경을 명확히 구분하여 태깅합니다. * **비용 및 성능 최적화**: 모든 트래픽을 수집하는 대신 `tracesSampleRate`를 조절하여 샘플링 비율을 최적화하고 운영 비용을 관리합니다. * **민감 정보 마스킹**: `beforeSend` 콜백을 활용해 서버로 로그를 전송하기 전 사용자 인증 토큰이나 IP 주소 등 개인정보를 삭제하거나 마스킹 처리합니다. * **맥락 파악을 위한 장치**: 사용자 아이디를 설정하는 `configureScope`와 클릭 및 화면 이동 경로를 기록하는 `Breadcrumb`, `NavigatorObserver`를 연결해 에러 발생 직전의 사용자 행동을 복원할 수 있게 합니다. **효율적인 운영을 위한 5단계 로그 레벨 설계** * **Debug & Info**: 개발 단계의 로그는 로컬에서만 확인하고, `info` 레벨은 회원 가입이나 결제처럼 데이터 상태가 변하는 핵심 행위에 대해서만 기록하여 불필요한 트래픽을 방지합니다. * **Warning**: 외부 시스템 연동 실패(API 오류, 푸시 유실 등) 시 기록하며, 사용자의 일시적인 네트워크 문제는 제외하여 노이즈를 줄입니다. 이는 '10분간 100회 발생'과 같은 특정 임계치 기반의 알림 설정 대상으로 활용됩니다. * **Error**: 코드상으로 통제할 수 없는 내부 로직 오류(Null 객체 접근, 파싱 실패, 불가능한 비즈니스 상태 등) 발생 시 기록하며, 즉각적인 확인과 대응이 필요한 단계입니다. * **Fatal**: 앱 크래시나 처리되지 않은 예외 상황을 기록하며, 서비스 가용성에 치명적인 영향을 주는 지표로 관리합니다. **데이터 기반 대응을 위한 커스텀 이벤트 및 대시보드 구성** * **태그 기반 쿼리**: 로그 전송 시 `module`, `eventName`, `reason` 등 커스텀 태그를 명확히 부여하면 특정 기능별 실패율을 쿼리로 쉽게 검색하고 분석할 수 있습니다. * **성능 지표 모니터링**: HTTP 인터셉터를 통해 API 응답 시간과 병목 구간을 측정하고, 화면 로딩 속도 등 사용자 경험에 직결되는 지표를 추적합니다. * **시각화와 알람**: 수집된 데이터를 바탕으로 '비정상 종료 발생 없는 사용자(Crash-free users)' 비율과 주요 이벤트 실패율을 시각화한 대시보드를 구성하고, 장애 지속 시 수신 대상을 단계적으로 확대하는 알람 체계를 구축합니다. 성공적인 모니터링을 위해서는 로그 메시지의 형식을 통일하고 팀 내에서 엄격한 로그 레벨 가이드라인을 공유하는 것이 중요합니다. 처음부터 모든 알람을 활성화하기보다는 핵심 지표부터 시작하여 점진적으로 임계치를 조절해 나감으로써, 알람 피로도를 줄이고 실제 장애 상황에 집중할 수 있는 환경을 만드는 것을 추천합니다.

flutter monitoring sentry error-tracking+3

google

가상 머신 퍼즐 (새 탭에서 열림)

구글 리서치와 딥마인드가 개발한 LAVA는 클라우드 데이터 센터의 자원 효율성을 극대화하기 위해 가상 머신(VM)의 수명을 실시간으로 예측하고 적응하는 새로운 스케줄링 알고리즘입니다. 기존의 단발성 예측 방식에서 벗어나 VM이 실행되는 동안 지속적으로 남은 수명을 재예측하는 방식을 채택하여 자원 파편화와 낭비를 획기적으로 줄였습니다. 이 시스템은 실제 구글의 대규모 클러스터 관리 시스템인 Borg에 적용되어 빈 호스트 확보 및 자원 활용도 측면에서 유의미한 성능 향상을 입증했습니다. ## 수명 예측의 불확실성과 연속 재예측 기술 * 클라우드 VM의 수명은 매우 불확실하며, 대다수의 단기 VM(88%)이 아주 적은 자원(2%)만 사용하는 반면 극소수의 장기 VM이 대부분의 자원을 점유하는 롱테일(Long-tail) 분포를 보입니다. * LAVA는 생존 분석(Survival Analysis)에서 영감을 얻은 머신러닝 모델을 사용하여 VM 수명을 단일 값이 아닌 확률 분포로 예측함으로써 내재된 불확실성을 관리합니다. * "연속 재예측(Continuous Reprediction)" 기능을 통해 VM이 실행되는 동안 축적된 정보를 바탕으로 남은 수명을 실시간으로 업데이트하며, 이를 통해 초기 예측 오류를 스스로 수정하고 정확도를 높입니다. ## NILAS: 기존 시스템에 통합되는 비침습적 스케줄링 * NILAS(Non-Invasive Lifetime Aware Scheduling)는 기존 구글의 Borg 스케줄러 점수 함수에 수명 예측 데이터를 통합한 알고리즘입니다. * 새로운 VM을 배치할 때 해당 호스트에 이미 있는 VM들의 예상 종료 시간을 고려하여, 비슷한 시기에 종료될 VM들을 한곳에 모읍니다. * 이 방식은 특정 시점에 호스트 내의 모든 VM이 동시에 종료되도록 유도하여, 대규모 작업이나 유지보수에 필수적인 '빈 호스트'를 더 많이 확보하는 데 기여합니다. ## LAVA와 LARS를 통한 자원 배치 및 재배치 최적화 * **LAVA (Lifetime-Aware VM Allocation):** 장기 VM이 점유 중인 호스트의 남은 유휴 공간에 아주 짧은 수명의 VM들을 배치하는 전략입니다. 이는 자원 파편화(Resource Stranding)를 방지하며, 단기 VM이 빠르게 종료되므로 호스트의 전체 수명에 영향을 주지 않고 효율을 높입니다. * **LARS (Lifetime-Aware Rescheduling):** 데이터 센터 유지보수나 파편화 제거가 필요할 때, 예측된 수명이 긴 VM부터 우선적으로 다른 호스트로 이주시킵니다. 수명이 짧은 VM은 이주시키지 않고 자연스럽게 종료되도록 기다림으로써 불필요한 시스템 중단과 이동 비용을 최소화합니다. LAVA의 도입은 예측 불가능한 사용자 워크로드를 다루는 클라우드 인프라에서 단순한 정적 규칙보다 실시간 데이터 기반의 적응형 알고리즘이 훨씬 효과적임을 시사합니다. 이러한 접근법은 대규모 데이터 센터 운영에서 경제적 효율성을 높일 뿐만 아니라, 서버 가동률 최적화를 통해 에너지 소비를 줄이는 환경적 지속 가능성 측면에서도 중요한 솔루션이 될 수 있습니다.

ai machine-learning cloud-computing scheduling-algorithms+5

google

DeepSomatic으로 종양 (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.

ai machine-learning deep-learning genomics+5

google

* Option 1 (새 탭에서 열림)

Coral NPU는 저전력 엣지 기기와 웨어러블 장치에서 상시 가동되는 AI를 구현하기 위해 설계된 오픈소스 풀스택 플랫폼입니다. 구글 리서치와 구글 딥마인드가 공동 설계한 이 플랫폼은 기존 클라우드 기반 모델의 한계를 넘어 개인정보 보호와 성능, 그리고 하드웨어 파편화 문제를 동시에 해결하고자 합니다. 이를 통해 스마트 워치나 AR 글래스 같은 배터리 제한적인 기기에서도 효율적인 온디바이스 AI 경험을 제공할 수 있는 기반을 마련했습니다. **엣지 AI 도입의 주요 장벽** * **성능 및 전력 격차:** 최신 ML 모델은 높은 연산력을 요구하지만, 엣지 기기는 전력, 발열, 메모리 자원이 극도로 제한되어 있어 클라우드 없이 실행하기 어렵습니다. * **소프트웨어 파편화:** 다양한 독자적 프로세서에 맞춰 모델을 컴파일하고 최적화하는 과정이 복잡하고 비용이 많이 들어, 기기 간 일관된 성능 유지가 어렵습니다. * **사용자 신뢰와 보안:** 진정한 개인 맞춤형 AI를 위해서는 개인 데이터를 클라우드로 전송하지 않고 기기 로컬 내에서 안전하게 처리하는 환경이 필수적입니다. **AI 우선주의 하드웨어 아키텍처** * **설계의 역발상:** 전통적인 CPU 중심 설계 대신 ML 매트릭스 엔진을 최우선으로 배치하여, 실리콘 단계부터 AI 추론 효율성을 극대화하도록 재설계되었습니다. * **RISC-V 기반 IP 블록:** 개방형 표준인 RISC-V ISA를 준수하는 아키텍처를 통해 SoC 설계자가 설계를 자유롭게 수정하거나 확장할 수 있는 유연성을 제공합니다. * **초저전력 고성능:** 수 밀리와트(mW) 정도의 전력만 소모하면서도 약 512 GOPS(Giga Operations Per Second)의 성능을 제공하여 상시 주변 감지(Ambient sensing)가 가능합니다. **Coral NPU의 핵심 구성 요소** * **스칼라 코어(Scalar Core):** 데이터 흐름을 관리하는 경량 RISC-V 프런트엔드로, 초저전력 구동을 위해 단순한 실행 모델을 채택하고 전통적인 CPU 기능을 수행합니다. * **벡터 실행 유닛(Vector Unit):** RISC-V 벡터 명령어 세트(RVV v1.0)를 준수하는 SIMD 코프로세서로, 대규모 데이터 세트를 동시에 처리하는 능력을 갖췄습니다. * **매트릭스 실행 유닛(Matrix Unit):** 신경망 연산의 핵심인 양자화된 외적 곱셈-누산(MAC)을 가속하기 위해 특별히 설계된 엔진으로, 현재 개발 중이며 곧 오픈소스로 공개될 예정입니다. **통합된 개발자 경험 및 소프트웨어 스택** * **유연한 프레임워크 지원:** TensorFlow, JAX, PyTorch 등의 모델을 IREE나 TFLM 같은 현대적 컴파일러를 통해 쉽게 배포할 수 있는 환경을 제공합니다. * **MLIR 기반 도구 체인:** StableHLO와 MLIR 포맷을 활용하여 모델을 효율적으로 변환하고, 시뮬레이터와 커스텀 커널을 통해 최적화된 경로를 지원합니다. * **C언어 프로그래밍 가능:** 하드웨어 가속기임에도 개발자가 익숙한 C언어로 프로그래밍할 수 있어 하드웨어의 강점을 활용하면서도 개발 난이도를 낮췄습니다. Coral NPU는 하드웨어 설계자에게는 확장 가능한 참조 아키텍처를, 소프트웨어 개발자에게는 파편화되지 않은 통합 도구를 제공합니다. 배터리 소모를 최소화하면서도 강력한 AI 기능을 구현하고자 하는 제조사나 개발자라면 구글이 공개한 문서와 깃허브(GitHub)의 오픈소스 도구를 통해 차세대 온디바이스 AI 기기 개발을 시작해 볼 수 있습니다.

ai machine-learning coral-npu edge-ai+5

google

XR 블록스: AI + (새 탭에서 열림)

Google XR 팀이 공개한 **XR Blocks**는 인공지능(AI)과 확장 현실(XR) 기술의 결합을 가속화하기 위한 오픈 소스 프레임워크로, 몰입형 지능형 컴퓨팅 환경을 구축하는 데 따르는 기술적 장벽을 낮추기 위해 설계되었습니다. 기존의 XR 개발이 인지, 렌더링, 상호작용 시스템을 수동으로 통합해야 하는 고마찰 과정이었다면, XR Blocks는 이를 모듈화된 '플러그 앤 플레이' 방식으로 전환하여 창작자가 복잡한 하위 시스템 구현 대신 사용자 경험 설계에 집중할 수 있게 합니다. 이 프레임워크는 WebXR, three.js, LiteRT, Gemini 등 접근성 높은 기술을 기반으로 하며, 데스크톱 시뮬레이터와 Android XR 기기 모두에서 작동하는 범용성을 갖추고 있습니다. **창작자 중심의 설계 원칙** * **단순성과 가독성:** Python의 철학(Zen of Python)에서 영감을 받아, 개발자의 스크립트가 마치 고수준의 경험을 묘사하는 문장처럼 읽힐 수 있도록 깨끗하고 직관적인 추상화를 제공합니다. * **창작자 경험 우선:** 센서 데이터 융합이나 AI 모델 통합과 같은 복잡한 '하위 배관 작업'에 시간을 허비하지 않고, 지능적이고 인지적인 XR 애플리케이션의 핵심 로직 개발에만 몰입할 수 있는 환경을 조성합니다. * **실용적 유연성:** 기술의 빠른 변화에 대응하기 위해 완벽한 단일 체계를 지향하기보다, 모듈화되고 적응력 높은 아키텍처를 채택하여 다양한 기기와 환경에서 유연하게 작동하도록 했습니다. **리얼리티 모델과 추상화 계층** * **Script와 실행의 분리:** 상호작용의 내용(What)을 정의하는 'Script'와 이를 저수준에서 구현하는 방식(How)을 분리하여 시스템의 복잡도를 관리합니다. * **사용자 및 물리 세계 인지:** 손의 움직임, 시선(Gaze), 아바타와 같은 사용자 요소와 깊이 맵(Depth), 조명 추정, 객체 인식 등 물리적 환경 정보를 손쉽게 쿼리하고 활용할 수 있습니다. * **AI 및 지능형 에이전트 통합:** 가상 인터페이스(UI)뿐만 아니라 맥락을 이해하고 능동적으로 제안을 수행하는 'Sensible Agent'와 같은 AI 기능을 프레임워크 내에서 직접 구현할 수 있습니다. **실제 적용 사례 및 가치** * **XR 리얼리티 가속화:** 깊이 인식과 물리 기반 상호작용을 시뮬레이션 환경에서 프로토타이핑하고, 동일한 코드를 실제 XR 기기에 즉시 배포하여 개발 사이클을 단축할 수 있습니다. * **맞춤형 상호작용 설계:** 사용자 정의 제스처 모델을 데스크톱 시뮬레이터와 온디바이스 XR 환경에 원활하게 통합하여 독창적인 인터랙션을 실험할 수 있습니다. 이 프레임워크는 아이디어를 인터랙티브한 프로토타입으로 빠르게 전환하고자 하는 개발자와 연구자들에게 강력한 도구가 될 것입니다. 특히 웹 기반 기술을 활용하므로 높은 접근성을 제공하며, Android XR 생태계와의 호환성을 통해 차세대 AI+XR 애플리케이션 개발의 표준적인 출발점을 제시합니다.

ai gemini webxr litert+4

google

Speech-to-Retrieval ( (새 탭에서 열림)

구글 리서치는 기존의 음성-텍스트 변환 과정을 거치지 않고 음성에서 직접 정보를 찾아내는 새로운 음성 검색 엔진인 'Speech-to-Retrieval(S2R)'을 공개했습니다. 이 기술은 중간 단계인 텍스트 전사 과정에서 발생하는 오류 전파를 차단하여 검색의 속도와 신뢰성을 획기적으로 높인 것이 특징입니다. 결과적으로 사용자의 발화 의도를 더 정확하게 파악함으로써 기존 계단식(Cascade) 모델이 가진 한계를 극복하고 더 나은 검색 경험을 제공합니다. **기존 계단식 모델의 한계와 오류 전파** * 전통적인 음성 검색은 음성 인식(ASR)으로 목소리를 텍스트로 바꾼 뒤 이를 검색 엔진에 전달하는 '계단식 모델'을 사용해 왔습니다. * 이 방식은 ASR 단계에서 발생하는 미세한 소리 인식 오류가 검색 결과에 치명적인 영향을 미치는 '오류 전파(Error Propagation)' 문제에 취약합니다. * 예를 들어, 명화 "절규(The Scream)"를 검색했을 때 ASR이 이를 "Screen"으로 잘못 인식하면, 검색 엔진은 예술 작품이 아닌 스크린 페인팅 기술에 대한 엉뚱한 결과를 내놓게 됩니다. * 오디오를 하나의 텍스트 문자열로 압축하는 과정에서 문맥적 단서나 음향적 특성이 손실되는 '정보 손실' 문제도 주요한 한계로 지적됩니다. **S2R 모델의 혁신적 접근 방식** * S2R은 텍스트 전사 단계를 완전히 우회하여 음성 쿼리로부터 직접 검색 의도를 매핑하고 정보를 추출합니다. * 이는 "어떤 단어를 말했는가?"라는 질문에서 벗어나 "사용자가 찾고 있는 정보는 무엇인가?"라는 본질적인 질문에 집중하는 아키텍처의 전환을 의미합니다. * 텍스트 전사가 완벽하지 않더라도 음성 데이터 자체에 담긴 풍부한 정보를 활용하므로 검색의 정확도를 높일 수 있습니다. **성능 평가 및 데이터셋 공개** * 구글은 S2R의 성능을 평가하기 위해 17개 언어와 26개 지역의 음성 질문을 담은 'Simple Voice Questions(SVQ)' 데이터셋을 공개했습니다. * 실험 결과, 음성 인식 오류율(WER)이 낮다고 해서 반드시 검색 품질(MRR)이 높아지는 것은 아니며, 언어별로 전사 오류가 검색에 미치는 영향이 각기 다르다는 점이 확인되었습니다. * 현재의 실제 음성 인식 시스템(Cascade ASR)과 완벽한 텍스트를 가정한 시스템(Cascade Groundtruth) 사이에는 여전히 큰 성능 격차가 존재하며, S2R은 이 간극을 메우는 핵심 기술이 될 것으로 보입니다. 음성 검색의 미래는 단순한 전사(Transcription)를 넘어 직관적인 검색(Retrieval)으로 진화하고 있습니다. 개발자와 연구자들은 구글이 오픈소스로 공개한 SVQ 데이터셋을 활용해 다국어 환경에서의 검색 성능을 벤치마킹할 수 있으며, 특히 음성 인식률이 낮은 언어권에서 S2R 방식의 도입은 검색 품질을 개선하는 데 실질적인 도움이 될 것입니다.

information-retrieval speech-to-retrieval voice-search automatic-speech-recognition+3

line

IUI 2025 참관기: AI의 지속성과 인간 중심의 AI에 대해서 (새 탭에서 열림)

IUI(Intelligent User Interfaces) 2025 학회에서는 단순히 기술적 성능이 뛰어난 AI를 넘어, 인간의 능력을 증강하고 윤리적 책임을 존중하는 '인간 중심의 AI(Human-Centered AI)'가 핵심 화두로 다뤄졌습니다. 전문가들은 AI가 인간의 인지와 현실을 어떻게 재설계할 것인지, 그리고 복잡한 모델을 사용자가 어떻게 신뢰하고 통제할 수 있을지에 대한 실천적인 방법론을 제시했습니다. 결론적으로 미래의 AI는 독립적인 자동화 도구가 아니라, 인간과 상호작용하며 함께 성장하고 사회적 맥락 안에서 투명하게 소통하는 협력적 지능으로 진화해야 함을 강조했습니다. **리얼리티 디자인: 인터페이스를 넘어 현실을 설계하는 AI** * HCI(인간-컴퓨터 상호작용) 연구의 범위를 단순한 화면 속 인터페이스에서 인간의 삶이 이루어지는 '현실 자체'로 확장해야 한다는 '리얼리티 디자인' 개념이 제시되었습니다. * AI와 센서, XR 기술을 결합하여 인간의 기억을 기록 및 재구성하거나, 특정 음성을 선택적으로 청취하고 동작을 슬로 모션으로 지각하는 등 인간의 감각과 인지 능력을 물리적으로 증강하는 연구 사례들이 소개되었습니다. * 다만, 기술이 인간의 사고와 학습 의지를 약화시켜 '인지적 퇴화'를 초래할 수 있다는 점이 경고되었으며, 기술과 인간이 서로 영향을 주고받는 순환적 관계임을 고려한 설계가 필요합니다. **인간 중심의 AI 투명성: 사회기술적 간극 해소** * 기존의 기술 중심적 설명 가능성(XAI)에서 벗어나, 사용자가 실제 맥락에서 이해하고 신뢰할 수 있는 '사회기술적(socio-technical)' 관점의 투명성 확보가 강조되었습니다. * 투명성을 구현하기 위한 구체적 방법론으로 확정적이지 않은 결과를 명확히 전달하는 '불확실성 커뮤니케이션', 조건 변화에 따른 결과 차이를 보여주는 '반사실적 설명', 사용자가 피드백을 통해 모델을 조정하는 '상호작용 기반 투명성'이 제시되었습니다. * LLM 시대의 투명성은 단순한 정보 공개를 넘어 모델 카드(Model Card)를 통한 데이터/개발 배경 공유, 안전성 및 리스크 평가 결과 포함, 그리고 사용자가 직접 통제권을 가질 수 있는 수단을 함께 제공하는 방향으로 나아가야 합니다. **인터랙티브 머신러닝: 사용자와 함께 성장하는 모델** * AI를 고정된 데이터를 학습하는 정적 도구로 보지 않고, 사용자가 모델의 오류를 수정하고 그 피드백이 다시 학습에 반영되는 '인간 참여형(Human-in-the-loop)' 루프의 중요성이 재조명되었습니다. * 이 방식은 교육 도구에서 학생들이 데이터를 조작하며 학습 원리를 깨우치게 하거나, 연구 현장에서 대규모 데이터를 분석할 때 인간의 직관을 결합하는 등 다양한 실무 분야에서 인용되고 있습니다. * 좋은 AI의 기준은 독립적인 성능 수치보다 사용자와의 지속적인 상호작용을 통해 얼마나 유연하게 적응하고 발전할 수 있는지에 달려 있습니다. **전문가 협업 시스템: 상담 분석을 돕는 AI** * 아동 상담 분석과 같이 고도의 전문성이 필요한 영역에서 AI가 상담사의 녹취 및 전사 작업을 보조하고, 상담사가 AI의 결과물을 손쉽게 편집 및 교정할 수 있는 협업 시스템 연구가 발표되었습니다. * 이는 AI가 인간의 일자리를 대체하는 것이 아니라, 번거로운 작업을 효율화함으로써 전문가가 본연의 가치 있는 업무에 집중할 수 있도록 돕는 실질적인 협업 모델의 예시를 보여줍니다. **실용적 제언** AI 시스템을 설계할 때 단순히 정확도를 높이는 데 그치지 말고, 사용자가 시스템의 판단 근거를 납득할 수 있는 '설명 수단'과 잘못된 결과를 바로잡을 수 있는 '통제 수단'을 반드시 세트로 설계해야 합니다. 특히 고위험군 서비스를 개발할 때는 모델의 불확실성을 시각적·언어적으로 친절하게 전달하여 사용자가 적절한 수준의 신뢰를 형성하도록 유도하는 것이 중요합니다.

ai llm human-in-the-loop human-centered-ai+5

line

한 달짜리 과제, 바이브 코딩으로 5일 만에!(ChatGPT·Cursor) (새 탭에서 열림)

기존의 전통적인 개발 방식은 상세한 요구 사항 정의와 설계 단계에 많은 비용이 소모되어 급변하는 시장 트렌드에 대응하기 어렵습니다. 이 글은 생성형 AI를 활용해 '작동하는 데모'를 빠르게 만들고 이를 수정해 나가는 '바이브 코딩(Vibe Coding)' 전략을 통해, 한 달이 걸릴 과제를 단 5일 만에 해결한 과정을 담고 있습니다. 완벽한 정답보다는 충분히 괜찮은 해답을 빠르게 도출해 검증 루프를 돌리는 것이 핵심입니다. ### 요구 사항과 도메인의 간결한 정의 - 복잡한 메뉴 등록 시스템을 단순화하기 위해, 초기 요구 사항은 메모장에 한 줄 요약과 최우선순위 1~2가지만 정리하여 시작합니다. - 데이터 구조는 화면 구성의 기반이 되므로 가능한 사실에 가깝게 정의하되, 세부적인 내용은 AI의 창의적인 제안을 수용할 수 있도록 여백을 둡니다. - 처음부터 완벽한 명세서를 작성하려 하기보다, AI가 맥락을 파악할 수 있는 핵심 도메인 지식을 전달하는 데 집중합니다. ### 5가지 솔루션 후보 선정 및 구체화 - ChatGPT를 활용해 '스텝퍼형 마법사', '라이브 미리보기', '템플릿 복제', '채팅 입력', 'OCR 사진 촬영' 등 서로 다른 접근 방식의 솔루션 5가지를 도출합니다. - 각 솔루션의 장단점을 분석하여 실무 적용 가능성을 판단하고, 프롬프트를 미세 조정하며 원하는 수준의 답변이 나올 때까지 반복 요청합니다. - 이 과정에서 AI는 맥락을 축적하며 결과물의 품질을 높이며, 사용자는 여러 대안 중 최적의 사용자 경험(UX)을 선택할 수 있는 시야를 확보합니다. ### AI 기반의 와이어프레임 및 상세 설계 - 선정된 각 솔루션별로 필요한 화면 수, UI 요소, 공통 패턴(진행률 표시, 유효성 검사 등)을 AI가 상세히 설계하도록 유도합니다. - 예를 들어 '스텝퍼형'의 경우 8단계의 상세 화면 구성을 정의하고, 각 단계에서 입력받을 필드와 도움말 문구까지 구체화합니다. - 설계 과정에서 누락된 기능이나 우선순위 변경이 발견되면 프롬프트를 수정해 즉시 재설계하며, 물리적 설계 문서 작성의 부담을 최소화합니다. ### Cursor와 Flutter를 활용한 고속 구현 - AI 통합 개발 환경인 Cursor를 사용해 Flutter 기반의 모바일 앱 코드를 생성하며, 단일 코드베이스의 이점을 살려 실험 속도를 극대화합니다. - 먼저 5가지 솔루션의 진입점이 포함된 공통 뼈대(Main Screen)를 작성한 뒤, 각 솔루션을 개별 파일로 나누어 점진적으로 구현합니다. - 처음부터 상태 관리 라이브러리(Riverpod)나 데이터베이스(SQLite) 같은 기술 스택을 고민하지 않고, 기능 위주의 화면 데모를 먼저 만든 후 필요에 따라 스택을 추가하는 역순 방식을 취합니다. 이러한 방식은 '완성물이 최고의 디버거'라는 철학을 바탕으로 합니다. 문서 상의 논의에 시간을 쏟기보다 작동하는 앱을 빠르게 만들어 직접 만져보며 수정하는 것이 결과적으로 더 높은 품질의 제품을 더 빨리 만드는 길입니다. AI는 반복적인 재작업 요청에도 지치지 않으므로, 개발자는 이를 활용해 끊임없이 가설을 검증하고 정답에 가까워지는 '반복의 힘'을 믿어야 합니다.

ai llm gen-ai prompt-engineering+5

google

이미지 생성을 위한 협 (새 탭에서 열림)

PASTA(Preference Adaptive and Sequential Text-to-image Agent)는 사용자의 고유한 취향을 실시간으로 학습하여 여러 차례의 상호작용을 통해 이미지를 정교화하는 강화학습 기반 에이전트입니다. 사용자가 단일 프롬프트만으로 원하는 결과물을 얻기 어려운 기존 텍스트-이미지(T2I) 모델의 한계를 극복하기 위해, 에이전트와 사용자가 대화하듯 협업하는 방식을 채택했습니다. 구글 리서치는 실제 인간의 피드백과 대규모 사용자 시뮬레이션 데이터를 결합하여 학습함으로써 사용자 만족도를 획기적으로 높이는 데 성공했습니다. ### PASTA의 핵심 메커니즘과 협업 프로세스 - PASTA는 가치 기반 강화학습(Value-based RL) 모델을 사용하여 각 단계에서 사용자의 누적 만족도를 극대화할 수 있는 최적의 '프롬프트 확장(Prompt expansions)' 세트를 선택합니다. - 프로세스는 사용자가 초기 프롬프트를 입력하면 Gemini Flash 모델이 다양한 후보군을 생성하고, PASTA 에이전트가 이 중 최적의 이미지 4개를 선별하여 제안하는 방식으로 진행됩니다. - 사용자가 제안된 이미지 중 자신의 의도에 가장 가까운 것을 선택하면, 에이전트는 이를 실시간 피드백으로 삼아 다음 단계에서 더욱 정교한 후보를 제시하는 시각적 대화 루프를 형성합니다. ### 사용자 시뮬레이션을 통한 학습 데이터 확보 - 데이터 부족과 개인정보 보호 문제를 해결하기 위해 실제 사용자 데이터 7,000여 건을 바탕으로 '사용자 시뮬레이터'를 구축하여 3만 건 이상의 상호작용 데이터를 생성했습니다. - 사용자 모델은 특정 이미지 세트를 좋아할 확률을 예측하는 '유틸리티 모델'과 여러 선택지 중 하나를 고르는 '선택 모델'로 구성되며, 사전 학습된 CLIP 인코더를 활용합니다. - 기대값 최대화(EM) 알고리즘을 통해 사용자의 잠재적 유형(예: 동물, 음식, 추상화 선호 등)을 파악하고 학습에 반영함으로써 에이전트가 다양한 사용자 취향에 빠르게 적응할 수 있도록 했습니다. ### 성능 검증 및 실험 결과 - 연구팀은 암시적 Q-학습(Implicit Q-Learning, IQL)을 사용해 PASTA를 훈련시켰으며, 실제 데이터와 시뮬레이션 데이터를 결합한 모델이 가장 뛰어난 성능을 보였습니다. - Pick-a-Pic 데이터셋 accuracy와 스피어먼 순위 상관계수(Spearman’s rank correlation) 등 주요 지표에서 기존의 최신(SOTA) 모델(Gemini Flash 및 SDXL 기반)을 일관되게 상회했습니다. - 결과적으로 PASTA는 사용자가 반복적으로 프롬프트를 수정해야 하는 번거로움을 줄이면서도, 몇 번의 선택만으로 창의적 의도에 완벽히 부합하는 이미지를 생성하는 능력을 입증했습니다. PASTA는 이미지 생성 과정에 사용자의 피드백을 실시간으로 녹여내는 새로운 협업 패러다임을 제시합니다. 단순히 명령을 수행하는 도구를 넘어 사용자의 미적 취향을 이해하는 개인화된 AI 에이전트로의 발전을 보여주는 사례로, 향후 다양한 창작 지원 도구에 이 프레임워크를 적용할 수 있을 것으로 기대됩니다.

ai reinforcement-learning text-to-image large-multimodal-models+5

google

Snapseed의 인터 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.

ai machine-learning computer-vision knowledge-distillation+5

netflix

100배 더 빠르게 (새 탭에서 열림)

넷플릭스는 대규모 데이터 및 머신러닝 워크플로우를 관리하는 오케스트레이터인 'Maestro'의 엔진을 전면 개편하여 성능을 100배 이상 향상시켰습니다. 기존 수 초 단위에 달하던 실행 오버헤드를 밀리초(milliseconds) 단위로 단축함으로써, 광고나 라이브 스트리밍과 같이 저지연 및 고빈도 스케줄링이 필요한 신규 비즈니스 요구사항을 충족하게 되었습니다. 이번 업데이트를 통해 Maestro는 확장성뿐만 아니라 극도로 빠른 실행 속도까지 갖추게 되어 개발자들의 작업 효율을 획기적으로 개선했습니다. **기존 아키텍처의 한계와 병목 현상** * **3계층 구조의 복잡성:** Maestro는 API/런타임, 엔진, 내부 플로우 엔진의 3단계로 구성되었으나, 각 계층 간의 데이터 전달과 상태 동기화 과정에서 상당한 시간이 소요되었습니다. * **폴링(Polling) 방식의 지연:** 기존의 내부 플로우 엔진은 일정 간격으로 태스크를 확인하는 폴링 방식으로 동작하여, 단계별 상태 전이 시마다 초 단위의 불필요한 대기 시간이 발생했습니다. * **분산 큐 및 데이터베이스 부하:** 분산 작업 큐(Dyno-queues)와 데이터베이스 액세스 패턴에서 발생하는 오버헤드로 인해 워크플로우가 복잡해질수록 전체 실행 속도가 저하되는 문제가 있었습니다. * **경합 조건 발생:** 강력한 일관성 보장이 부족하여 특정 단계가 두 개의 워커에서 동시에 실행되는 등의 레이스 컨디션(Race condition) 문제가 간혹 발생했습니다. **100배 빠른 엔진을 위한 설계 최적화** * **이벤트 기반 리액티브 모델:** 폴링 방식을 폐기하고 이벤트 기반 아키텍처를 도입하여, 태스크 완료 즉시 다음 단계가 실행되도록 지연 시간을 최소화했습니다. * **상태 머신 직접 관리:** 워크플로우 그래프를 내부 플로우 태스크로 변환하던 중간 레이어를 제거하고, 엔진이 직접 워크플로우와 단계별 상태 머신을 제어하도록 단순화했습니다. * **데이터 액세스 최적화:** 데이터베이스 쓰기 횟수를 줄이고 효율적인 캐싱 및 분산 잠금(Distributed Locking) 메커니즘을 적용하여 성능과 안정성을 동시에 확보했습니다. * **추상화 계층 정합성:** Maestro 엔진이 상태 전이와 생명주기를 전담하게 함으로써, 하부 플로우 엔진에 대한 의존성을 없애고 엔진의 실행 효율을 극대화했습니다. **성능 향상 결과 및 활용 사례** * **실행 속도 극대화:** 워크플로우 엔진의 내부 오버헤드가 수 초에서 밀리초 단위로 줄어들며 전체적인 응답 속도가 100배 이상 개선되었습니다. * **신규 비즈니스 지원:** 1시간 미만의 짧은 주기로 실행되는 스케줄링이나 광고(Ads), 게임 등 저지연 워크플로우가 필수적인 도메인에 적용 가능해졌습니다. * **개발 생산성 제고:** 반복적인 개발 및 테스트 사이클에서 발생하는 대기 시간이 사라져 엔지니어들의 반복 작업 효율이 크게 향상되었습니다. 대규모 확장성과 초고성능을 동시에 요구하는 환경이라면, 넷플릭스에서 검증되고 오픈 소스로 공개된 최신 버전의 Maestro 도입을 적극적으로 검토해 볼 가치가 있습니다. 특히 기존 워크플로우 엔진의 지연 시간으로 인해 실시간 처리에 어려움을 겪고 있는 조직에 강력한 해결책이 될 수 있습니다.

distributed-systems performance-optimization workflow-orchestration netflix-maestro+3