How Video-Native AI Actually Works — The Architecture Behind Gemini Omni

개요

Gemini Omni는 영상을 프레임 단위의 슬라이드쇼가 아닌 연속적인 스트림으로 처리하는 최초의 비디오 네이티브 AI 모델로, 공간과 시간을 모두 고려하는 스페이스-타임 토크나이저와 3D 셀프 어텐션을 기반으로 작동하여 영상의 움직임과 시간적 맥락을 깊이 이해한다.

주요 내용

  • 기존 AI의 비디오 이해 한계: 현재 AI 모델은 영상을 초당 몇 프레임만 추출하거나 오디오만 분석하는 방식으로 작동하며, 연속적인 움직임, 객체 추적, 시간적 인과 관계 추론에 약점을 보인다. 이는 마치 영화 대본을 무작위로 뽑아 읽으며 스토리를 파악하려는 것과 같다.
  • Gemini Omni의 아키텍처 전환:
  • 프레임 기반에서 스트리밍으로: 이전 방식은 비디오를 개별 프레임으로 추출하고 이미지 인코더를 거쳐 텍스트로 변환했으나, Gemini Omni는 비디오를 연속적인 스트림으로 받아 스페이스-타임 토크나이저를 거쳐 비디오 트랜스포머로 처리한다.
  • 스페이스-타임 토크나이저: 영상의 각 프레임을 독립적으로 처리하는 대신, 시간축과 공간축을 모두 포함하는 3D 패치(예: 4프레임 × 16x16 픽셀)를 생성하여 움직임 정보를 토큰 자체에 내재시킨다. 이는 픽셀을 독립적으로 보던 CNN이 공간적 관계를 이해하게 된 것과 유사한 도약이다.
  • 3D 셀프 어텐션: 생성된 스페이스-타임 토큰들은 시간과 공간을 가로지르는 3D 셀프 어텐션을 통해 상호작용하며, 이는 방대한 양의 토큰 간 연산을 요구한다.
  • 링 어텐션 (Ring Attention): 3D 셀프 어텐션의 계산 부담을 줄이기 위해 여러 장치에 어텐션 연산을 분산시키는 기술이 사용된다.
  • 멀티모달 디코더: 텍스트뿐만 아니라 비디오, 오디오 등 다양한 형태의 출력을 생성할 수 있어, 모델 스스로 비디오 편집이 가능하다.
  • 개발자에게 미치는 영향:
  • API의 변화: 프레임 추출 및 개별 분석 방식에서 실시간 스트리밍 또는 단일 비디오 분석 호출 방식으로 발전할 것이다.
  • 새로운 활용 사례 가능성: 스포츠 코칭, 보안 모니터링, 의료 영상 분석, 제조 품질 검사, 비디오 편집 등 기존 AI의 한계로 불가능했던 다양한 분야에서 혁신이 예상된다.
  • 엄청난 컴퓨팅 요구량: 현재는 텍스트 모델 대비 훨씬 높은 컴퓨팅 파워를 요구하지만, 기술 발전과 함께 효율성이 향상될 것으로 전망된다.
  • AI의 시간적 경험: 프레임 샘플링 방식은 정적인 스냅샷에 머무르지만, 비디오 네이티브 AI는 시간의 흐름 속에서 '이전'과 '이후'를 이해하며 동적인 실제 세계와 더욱 효과적으로 상호작용할 수 있게 된다.

시사점

Gemini Omni와 같은 비디오 네이티브 AI는 영상 이해 방식의 근본적인 변화를 가져오며, 향후 AI가 현실 세계와 더욱 깊이 있게 상호작용하고 다양한 분야에서 혁신을 주도할 가능성을 보여준다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions