How Video-Native AI Actually Works — The Architecture Behind Gemini Omni
개요
Gemini Omni는 영상을 프레임 단위의 슬라이드쇼가 아닌 연속적인 스트림으로 처리하는 최초의 비디오 네이티브 AI 모델로, 공간과 시간을 모두 고려하는 스페이스-타임 토크나이저와 3D 셀프 어텐션을 기반으로 작동하여 영상의 움직임과 시간적 맥락을 깊이 이해한다.
주요 내용
- 기존 AI의 비디오 이해 한계: 현재 AI 모델은 영상을 초당 몇 프레임만 추출하거나 오디오만 분석하는 방식으로 작동하며, 연속적인 움직임, 객체 추적, 시간적 인과 관계 추론에 약점을 보인다. 이는 마치 영화 대본을 무작위로 뽑아 읽으며 스토리를 파악하려는 것과 같다.
- Gemini Omni의 아키텍처 전환:
- 프레임 기반에서 스트리밍으로: 이전 방식은 비디오를 개별 프레임으로 추출하고 이미지 인코더를 거쳐 텍스트로 변환했으나, Gemini Omni는 비디오를 연속적인 스트림으로 받아 스페이스-타임 토크나이저를 거쳐 비디오 트랜스포머로 처리한다.
- 스페이스-타임 토크나이저: 영상의 각 프레임을 독립적으로 처리하는 대신, 시간축과 공간축을 모두 포함하는 3D 패치(예: 4프레임 × 16x16 픽셀)를 생성하여 움직임 정보를 토큰 자체에 내재시킨다. 이는 픽셀을 독립적으로 보던 CNN이 공간적 관계를 이해하게 된 것과 유사한 도약이다.
- 3D 셀프 어텐션: 생성된 스페이스-타임 토큰들은 시간과 공간을 가로지르는 3D 셀프 어텐션을 통해 상호작용하며, 이는 방대한 양의 토큰 간 연산을 요구한다.
- 링 어텐션 (Ring Attention): 3D 셀프 어텐션의 계산 부담을 줄이기 위해 여러 장치에 어텐션 연산을 분산시키는 기술이 사용된다.
- 멀티모달 디코더: 텍스트뿐만 아니라 비디오, 오디오 등 다양한 형태의 출력을 생성할 수 있어, 모델 스스로 비디오 편집이 가능하다.
- 개발자에게 미치는 영향:
- API의 변화: 프레임 추출 및 개별 분석 방식에서 실시간 스트리밍 또는 단일 비디오 분석 호출 방식으로 발전할 것이다.
- 새로운 활용 사례 가능성: 스포츠 코칭, 보안 모니터링, 의료 영상 분석, 제조 품질 검사, 비디오 편집 등 기존 AI의 한계로 불가능했던 다양한 분야에서 혁신이 예상된다.
- 엄청난 컴퓨팅 요구량: 현재는 텍스트 모델 대비 훨씬 높은 컴퓨팅 파워를 요구하지만, 기술 발전과 함께 효율성이 향상될 것으로 전망된다.
- AI의 시간적 경험: 프레임 샘플링 방식은 정적인 스냅샷에 머무르지만, 비디오 네이티브 AI는 시간의 흐름 속에서 '이전'과 '이후'를 이해하며 동적인 실제 세계와 더욱 효과적으로 상호작용할 수 있게 된다.
시사점
Gemini Omni와 같은 비디오 네이티브 AI는 영상 이해 방식의 근본적인 변화를 가져오며, 향후 AI가 현실 세계와 더욱 깊이 있게 상호작용하고 다양한 분야에서 혁신을 주도할 가능성을 보여준다.
원문을 불러오는 중...
댓글
GitHub Discussions