Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start
개요
Google의 새로운 멀티모달 모델 제품군인 Gemini Omni는 이미지, 오디오, 텍스트 입력을 기반으로 일관성 있는 고품질 비디오를 생성하며, 향후 오디오에서 비디오, 비디오에서 오디오 생성까지 확장될 계획이다.
주요 내용
- Gemini Omni 소개: 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 통합적으로 이해하고 처리하여 여러 형식의 콘텐츠를 생성하는 것을 목표로 하는 멀티모달 LLM 제품군이다.
- 비디오 생성 기능: 사용자는 이미지, 오디오, 비디오, 텍스트를 결합하여 입력할 수 있으며, Omni는 단순히 입력들을 연결하는 것이 아니라 모든 입력에 대해 추론하여 물리, 문화, 역사, 과학적 이해를 반영한 고품질 비디오를 생성한다.
- 사진 편집 기능: 복잡한 편집 소프트웨어 없이 단순한 텍스트 명령으로 사진을 편집할 수 있다.
- Veo와의 관계: Google의 기존 비디오 모델인 Veo보다 발전된 형태로, Gemini의 지능과 미디어 모델의 렌더링 능력을 결합한 것이다.
- 세계 모델 지향: AI가 텍스트 예측을 넘어 현실을 시뮬레이션하는 단계로 나아가는 월드 모델의 다음 단계이며, 우주의 작동 방식을 이해하는 데 기반한다.
- 개인화된 아바타 생성: 사용자의 디지털 아바타를 생성하여 비디오를 만들 수 있으며, 딥페이크 방지를 위해 사용자의 신원 확인 절차가 필요하다.
- SynthID 디지털 워터마크: Omni로 생성된 모든 비디오에는 Google의 SynthID 디지털 워터마크가 포함되어 생성 여부를 확인할 수 있다.
- Gemini Omni Flash 출시: Omni 제품군 중 첫 모델로, Gemini 앱, YouTube Shorts, AI 크리에이티브 스튜디오 Flow에 우선 출시되며 10초 길이의 비디오 생성이 가능하다.
- 소비자 및 전문가 대상 활용: Omni Flash는 개인화된 밈과 같은 소비자 중심의 활용을 목표로 하며, API를 통해 엔터프라이즈 및 크리에이티브 분야에서도 활용될 예정이다.
- Gemini Omni Pro: Flash보다 향상된 성능을 제공할 예정이며, 출시 시점은 아직 미정이다.
시사점
Gemini Omni는 멀티모달 AI 기술의 진보를 보여주며, 개인 사용자부터 콘텐츠 제작자, 기업에 이르기까지 다양한 분야에서 창의적인 작업과 콘텐츠 생성 방식을 혁신할 잠재력을 가지고 있다.
원문을 불러오는 중...
댓글
GitHub Discussions