Google’s new anything-to-anything AI model is wild
개요
Google이 공개한 새로운 생성 모델 Omni는 텍스트, 이미지, 비디오 등 다양한 종류의 입력으로부터 어떤 종류의 결과물이든 생성할 수 있는 잠재력을 지니고 있으며, 현재는 비디오 생성에 초점을 맞춰 Omni Flash라는 이름으로 공개되었습니다.
주요 내용
* Omni Flash의 기능: Omni Flash는 기존 모델인 Veo를 개선하여, 비디오와 텍스트 프롬프트를 함께 사용하여 AI 기반 비디오를 생성할 수 있습니다. 또한, 실제 세계에 대한 지식을 더 잘 통합하고 비디오 내 캐릭터의 일관성을 유지하는 데 향상된 성능을 보입니다.
* 실험 결과: AI 캐릭터 Buddy를 활용한 실험에서 Omni Flash는 이전 모델보다 더 일관성 있고 프롬프트에 충실한 결과물을 생성했지만, 여전히 캐릭터 방향 전환 오류와 같은 AI 특유의 오류가 관찰되었습니다.
* 창의적 자유와 일관성 문제: 창의적인 몽타주 생성 시, Buddy가 꿀병을 챙겨갔다가 나중에 선크림처럼 사용하려 하는 등 흥미로운 장면이 연출되었으나, 꿀병의 형태가 영상 전반에 걸쳐 일관되지 않게 변경되는 문제가 발생했습니다.
* 편집 기능의 개선 및 한계: 텍스트 기반으로 비디오를 편집하는 기능은 Omni에서 개선되었으나, 결과물의 품질이 항상 만족스럽지는 않으며 때로는 원하는 수정이 이루어지지 않거나 부자연스러운 결과를 초래했습니다. 예를 들어, Buddy에게 뿔이 나타나거나 뿔을 제거하라는 지시가 다른 장면에 영향을 미치는 경우도 있었습니다.
* 비용 모델: Omni를 사용한 비디오 생성 및 편집에는 크레딧이 소모되며, 생성되는 비디오의 길이와 입력에 따라 비용이 달라집니다. 유료 플랜 구독자도 많은 비디오를 생성하고 편집할 경우 상당한 비용이 발생할 수 있습니다.
* 실사 딥페이크의 현실감: 실제 인물을 대상으로 한 딥페이크 생성 실험에서는 AI 생성 티가 나는 부분(예: 포크 소리, 배경 인물의 반복)이 있었지만, 전반적으로 매우 설득력 있는 결과물을 보여주었습니다. 심지어 지인이 AI 생성 사실을 모르는 상태에서 실제처럼 인식할 정도였습니다.
* "Uncanny Valley" 진입: Omni는 비디오 생성의 용이성과 결과물의 사실성 면에서 이전 모델보다 발전했지만, 완벽한 결과물을 만들기 위한 노력은 여전히 필요하며, 이는 "Uncanny Valley" 영역에 깊이 들어선 상태임을 시사합니다.
시사점
Google의 Omni 모델은 AI 기반 비디오 생성 기술의 발전을 보여주며, 현실과 구분이 어려울 정도의 딥페이크 기술의 가능성을 제시하지만, 동시에 AI 생성 콘텐츠의 일관성, 정확성, 그리고 윤리적 측면에 대한 지속적인 고민이 필요함을 시사합니다.
댓글
GitHub Discussions