Google’s Genie world model can now simulate real streets with Street View

개요

Google DeepMind는 Project Genie에 Street View 데이터를 통합하여 실제 거리를 시뮬레이션할 수 있는 새로운 기능을 발표했으며, 이는 개발자 및 일반 사용자에게 대화형 환경 시뮬레이션의 가능성을 열어준다.

주요 내용

* Google DeepMind는 Project Genie, 즉 텍스트 프롬프트나 이미지에서 다양한 대화형 환경을 생성할 수 있는 범용 월드 모델에 Street View 데이터를 연동했다.
* 이 통합을 통해 사용자는 실제 거리를 시뮬레이션하고, 날씨를 조정하거나 미래 시나리오를 시각화하는 등 상호작용이 가능하다.
* 로봇 공학 및 에이전트 훈련에 활용될 수 있으며, 예를 들어 런던의 로봇이 희소한 일광 상황에 대비하도록 훈련시킬 수 있다.
* 사용자는 특정 장소의 특정 시점(예: 뉴욕의 눈 오는 풍경)을 시뮬레이션하여 볼 수 있다.
* Street View는 20년간 수집된 2800억 개 이상의 이미지를 기반으로 하며, 이 방대한 실제 세계 데이터를 시뮬레이션 능력과 결합하는 것이 목표다.
* Genie 3는 텍스트 프롬프트 또는 이미지에서 대화형 게임 월드를 생성하는 데 사용되었으며, 교육, 게임, 로봇 공학 훈련에 활용될 예정이다.
* Waymo의 시뮬레이터 훈련에 Genie 3가 사용되어 토네이도와 같은 희귀 이벤에 대비하고 있으며, Street View 데이터 통합은 Waymo가 더 많은 도시에서 출시하는 데 도움이 될 수 있다.
* Genie는 차량 시점에서 벗어나 인간 또는 로봇과 같은 다른 에이전트의 관점으로도 시뮬레이션이 가능하다.
* 해당 기능은 현재 미국 내 일부 Ultra 사용자에게 제공되며, 전 세계 Ultra 사용자에게도 순차적으로 확대될 예정이다.
* Genie와 Street View 통합은 아직 실험 단계이며, 정확성 및 물리적 법칙 이해와 같은 측면에서 개선의 여지가 있다.
* 현재 모델은 비디오 생성 모델에 비해 정확성과 품질 면에서 다소 뒤처지지만, 향후 개선될 것으로 기대된다.
* AI의 공간적 연속성이 주요 혁신으로, 360도 회전 시에도 환경을 올바르게 기억하고 시뮬레이션하며 새로운 환경을 구축할 수 있다.

시사점

Street View와 Project Genie의 결합은 실제 세계의 풍부한 데이터를 활용하여 이전에는 불가능했던 수준의 대화형 시뮬레이션 경험을 제공하며, 이는 AI 연구, 교육, 게임, 로봇 공학 등 다양한 분야에 혁신을 가져올 잠재력을 지닌다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions