Decart’s new world model can simulate hours of photorealistic driving — with some caveats

개요

AI 스타트업 Decart가 실시간으로 사진처럼 사실적인 주행 환경을 생성하는 상호작용형 월드 모델인 Oasis 3를 공개했으며, API를 통해 현재 이용 가능하다.

주요 내용

  • Oasis 3는 자율주행차 산업에서 드문 주행 시나리오를 대규모로 시뮬레이션해야 하는 요구를 충족시키며, 향후 로보틱스 및 기타 물리적 AI 애플리케이션으로 확장될 예정이다.
  • Decart는 OpenAI의 LLM API 출시 전략과 유사하게, 초기부터 API 접근을 제공하여 월드 모델 생태계를 구축하려는 목표를 가지고 있다.
  • Oasis 3는 Decart의 이전 실시간 비디오 모델인 Lucy를 기반으로 하며, 특히 전자상거래 및 라이브스트리밍 분야에서 10만 명 이상의 개발자 커뮤니티를 구축하는 데 기여했다.
  • 모델의 효율성은 Decart의 자체 소프트웨어인 DOS(Decart Optimization Stack)를 통해 Nvidia, Amazon, Google 하드웨어에서 최적화되어 경쟁사 대비 훨씬 저렴한 비용으로 모델을 실행할 수 있게 한다.
  • Oasis 3는 사진처럼 사실적인 모델링과 무한 생성 기능을 제공하며, 물리적으로 정확한 멀티 카메라 환경(전면 1개, 측면 2개)을 생성하여 시스템 훈련 및 테스트에 사용된다.
  • 텍스트 프롬프트 하나로 사진처럼 사실적인 환경을 생성하고 몇 시간 동안 상호작용할 수 있다는 점에서 경쟁 모델 대비 강점을 보이나, 장시간 생성 시 환경의 일관성이 저하되고 원래 프롬프트의 맥락에서 벗어나는 현상이 발생한다.
  • 다른 월드 모델에서도 나타나는 문제점 중 하나로, 차량이 다른 차량을 통과하는 현상이 발견되어 물리 법칙 시뮬레이션에 대한 개선이 필요하다.
  • Oasis 3는 프레임당 생성하는 방식(auto-regressive)으로 인해 일관성 유지에 어려움이 있으며, Decart는 모델의 메모리(context window) 확장을 통해 이 문제를 해결하고자 연구 중이다.
  • 향후 버전에서는 이미지 대신 비디오 환경을 기반으로 월드를 생성하는 기능을 제공할 예정이며, 현재 월드 모델 분야는 초기 단계임을 인정하고 있다.

시사점

Oasis 3는 월드 모델 분야에서 사진과 같은 사실성과 상호작용성을 제공하며, API를 통한 개발자 생태계 구축 노력은 LLM과 같이 새로운 활용 사례와 애플리케이션의 출현을 촉진할 잠재력을 가진다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions