After burning through tens of billions of tokens, I built an Android-like OS that runs entirely in the browser
개요
MobileGym은 TypeScript와 React로 구현된 완전한 브라우저 기반의 Android 유사 시뮬레이션 환경으로, 28개의 앱과 다양한 시스템 기능을 포함하여 GUI 에이전트 연구를 위해 개발되었습니다.
주요 내용
- Android 유사 환경 구축: WeChat, Alipay, Spotify 등 28개의 실제 앱과 홈, 설정, 연락처, 메시지, 사진, 캘린더, 파일, 브라우저와 같은 시스템 앱을 포함하며, Xiaomi 테마 팩 및 사용자 정의 위젯을 지원합니다.
- 브라우저 내 Android 시스템 메커니즘 구현: Activity stack, Intents, 제스처 탐색, 뒤로 가기 처리, 소프트 키보드 동작 등 Android의 핵심 시스템 메커니즘을 브라우저 환경에서 직접 재구현했습니다.
- 경량성과 높은 동시성: 단일 MobileGym 인스턴스는 약 400MB의 메모리를 사용하며, 이는 일반적인 Android 에뮬레이터의 4-10GB에 비해 매우 적습니다. 단일 서버에서 수백 또는 수천 개의 환경 인스턴스를 병렬로 실행할 수 있습니다.
- 대규모 작업 템플릿 및 효율적인 평가: 416개의 매개변수화된 작업 템플릿을 통해 무제한에 가까운 작업 인스턴스를 생성할 수 있으며, LLM-as-a-judge에 의존하지 않고 밀리초 단위로 결정론적인 평가를 완료합니다.
- 실제 환경 전이율 높은 시뮬레이션: GRPO 스타일 강화 학습 모델을 시뮬레이션 환경에서 훈련했을 때, 실제 장치에서 95% 이상의 성능 향상을 보여주었습니다.
- 확장 용이성: 새로운 앱 추가는 폴더와 manifest 파일 생성만으로 가능하며, 새로운 작업 추가는 Python 클래스 작성으로 이루어져 단 3줄의 코드로 구현할 수 있는 작업도 존재합니다.
- 안전한 샌드박스 환경: 실제 서비스에 연결되거나 실제 돈을 송금, 메시지 발송 등을 하지 않아 부작용 걱정 없이 안전하게 탐색 및 실험이 가능합니다.
시사점
MobileGym은 GUI 에이전트 훈련 및 평가를 위한 인프라를 넘어, Android와 유사한 UI/시스템 메커니즘을 연구하거나 이를 기반으로 새로운 것을 구축하고자 하는 모든 사용자에게 접근 가능하고 안전한 브라우저 기반의 플레이그라운드를 제공합니다.
원문을 불러오는 중...
댓글
GitHub Discussions