Abstract

運転シーンを直接制御行動にマッピングする汎用 MLLM フレームワーク。複数のクローズドループベンチマークで統一的なプロンプト・画像インタフェースを提供。

採択済、IEEE RA-L 2024。