PrefDrive: Enhancing Autonomous Driving through Preference-Guided Large Language Models
IEEE Intelligent Vehicles Symposium (IV), 2025
Abstract
LLM ベースの自動運転に Direct Preference Optimization (DPO) を初めて導入。74,040 シーケンスから成る運転選好アノテーション付きデータセットを構築し、単一の RTX 3090 Ti 上で LoRA + 4-bit 量子化によりメモリ効率的にファインチューニング。CARLA クローズドループにおいて信号違反 -28.1%、ルート完走率 +8.5%、レイアウト衝突 -63.5%。
採択済、ルーマニア Cluj-Napoca にて発表。