Abstract

LLM ベースの自動運転に Direct Preference Optimization (DPO) を初めて導入。74,040 シーケンスから成る運転選好アノテーション付きデータセットを構築し、単一の RTX 3090 Ti 上で LoRA + 4-bit 量子化によりメモリ効率的にファインチューニング。CARLA クローズドループにおいて信号違反 -28.1%、ルート完走率 +8.5%、レイアウト衝突 -63.5%。

採択済、ルーマニア Cluj-Napoca にて発表。