Multi-PrefDrive: Optimizing Large Language Models for Autonomous Driving Through Multi-Preference Tuning
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025
Abstract
二値 DPO を Plackett–Luce モデルに基づく多次元選好チューニングへ拡張。148,080 シーケンス (592,320 プロンプト–応答ペア) からなる衝突種別・重大度別の多リジェクトデータセットを構築。PLDPO は CARLA Town 04 で総合スコア +11.0%、インフラ衝突 -83.6%、信号完全遵守を達成し、DPO/IPO/BCO を上回る。
採択済、中国・杭州にて発表。