Multi-PrefDrive: Optimizing Large Language Models for Autonomous Driving Through Multi-Preference Tuning
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025
Abstract
把二元 DPO 扩展为基于 Plackett–Luce 模型的多维度偏好微调。多拒绝数据集包含 148,080 条序列 (592,320 个 prompt–response 对),按碰撞类型与严重度分级。PLDPO 在 CARLA Town 04 上整体得分提升 11.0%,基础设施碰撞降低 83.6%,交通信号完全合规,优于 DPO / IPO / BCO。
已录用,于中国杭州报告。