Abstract

把二元 DPO 扩展为基于 Plackett–Luce 模型的多维度偏好微调。多拒绝数据集包含 148,080 条序列 (592,320 个 prompt–response 对),按碰撞类型与严重度分级。PLDPO 在 CARLA Town 04 上整体得分提升 11.0%,基础设施碰撞降低 83.6%,交通信号完全合规,优于 DPO / IPO / BCO。

已录用,于中国杭州报告。