李云 | 个人学术主页

Abstract

把二元 DPO 扩展为基于 Plackett–Luce 模型的多维度偏好微调。多拒绝数据集包含 148,080 条序列 (592,320 个 prompt–response 对)，按碰撞类型与严重度分级。PLDPO 在 CARLA Town 04 上整体得分提升 11.0%，基础设施碰撞降低 83.6%，交通信号完全合规，优于 DPO / IPO / BCO。

已录用，于中国杭州报告。