Abstract

二値 DPO を Plackett–Luce モデルに基づく多次元選好チューニングへ拡張。148,080 シーケンス (592,320 プロンプト–応答ペア) からなる衝突種別・重大度別の多リジェクトデータセットを構築。PLDPO は CARLA Town 04 で総合スコア +11.0%、インフラ衝突 -83.6%、信号完全遵守を達成し、DPO/IPO/BCO を上回る。

採択済、中国・杭州にて発表。