Abstract

PL-DPO-NLL 的日文短文版:基于带 NLL 正则的 Plackett–Luce 多偏好学习,对视觉-语言-动作驾驶策略做安全约束对齐。在 JSAI 2026(群马)以 Poster 4Yin-A-08 报告。

JSAI 2026 录用,日本群马。