Learning Diffusion Planners from World Feedback: A No-Go Result on Bit-Exact Safety Rewards and an ODD-Adaptive Shared/Expert Decomposition
Workshop on Reinforcement Learning from World Feedback (RLxF), ICML 2026, 2026
Abstract
围绕扩散轨迹规划器的奖励微调给出两个结果。其一是关于位精确安全奖励的 no-go:在安全 oracle 的常规正则性假设下,凡是零点集恰好对应安全轨迹流形的连续奖励,都不存在稳定的 RL 微调不动点。其二是一种按 ODD 自适应的 shared/expert LoRA 分解,通过在共享底座上路由领域专家来绕开 no-go,并配套 PCDR 指标诊断分布偏移下的灾难性路由。在四种 ODD 的驾驶基准上验证。
ICML 2026 RLxF Workshop 录用,韩国首尔。