Abstract

围绕扩散轨迹规划器的奖励微调给出两个结果。其一是关于位精确安全奖励的 no-go:在安全 oracle 的常规正则性假设下,凡是零点集恰好对应安全轨迹流形的连续奖励,都不存在稳定的 RL 微调不动点。其二是一种按 ODD 自适应的 shared/expert LoRA 分解,通过在共享底座上路由领域专家来绕开 no-go,并配套 PCDR 指标诊断分布偏移下的灾难性路由。在四种 ODD 的驾驶基准上验证。

ICML 2026 RLxF Workshop 录用,韩国首尔。