李云 | 个人学术主页

Abstract

围绕扩散轨迹规划器的奖励微调给出两个结果。其一是关于位精确安全奖励的 no-go：在安全 oracle 的常规正则性假设下，凡是零点集恰好对应安全轨迹流形的连续奖励，都不存在稳定的 RL 微调不动点。其二是一种按 ODD 自适应的 shared/expert LoRA 分解，通过在共享底座上路由领域专家来绕开 no-go，并配套 PCDR 指标诊断分布偏移下的灾难性路由。在四种 ODD 的驾驶基准上验证。

ICML 2026 RLxF Workshop 录用，韩国首尔。