Learning Diffusion Planners from World Feedback: A No-Go Result on Bit-Exact Safety Rewards and an ODD-Adaptive Shared/Expert Decomposition
Workshop on Reinforcement Learning from World Feedback (RLxF), ICML 2026, 2026
Abstract
拡散軌跡プランナの報酬ファインチューニングに関する 2 つの結果。第一に、ビット精確な安全報酬についての no-go:安全 oracle の通常の正則性仮定の下では、零点集合が安全軌跡の多様体と完全に一致するような連続報酬には、安定な RL ファインチューニング不動点が存在しない。第二に、これを回避する ODD 適応 shared/expert LoRA 分解:共有ベースの上にドメインごとの専門家を配置し、分布シフト下の破滅的ルーティングを検出する PCDR 指標と組み合わせる。4 種類の ODD を含む運転ベンチマークで検証。
ICML 2026 RLxF Workshop 採択(韓国・ソウル)。