李云 | 个人学术主页

Abstract

首次将直接偏好优化 (DPO) 引入基于 LLM 的自动驾驶。构建包含 74,040 条序列的驾驶偏好标注数据集，并在单卡 RTX 3090 Ti 上采用 LoRA + 4-bit 量化进行内存高效微调。在 CARLA 闭环上交通灯违规降低 28.1%，路径完成率提升 8.5%，路面碰撞降低 63.5%。

已录用，于罗马尼亚 Cluj-Napoca 报告。