PrefDrive: Enhancing Autonomous Driving through Preference-Guided Large Language Models
IEEE Intelligent Vehicles Symposium (IV), 2025
Abstract
首次将直接偏好优化 (DPO) 引入基于 LLM 的自动驾驶。构建包含 74,040 条序列的驾驶偏好标注数据集,并在单卡 RTX 3090 Ti 上采用 LoRA + 4-bit 量化进行内存高效微调。在 CARLA 闭环上交通灯违规降低 28.1%,路径完成率提升 8.5%,路面碰撞降低 63.5%。
已录用,于罗马尼亚 Cluj-Napoca 报告。