编者荐语:

本文提出了一种创新的多模态端到端自动驾驶网络BiFusion,通过双边模态交互充分利用RGB图像与LiDAR点云的互补特性,提升自动驾驶系统的感知与决策能力。在CARLA的高精度仿真环境中,BiFusion实现了对复杂驾驶场景的精确建模,并在Town05 Long基准测试中取得了卓越的性能表现。本文发表在人工智能领域国际顶尖期刊Expert Systems With Applications上。一起来速读全文,洞悉前沿技术动态!

  • 论文链接: 

  • https://linkinghub.elsevier.com/retrieve/pii/S0957417425020779

  • 论文代码: 

  • https://github.com/YzMark2r/BiFusion

BiFusion 框架概述。BiFusion 采用双边模态交互策略,通过 CRIM 和 CPIM 模块实现图像和 LiDAR 数据的有效融合与交互

BiFusion 框架概述

亮点直击

  • BiFusion 是一种创新的多模态端到端自动驾驶网络,通过双边模态交互策略,在表示学习和路径点预测中实现图像和 LiDAR 数据的双向互补,以充分利用两者的互补信息。

  • CRIM(跨模态表示交互模块) 通过跨视图位置嵌入基于注意力的表示交互,建立了图像和 LiDAR 特征之间的像素到点对应关系,实现高效的特征融合。

  • CPIM(跨模态预测交互模块) 利用掩码自注意力机制基于注意力的预测交互,实现了自回归路径点预测跨模态信息交互,提升了预测精度。

  • 在 Carla Town05 Long 基准测试 中,BiFusion 超越了现有最先进的方法,证明了其在复杂驾驶场景中的优越性和有效性。

总结速览

解决的问题

传统自动驾驶系统在多模态数据融合中常采用单边融合策略,仅依赖LiDAR 数据单方面增强 RGB 数据以进行特征表征,忽略了图像和 LiDAR 之间的双向互补性,导致信息丢失和错误累积,尤其在复杂场景下表现不佳。

提出的方案

BiFusion 提出了一种双边模态交互策略,通过在表示学习和路径点预测两个阶段实现图像和 LiDAR 数据的双向交互。BiFusion 不仅保留了各模态的独立特征,还通过跨模态模块促进信息交换和融合,从而提升感知和规划能力。

应用的技术

  • CRIM:结合跨视图位置嵌入和注意力机制,实现图像和 LiDAR 特征的双边交互。

  • CPIM:通过掩码自注意力机制捕捉路径点的时空依赖,并利用注意力机制实现跨模态预测交互。

  • 多任务学习:引入图像分割和 BEV 地图预测作为辅助任务,指导特征学习,提升模型鲁棒性。

达到的效果

在 Carla Town05 Long 基准测试 中,BiFusion 取得了驾驶分数(DS)69.6、路线完成率(RC)99.8 和违规分数(IS)0.70,显著优于现有方法,展示了其在交通灯处理、避障和导航等复杂场景中的卓越性能。Carla 在此提供了 Town05 Long 的测试环境,模拟了多样的道路条件和动态障碍,确保评估的全面性和真实性。

方法:基于双边模态交互的多模态驾驶

BiFusion 的核心在于通过双边模态交互充分利用图像和 LiDAR 数据的互补性,避免传统单边融合的局限性。其网络结构包括特征编码器(含 CRIM)、路径点解码器(含 CPIM)和多任务学习模块

BiFusion 网络结构

BiFusion 采用双流设计,分别处理图像和 LiDAR 数据:

  •  特征编码器:通过 CRIM 在多尺度上实现图像和 LiDAR 特征的交互融合。

  • 路径点解码器:通过 CPIM 实现路径点预测中的跨模态交互。

  • 多任务学习模块:通过辅助任务(如图像分割和 BEV 地图预测)指导特征学习。

CRIM:跨模态表示交互模块

CRIM 通过以下步骤实现双边交互:

  1. 跨视图位置嵌入(CvPE):建立图像(PV)和 LiDAR(BEV)特征间的几何对应关系。

  2. 基于注意力的表示交互:利用跨视图注意力机制融合特征,例如从图像到 LiDAR(CRIM-I2L)和从 LiDAR 到图像(CRIM-L2I)。

CRIM 模块示意图。CRIM 通过双向交互增强图像和 LiDAR 特征的表示能力

CRIM 模块示意图:CRIM 通过双向交互增强图像和 LiDAR 特征的表示能力

CPIM:跨模态预测交互模块

CPIM 在路径点预测中实现跨模态交互:

  1.  掩码自注意力机制:捕捉路径点的长程时空依赖,支持自回归预测。

  2. 基于注意力的预测交互:交替利用图像和 LiDAR 特征精化路径点预测。

CPIM 模块示意图。CPIM 通过跨模态交互提升路径点预测的准确性

CPIM 模块示意图:CPIM 通过跨模态交互提升路径点预测的准确性

多任务学习模块

通过图像分割(7 类,如车辆、道路等)和 BEV 地图预测(3 类,如道路、车道线等)任务,提供密集监督,增强特征表示能力和模型鲁棒性。

实验:Carla 模拟器验证 BiFusion 性能

实验设置

实验在 Carla 模拟器(版本 0.9.10) 中进行,使用 Town05 Long 基准测试评估 BiFusion。Carla 在此提供了 8 个城镇的多样化驾驶环境,生成** 231K 帧训练数据**(包含图像、LiDAR 点云等),并通过 Town05 Long 的 10 条长路线(1000-2000 米)测试模型性能。Town05 Long 包含多车道、高速公路、桥梁等复杂场景,以及动态障碍和恶劣天气,确保实验的挑战性。

Town05 Long 基准测试的评估路线和场景。红点为起点,绿点为终点,蓝点为目标点

Town05 Long 基准测试的评估路线和场景:红点为起点,绿点为终点,蓝点为目标点

定量分析

BiFusion 在关键指标上表现出色:

  • 驾驶分数(DS):69.6 ± 1.0

  • 路线完成率(RC):99.8 ± 0.31

  • 违规分数(IS):0.70 ± 0.01

与现有方法(如 Transfuser、Interfuser 等)相比,BiFusion 在 DS 和 RC 上均领先,展示了其在复杂场景中的优越性。

Town05 Long 基准测试的性能比较。BiFusion 在 DS、RC 和 IS 上表现突出

Town05 Long 基准测试的性能比较:BiFusion 在 DS、RC 和 IS 上表现突出

消融研究

消融实验验证了各组件的有效性:

  • CRIM:移除后 DS 下降 10.7%,RC 下降 20.1%。

  • CPIM:移除后 DS 下降 4.2%,RC 下降 17.0%。

  • 辅助任务:移除全部辅助任务后 DS 从 70.5 降至 46.5。

定性分析

BiFusion 在以下场景中表现优异:

  • 交通灯处理:准确识别红绿灯状态并停车或启动。

  •  避障:通过减速和刹车避免碰撞。

  • 无保护交叉口导航:安全通过复杂路口。

BiFusion 在挑战性场景中的定性结果。白点为预测路径点,红点为全局导航点

BiFusion 在挑战性场景中的定性结果:白点为预测路径点,红点为全局导航点

Carla 的贡献

Carla 模拟器 在 BiFusion 研究中至关重要:

  • 数据生成:提供了多模态训练数据(如图像、LiDAR 点云),覆盖 21 种天气条件和多样化场景。

  • 基准测试:Town05 Long 在 Carla 中实现,包含长路线和动态障碍,用于全面评估 BiFusion。

  • 场景模拟:模拟交通灯、障碍物和恶劣天气等复杂条件,确保实验结果贴近现实。

结论

BiFusion 提出了一种创新的双边模态交互策略,通过在表示学习和路径点预测中实现图像和 LiDAR 数据的双向互补,显著提升了多模态端到端自动驾驶系统的性能。实验结果表明,BiFusion 在 Carla Town05 Long 基准测试中取得了驾驶分数(DS)69.6、路线完成率(RC)99.8 和违规分数(IS)0.70,超越了现有最先进的方法。未来研究将探索如何进一步优化双边交互机制,并将 BiFusion 扩展到更多模态和场景中。

引用格式

Yu, Z., Li, J., Chen, Z., Wei, Y., Zhang, X., & Tan, X. (2025). Multimodal End-to-End Autonomous Driving via Bilateral Modality Interaction. Expert Systems with Applications, 128458.

💬 互动话题
本文提出的BiFusion方法通过双边模态交互,成功在CARLA模拟器的Town05 Long基准测试中展现了优异的驾驶性能,验证了多模态融合在端到端自动驾驶中的强大潜力。得益于CARLA的高保真仿真环境,BiFusion不仅显著提升了系统的感知与规划能力,还为未来的自动驾驶研究开辟了新的方向

你在阅读本文后,是否对CARLA在多模态自动驾驶研究中的应用有了新的认识?你在使用CARLA进行仿真实验时,遇到过哪些技术难题或挑战?欢迎在留言区或社群中分享你的看法和经验!我们将优先挑选最受关注的问题,安排详细的技术解析~

📢 加入社群添加小助手vx【synkrotron1】,备注“CARLA”即可加入开发者交流群,获取最新资源与1V1答疑!

END

往期推荐:

CARLA常见技术问题集锦(四)仿真控制与算法篇

OASIS SIM 3.5.0 重磅更新!针对Unreal Engine 5.5 渲染引擎进行全面升级!

【直播回顾】CARLA 0.10.0新版本解读会

【CARLA新手教程】CARLA安装翻车自救指南

Logo

葡萄城是专业的软件开发技术和低代码平台提供商,聚焦软件开发技术,以“赋能开发者”为使命,致力于通过表格控件、低代码和BI等各类软件开发工具和服务

更多推荐