DriveTransformer革新端到端自动驾驶:统一Transformer架构实现端到端效率革命
一、文章导读
近年来,端到端自动驾驶可谓是自动驾驶领域爆火的话题之一,已经有很多代表性的工作,也取得了非常不错的效果。端到端自动驾驶将感知、预测、规划集成到一个网络框架当中,因为可以做到数据驱动和可扩展性,持续吸引工业界和学术界的兴趣。
虽然端到端算法具有很大的优势,但现有的端到端算法框架大多采用感知-预测-规划的顺序管线,下游任务的性能严重依赖于上游的结果。这种顺序设计可能导致累积误差,从而导致训练不稳定,如图1(b)所示。
现有方法面临的另一个挑战是现实世界的时空复杂性。由于BEV网格的密集特性,基于BEV的表示在长距离检测中存在计算挑战。对于时序融合而言,基于BEV的方法通常存储历史BEV特征进行融合,这同样需要大量的计算。
总而言之,基于BEV的方法忽略了三维空间的稀疏性,并丢弃了每帧的任务查询,这会导致大量的计算浪费,从而影响效率,如图1(c)所示。
图1:不同端到端算法模型网络架构对比
基于上述提到的问题,本文引入了DriveTransformer,一个高效、可扩展的端到端自动驾驶框架,如图1(d)所示。实验结果表明,DriveTransformer在模拟闭环基准测试Bench2Drive和真实开环基准测试nuScenes中均实现了SOTA性能,且推理速度很快。
二、本文创新点
- 任务并行性:所有任务查询在每个块上直接相互交互,促进跨任务知识转移,同时保持系统稳定性,无需明确的层次结构。
- 稀疏表示:任务查询直接与原始传感器特征相关,提供一种高效、直接的信息提取方法,符合端到端优化范式。
- 流式处理:时间融合通过先进先出队列实现,该队列存储历史任务查询和时间交叉注意,确保效率和特征重用。
三、网络模型结构&细节梳理
本文提出的DriveTransformer算法模型的整体网络结构如图2所示。
图2:DriveTransformer算法模型的整体流程图
通过上图可以看出,DriveTransformer旨在根据原始传感器输入输出多项任务的结果,包括目标检测、运动预测、在线建图和规划。每个任务都由其对应的查询处理,这些查询彼此直接交互,从原始传感器输入中提取信息,并整合历史记录中的信息。
INITIALIZATION & TOKENIZATION
在DriveTransformer中交换信息之前,所有输入都被转换为统一的Token进行表示,如图3所示。
图3:INITIALIZATION & TOKENIZATION过程示意图
具体而言,来自周围摄像头的多视角图像分别由ResNet等主干网络编码成语义嵌入。同时,本文采用3D位置编码对传感器特征的位置信息进行编码。
此外,本文为了对复杂驾驶场景进行建模,初始化了三种类型的任务查询,以提取不同的信息。
- Agent Query:用于表示动态目标(汽车、行人等),用于进行物体检测和运动预测;
- Map Query:表示静态元素(车道、交通标志等),用于进行在线地图绘制;
- Ego Query:表示自我车辆的潜在行为,将用于进行规划;
TOKEN INTERACTION
DriveTransformer内部的所有信息交换均基于原生注意力机制,确保了其可扩展性和易于部署的特性。本文中涉及到的注意力机制包含三种类型,如图4所示。
图4:DriveTransformer中的三种不同注意力类型
- Sensor Cross Attention:在任务和原始传感器输入之间建立直接路径,实现端到端学习,避免信息丢失。
- Task Self Attention:支持任意任务之间的直接交互,而无需明确的约束,从而促进规划感知和博弈论交互预测和规划等协同作用。
- Temporal Cross Attention:整合了先前观察到的历史信息。
综上所述,DriveTransformer 是由多个块组成的堆栈,每个块包含前面提到的三个注意力机制和一个 FFN:
DETR-STYLE TASK HEAD
- 目标检测 & 运动预测头:DriveTransformer 采用更端到端的方法,通过将相同的代理查询输入到不同的任务头中,无需跟踪即可进行对象检测和运动预测。
- 在线建图:由于地图折线分布不规则且多样,点级特征检索而非实例级特征检索至关重要。因此,在进行传感器交叉注意时,DriveTransformer将每个地图查询重复N次,并为每个点配对位置编码。这样,对于那些较长的折线,每个点都可以检索具有更好局部性的原始传感器信息。
- 规划:将自身车辆的未来运动建模为高斯混合模型。具体而言,DriveTransformer根据方向和距离将所有训练轨迹分为六类:直行、停止、左转、急左转、右转、急右转。为了生成这些模式的轨迹,DriveTransformer将六种模式的嵌入向量分别输入多层感知器进行正弦和余弦编码,然后将其添加到自身特征中,以预测六种特定于模式的自身轨迹。
四、实验结果
本文在Bench2Drive闭环数据集上开展了评估实验,与其他SOTA算法模型的比较结果汇总在下图所示。
DriveTransformer在nuScenes开环数据集上与其他SOTA算法模型的比较结果汇总在下图所示。
一些可视化结果展示
五、结论
本文提出了DriveTransformer,一个基于Transformer的端到端自动驾驶统一范式,其特点是任务并行、流式处理和稀疏表示。它在Bench2Drive的CARLA闭环评估和nuScenes开环评估中均实现了最佳性能,并实现了高FPS,展现了这些设计的高效性。
#算法##算法工程师##论文##自动驾驶#记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)