DriveTransformer革新端到端自动驾驶：统一Transformer架构实现端到端效率革命

一、文章导读

近年来，端到端自动驾驶可谓是自动驾驶领域爆火的话题之一，已经有很多代表性的工作，也取得了非常不错的效果。端到端自动驾驶将感知、预测、规划集成到一个网络框架当中，因为可以做到数据驱动和可扩展性，持续吸引工业界和学术界的兴趣。

虽然端到端算法具有很大的优势，但现有的端到端算法框架大多采用感知-预测-规划的顺序管线，下游任务的性能严重依赖于上游的结果。这种顺序设计可能导致累积误差，从而导致训练不稳定，如图1(b)所示。

现有方法面临的另一个挑战是现实世界的时空复杂性。由于BEV网格的密集特性，基于BEV的表示在长距离检测中存在计算挑战。对于时序融合而言，基于BEV的方法通常存储历史BEV特征进行融合，这同样需要大量的计算。

总而言之，基于BEV的方法忽略了三维空间的稀疏性，并丢弃了每帧的任务查询，这会导致大量的计算浪费，从而影响效率，如图1(c)所示。

图1：不同端到端算法模型网络架构对比

基于上述提到的问题，本文引入了DriveTransformer，一个高效、可扩展的端到端自动驾驶框架，如图1(d)所示。实验结果表明，DriveTransformer在模拟闭环基准测试Bench2Drive和真实开环基准测试nuScenes中均实现了SOTA性能，且推理速度很快。

本文提出的DriveTransformer算法模型的整体网络结构如图2所示。

图2：DriveTransformer算法模型的整体流程图

通过上图可以看出，DriveTransformer旨在根据原始传感器输入输出多项任务的结果，包括目标检测、运动预测、在线建图和规划。每个任务都由其对应的查询处理，这些查询彼此直接交互，从原始传感器输入中提取信息，并整合历史记录中的信息。

在DriveTransformer中交换信息之前，所有输入都被转换为统一的Token进行表示，如图3所示。

图3：INITIALIZATION & TOKENIZATION过程示意图

具体而言，来自周围摄像头的多视角图像分别由ResNet等主干网络编码成语义嵌入。同时，本文采用3D位置编码对传感器特征的位置信息进行编码。

此外，本文为了对复杂驾驶场景进行建模，初始化了三种类型的任务查询，以提取不同的信息。

DriveTransformer内部的所有信息交换均基于原生注意力机制，确保了其可扩展性和易于部署的特性。本文中涉及到的注意力机制包含三种类型，如图4所示。

图4：DriveTransformer中的三种不同注意力类型

综上所述，DriveTransformer 是由多个块组成的堆栈，每个块包含前面提到的三个注意力机制和一个 FFN：

目标检测 & 运动预测头：DriveTransformer 采用更端到端的方法，通过将相同的代理查询输入到不同的任务头中，无需跟踪即可进行对象检测和运动预测。
在线建图：由于地图折线分布不规则且多样，点级特征检索而非实例级特征检索至关重要。因此，在进行传感器交叉注意时，DriveTransformer将每个地图查询重复N次，并为每个点配对位置编码。这样，对于那些较长的折线，每个点都可以检索具有更好局部性的原始传感器信息。
规划：将自身车辆的未来运动建模为高斯混合模型。具体而言，DriveTransformer根据方向和距离将所有训练轨迹分为六类：直行、停止、左转、急左转、右转、急右转。为了生成这些模式的轨迹，DriveTransformer将六种模式的嵌入向量分别输入多层感知器进行正弦和余弦编码，然后将其添加到自身特征中，以预测六种特定于模式的自身轨迹。