毫末端到端最新工作CogAD!从全局到局部的层级决策让模型更拟人!

一、文章导读

近年来,端到端自动驾驶已成为工业界和学术界关注的热点问题之一。端到端的自动驾驶模型提升了自动驾驶的性能上限,同时拓宽了模型的架构设计空间。尽管目前工业界和学术界取得了显著进展,但从认知心理学的角度来看,目前的端到端方法在感知和规划模式方面与人类驾驶过程存在显著差异。

对于感知任务而言,人类驾驶员的感知是分层次的,首先对场景进行全局扫描以识别情境或空间线索,然后将注意力选择性地分配到关键的局部物体上进行详细分析,即表现出由全局到局部的过程。如图1(c)和(d)所示。

对于规划任务而言,人类驾驶员的规划也是分层的,包括高级别的意向规划(例如:变道),然后是低级别的轨迹规划(例如:生成特定轨迹)。即驾驶员首先建立全局意图,然后约束局部轨迹的生成,如图1(a)和(b)所示。

图1:人类驾驶员逐级的感知和规划过程示意图

考虑到上述人类驾驶员的认知模式,本文提出了CogAD,一种模拟人类层次认知的端到端自动驾驶模型。在 nuScenes和Bench2Drives数据集上进行的大量实验表明,CogAD在端到端规划方面达到了最佳性能,尤其在长尾场景中表现出色,并且能够稳健地泛化至复杂的现实世界驾驶条件。

二、本文创新点

  • 本文提出了一种分层场景实例感知范式,显著提升了自主车辆的场景理解能力;
  • 本文开发了一种分层意图轨迹规划机制,能够同时增强端到端自动驾驶中的行为多样性和运动合理性;
  • CogAD在开环和闭环评估中均达到了最佳性能,尤其是在长尾场景中,与现有方法相比,其性能提升尤为显著

三、网络模型结构&细节梳理

本文提出的CogAD算法模型的整体网络结构图如图2所示。可以看出,CogAD实现了一个统一的多任务架构,以协调的方式集成了感知、预测和规划各个任务。

图2:CogAD算法模型的整体网络结构

Hierarchical Perception

由于BEV特征提供了统一的场景表示,能够捕捉全局上下文和几何关系。因此,CogAD通过将特定于任务的实例查询与BEV特征桥接起来,进而实现特征交互过程。

与BEV空间特征的交互

对于规划任务而言,CogAD将Planning Query与BEV特征送入到Ego Transformer模块中进行交互,其中Planning Query由ego embedding、driving commands和intent anchor构成,其计算公式如下。

对于在线建图任务而言,CogAD采用多个可学习的空间交互Query,通过多头交叉注意力机制,从BEV特征中解码结构化道路拓扑,并通过MapTransformer模块实现,其计算公式如下。

对于障碍物检测任务而言,CogAD首先通过交互查询,通过DetTransformer模块从BEV特征中提取时空信息,然后通过轻量级多层感知器联合预测几何属性(位置、航向角)和语义属性(分类置信度),其计算公式如下。

此外,作者考虑到BEV特征有助于统一的场景理解,但它们在表示动态代理和自车的多模态未来轨迹方面具有局限性。此外,在BEV空间内,多个任务的损失函数之间可能出现梯度冲突。因此,本文引入了跨不同任务的实例间交互进行缓解。

跨任务实例间的交互

在规划模块中,本文通过引入运动模式嵌入来考虑轨迹的不确定性,并强调运动预测和规划应考虑双向交互。为此,将用于自身车辆规划和运动预测的实例查询连接起来,然后输入到自注意力模块中,从而促进两个任务之间的双向信息交互。该交互过程可以表述如下:

此外,考虑到地图信息在两个任务中都发挥着至关重要的作用,CogAD采用交叉注意力机制将地图特征分别提取到每个任务的实例嵌入中。获取地图信息后,为了确保自车和周围智能体能够相互感知潜在的未来轨迹,CogAD采用自注意力机制,基于更新后的嵌入来建模双向交互。

Hierarchical Planning with Uncertainty Modeling

在本文中,作者将规划的不确定性建模分成了意图不确定性和轨迹不确定性。

Intent Uncertainty

意图不确定性是在自车与BEV特征交互过程中引入的,用于表征与动态环境中自动驾驶汽车的高级意图或目标相关的固有模糊性。作者认为对意图不确定性进行建模,对于在不确定条件下准确预测自车辆的未来行为并提高规划鲁棒性至关重要。

Trajectory Uncertainty

轨迹不确定性被纳入规划实例和运动预测实例之间的交互过程。用于表征由于环境动态、道路使用者的多样化行为以及主观驾驶行为等因素导致车辆未来路径的不可预测性,在规划和运动预测任务中均存在。

图3:意图级和轨迹级不确定性建模

四、实验结果

本文分别在nuScenes开环数据集和Bench2Drive闭环数据集上进行了实验,用于验证CogAD算法模型的有效性。

图4展示了CogAD算法模型在nuScenes开环数据集上与其他SOTA算法模型的规划任务实验结果对比。

图4:不同算法模型在nuScenes数据集上的规划性能对比

图5展示了CogAD模型在Bench2Drive闭环数据集上与其他SOTA算法模型的实验结果对比。

图5:不同算法模型在Bench2Drive数据集上的性能对比

CogAD算法模型的相关消融实验结果汇总在图6中

图6:消融实验结果

一些可视化结果展示

五、结论

本文提出了CogAD算法模型哦,这是一种受人类驾驶过程启发,通过认知科学视角构建的分层端到端规划方法。在nuScenes和Bench2Drive数据集上的大量的实验数据表明,CogAD在开环和闭环基准测试中均达到了最佳性能。

#论文解读##互联网##论文##算法##自动驾驶#
智驾感知论文集合 文章被收录于专栏

记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)

全部评论
大佬牛逼
点赞 回复 分享
发布于 06-05 13:35 北京

相关推荐

白火同学:能。我当初应届沟通了1200,收简历50,面试10左右吧,加油投吧
点赞 评论 收藏
分享
Rena1ssance_:对的,要是面评没太烂,勤更新简历等捞就行了,腾讯可以无限复活
点赞 评论 收藏
分享
评论
7
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务