自动驾驶-BEV感知综述_bev综述-程序员宅基地

BEV感知综述

随着自动驾驶传感器配置多模态化、多源化，将多源信息在unified View下表达变得更加关键。BEV视角下构建的local map对于多源信息融合及理解更加直观简洁，同时对于后续规划控制模块任务的开展也更为方便。BEV感知的核心问题是：

如何利用缺失3D信息的PV视角来构建BEV视角；
如何获取BEV表达下的真值标注；
如何有效融合不同模态及视角的传感器数据；
不同车型、场景下传感器配置各不相同，如何能够实现Onetrack的能力；

本文回溯了近期BEV感知领域的最新进展，并对各类解决方案进行了深入分析。对于工业界流行的解决方案也进行了详细的阐述，并指明了未来该领域的研究方向。以期更多的研发资源能够推动该领域快速发展。

自动驾驶感知模块的任务就是对物理世界的3D重建。随着智驾车辆传感器配置多样化丰富化，BEV对于多源多视觉信息的汇聚融合具有天然的优势。BEV视角下解决了2D前视视角存在的遮挡、尺度等问题，同时动目标、地图要素等可直接用于下游的规划和控制模块。

BEV Camera：纯视觉；
BEV LiDAR：激光；
BEV Fusion：多传感器，包括视觉、激光、轮速、IMU等；

BEV感知研究动机

重要性

目前Nuscence和Waymo数据集的排行榜可知，视觉相比激光仍然存在20-30%的差距，那纯视觉的效果能否追平甚至超越激光的效果呢？这个问题对于学术界，是如何将2D的视觉信息像LiDAR一样精确的转换到BEV空间中；而对于工业界来说，相机相比LiDAR具有更低的成本，且在远处更稠密更丰富的纹理信息。另外一个问题是如何融合两种传感器的优势，形成更为强大的融合结果。

空间

对于激光传感器易获得深度信息，而对于单目相机要获得深度信息是非常挑战的任务。如何对多模态数据进行融合，包括前融合、后融合等，其中后融合阶段来自于视觉和激光的深度信息误差或配准都会导致性能降低。

准备度

当前公开的数据集是否能够支撑BEV感知的进一步研究？在数据集方面：Nusence及Waymo数据集提供了高质量的标注及多模态数据对齐，非常利于BEV感知研发的开展。同时leadboard也给大家听了同台打擂的机会。在算法方面：通用视觉领域已经突飞猛进，Transformer、ViT、CLIP等均有优异的表现。

贡献

回溯了今年BEV感知研发的进展，包括宏观的架构及方法的细节讨论；
综合分析了各个方面，包括depth estimation、View transformation、sensor fusion、domain adaptation等;
除理论基础外，还提供了提升BEV感知的实践指导手册；

评价标准

BEV感知方法介绍

BEV Camera

在这里插入图片描述

纯视觉3D感知最初的任务是如何从PV视角预测Object的位置，因为基于PV的检测任务已经成熟，所以核心任务就成了如何在2D检测能力基础上增加3D场景的认知能力。之后为了处理在3D空间Oject的Size保持一致，而在image中会随着距离远近而变化的问题，研究者引入了BEV的表达形式加以解决；通常采用了深度预测及先验信息假设(地面、触地点)等手段来弥补image的3D信息缺失。近期BEV感知进展已经极大的推动了3D感知问题的发展，主要原因包括：

高质量数据集的出现，比如Nuscence multi-camera的配置非常适合在BEV空间下进行multi-view特征的聚合；
纯视觉BEV任务借鉴了很多LiDAR在检测头和LOSS函数设计方面的优秀实践；
单目视觉的PV视角任务经历了蓬勃发展，这些进展在BEV任务中的落地也推动了BEV任务的性能表现；

BEV Lidar

在这里插入图片描述

preBEV
postBEV

点云是在连续3D空间采集到的数据，而在3D连续空间计算点与点见的相对位置关系存在着算力和感受野受限等关键问题。近期研究利用离散的grid数据来表示原始点云数据；然后使用卷积操作在grid表达上进行卷积操作，然而原始点云被表达为grid的形式难以避免信息的丢失。SOTA的pre-BEV方法借住高分辨率的Voxel size能够尽可能保留原始点云中的信息，从而在3D检测任务中取得了不俗的表现。高分辨率Voxel size也伴随着高算力和高存储的问题。直接将原始点云转到BEV空间避免了3D空间的卷积操作，但是丢失了大量高维信息，最高效的方式是将原始点云通过统计的方式表达为featrue map，获得不是最优但是可以接受的性能表现。pillar-base方法很好的平衡了效果和算力，在商用落地上优势明显。因此在效果和效率的trade-off上是lidar bev感知的核心问题。

BEV Fusion

在这里插入图片描述

如上图，各模态在独自的模态上进行特征提取的工作，然后各自模态下的feature map转换到BEV空间下进行融合，这块可以参考 BEVFusion ；还有一种实现路径是将视觉PV信息先提升到Voxel下的feature map，然后和激光的Voxel下feature map进行融合，这类的方法可以参考 UVTR 。进一步可以考虑自车的运动信息实现时域维度的融合，更好的速度预测及遮挡场景下的检测效果。在Temporal上的融合可以参见 BEVDet4D 和 BEVFormer 。

图像是PV坐标系，而点云是3D坐标系，因此对齐两种模态的数据是关键环节之一。虽然点云数据通过相机投影模型很容易转换到图像PV坐标系下，但是点云的稀疏性使得紧靠点云单独提取有价值的feature变得困难；反过来由于图像PV数据缺少深度信息，将PV观测转到3D空间也是一个病态的问题。针对这一问题，已有的研究，包括IPM、LSS等，正在构建将图像PV数据转换为BEV空间的方法，使得多模态、时间、空间的融合成为了可能。

融合视觉和激光各自传感器优势，显著提升了3D感知任务的优势。融合框架同时保留了传感器件的独立性，不在依赖于单一器件，因此整个感知系统的鲁棒性也得到了增强。对于时域的融合，BEV空间的feature map具有尺度一致性，可以通过自车的运动补偿实现时域融合。因此考虑到鲁棒性和尺度准确性，BEV成为了一个感知结果表达的理想空间。

BEV感知商用落地

在这里插入图片描述

商用的感知系统最初常用a图方式，即pv先出感知结果，然后转换到bev空间下与激光的结果进行后融合操作；显著已经发展为了b图的形式，即pv出featuremap，然后转换到bev空间下进行featuremap融合，进而执行检测任务，也就是所谓的前融合。

经验谈

Data Augmentation

视觉：color jitter, flip(包含了image的和bev两种空间下的翻转), resize, rotation, crop, and Grid Mask；
激光：random rotation, scaling, flipping, and point translation、Painting( Point-Painting )、temporal；

BEV Encoder

参考以下两种视觉和激光的典型BEV方法：

BEVFormer++
Voxel-SPVCNN

LOSS

对于视觉来说，可以综合运用目标检测的2D和3D的loss设计来训练模型；此外还可以使用深度监督信息（ BEVDepth ），以提升3D检测的精度。通常2D的目标检测和单目深度估计会直接使用SOTA的预训练模型。对于激光来说，会联合使用 cross-entropy loss 、 Geo loss 和 Lovász loss 来提升检测效果；

总结

综合以上，未来BEV感知的主要研究方向包括：

如何设计一个精确的深度估计器；
如何融合来自多模态多视角的传感器数据的feature map；
如何实现模型对传感器安装位置无感，实现onetrack的部署能力；
如何将foundation model的成功经验(大模型、多任务)复制到bev感知领域上；

本文链接：https://blog.csdn.net/qq_40230900/article/details/134471562

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

获取大于等于一个整数的最小2次幂算法（HashMap#tableSizeFor）_整数最小的2的几次方-程序员宅基地

文章浏览阅读2w次，点赞51次，收藏33次。一、需求给定一个整数，返回大于等于该整数的最小2次幂（2的乘方）。例：输入输出 -1 1 1 1 3 4 9 16 15 16二、分析当遇到这个需求的时候，我们可能会很容易想到一个"笨"办法：..._整数最小的2的几次方

Linux 中 ss 命令的使用实例_ss@,,x,, 0-程序员宅基地

文章浏览阅读865次。选项，以防止命令将 IP 地址解析为主机名。如果只想在命令的输出中显示 unix套接字连接，可以使用。不带任何选项，用来显示已建立连接的所有套接字的列表。如果只想在命令的输出中显示 tcp 连接，可以使用。如果只想在命令的输出中显示 udp 连接，可以使用。如果不想将ip地址解析为主机名称，可以使用。如果要取消命令输出中的标题行，可以使用。如果只想显示被侦听的套接字，可以使用。如果只想显示ipv4侦听的，可以使用。如果只想显示ipv6侦听的，可以使用。_ss@,,x,, 0

conda activate qiuqiu出现不存在activate_commandnotfounderror: 'activate-程序员宅基地

文章浏览阅读568次。CommandNotFoundError: 'activate'_commandnotfounderror: 'activate

Kafka 实战 - Windows10安装Kafka_win10安装部署kafka-程序员宅基地

文章浏览阅读426次，点赞10次，收藏19次。完成以上步骤后，您已在 Windows 10 上成功安装并验证了 Apache Kafka。在生产环境中，通常会将 Kafka 与外部 ZooKeeper 集群配合使用，并考虑配置安全、监控、持久化存储等高级特性。在生产者窗口中输入一些文本消息，然后按 Enter 发送。ZooKeeper 会在新窗口中运行。在另一个命令提示符窗口中，同样切换到 Kafka 的。Kafka 服务器将在新窗口中运行。在新的命令提示符窗口中，切换到 Kafka 的。，应显示已安装的 Java 版本信息。_win10安装部署kafka

【愚公系列】2023年12月 WEBGL专题-缓冲区对象_js 缓冲数据 new float32array-程序员宅基地

文章浏览阅读1.4w次。缓冲区对象（Buffer Object）是在OpenGL中用于存储和管理数据的一种机制。缓冲区对象可以存储各种类型的数据，例如顶点、纹理坐标、颜色等。在渲染过程中，缓冲区对象中存储的数据可以被复制到渲染管线的不同阶段中，例如顶点着色器、几何着色器和片段着色器等，以完成渲染操作。相比传统的CPU访问内存，缓冲区对象的数据存储和管理更加高效，能够提高OpenGL应用的性能表现。_js 缓冲数据 new float32array

四、数学建模之图与网络模型_图论与网络优化数学建模-程序员宅基地

文章浏览阅读912次。（1）图（Graph）：图是数学和计算机科学中的一个抽象概念，它由一组节点（顶点）和连接这些节点的边组成。图可以是有向的（有方向的，边有箭头表示方向）或无向的（没有方向的，边没有箭头表示方向）。图用于表示各种关系，如社交网络、电路、地图、组织结构等。（2）网络（Network）：网络是一个更广泛的概念，可以包括各种不同类型的连接元素，不仅仅是图中的节点和边。网络可以包括节点、边、连接线、路由器、服务器、通信协议等多种组成部分。网络的概念在各个领域都有应用，包括计算机网络、社交网络、电力网络、交通网络等。_图论与网络优化数学建模

随便推点

android 加载布局状态封装_adnroid加载数据转圈封装全屏转圈封装-程序员宅基地

文章浏览阅读1.5k次。我们经常会碰见正在加载中，加载出错， “暂无商品”等一系列的相似的布局，因为我们有很多请求网络数据的页面，我们不可能每一个页面都写几个“正在加载中”等布局吧，这时候将这些状态的布局封装在一起就很有必要了。我们可以将这些封装为一个自定布局，然后每次操作该自定义类的方法就行了。首先一般来说，从服务器拉去数据之前都是“正在加载”页面，加载成功之后“正在加载”页面消失，展示数据；如果加载失败，就展示_adnroid加载数据转圈封装全屏转圈封装

阿里云服务器（Alibaba Cloud Linux 3）安装部署Mysql8-程序员宅基地

文章浏览阅读1.6k次，点赞23次，收藏29次。PS: 如果执行sudo grep 'temporary password' /var/log/mysqld.log 后没有报错，也没有任何结果显示，说明默认密码为空，可以直接进行下一步（后面设置密码时直接填写新密码就行）。3.（可选）当操作系统为Alibaba Cloud Linux 3时，执行如下命令，安装MySQL所需的库文件。下面示例中，将创建新的MySQL账号，用于远程访问MySQL。2.依次运行以下命令，创建远程登录MySQL的账号，并允许远程主机使用该账号访问MySQL。_alibaba cloud linux 3