Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review

文章目录

摘要
一、简介
二、背景
- A. 以栅格为中心的感知任务定义
- - 1. 任务
- B. 数据集
- C. 评价指标
三、2D栅格表示鸟瞰图
- A. 基于Lidar的栅格映射
- B. 栅格深度融合
- - 1. 多传感器融合
  - 2. 多智能体融合
四、三维占据映射（建图）
- A. 基于Lidar的语义场景补全
- B. 基于摄像头的语义场景重建
- - 1. 基于显式体素的网络
  - 2. 隐式神经渲染（Implicit Neural Rendering）
五、时序栅格中心感知
- A. BEV特征序列的时序模块
- B. 短期运动预测
- C.长期占据流
六、栅格中心感知的高效学习
- A. 多任务模型
- B. 高效标签栅格感知
- C. 高效计算栅格感知
七、驾驶系统中的栅格中心感知
- A. 基于栅格中心的管线工业级设计
- B. 相关感知任务
- C.以栅格为中心的规划感知
八、讨论
- A. 当前趋势观察
- B. 未来展望
九、结论

摘要

以栅格为中心的感知是移动机器人感知和导航的一个关键领域。然而，在自动驾驶中，以栅格为中心的感知不如以对象为中心的感知那么普遍，因为自动驾驶汽车需要准确地感知高度动态的大规模室外交通场景，并且以栅格为中心的感知的复杂性和计算成本很高。深度学习技术和硬件的快速发展为以栅格为中心的感知的演变提供了新的见解，并使许多实时算法的部署成为可能。目前的工业和学术研究表明，以栅格为中心的感知具有巨大的优势，如全面的细粒度环境表示、更强的遮挡鲁棒性、更高效的传感器融合和更安全的规划策略。鉴于目前缺乏对这一快速扩张领域的调查，我们对自动驾驶汽车的以栅格为中心的感知进行了分层结构的回顾。我们整理了占据栅格技术以前和现在的知识，并从三个方面对算法进行了系统深入的分析:特征表示、数据效用和自动驾驶系统中的应用。最后，我们对目前的研究趋势进行了总结，并提出了一些可能的未来展望。

一、简介

以目标为中心的三维目标检测、多目标跟踪和轨迹预测是目前主流的三维汽车感知模块。

然而，以对象为中心的技术在开放世界的交通场景中可能会失败，因为

对象的形状或外观没有明确定义。这些障碍，也被称为长尾障碍，包括变形障碍，如两节拖车;
异形障碍物，如翻倒的车辆;类别不明的障碍物，如路上的碎石、垃圾;
部分模糊的物体等。

以栅格为中心的感知被认为是一个很有前途的解决方案，因为它可以在不知道物体的情况下提供三维周围空间中任何位置的占据和运动。其优势在于：

对障碍物的几何形状或语义类别不敏感，抗遮挡能力强;
理想的多模态传感器融合作为一个统一的空间坐标，供不同传感器对齐;
鲁棒不确定性估计，因为每个单元存储不同障碍存在的联合概率。

其缺点主要在于计算量大。

占位栅格地图：将周围区域划分为统一的栅格单元。每个单元格的值代表了占据的置信度。

现有的关于汽车感知的研究包括：

三维目标检测
图像三维目标检测
神经辐射场(Neural Radiance Field, NeRF)
以视觉为中心的BEV感知

二、背景

A. 以栅格为中心的感知任务定义

以栅格为中心的感知是指，给定车载传感器的多模态输入，算法需要将原始信息转换为BEV或体素栅格，并在每个栅格单元上执行各种感知任务。

传感器输入：

	优点	缺点
Camera	相对便宜，提供高分辨率图像，包括纹理和颜色信息	无法获得直接的三维结构信息和深度估计，图像质量高度依赖于环境条件
Lidar	具有深度感知、更广阔的视野和更大的检测范围，不太容易受到环境条件的影响	成本较高
Radar	成本低，探测距离长，能够在不利环境中检测移动目标	数据更稀疏，对噪声更敏感

3D目标检测与以栅格为中心的感知对比：

3D目标检测：侧重于使用三维包围盒表示常见道路障碍，新的类和实例对于以对象为中心的感知来说是一个长尾问题。

以栅格为中心的感知：对道路障碍的低占据率和语义线索进行细分。

它放松了对障碍物形状的限制，可以描述具有可变形状的铰接物体；
它放松了对障碍物的典型性要求。
它可以准确地描述新的类别和实例的占据和运动线索，从而增强系统的鲁棒性。

1. 任务

1） 几何任务

二维占据栅格映射（OGM）：OGM是一种对周围环境中已占据和空闲空间进行建模的简单实用的任务。OGM的核心思想是占据率，即占据率除以空闲概率的置信度。

三维占据映射：3D占据映射被定义为在一个体积空间中对占据进行建模。一个基本的任务是使用相同大小的立方体积的体素栅格离散映射区域[19]。

2）语义任务

BEV分割：BEV分割定义为BEV栅格的语义或实例分割。通常划分的类别包括动态对象(车辆、卡车、行人和骑自行车的人)和静态道路布局和地图元素(车道、人行横道、可驾驶区域、人行道)。

语义场景补全。SemanticKITTI[20]数据集首先定义了户外语义场景补全的任务。鉴于单扫描LiDAR点云，SSC的任务是预测一定体积内的完整场景。在自我车辆周围的场景中，体积由统一的体素栅格表示，每个体素栅格都拥有占据属性（空或占据）及其语义标签。

3） 时序任务

BEV motion：BEV运动任务的定义是预测每个栅格单元的短期未来运动位移。也就是说，每个栅格单元在短暂的时间内可能移动多远。动态占据栅格（DOG）是OGM的一个补充，可以对具有两个方向速度（ $v_x$ , $v_y$ ）和速度不确定性的动态栅格单元进行建模。

Occupancy flow：长期占据率预测将标准OGM扩展到流场，并减轻了轨迹集预测和占据率的一些缺点。占据流任务需要预测流场中所有智能体的运动和位置概率。Waymo在CVPR2022研讨会1上的开放数据集占据和流挑战规定，给定一个场景中真实代理的一秒钟历史，任务必须在8秒内预测所有代理的流场。

与场景流的比较。光学流或场景流的目的是估计图像像素或LiDAR点从过去到现在的运动。场景流方法在原始数据域上进行操作。由于点云的空间分布不规律，且难以确定连续两帧点云之间的匹配关系，因此提取其真实值并不简单，点云的场景流遇到了现实问题。相比之下，在对二维空间离散化后，BEV运动可以应用快速深度学习组件(如二维卷积网络)，使流场在自动驾驶的实时性要求下运行。

光流表示相邻帧的像素运动。场景流就是光流的三维版本，表述了图像/点云中每个点在前后两帧的变化情况。

B. 数据集

以栅格为中心的方法主要是在现有的大型自动驾驶数据集上进行的，这些数据集带有3D目标边界框的注释、LiDAR分割标签、2D和3D车道的注释以及高清地图。栅格中心感知的最有影响力的基准包括KITTI、nuScenes、Argoves、Lyft L5、SemanticKITTI、KITTI-360、Waymo开放数据集（WOD）和Once数据集。注意，以栅格为中心的感知通常不是每个数据集的标准挑战，因此测试集被搁置，大多数方法在验证集上报告其结果。Table 1总结了这些基准的信息。当前的驱动数据集主要用于对完全监督的封闭世界对象中心任务进行基准测试，这可能会阻碍栅格中心感知的独特优势。未来的数据集可能需要更加多样化的开放世界驾驶情况，其中潜在的障碍物不能表示为边界框。Argoverse2数据集是其10Hz密集注释1k传感器序列的下一代数据集，具有26个类别和超大规模、未标记的6M LiDAR帧。

此外，CVPR2023已发起自动驾驶挑战赛，其中3D Occupancy Prediction作为一项标准挑战被提出

C. 评价指标

BEV分割指标：对于传统OGM中的二进制分割（将栅格划分为占据和空闲），大多数以前的工作使用精度作为简单的度量。对于语义分割，主要度量是每个类的IoU和所有类的mIoU。

BEV预测指标：MotionNet通过将每个栅格单元与BEV地图中的位移向量相关联来编码运动信息，并通过将非空栅格单元分类为三个速度范围来提出运动预测的度量：静态、慢速（≤5m/s）和快速（>5m/s）。在每个速度范围内，已利用预测位移和真实位移之间的平均和中值L2距离。

FIERY使用视频全景质量（VPQ）度量来预测BEV图中的未来实例分割和运动，该指标定义为：

occupancy flow指标：

占据指标：曲线下面积（AUC）和软交并比（Soft-IoU）

其中 $OtKO_t^{cal K}$ 表示t时刻类别 $K$ 的真值， $O^tKhat O_t^{cal K}$ 表示t时刻类别 $K$ 的预测值。

场景流指标：端点误差（End-Point-Error）测量真实流场 $FtK(x,y)F^{cal K}_t (x, y)$ 与预测流场 $F^tK(x,y)hat F^ {cal K}_t (x, y)$ 之间的平均L2距离为:

其中t时刻的流场Ft包含每个像素的运动向量(dx, dy)。

联合指标：联合指标测量每个时刻t的流量和占据率预测的准确性，因此使用 $F^that F_t$ 将真实占据率( $O_{t−1}$ )转换为:

其中◦将流场作为一个函数来转换占据率。如果联合预测足够准确，那么 $W^tO^that W_t hat O_t$ 应该接近真实的 $O_t$ 。因此，采用了基于流的AUC( $KaTeX parse error: Got function 'cal' with no arguments as superscript at position 3: O^̲c̲a̲l̲ ̲K_t$ ,$ hat W_t hat O^cal K_t $) 和基于流的$ Soft $-$ IoU(O^cal K_t $,$ hat W_t hat O^cal K_t)$。

用于3D占据率预测的指标。语义场景完成的主要指标是所有语义类的mIoU。利用IoU、Precision和Recall三个指标对场景完成后的几何重建质量进行评价。三维占据预测挑战以完整性 $P_c$ 和准确性 $P_a$ 的调和平均数来度量F-score, F-score的计算公式如下:

其中 $P_a$ 是与真实体素在距离阈值内的预测体素的百分比， $P_c$ 是与预测体素在距离阈值内的真实体素的百分比。由于大多数真实世界数据集中的半密集真值，所有指标仅在标注空间中进行评估。

三、2D栅格表示鸟瞰图

BEV栅格是道路车辆障碍检测的常用表示形式。以栅格为中心感知的基本技术是将原始传感器信息映射到BEV栅格单元，不同传感器形态的机制不同。激光雷达点云自然是在3D空间中表示的，因此在BEV地图[32]，[33]上提取点或体素特征的传统由来已久。摄像机具有丰富的语义线索，但缺乏几何信息，这使得三维重建成为一个不适定问题。鉴于在最近的综述[4]，[5]中已经全面讨论了用于将图像特征从透视视图投射到BEV视图(PV2BEV)的算法，我们在补充材料中介绍了与BEV栅格相关的PV2BEV算法的最新进展。

A. 基于Lidar的栅格映射

激光雷达点云的特征提取遵循以下范式:点、体素、柱、距离视图或以上特征的混合。本节重点介绍点云到BEV栅格的特征映射。

在3D空间中收集的激光雷达数据可以很容易地转换为BEV，并与多视角摄像机的信息融合。激光雷达点云的稀疏和可变密度使得cnn效率低下。一些方法[34]-[36]将点云体素化为统一的栅格，并使用手工制作的特征对每个栅格单元进行编码。MV3D [34]， VOD[35]通过对每个栅格进行高度、强度和密度特征编码来生成BEV表示。PIXOR[36]中的BEV表示是三维占据张量和二维反射率图的组合，以通道的形式保留高度信息。在Nvidia Xavier嵌入式平台上，BEVDetNet[37]进一步将基于BEV的模型延迟降低到2ms。对于栅格上的高级时间任务，MotionNet提出了一种新的时空编码器STPN[12]，它将过去的点云与当前的自我姿态对齐。网络设计如图4所示。

然而，这些固定编码器并不能成功地利用点云中包含的所有信息。学习的特征成为一种趋势。VoxelNet[38]堆叠体素特征编码(VFE)层来编码体素内的点相互作用，并生成稀疏的4D体素特征。然后VoxelNet使用一个3D卷积中间层来聚合和重塑这个特征，并将其通过一个2D检测架构。为了避免硬件不友好的3D卷积，PointPillars[39]和EfficientPillarNet[40]中基于柱的编码器学习点云柱上的特征。将特征散射回原始柱体位置，生成二维伪图像。PillarNet[41]通过融合密集的柱体语义特征和颈部模块中的空间特征，进一步发展了柱体表示，最终使用方向解耦的IoU回归损失进行检测。PillarNet[41]编码器如图3所示。

B. 栅格深度融合

多传感器多模态融合一直是汽车感知领域亟待解决的问题。融合框架通常分为前融合、深度融合和后融合。其中，深度融合在端到端框架中表现出了最好的性能。以栅格为中心的表示作为一个统一的特征嵌入空间，用于多个传感器和智能体之间的深度融合。

1. 多传感器融合

相机是缺少几何信息但语义丰富，而激光雷达是语义缺失但几何丰富。雷达在几何和语义上是稀疏的，但对不同的天气条件有很强的鲁棒性。深度融合融合了各种模式的潜在特征，并弥补了每个传感器的局限性。

LiDAR-相机融合。一些方法在更高的三维层面进行融合操作，并支持三维空间的特征交互。UVTR[45]根据预测的深度分数从图像中提取特征，并根据准确的位置将点云的特征与体素关联起来。因此，可以引入体素空间的跨模态交互的体素编码器。AutoAlign[46]设计了一个跨注意特征对齐模块（CAFA），使点云的体素化特征能够感知整个图像并进行特征聚合。AutoAlignV2[47]没有通过AutoAlign[46]中的网络学习对齐，而是包括一个跨域的DeformCAFA，并采用相机投影矩阵来获得图像特征图中的参考点。FUTR3D[48]和TransFusion[49]融合了基于注意力机制和查询的特征。FUTR3D采用了一个基于查询的模式无关的特征采样器（MAFS），根据三维参考点提取多模式特征。TransFusion依靠LiDAR BEV特征和图像引导来生成物体查询，并将这些查询与图像特征融合。一个简单而稳健的方法是将融合统一在BEV特征上。图5中所示的BEVFusion[50],[51]的两个实施方案将来自多模式输入的特征统一在一个共享的BEV空间中。DeepInteration[52]和MSMDFusion[53]设计了BEV空间和体素空间中的多模型交互，以更好地调整来自不同传感器的空间特征。

Lidar-camera-radar融合。激光雷达、雷达和相机融合是一种适用于各种天气的稳健融合策略。RaLiBEV[61]采用基于交互式Transformer的bev融合，融合LiDAR点云和雷达距离方位角热图。FishingNet[62]使用自顶向下的语义栅格作为公共输出接口，对LiDAR、雷达和摄像机进行后期融合，并对语义栅格进行短期预测。

2. 多智能体融合

最近关于栅格中心感知的研究大多基于单智能体系统，在复杂交通场景中存在局限性。车对车(V2V)通信技术的进步使车辆能够共享其感官信息。CoBEVT[63]是首个能够协同生成BEV分段地图的多智能体多摄像机感知框架。在该框架中，自我车辆根据发送方的姿态几何上扭曲接收到的BEV特征，然后使用具有熔融轴向注意力(FAX)的变压器将它们融合。动态占栅格图(DOGM)也显示了多车协同感知融合平台降低不确定性的能力[64]-[66]。

四、三维占据映射（建图）

虽然BEV栅格简化了动态场景的垂直几何，但3D栅格能够以相当低的分辨率表示驾驶场景的完整几何，包括路面和障碍物的形状，但代价是更高的计算成本。激光雷达传感器自然适用于3D占据栅格，但点云输入有两个主要问题:第一个挑战是根据障碍物表面反射的点推断完整的场景几何形状。第二种是从稀疏的激光雷达输入推断密集的几何形状。基于摄像头的三维占据地图方法正在兴起。图像在像素上自然是密集的，但需要将深度图转换为3D占据。

A. 基于Lidar的语义场景补全

语义场景补全(SSC)是一项明确地推断统一大小体素的占据和语义的任务。SemanticKITTI[20]给出的SSC定义是基于单帧LiDAR点云推断每个体素栅格的占据和语义。过去的调查[76]彻底调查了室内和室外SSC数据集和方法。本节重点介绍用于自动驾驶的SSC方法的进展。以激光雷达或摄像机作为输入，SemanticKITTI上现有方法的详细分类性能如表ii所示。

SemanticKITTI是SSC的第一个真实世界户外基准，它报告了基于SSCNet和TS3D的四种基线方法的结果。由于SSC严重依赖上下文信息，早期的方法从U-Net架构开始。SSCNet采用翻转截断有符号距离函数（fTSDF）来编码单个深度图作为输入，并将其传递给3D密集CNN。基于SSCNet，TS3D将从RGB图像推断的语义信息和体素占据结合起来，作为3D密集CNN的输入。注意，与RGB-D序列相比，LiDAR点云是自动驾驶更常见的输入。因此，SemanticKITTI基准使用来自LiDAR的距离图像而不是来自RGB-D的深度图，将没有fTSDF的TS3D和SSCNet作为基线。其他两个基线通过直接使用基于LiDAR的语义分割方法中的标签并与SATNet交换3D主干来修改TS3D。

SSCNet和TS3D中密集的3D CNN块导致高内存和计算需求以及数据流形的扩展。解决这个问题的一个备选方案是利用2D CNN的效率。LMSCNet使用具有2D主干卷积和3D分割头的轻量级U-Net架构，转动高度标注（对于数据主要纵向和横向变化的交通场景），将数据转换为特征维度成为一种常见的实践。基于Pillar的LMSCNet在速度上实现了良好的性能，并具有推断多尺度SSC的能力。类似地，局部DIF创建点云的BEV特征图，并将其通过2D U-Net以三个尺度输出特征图，这构成了3D场景的新颖表示，连续的深度隐式函数（DIFs）。通过查询所有体素的角点函数，可以在SemanticKITTI基准上评估局部DIF，并在几何完成精度方面表现良好。

另一个有前途的选择是使用稀疏的三维网络，如JS3C-Net[71]中使用的SparseConv[78]和S3CNet[70]中使用的Minkowski[79]，它们只对非空体进行操作。JS3C-Net是一个稀疏的LiDAR点云语义分割框架，它将SSC视为一个辅助任务。它包括一个点-体素交互（PVI）模块，以加强这种多任务学习并促进两个任务之间的知识转移。对于语义分割，它利用了一个三维稀疏卷积U-Net。级联的SSC模块预测了一个粗略的完成结果，并在PVI模块中加以完善。实验表明，JS3C-Net在这两项任务上都取得了最先进的结果。S3CNet从单个LiDAR扫描中构建稀疏的二维和三维特征，并将它们并行地传递给稀疏的二维和三维U-Net式网络。为了避免在解码器中应用密集的卷积，S3CNet提出了一个BEV和3D预测的动态体素后融合来进一步密集场景，然后应用空间传播网络来完善结果。特别是，它在SemanticKITTI的罕见类别中取得了令人印象深刻的结果。

标签表述的局限性。由于现有的户外SSC基准[20], [26]从聚合多帧语义点云中生成标签，动态物体的痕迹是标签中不可避免的干扰，被称为sptaio-temporal tubes。由于SemanticKITTI中存在大量停放的车辆，所有现有的SSC方法都将动态物体当作静态物体来预测，并受到基准指标的惩罚。为了解决地面实况不准确的问题，并专注于输入瞬间的SSC，Local-DIFs[72]提出了一个基于SemanticKITTI的数据集变体，只保留对动态物体的单一瞬间扫描，并去除动态物体阴影中的自由空间点。此外，Local-DIF可以连续地表示场景，以避免离散化造成的伪影，如图6所示。Wilson等人[42]开发了一个合成的户外数据集CarlaSC，在CARLA[80]中没有闭塞和围绕自我的车辆的痕迹。他们提出了一种实时密集的局部语义映射方法，MotionSC[42]，它结合了MotionNet[12]的空间-时间骨干和LMSCNet[67]的分割头。请注意，忽略了时间信息的MotionSC在SemanticKITTI基准上也表现良好。最近，TPVFormer[73]用稀疏的LiDAR分割标签取代了密集的体素栅格标签，用于监督来自环视摄像机的密集语义占据。与具有固定分辨率的体素标签相比，点云标签更容易获得（成熟的注释和自动标注），而且它们可以作为具有任意感知范围和分辨率的体素栅格的监督。

B. 基于摄像头的语义场景重建

1. 基于显式体素的网络

与以以运动结构（SFM）为代表的离线mapping方法不同，将像素投影到三维空间的在线感知是一项新任务。基于相机的SSC方法在SemanticKITTI基准上的性能不如其他基于LiDAR的方法，这是因为缺少几何信息和相机的FOV（视场角）较窄。nuScene最近的新标签有助于提高以视觉为中心的方法的性能。MonoScene是第一个基于单目相机的室外三维体素重建框架，它使用SSC任务中的密集体素标签作为评估指标。它包括用于连接2D和3D U-Net的2D特征视线投影（FLoSP）模块，以及用于增强上下文信息学习的3D上下文关系先验（CRP）层。VoxFormer是一个基于两级transformer的框架，它从深度图中稀疏可见和占据的查询开始，然后将其传播到具有自关注的密集体素。OccDepth是一种基于立体的方法，通过立体软特征分配模块将立体特征提升到3D空间。它使用立体深度网络作为教师模型，提取深度增强占据感知模块作为学生模型。与上述需要密集语义体素标签的方法不同，TPVFormer是第一个仅使用稀疏LiDAR语义标签作为监督的环绕视图3D重建框架。TPVFormer将BEV推广为三透视视图（TPV），这意味着通过垂直于x、y、z轴的三个切片来表达三维空间的特征，它查询3D点以以任意分辨率解码占据率。以视觉为中心的三维占据预测仍处于早期发展阶段。为了促进以视觉为中心的3D占据率预测研究，CVPR 2023研讨会、端到端自动驾驶研讨会和以视觉为中心的自动驾驶研讨会将3D占据预测作为自动驾驶挑战赛的第三条赛道。

2. 隐式神经渲染（Implicit Neural Rendering）

隐式神经渲染是用连续函数表示各种视觉信号，作为一种开创性的新范式，神经辐射场（NeRF）由于其两个独特的特点：自我监督和照片逼真，在计算机图形学和计算机视觉领域引起了越来越多的关注。尽管vanilla NeRF专注于视图渲染而非3D重建，但进一步的研究探索了NeRF对3D场景、对象和表面建模的能力。NeRF广泛应用于驾驶模拟器的人类化身和城市场景构建，Urban Radiance Field在LiDAR监督下重建城市级场景，街区NeRF将街道划分为街区，并分别对每个MLP街区进行训练。NeRF在3D感知中的应用仍有待探索和挑战，因为交通场景感知需要快速、few-shot、可推广的NeRF，在无界场景中具有高深度估计精度。SceneRF引入了一种概率射线采样策略，用高斯混合表示连续密度体积，并显式优化深度。SceneRF是第一个使用NeRF的自监督单视图大规模场景重建。CLONeR将显式占据栅格和隐式神经表示与OGM相融合，使用相机获取颜色和语义线索，使用LiDAR获取占据线索。总之，显式体素占据栅格和隐式NeRF的混合表示是建模街道级场景的一个有前途的解决方案。

五、时序栅格中心感知

由于自动驾驶场景在时间上是连续的，因此利用多帧传感器数据获取时空特征和解码运动线索是栅格中心感知的重要问题。顺序信息是对现实世界观察的自然增强，运动估计的主要挑战是，与可以容易地将新检测到的物体与过去的轨迹相关联的物体级感知不同，栅格不存在明确的对应关系，这增加了精确速度估计的难度。

A. BEV特征序列的时序模块

大多数实践通过设计时间融合块将BEV特征融合到当前帧。wrapped-based方法的核心思想是基于车辆的自我姿态在不同时间戳对齐和变换BEV特征，不同的时间聚集方法如图7所示。早期[29]，[86]，[87]使用简单的卷积块进行时间聚集。BEVDet4D将包裹的空间连接在一起，BEVFormer使用可变形的自关注来融合包裹的BEV空间。UniFormer认为基于包裹的方法是低效的串行方法，并在感知范围边缘丢失有价值的信息。为此，UniFormer建议关注当前BEV和缓存的过去BEV之间的虚拟视图，这可以融合更大的感知范围和更好的模型远程融合。

B. 短期运动预测

任务和网络：对于不同的传感器模态，短期运动预测被描述为两个公式。对于以激光雷达为中心的方法，其任务是在接下来的1.0秒内仅预测非空柱上的运动位移，该公式更加强调每格速度，基本网络设计由一个时空编码器和几个BEV解码器组成。对于以视觉为中心的方法，常见的任务是预测未来2.0秒的实例流，该公式更关注未来的占据状态，而不是栅格速度。基本网络设计由图像编码器、视图投影仪、时间聚集模块、预测模块和几个BEV解码器组成。

标签生成：生成栅格流（场景流）标签的常见做法来自对具有唯一实例ID的3D边界框的相邻帧的后处理。

时空网络的主干：点云自然位于3D空间中，可以在数据级别上聚合。聚合需要精确的定位，可以从高精度GNSS设备或点云配准方法收集，以将点云坐标转换为当前的自我车辆坐标系统。以多帧点云为输入的特征提取主干能够同时提取空间和时间维度的信息，以减少计算负载。一种紧凑的设计是将点云体素化，将点云视为伪BEV地图，将垂直信息视为每个BEV栅格上的特征。MotionNet提出了一种轻量级、高效的时空金字塔网络（STPN）来提取时空特征。BE-STI建议TeSE和SeTE执行特征的双向增强，TeSE用于每个单独框架的空间理解，SeTE用于通过空间辨别特征获得高质量的运动线索。

另一方面，在原始数据层面上将多帧图像转换为当前坐标是不现实的。因此，在以视觉为中心的模型中，空间和时间模块是分开设计的。空间模块设计包括通用图像主干和视图投影仪颈部。时间模块将过去的多帧BEV特征与V -A节中提到的当前自我姿态进行时间上的校准。基于包装的方法，包括FIERY [29]， StretchBEV [95]， BEV erse [96]， ST-P3[97]是主流的特征表示的时间骨干。

以视觉为中心的预测模块：占据流量预测需要未来BEV特征的状态表示。预测模块的主要组成部分是递归神经网络（RNN）的变种。FIERY[29]提出了空间门递归单元（SpatialGRU），用于将当前的BEV状态传播到不久的将来。ST-P3[97]提出了双路径概率未来模型（DualGRU），它输入两种不同的当前BEV状态分布，以获得更强的预测功能。BEV erse[96]的特点是高效的未来预测的迭代流，它将最后一帧的BEV特征输入到当前帧的预测中。StretchBEV采用神经常微分方程（Neural-ODE）的变体自动编码器，通过生成方法学习时间动态。

预测头和损失设计：以LiDAR为中心的方法。运动输入的解码器BEV特征来自空间-时间骨架。头部由1-2个ConvBlock的堆栈组成。MotionNet [12]中的预测头包括用于类别估计的单元分类头，用于速度估计的运动头和用于分类动态或静态栅格的状态估计头。BE-STI[94]的特点是具有类别诊断功能的运动预测头，它进一步利用语义来进行更准确的运动预测。损失设计。一般来说，空间回归损失以L1或MSE规范方式回归运动位移。交叉熵损失用于分类。由于一致性在本质上是由顺序数据保证的，MotionNet[12]提出了属于同一物体的单元的空间一致性损失，以及对两个连续帧之间运动的时间约束的前景时间一致性损失。作为一个自我监督的框架，PillarMotion[93]提出了一个自我监督的结构一致性损失来近似支柱运动场，以及交叉感觉损失作为一个辅助正则化来补充给定稀疏LiDAR输入的结构一致性。

以视觉为中心的方法：现有方法遵循FIERY中的设计，预测头由一个轻量级BEV编码器和四个BEV解码器组成。五个独立的解码器分别输出中心度、BEV分割、中心偏移和未来flow 向量。后处理单元将偏移与中心相关联，以形成来自分割的实例，并输出来自多帧实例的实例流。空间回归损失以L1或MSE范数的方式对中心、偏移和未来流量进行回归。交叉熵损失用于分类，概率损失回归了BEV特征之间的Kullback-Leibler差异。

C.长期占据流

我们将给定真值历史目标的更远未来的非端到端占据预测作为长期占据流任务。OGM域的流场结合了两种最常用的运动预测表示：轨迹集和占据栅格。占据流的主要功能是使用序列流向量从远期栅格查找占据情况到当前时间位置。DRF[99]使用自动回归的顺序网络来预测占据率的残差。ChauffeurNet[100]用占据率的多任务学习补充了更安全的轨迹规划。Rules of the Road[101]提出了一个动态框架，从占据流中解码轨迹。MP3[102]预测每个栅格的运动向量及其相应的可能性。Waymo占据流挑战的前三名参与者是HOPE[103]、V ectorFlow[104]和STrajNet[105]。HOPE是一个新颖的分层时空网络，具有丰富的潜在变量的多尺度聚合器。VectorFlow[104]得益于结合矢量和栅格化表示。STrajNet[105]的特点是轨迹特征和栅格化特征之间的交互感知转化器。

六、栅格中心感知的高效学习

自动驾驶场景中的算法对多种性能因素敏感，如效率、准确性、内存、延迟和标签可用性。为了提高模型效率，与以前的模块化系统设计（其中一个模块负责一个感知任务）相比，具有共享大主干和多个任务特定预测头的多任务模型在工业应用中更受欢迎。为了提高标签效率，栅格标签的标注成本很高，这主要来自LiDAR点云上的逐点标注，因此迫切需要标签高效学习技术。为了提高计算效率，由于在栅格上进行计算通常需要时间和内存，因此引入了用于高效表示体素栅格的结构和用于加速基于体素的操作的算子。

A. 多任务模型

许多研究表明，在多任务模型中同时预测几何任务、语义任务和时间任务可以提高各自模型的准确性。最近的进展是在一个基本框架中处理更多的感知任务，而不是以栅格为中心的任务。基于BEV栅格的统一框架对于汽车感知系统是有效的，本节将介绍一些常用的多任务学习框架。

1）BEV联合分割和预测：BEV栅格中运动物体的准确识别是BEV运动预测的重要前提，因此，过去的实践证明，准确的语义识别有助于运动和速度估计。常见的实践包括时空特征提取主干和任务指定头部、用于分类栅格所属类别的分割head、用于对静止或动态栅格进行分类的状态head、可以预测每个栅格到实例中心的偏移的实例head以及用于预测短期运动位移的运动head。以视觉为中心的BEV模型通常联合优化实例的类别、位置和覆盖范围，FIERY引入了不确定性损失，以平衡分割、中心度、偏移和流量损失的权重。

与LiDAR和基于相机的BEV分割和运动的比较。一个明显的区别是LiDAR模型仅估计激光扫描可访问的栅格，换句话说，基于LiDAR的方法对于未观察到的栅格区域或动态对象的未观察部分没有完成能力。相反，基于相机的方法具有LSS中的概率深度等技术，可以推断观测背后的某些类型的遮挡几何体。MotionNet指出，尽管在闭集标签上进行了训练，MotionNet仍然能够预测未知标签的运动，这些标签都被归类为“其它”类。然而，基于摄像机的方法对定义良好的语义（如车辆和行人）进行严格分类，相机对开放世界语义的适应性仍然是一个悬而未决的问题。

2）联合3D目标检测和BEV分割：联合3D目标检测和BEV分割是一种流行的组合，它在一个统一的框架中处理动态对象和静态道路布局的感知，这也是SSLAD2022车间挑战赛举办的赛道之一。给定共享的BEV特征表示，用于目标检测的常见预测头是在CenterPoint中引入的中心头和在可变形DETR中引入的DETR头，用于分割的常见头是简单的轻量级卷积头（例如）和SegFormer或BEVFormer中的Panoptic SegFormer，或者可以容易地扩展到更复杂的分割技术， BEVFormer的pipelines如图8所示。MEGVII在SSLAD2022多任务挑战中提出了排名第一的解决方案，他们提出了一个多模态多任务BEV模型作为基础。该模型在ONCE数据集上进行预处理，并在AutoScenes数据集上使用半监督标签校正和逐模块扩展移动平均（EMA）等技术进行微调。

3）更多任务的多任务：最近的研究将更多的主要感知任务放在基于BEV的多任务框架中。BEVerse显示了具有3D目标检测、道路布局分割和 occupancy flow预测的BEV特征的metaverse 。感知交互预测基于与在线提取的具有共享BEV特征的地图元素的交互进行端到端轨迹预测。UniAD是目标检测、跟踪、轨迹预测、地图分割、占据率和flow预测以及规划的综合集成，所有这些都在一个以视觉为中心的端到端框架中。为了获得更稳定的性能，UniAD分两个阶段进行训练，第一阶段是跟踪和mapping，第二阶段是整个模型。

多任务BEV模型中的拮抗作用。统一的BEV特征表示和任务指定的预测头组成了一个高效的框架设计，在工业应用中很受欢迎。还有一个问题是，共享的主干是否加强了各自的任务。联合BEV分割和运动研究[94]报告了多任务的积极影响:更好的分割导致更好的运动预测。然而，大多数联合BEV检测和分割模型[89]，[113]，[114]报告了两个任务之间的拮抗作用。一个合理的解释是，这两个任务不相关，因为它们需要不同高度的特征，在地面上和在地面上。共享BEV特征如何很好地泛化以适应不同的任务需求，对指定特征映射的适应性仍然是一个有待研究的问题。

B. 高效标签栅格感知

随着自然语言处理（NLP）领域大规模预训练的巨大成功，自监督视觉学习受到了广泛的关注。在2D领域，基于对比学习、自监督模型正在快速发展，甚至能够超越完全监督的竞争对手。在3D领域，已经在LiDAR点云上进行了自监督预训练，自监督任务的核心问题是设计一个预定义的任务以实现更强的特征表示。

预定义的任务可以源于时间一致性、区分性约束学习和生成性学习。2D或3D栅格用作自监督学习3D几何和运动的令人满意的中间表示。Voxel-MAE定义了一个基于体素的任务，该任务屏蔽90%的非空体素，并旨在补全它们。这种预训练提高了下游3D目标检测的性能。类似地，BEV-MAE提出屏蔽BEV栅格并将其恢复为预定义任务，MAELi区分了自由空间和闭塞空间，并利用一种新的掩膜策略来适应LiDAR的固有球面投影。与其他基于MIM的预训练相比，MAELi显示出下游检测任务的性能显著提高。[127]还设置了一个新的预定义任务，该任务预测沿着从原点到反射点的每条射线采样的查询点的3D占据率。对于每条光线，靠近反射点的两个点（一个在外部为自由点，一个在表面内部为占据点）被采样为查询点。这个预定义的任务能够补全障碍物的表面，并且在3D检测和LiDAR分割任务中都有改进。

激光雷达和摄像机的相互监督对于学习几何和运动是有效的。PillarMotion计算LiDAR分支中的pillar运动，并通过自我姿态补偿光流。光流和pillar流经过交叉传感器调节以获得更好的结构一致性，PillerMotion的微调还改善了BEV栅格的语义和运动。对于基于相机的3D视觉，自我监督的单目深度估计有着悠久的传统。MonoDepth2以新颖的视图合成方式从单眼视频中联合预测自我姿势和深度图。SurroundDepth使用交叉视图transformer（CVT）来捕捉不同相机之间的线索，并使用来自运动算子的结构的伪深度。NeRF似乎不是关注图像平面上的外观和深度，而是一种很有前途的方法，用于仅相机3D视觉的几何自监督。作为一种早期实践，SceneRF通过细化MLP辐射场来研究新的视图和深度合成，该辐射场可以推断源帧图像与一个序列中的其它帧的深度。

C. 高效计算栅格感知

1）内存高效3D栅格mapping：内存是小分辨率大规模场景中3D占据mapping的主要瓶颈。有几种显式mapping表示，例如体素、栅格、曲面、体素哈希、截断有符号距离场（TSDF）和欧几里德有符号距离域（ESDF）。vanilla 体素占据率栅格映射按索引查询存储，这需要高内存负载，因此在映射方法中并不常见，栅格存储有关障碍物的曲面信息。曲面由点和面片组成，其中包括半径和法向量。体素哈希是对vanilla体素方法的一种内存高效改进，它只在由相机测量的场景表面上分割体素，并以哈希表的形式将体素块存储在场景表面上，以方便体素块的查询，Octomap介绍了一种基于八叉树的高效概率3D mapping框架。Octomap迭代地将立方体空间划分为八个小立方体，大立方体成为父节点，小立方体成为子节点，可以不断向下扩展，直到达到最小分辨率，称为叶节点，Octomap使用概率描述来基于传感器数据轻松更新节点状态。

连续mapping算法是具有任意分辨率的计算和存储效率高的3D占据描述的另一种选择。高斯过程占据图（GPOM）使用改进的高斯过程作为非参数贝叶斯学习技术，引入地图上的点之间的依赖性。希尔伯特映射[130]将原始数据投影到希尔伯特空间，在那里训练逻辑回归分类器。BGKOctoMapL[131]扩展了传统的计数模型CSM，在使用核函数对其进行平滑后，可以考虑周围体素的观察。AKIMap[132]基于BGKOctoMap，改进点是核函数不再是基于径向的，自适应地改变方向并适应边界。DSP地图[133]将基于粒子的地图推广到连续空间，并构建适用于室内和室外应用的连续3D局部地图。广义地说，NeRF系列中的MLP结构也是3D几何的隐式连续映射，几乎不需要存储。

2）从PV到BEV的有效视图转换：Vanilla LSS需要在BEV空间上对齐概率深度特征的复杂体素计算，一些技术在体素栅格上设计有效算子时优化了Vanilla LSS的计算成本。LSS利用cumsum track将截头体特征排序为其唯一的BEV ID，这在BEV栅格上的排序过程中效率很低。BEVFusion提出了一种高效、精确而无近似的BEV pooling，通过预先计算栅格索引，并通过在BEV栅格上并行化的专用GPU内核减少间隔。BEVDepth提出了有效的体素池化，该池化为每个平截头体特征分配CUDA线程，并将每个像素点对应于该线程。GKT[134]利用几何先验来引导变换器聚焦于区分区域，并展开内核特征以生成BEV表示。为了快速推断，GKT在运行时为相机的校准无参数配置引入了查找表索引。Fast BEV[136]是第一个基于M2BEV[137]提出两种加速度设计的实时BEV算法，一种是预先计算BEV栅格的投影索引，另一种是投影到相同的体素特征，GKT和BEVFusion的实现细节如图9和图10所示。

七、驾驶系统中的栅格中心感知

以栅格为中心的感知为自动驾驶的其他模块提供了丰富的感知信息。本节介绍了栅格感知系统的典型工业设计，以及基于栅格输入的几个相关感知领域和下游规划任务。

A. 基于栅格中心的管线工业级设计

特斯拉是研究嵌入式FSD计算机上高性能、低延迟（10ms）的实时占据网络的先驱。特斯拉在CVPR2022自动驾驶研讨会（WAD）上首次介绍了占据网络，随后是2022年特斯拉人工智能日（Tesla AI Day 2022）上的整个以栅格为中心的感知系统。占据网络的模型结构如图11所示，首先，该模型的主干使用RegNet和BiFPN从多个相机获取特征；然后，该模型通过具有3D空间位置的空间查询来执行2D图像特征的基于注意力的多相机融合。然后，该模型通过根据所提供的自我姿势对齐和聚集3D特征空间来执行时间融合。在融合跨时间层特征之后，解码器解码volume 和表面状态。体素栅格和神经隐式表示的结合也是值得注意的，受NeRF启发，该模型以一个隐式可查询MLP解码器结束，该解码器接受任意坐标值x、y、z，以解码关于该空间位置的信息，即占据率、语义和flow。通过这种方式，占据网络能够实现3D占据mapping的任意分辨率。

B. 相关感知任务

1）同时定位和建图：同时定位和建图（SLAM）技术对于移动机器人在未知环境中导航至关重要。SLAM与几何建模高度相关。在LiDAR SLAM领域，高阶CRF提出了一种增量构建的3D滚动OGM，用于有效地表示大规模场景。SUMA++直接使用RangeNet++进行LiDAR分割，语义ICP仅用于静止环境，基于语义的动态过滤器用于地图重建。在视觉SLAM字段中，ORB-SLAM存储带有点、线或平面的地图，将空间划分为离散栅格通常用于密集和语义mapping算法。一个新的趋势是将神经场与SLAM相结合，具有两个优点：NeRF模型直接处理原始像素值，而无需特征提取；NeRF模型可以区分隐式和显式表示，从而实现3D几何的完全密集优化。NICE-SLAM和NeRFSLAM能够生成密集的无孔图，NeRF SLAM生成volumetric NeRF，其密集深度损失由深度的边缘协方差加权。

2） 地图元素检测：检测地图元素是制作高清地图的关键步骤，传统的全局地图构建需要离线的全局SLAM，具有全局一致的点云和中心米级定位。近年来，一种新的方法是基于BEV分割和后处理技术的端到端在线学习方法，用于局部地图学习，然后将不同帧中的局部地图连接生成全局高清晰度地图。整个管道如图12所示。

通常，基于高清地图的应用程序（如定位或规划）需要矢量化地图元素。在HDMapNet中，可以通过对地图元素的BEV分割进行后处理来生成矢量化地图元素；然而，端到端方法最近获得了青睐。端到端管道包括特征提取第三节中介绍的机载激光雷达和相机以及基于transformer的头部，其将向量元素候选回归为查询并与BEV特征图中的值交互。STSU通过利用提取初始点估计的多段线RNN从结构化交通场景中提取道路拓扑，以形成中心线曲线。VectorMapNet直接预测一组稀疏的多段线图元，以表示HD地图的几何结构。InstaGram提出了一种具有CNN和图神经网络（GNN）的混合架构，该架构从BEV特征中提取顶点位置和隐式边缘图。GNN用于矢量化和连接HD地图的元素。如图13所示，MAPTR提出了一种分层查询嵌入方案，以编码用于地图元素学习的实例级和点级二分匹配。

C.以栅格为中心的规划感知

占据栅格通常传达场景理解中的风险或不确定性描述，因此它作为决策和规划模块的先决条件有着悠久的历史。在机器人领域，与以目标为中心的方法相比，栅格中心的方法具有更高的冲突避免分辨率细节。最近的进展使栅格级运动预测和端到端的规划学习成为可能。

1） OGM上基于图形搜索的规划器：运动规划旨在提供由一系列车辆状态组成的轨迹，而占据栅格是状态空间和环境的自然离散表示。为了量化各种状态维度，可以堆叠额外的OGM通道。因此，离散栅格单元之间的连接构成了一个图，该问题可以通过图搜索算法来解决，例如Dijkstra和 $A^*$ 。Junior[157]构建了一个包含位置、航向角和移动方向的四维栅格，然后提出混合，以找到自由场景（如停车场和掉头）的最短路径。混合 $A^*$ 算法及其结果如图14所示。Hall等人扫描自我车辆前面OGM每行的扩展空间，以将节点连接到具有最低成本和偏差的可行轨迹中，这本质上是一种贪婪的图搜索策略

2）OGM上采样轨迹的碰撞检测：鉴于在配置空间中搜索轨迹需要大量的时间，提出了基于采样的规划器，对一组候选轨迹进行采样，并评估其可行性和优化性。避免碰撞的约束强调了对可驾驶空间的认识。以栅格为中心的表示法比元素列表表示法提供了更具体的占据线索，这增加了碰撞检测的安全性。

二维占据栅格上的防撞。OGM早已被认为是在户外环境中运行的地面车辆避免碰撞的必要条件。图15说明了二维OGM碰撞的检测范式。占据信息本来就是以碰撞概率的形式存储的，但是OGM/DOGM是离散的，并且依赖于栅格的大小，这使得它们不适合于连续的风险评估。为此，Dynamic Lambda-fields[159]提出了一个与分辨率无关的通用风险估计的框架。

三维占据栅格上的碰撞避免。空中机器人需要全面了解三维体素栅格的全部几何结构。为了实现这一目标，V oxblox[161]从TSDF中增量构建ESDF，它提供了一种高效的表示方法，对于空中机器人的防撞来说足够安全，并且可以在单个CPU核心上实时运行。

3） RL规划者中的状态表示：强化学习（RL）算法得到了广泛的应用，它将规划问题表述为马尔可夫决策过程。状态是一个重要组件，必须对其进行精确建模，以加快收敛速度并提高性能。原始元素表示不能保持排列不变性和独立于车辆数量，而占据栅格表示可以消除这些约束。Mukadam等人利用二进制占据栅格的历史来表示外部环境信息，并将其集中于内部状态作为输入。许多技术[166]、[167]扩展了占据栅格图，增加了其它特征的通道，如速度、航向、侧向位移等。如图16所示，整合了运动学参数，为RL网络提供了更多信息。与高分辨率栅格表示不同，You等人[168]专注于具有车辆粗粒度大小的九个栅格单元。

4）端到端规划：基于BEV特征的端到端计划通常是指对cost图的估计，该cost图指示样本模板轨迹上的风险分布。Neural Motion Planner对LiDAR点云和高清地图进行条件处理，提取LiDAR BEV特征，在BEV上构建成本体积，并以最小的损失对适当的轨迹进行评分。LSS将其仅摄像的端到端规划解释为“拍摄”，拍摄过程被概念化为轨迹集合的分类。MP3在规划任务的上下文中使用occupancy flow ，但不提供对其运动预测技术的质量和性能的直接分析。ST-P3是第一个在规划框架中考虑BEV运动以提高中间可解释性的框架，这是对过去的端到端规划方法没有考虑未来预测这一事实的回应。图17和图18显示了两个典型框架，即使用LiDAR的MP3规划和使用相机的ST-P3规划。

八、讨论

在本节中，我们对当前以栅格为中心的感知趋势进行了深入的总结，并对进一步的发展方向提供了一些未来展望。

A. 当前趋势观察

与使用预先定义的道路障碍物几何基元的物体级感知任务相比，以栅格为中心的方法没有几何假设，在描述任何形状的物体方面有更大的灵活性，并改进了对遮挡情况的适应。以栅格为中心的方法已经成为当今汽车感知系统的一个组成部分。三个观点总结了当前的趋势。

特征表示。与传统的OGM相比，深度学习大幅提高了描述栅格语义和运动的能力。表示特征的能力在很大程度上取决于网络结构。从LiDAR、视觉和雷达原始数据到BEV栅格的特征表示已经被广泛研究。

栅格是空间融合的自然基础，因此基于栅格的数据级融合和特征级融合在多传感器和多代理融合的情况下是有效的。基于深度学习的三维占位图在基于激光雷达的SSC方法中得到了广泛的研究，该方法从单个激光雷达扫描中生成密集的场景几何。然而，以视觉为中心的三维占有率预测正在成为一个趋势性的话题，显式映射和隐式神经渲染都是很有前景的方法。

数据效用。先进的汽车感知在数据序列或配音片段上训练神经网络，而不是各自的样本，所以时间信息融合和时间任务对以栅格为中心的感知至关重要。占据流已经成为轨迹预测的重要补充，因为关于未来占据的概率参数分布揭示了对未来代理的更好的不确定性描述。由于自主驾驶感知在计算和存储资源非常有限的车载设备上运行，必须设计高效的学习和推理组件。工业应用已经实现了多任务模型和计算效率的技术。由于栅格标签通常很昂贵，标签效率的学习，如半监督、弱监督或自监督学习，在三维领域仍处于起步阶段，预计将加速未来处理开放世界交通场景的解决方案的发展。

在驾驶系统中的应用。我们还观察到，以栅格为中心的感知应用在整个自主驾驶系统中正发挥着越来越关键的作用。对于自主驾驶链条中的平行任务，它们都有几何学习的要求，其中体素或BEV栅格有很大的表示能力。下游任务的栅格依赖性规划由来已久。一个新的趋势是，端到端的规划方法在向环境认知模块传达栅格特征和构建更精确的安全场方面表现出强大的潜力。

B. 未来展望

栅格的可变颗粒度。在现实世界的驾驶场景中，附近的环境通常比远处的环境有更大的风险潜力，当障碍物接近时需要提高警惕。在以栅格为中心的感知中，一个自然的要求是，附近的栅格比远处的栅格需要更高的分辨率。更进一步说，栅格特征表示仍然被赋予固定的颗粒度，这在不必要的相关区域（如远处或被遮挡的区域）消耗了更多的内存和计算。视觉变换器和隐式表征是有希望实现按需可变颗粒度的技术。另一个问题是定义下游任务的安全粒度，因为它与感知需求分析紧密相连。

动态场景的4D NeRF。NeRF的一个重要假设是对静态场景的观察。城市辐射场[81]中使用的常见方法是利用其他视觉任务（分割、检测）来过滤掉动态物体。AutoRF[170]使用单眼三维物体检测来学习动态物体上的辐射场表示。最近的研究已经开始研究4D神经场，该神经场本质上考虑了动态场景的运动。神经场景流场[171]首先将场景流场建模为外观、几何和三维场景运动的时变连续函数。ENeRF[172]首次实现了对动态场景的照片式实时渲染，并能很好地推广到室外场景。由于现有艺术的场景在规模和参与者的数量上没有交通场景那么复杂，适合高度复杂和动态交通场景的优雅的4D神经场仍然没有被探索。

以栅格为中心的感知的标签效率学习。与以物体为中心的感知相比，以栅格为中心的感知需要更严格的标签。来自多帧LiDAR语义点云标签的致密体素栅格是相当昂贵的。此外，LiDAR点云受到最小角度分辨率和最大高度的限制，这意味着远处的障碍物可能无法被准确标记。迫切需要对栅格上的三维视觉进行有效的标签学习。弱监督学习可能涉及到从附近物体的占有率中学习，并归纳到远程障碍物。自我监督的几何学习和特定任务的微调是另一种有希望的标签高效几何学习方法。

以视觉为中心的栅格的开放世界占据。LiDAR对视线和占据区域有一个直接的几何表示。一旦地面与其他场景点云区分开来，基于LiDAR的一般物体检测（GOD）就能够检测到任何形状的未知物体。然而，相机缺乏准确的占据率的几何线索。因此，对空间占有率的评估高度依赖于语义分类，当面对新的语义类别和新的实例时，基于相机的预测很可能会失败。自监督深度估计是一种不需要语义的障碍物检测的初步方法。

体积流量预测。栅格流旨在成为场景流的简明和一般表示。BEV栅格流只能表示二维运动，而不考虑三维运动的可能性。体积流是未来对三维动态物体和静止环境的准确感知的进一步解决方案。体积流能够预测任何三维位置的运动流向量，即使不知道它们的确切类别，也知道有运动的物体。

九、结论

本文对已经确立的和正在出现的以栅格为中心的自动驾驶感知进行了全面回顾和分析。背景首先介绍了以栅格为中心的感知的问题定义、数据集和评价指标。对于最常用的BEV二维栅格，介绍了各种传感器的特征表示，包括LiDARs、照相机和雷达以及多模式融合。此外，我们还进一步介绍了三维栅格的表示，其中包括基于激光雷达的语义场景完成和基于相机的显式重建和隐式表示。对于以栅格为中心的感知中的时间模块的进展，我们回顾了历史信息的顺序聚集、短期运动预测和长期占据流。之后，我们对以栅格为中心的感知领域的高效学习进行了深入研究，其中包括模型高效的多任务框架、标签高效的学习算法、记忆高效的三维映射结构和计算高效的基于体素的运算器。我们回顾了以栅格为中心的感知在整个自主驾驶系统中的作用，工业设计，相关的感知任务，以及与规划方法的联系。最后，我们对以栅格为中心的感知的当前研究趋势和未来展望做了总结。作者希望本文能对以栅格为中心的感知在自动驾驶汽车上的未来发展和部署进行展望。

以栅格为中心的自动驾驶交通场景感知综述