点云目标检测数据集调研与分类综合报告
第1章 3D点云感知导论
1.1 点云在3D视觉中的首要地位
点云作为三维(3D)世界的基本数字表示,已成为需要高保真空间理解的各种应用领域中不可或缺的数据形式。从根本上说,点云是坐标系中一系列数据点的集合,每个点通常由其三维坐标 p=(x, y, z) 定义,有时还包含强度、颜色等附加属性 。与二维(2D)图像提供对世界投影的视角不同,点云直接提供了环境的几何测量,这对于自动驾驶、机器人技术、增强现实(AR)和元宇宙开发等前沿领域的精确感知至关重要 。在自动驾驶系统中,精确的3D目标检测、定位和导航能力直接依赖于从点云数据中提取的精确空间信息。因此,点云不仅是一种数据格式,更是连接物理世界与数字智能的桥梁。
1.2 点云数据的基本挑战
尽管点云具有丰富的几何信息,但其固有的数据特性也给处理和分析带来了独特的挑战,这些挑战深刻地影响了算法和数据集的设计。
首先,点云数据具有 稀疏性、不规则性和噪声 的特点。点云的密度会随着与传感器距离的增加而显著下降,导致远处物体仅由寥寥数点表示 。数据点在空间中是不规则且无序分布的,这使得传统卷积神经网络(CNN)等依赖于规则网格输入的算法难以直接应用 。此外,原始点云数据常受到传感器噪声、由遮挡造成的不完整性以及由移动物体或反射表面引起的伪影(如反射噪声和“鬼影点”)的干扰 。这些问题共同构成了处理点云数据的核心障碍,催生了诸如去噪、补全和上采样等一系列专门的数据增强和预处理技术,旨在从低质量的原始数据中生成更密集、干净和完整的点云 。
其次,原始数据质量直接影响下游任务的性能。低质量的点云数据——即稀疏、嘈杂或不完整的点云——会对目标检测、分割和分类等关键任务的准确性和鲁棒性构成巨大挑战 。例如,在自动驾驶场景中,一个因点云稀疏而被遗漏的远处行人,或一个因噪声而被错误分类的障碍物,都可能导致灾难性后果。这凸显了获取和构建大规模、高质量、标注精良的数据集对于训练和验证稳健3D感知模型的根本重要性。
1.3 数据集与算法的共生关系
3D点云感知领域的发展体现了数据集与深度学习模型之间深刻的共生演化关系。一方面,里程碑式的数据集发布是算法创新的催化剂。纵观该领域的发展历程,每一次算法的重大突破都与新数据集的出现紧密相连。从处理无序点集的开创性架构如PointNet/PointNet++ ,到将点云体素化以便应用3D卷积的VoxelNet/PointPillars ,再到近期结合了点和体素表示优势的PV-RCNN 以及引入注意力机制的Transformer模型 ,每一个新算法的诞生和迭代,都是为了更好地应对现有数据集所提出的挑战。
另一方面,算法的局限性反过来又驱动了下一代数据集的设计。早期的数据集或模型(如从重建网格中采样的S3DIS )往往侧重于“干净”或理想化的数据,这使得在其上训练的模型在面对真实世界的复杂性时泛化能力不足。研究界逐渐认识到,一个模型不仅要能处理理想数据,更要能容忍甚至利用真实传感器数据中的不完美之处。这种需求直接催生了新一代数据集的诞生,例如LiDAR-Net 。该数据集的价值恰恰在于它保留了“非均匀点分布(如扫描孔洞和扫描线)”以及“扫描异常(如反射噪声和鬼影)”等真实世界的伪影。这些看似“不完美”的特征,实际上极大地增强了深度模型在真实世界应用中的泛化能力 。这种从追求“数据洁净度”到拥抱“现实复杂性”的转变,标志着该领域的成熟,并推动了算法向着更强的鲁棒性和实用性发展。
此外,公开基准是衡量领域进展的标尺。带有标准化评估指标的公开数据集对于客观、可复现地比较不同算法的性能至关重要 。诸如Papers with Code等平台上的排行榜,以及各数据集官方网站发布的基准测试结果,已成为追踪最前沿技术进展、促进学术界和工业界良性竞争的核心机制 。
1.4 报告目标与结构
本报告旨在对用于3D点云目标检测的数据集进行一次全面的调研和系统的分类。报告将深入分析关键数据集的特性、演进历程及其对算法发展的影响,并探讨该领域未来的发展趋势和面临的挑战。报告结构安排如下:第二章将提出一个多维度的数据集分类框架;第三章和第四章将分别对室外自动驾驶和室内场景理解这两大应用领域的主流数据集进行深入剖-析;第五章将梳理3D感知数据集的整体演化轨迹;最后,第六章将总结当前面临的挑战、开放性问题并展望未来方向。
第2章 点云数据集的分类框架
为了系统地梳理和理解现有的大量点云数据集,本章引入一个多维度的分类框架。该框架从应用场景、传感器模态以及标注粒度与任务支持三个核心维度对数据集进行划分,为研究人员和从业者提供一个清晰的结构化视角,以便于比较和选择最适合其需求的资源。
2.1 按应用场景分类
数据集的预期应用场景是其最主要的分类依据,因为它直接决定了数据的采集环境、规模、动态特性以及标注对象的类型。
- 室外/自动驾驶 (Outdoor/Autonomous Driving): 这是目前最主流且数据规模最大的类别,专注于城市、乡村和高速公路等大规模动态环境。这些数据集的核心挑战在于处理高速移动的车辆、行人和骑行者,以及复杂的交通交互。代表性数据集包括 KITTI 、nuScenes 、Waymo开放数据集 (WOD) 、Argoverse 、PandaSet 、ApolloScape 和 A2D2 。
- 室内场景理解 (Indoor Scene Understanding): 此类数据集专注于办公室、住宅、实验室等静态或半静态的室内环境。它们对于机器人导航、增强现实(AR)内容生成和建筑信息模型(BIM)等应用至关重要。其挑战主要在于处理物体的严重遮挡和杂乱的场景布局。代表性数据集包括 ScanNet 、S3DIS 、LiDAR-Net 、InLUT3D 和 3RScan 。
- 机器人与导航 (Robotics and Navigation): 这是一个更专业的类别,常与前两者有重叠,但更侧重于特定的机器人任务,如物体抓取、行人跟随或在非结构化环境中的导航。这些数据集通常包含与特定任务强相关的标注。代表性数据集包括 L-CAS 3D行人点云数据集(用于机器人行人检测)、GND (全球导航数据集)(用于大规模室外导航) 和 Grasp-Anything-6D(用于机器人抓取)。
2.2 按传感器模态分类
数据采集所用的传感器类型从根本上决定了点云数据的特性,如密度、精度、范围和是否包含颜色信息。
- 以激光雷达为中心 (LiDAR-centric): 在这些数据集中,激光雷达(LiDAR)是获取3D数据的主要或唯一来源,通常提供高精度的原始几何信息,但缺乏纹理。一个典型例子是 SemanticKITTI,它在KITTI原有的LiDAR扫描数据基础上增加了密集的语义标签 。
- RGB-D相机: 这类数据集使用消费级或专业级的深度相机(如微软Kinect、英特尔RealSense或苹果结构光传感器)采集。它们通常能提供密集的彩色点云,但探测范围较短,且易受光照条件和物体表面材质的影响。代表性数据集包括 ScanNet 、SUN RGB-D 和 NYU Depth v2 。
- 多模态传感器套件 (Multimodal Sensor Suites): 这是当前自动驾驶数据集的标配。这些数据集融合了LiDAR、相机、毫米波雷达(RADAR)以及惯性测量单元(IMU)/全球定位系统(GPS)的数据。这种融合提供了信息的冗余和互补性,例如,相机提供丰富的纹理和颜色信息,而雷达则能在恶劣天气下提供稳健的速度测量 。代表性数据集包括 nuScenes (LiDAR, 相机, 雷达) 、Waymo (多个LiDAR, 相机) 、Argoverse (LiDAR, 相机) 和 PandaSet (两种不同类型的LiDAR, 相机) 。
2.3 按标注粒度与任务支持分类
标注的类型和详细程度直接决定了数据集能够支持的研究任务范围。
- 3D目标检测 (3D Object Detection): 这是最常见的任务,其标注通常为7自由度(7-DoF)的3D边界框,即位置(x, y, z)、尺寸(长、宽、高)和偏航角(yaw)。
- 语义、实例与全景分割 (Semantic, Instance, and Panoptic Segmentation): 这类任务需要更精细的逐点或逐体素标签。
- 语义分割: 为每个点云点分配一个类别标签(如‘汽车’、‘道路’)。
- 实例分割: 在同一类别内区分不同的物体实例(如‘汽车_1’、‘汽车_2’)。
- 全景分割: 结合了语义分割和实例分割,为每个点分配一个类别标签和一个实例ID 。
- 运动预测与轨迹预测 (Motion Forecasting and Trajectory Prediction): 这类任务需要包含时间序列的数据,并为物体提供跨帧的跟踪ID,以便预测其未来路径 。
- 属性与关系标注 (Attribute and Relational Annotations): 这类标注提供了超越简单类别标签的更丰富的上下文信息,例如物体的状态(‘车辆正在行驶’、‘行人正在行走’)或物体间的关系。nuScenes 是该领域的先驱,其标注包含了可见性、活动状态等多种属性 。近期的研究工作更进一步,开始探索场景图(Scene Graphs)等更复杂的表示方法 。
这些分类维度并非相互独立,而是存在深刻的因果联系。应用场景的需求决定了所需的技术能力,进而决定了传感器的配置和数据的组织方式,最终决定了其能支持的研究方向。例如,自动驾驶这一应用场景,其开放、动态和安全攸关的特性,必然要求感知系统具备全天候、全方位的鲁棒性。单一传感器无法满足此要求:相机在弱光下性能下降,LiDAR受恶劣天气影响,雷达空间分辨率低 。因此,对鲁棒性的追求直接导致了nuScenes和Waymo等数据集普遍采用LiDAR、相机和雷达相结合的多模态传感器套件 。
进一步地,自动驾驶的核心任务是在动态环境中安全地与其他交通参与者交互。这不仅需要知道一个物体“是什么”和“在哪里”(检测),更关键的是要预测它“要去哪里”(预测)。这一需求直接促使nuScenes和Argoverse等数据集将包含连续时序和跟踪ID的场景作为核心特性,从而推动了运动预测领域的研究 。相比之下,对于主要研究静态环境的室内场景理解任务,这一需求则不那么迫切。这一分析揭示了一条清晰的因果链:应用场景 → 能力要求 → 传感器/数据配置 → 支持的研究任务。理解这一逻辑,是把握整个数据集领域发展脉络的关键。
第3章 室外自动驾驶数据集深度分析
自动驾驶是3D点云感知技术最重要和最具挑战性的应用领域。本章将对定义并持续塑造该领域的几大主流数据集进行详细的、比较性的分析,揭示它们各自的技术特点、贡献与局限性。
为了提供一个直观的概览,下表汇总了主要自动驾驶数据集的关键信息。该表格旨在成为研究人员和从业者的高密度参考工具,通过多维度对比,快速定位最符合其研究需求(如传感器要求、任务重点、许可限制等)的数据集。
表1:主要自动-驾驶数据集对比矩阵
数据集 | 发布年份 | 传感器套件 (LiDAR类型/数量, 相机数量/分辨率, 雷达) | 数据规模 (场景/序列, 帧数, 时长, 地理多样性) | 标注详情 (3D框, 分割类型, 类别数, 属性) | 许可证 |
---|---|---|---|---|---|
KITTI | 2012 | 1x Velodyne HDL-64E, 2x 立体相机 (1.4MP), 无雷达 | 7,481 训练样本, \~75k 序列帧, \~6小时, 德国城市/乡村 | 3D框, 无, 3个主要类别, 无属性 | Creative Commons BY-NC-SA 3.0 |
nuScenes | 2019 | 1x Velodyne HDL-32E, 6x 相机 (1.6MP), 5x 雷达 | 1,000 场景, 390k LiDAR扫描, 20s/场景, 波士顿/新加坡 | 3D框, 激光雷达语义分割, 23个类别, 8个属性 | Creative Commons BY-NC-SA 4.0 (非商业) |
Waymo (WOD) | 2019 | 1x 中距LiDAR, 4x 短距LiDAR, 5x 相机 (2MP) | 2,030 序列, \~400k 帧, 20s/序列, 美国多城市 | 3D框, 3D语义分割, 4个主要类别 (23个分割类别), 关键点 | Waymo Dataset License (非商业) |
Argoverse 2 | 2021 | 2x VLP-32C LiDAR (共64线), 7x 环视相机, 2x 立体相机 | 1,000 传感器序列, 20,000 LiDAR序列, 15s/30s, 美国6城市 | 3D框 (模态), 无, 30个类别, 丰富属性 | Creative Commons BY-NC-SA 4.0 (非商业) |
PandaSet | 2021 | 1x Pandar64 (机械), 1x PandarGT (固态), 6x 相机 | 100+ 场景, 16k+ LiDAR扫描, 8s/场景, 美国硅谷 | 3D框, 点云语义分割, 28个类别 (37个分割标签), 丰富属性 | Creative Commons BY 4.0 (商业友好) |
3.1 开创者: KITTI (卡尔斯鲁厄理工学院与丰田芝加哥技术研究所)
- 历史背景与贡献: 2012年发布的KITTI是自动驾驶领域第一个全面、多模态的公开基准,为整个领域的研究奠定了基石 。它的出现标志着数据集发展的“第一代”里程碑 。
- 传感器套件与数据: 采集车配备了一台64线Velodyne HDL-64E激光雷达、两对高分辨率立体相机(彩色与灰度)以及高精度GPS/IMU系统 。数据集包含7,481个带3D边界框标注的训练样本和大量的原始数据序列,总时长约6小时 。
- 标注与任务: KITTI的核心任务是3D目标检测,主要关注‘汽车’、‘行人’和‘骑行者’三个核心类别 。其基准套件随着时间推移不断扩展,现已涵盖立体视觉、光流、视觉里程计、目标跟踪和分割等多个方向 。
- 局限性与历史意义: 尽管KITTI具有开创性地位,但其局限性也十分明显。首先,数据仅在晴天或多云天气下采集,导致在其上训练的模型难以泛化到雨、雪、雾或弱光等恶劣天气场景 。其次,LiDAR点云非常稀疏,尤其在远距离处,距离超过40米的目标平均点数少于5个,严重制约了远距离检测的精度 。最后,数据集中动态目标的比例不足15%,且场景多样性有限 。正是这些局限性,直接激发了学术界和工业界开发下一代数据集的动力。
3.2 多模态标杆: nuScenes
- 对KITTI的超越: 由nuTonomy(现为Motional)于2019年发布的nuScenes,旨在系统性地解决KITTI的不足。它是第一个提供完整360°传感器覆盖的数据集,包括一台32线LiDAR、5个毫米波雷达和6个摄像头 。
- 数据规模与多样性: nuScenes包含1000个时长为20秒的场景片段,采集于美国波士顿和新加坡,覆盖了白天、夜晚、雨天等多种天气和复杂的城市交通状况 。其数据规模远超KITTI,拥有7倍的标注数量和100倍的图像数量 。数据集提供了140万个3D边界框,涵盖23个目标类别,其中包括交通锥、工程车辆等长尾类别 。
- 核心创新: nuScenes将时间连续性作为核心特性,长达20秒的场景片段极大地促进了3D目标跟踪和运动预测领域的研究 。它开创性地引入了丰富的语义属性标注,如‘vehicle.state:moving’(车辆状态:移动中)或‘pedestrian.pose:sitting’(行人姿态:坐着),为场景理解提供了更深层次的上下文信息 。此外,nuScenes提出了一个全新的评估指标——nuScenes检测分数(NDS),该指标综合了平均精度均值(mAP)以及平移、尺度、朝向、速度和属性等多维度的误差,从而能够更全面地评估检测模型的综合性能 。
- 局限性: nuScenes采用的是32线LiDAR,其点云密度低于KITTI的64线传感器,导致在同等距离下目标上的点数更少 。此外,其2Hz的标注频率与20Hz的传感器采样频率不匹配,这意味着大部分帧的标注需要通过插值算法生成,可能引入潜在误差 。
3.3 工业巨擘: Waymo开放数据集 (WOD)
- 前所未有的规模: 由自动驾驶领军企业Waymo发布的WOD,在数据量和质量上都达到了新的高度。其感知数据集包含2,030个20秒长的路测片段,均配备高分辨率传感器数据 。整个数据集包含约1260万个3D边界框标签和1180万个2D标签,规模惊人 。
- 先进的传感器套件: WOD的独特之处在于其多LiDAR配置:车顶配备一台高分辨率中距离LiDAR和四台短距离LiDAR,共同提供了非常密集的360°点云覆盖 。这种配置使得其点云密度远超以往的数据集,平均每帧点数高达17.7万 。
- 丰富的标注类型: WOD的标注远不止3D边界框。它不仅为车辆、行人、骑行者和标志牌这4个主要类别提供高质量的3D框,还提供了覆盖23个类别的3D激光雷达语义分割标签,以及针对行人和骑行者的2D/3D关键点标注 。所有标签都带有跨帧一致的跟踪ID,为多任务学习和深度场景理解提供了坚实基础 。
- 任务多样性: WOD不仅是一个感知数据集,它还包含一个拥有超过10万个场景的运动数据集(Motion Dataset),专为轨迹预测研究而设计;以及一个新兴的端到端驾驶数据集(End-to-End Driving Dataset)。Waymo定期举办的挑战赛已成为推动该领域算法发展的关键平台 。
3.4 地图中心化的竞争者: Argoverse (1 & 2)
- 核心差异化: 高精地图 (HD Maps): Argoverse系列数据集最大的贡献在于深度整合了丰富的几何与语义高精地图信息,如车道中心线、可行驶区域、地面高程等 。其提供的API旨在促进研究人员利用地图先验信息来提升感知和预测算法的性能 。
- Argoverse 1 (AV1): 于2019年发布,包含一个3D跟踪数据集(113个场景)和一个大规模的运动预测数据集(超过32万个场景片段)。
- Argoverse 2 (AV2): 作为一次重大升级,AV2于2021年发布,包含一个传感器数据集(1000个15秒场景,30个目标类别)、一个用于自监督学习的超大规模LiDAR数据集(2万个未标注场景)以及一个独特的地图变化检测数据集 。
- 创新的标注方法: AV2引入了“模态(amodal)”3D边界框的概念。这种标注方式通过聚合物体在整个时序中的观测信息,来估计其完整的3D尺寸,即使在部分被遮挡的情况下也能给出准确的标注。这向着提供更真实的“真值”(ground truth)迈出了重要一步 。
- 研究焦点: Argoverse系列数据集的研究导向性非常明确,主要集中在运动预测、基于大规模无标签LiDAR数据的自监督学习以及地图感知的感知算法等前沿方向 。
3.5 商业友好的替代方案: PandaSet
- 独特的许可证: 由激光雷达制造商Hesai(禾赛科技)和数据标注公司Scale AI合作推出的PandaSet,其最吸引人的特点之一是提供了免费的商业使用许可(CC BY 4.0),这极大地降低了初创公司和商业研发团队使用高质量数据的门槛 。
- 新颖的传感器组合: PandaSet是第一个同时搭载机械旋转式LiDAR(Pandar64,提供360°视场)和前向固态LiDAR(PandarGT,长距离高分辨率)的大型开源数据集 。这种独特的组合为研究不同类型LiDAR数据融合的算法提供了宝贵平台。
- 数据与标注: 数据集包含超过100个8秒长的场景,48,000多张相机图像和16,000多次LiDAR扫描 。它为28个类别提供了3D边界框标注,并为37个类别提供了精细的逐点语义分割标签,所有标注均由Scale AI的高质量标注流程完成 。
- 场景特点: 数据采集于旧金山和硅谷复杂的城市环境中,包含了陡峭的山坡、施工区域、密集的交通和行人等具有挑战性的驾驶场景 。
3.6 其他值得关注的室外数据集
- SemanticKITTI: 作为KITTI的重要扩展,SemanticKITTI为KITTI里程计基准的所有序列提供了密集的、逐点的语义标签。它极大地推动了基于LiDAR的语义分割、全景分割和场景补全等任务的研究 。数据集包含28个类别,并特别区分了移动和静态物体 。
- Lyft Level 5, A2D2, ApolloScape: 这些数据集同样是该领域的重要组成部分,它们提供了大规模、多样化的数据,具有不同的传感器配置和标注类型,进一步丰富了自动驾驶研究的生态系统 。
从KITTI到nuScenes再到Waymo的演进,清晰地展示了一场围绕数据保真度、规模和标注丰富性的“军备竞赛”。这一进程并非简单地追求“更多数据”,而是旨在提供能更精确、更全面地反映真实世界复杂性的数据。每一个后继数据集的设计,都直接针对前一代数据集的局限性。例如,KITTI在天气多样性和远距离感知上的不足,成为了nuScenes设计的核心出发点。而nuScenes在点云密度上的相对劣势,又被Waymo通过其先进的多LiDAR系统所超越。这条演进路径揭示了一个根本性的驱动力:解决自动驾驶的挑战,必须直面日益复杂和长尾的现实场景,而这只有通过更高保真度的传感器和更全面的标注才能实现。
与此同时,数据集的发展也呈现出研究焦点的多样化趋势。早期的数据集(如KITTI)是通用性的,而新一代数据集则显示出更强的专业化。Argoverse对高精地图和运动预测的专注,以及PandaSet对新颖传感器配置和商业友好许可的侧重,都表明该领域正在走向成熟。在核心的3D检测问题得到长足发展后,研究的重心开始向自动驾驶流水线中的其他特定瓶颈问题(如预测、商业化、新传感器技术)转移。这标志着一个健康且不断发展的研究生态正在形成。
第4章 室内场景理解数据集深度分析
与室外自动驾驶领域相比,室内场景感知面临着一套不同的挑战,如严重的物体遮挡、高度杂乱的环境以及对精细几何细节的更高要求。本章将深入探讨为室内机器人、增强现实(AR)和建筑分析等应用设计的关键数据集,并分析其独特的数据采集方法和技术特点。
下表对比了主要的室内场景数据集,突出了它们在数据来源和预期用途上的根本差异。这有助于研究人员根据其具体应用需求(例如,是需要模拟移动机器人视觉的消费级RGB-D数据,还是需要用于建筑分析的高精度静态激光扫描数据)做出明智的选择。
表2:主要室内场景数据集对比矩阵
数据集 | 发布年份 | 传感器类型 | 规模 (扫描次数, 面积 m²) | 标注方法 | 核心特性 |
---|---|---|---|---|---|
ScanNet | 2017 | RGB-D 相机 (如 Structure Sensor) | 1513 次扫描, N/A | 众包 | 重建网格, 实例分割, 任务多样 |
S3DIS | 2017 | RGB-D 相机 (Matterport) | 6 个大区域 (271个房间), >270M 点 | 手动 | 从重建网格采样, 点云密集均匀 |
LiDAR-Net | 2024 | 真实激光扫描仪 | 3.6B 点, 30,000 m² | 手动 | 原始扫描数据, 含真实伪影 (噪声/孔洞) |
ScanNet++ | 2023 | 激光扫描仪 + DSLR + iPhone RGB-D | 460 次扫描, 15,000 m² | 手动 (开放词汇) | 高保真几何与纹理, 多模态, 支持新视角合成 |
4.1 奠基性基准: ScanNet
- 数据采集与规模: ScanNet是室内场景理解领域的里程碑式数据集,包含了超过1500次扫描和250万个RGB-D视图 。数据通过一个可扩展的采集系统(通常是带有Structure.io传感器的iPad)获取,并提供了自动化的表面重建 。
- 标注与格式: ScanNet为每个场景提供了3D相机位姿、重建的表面网格(.ply格式)以及实例级的语义分割 。其标注过程采用了众包模式,标注信息以.segs.json和.aggregation.json文件的形式存储,将网格片元与物体实例及其标签关联起来 。
- 演进与扩展:
- ScanNet200: 这是一个在ScanNet基础上扩展而来的基准,将评估的语义类别从原来的20个大幅增加到200个。这不仅创建了一个更具挑战性的基准,也更好地反映了真实世界中物体的类别多样性和长尾分布特性 。
- ScanNet++: 作为ScanNet的最新高保真继承者,ScanNet++通过结合高端激光扫描仪、3300万像素的数码单反相机(DSLR)和iPhone的RGB-D数据流,极大地提升了数据的几何和纹理质量。它旨在弥合消费级采集设备与专业级设备之间的鸿沟,为新视角合成(Novel View Synthesis)和更精细的语义理解任务设立了新的基准 。
4.2 大规模静态扫描: S3DIS 与 LiDAR-Net
- S3DIS (斯坦福大规模3D室内空间数据集): S3DIS是语义分割任务中被广泛使用的基准之一。它包含了来自3栋不同建筑的6个大规模室内区域,覆盖271个房间,总计超过2.7亿个点 。其点云数据是从使用RGB-D相机(Matterport)重建的3D纹理网格模型中采样得来,这使得点云分布非常密集且均匀 。
- LiDAR-Net: 这是一个较新的数据集,与S3DIS形成了鲜明对比。LiDAR-Net的数据是使用真实的地面激光扫描仪直接采集的,包含了36亿个带有逐点精细标注的原始点云 。其核心价值在于保留了真实世界扫描过程中产生的各种伪影,例如非均匀的点云分布、扫描孔洞、由高反光表面引起的反射噪声以及由移动人员造成的“鬼影”等 。这使得LiDAR-Net成为一个更真实、更具挑战性的基准,尤其适合于训练那些旨在部署于搭载原始LiDAR传感器的真实机器人上的模型。
4.3 室内数据集的新兴趋势
- 跨数据集训练: 由于单个室内数据集在规模和多样性上的局限性,研究界开始探索在多个基准上进行联合训练。例如,UniDet3D模型通过统一不同数据集(如ScanNet, ARKitScenes, S3DIS等)的标签空间,成功地在一个混合数据集上进行训练,并取得了显著的性能提升 。这预示着未来的模型可能会在一个“数据集的数据集”上进行训练,以获得更强的泛化能力。
- 专业化与高分辨率数据集: 随着应用需求的深化,一些新的、更专业化的数据集正在涌现。例如,InLUT3D数据集提供了特定环境(大学教学楼)的超高分辨率激光点云,并结合了全景相机提供的色彩信息 。这类数据集满足了需要极高几何细节的特定应用场景的需求。
室内数据集的演进过程揭示了重建质量与现实保真度之间的一场根本性的张力与最终的融合。早期的主流数据集,如S3DIS和ScanNet,其核心是提供从RGB-D扫描重建而来的、经过后处理的“干净”三维模型 。这个过程虽然能生成视觉上完整且美观的模型,但也平滑或移除了传感器层面的噪声和不完美之处。
当模型仅在这些“净化”过的数据上进行训练时,它们往往难以泛化到真实世界的应用中——因为真实机器人的传感器所产生的,恰恰是原始、嘈杂且不完整的数据。这种泛化差距的存在,直接催生了像LiDAR-Net这样的新一代数据集。LiDAR-Net明确地将自己定位为“真实扫描”数据集,并将其包含的“非均匀点分布”和“扫描异常”等视为宝贵的特征,而非缺陷 。
而ScanNet++的出现则代表了这两种理念的综合与升华。它通过在同一场景中同时采集高端激光扫描仪数据和消费级iPhone数据,为研究界提供了一个独特的平台 。研究人员可以利用这个数据集直接研究不同设备间的领域差异,并开发能够同时利用高保真真值和嘈杂消费级输入的模型。这一发展轨迹清晰地表明,该领域正在从“创建一个干净的3D模型”的初级阶段,迈向“创建一个能理解真实传感器所见世界的模型”的更高成熟阶段。
第5章 3D感知数据集的演化轨迹
通过综合分析前述章节的内容,我们可以勾勒出3D感知数据集发展的清晰历史脉络。这个过程并非线性增长,而是呈现出由技术驱动、问题导向的阶段性飞跃。本章将这一演化过程划分为三个具有鲜明特征的世代,以揭示其内在的发展逻辑。
5.1 第一代 (约 2012-2016年): 奠定基础
- 时代特征: 这一时期的核心任务是开创先河,首次为真实世界传感器数据构建3D感知基准。研究的焦点在于验证相关任务(如3D目标检测)本身的可行性,并为后续研究提供一个可供比较的起点。
- 代表性数据集: KITTI是这一代最典型的代表 。它首次将LiDAR点云、相机图像和高精度定位数据结合,并提供了3D边界框标注,定义了3D目标检测任务的基本框架。同样属于这一时代的Cityscapes ,虽然主要关注2D语义分割,但其高质量的图像和标注也对整个感知领域产生了深远影响。
- 技术特征: 这一代数据集的普遍特点是数据规模相对较小,传感器配置较为简单(例如,单个LiDAR和一对立体相机),标注的类别数量有限(通常只关注几个主要类别,如汽车、行人),且数据采集环境较为受限(例如,仅在良好天气下)。主要支持的任务是基础的3D目标检测。
5.2 第二代 (约 2017-2021年): 规模化与多模态化
- 时代特征: 随着工业界和学术界对自动驾驶投入的急剧增加,这一时期迎来了数据规模和传感器复杂性的爆炸式增长。研究目标从“可行性”转向“鲁棒性”,致力于解决更复杂的真实世界场景。
- 代表性数据集: nuScenes, Waymo开放数据集 (WOD), Argoverse 1, 和 Lyft Level 5 是这一代的旗舰产品 。
- 技术特征: 这一代的标志性特征是全面的360°多模态传感器套件(LiDAR、相机、雷达的组合),数据量、地理多样性和场景复杂度均实现了数量级的提升。标注方案也变得空前丰富,不仅大规模标注了长尾类别,还引入了语义属性(如nuScenes)和逐点分割标签(如Waymo)。最关键的转变是,通过采集连续、长时程的场景数据,数据集的支持范围从静态的检测任务扩展到了动态的运动预测和目标跟踪,这对于理解和应对复杂的交通动态至关重要 。
5.3 第三代 (约 2022年至今): 数据中心AI、鲁棒性与通用智能
- 时代特征: 当前这一代的发展重心正在发生深刻转变,从单纯追求“更多”数据转向追求“更智能”的数据和“更通用”的AI。核心主题包括:系统性地解决长尾问题,确保在角落案例(corner cases)和对抗性条件下的鲁棒性,以及将感知与更广泛的推理能力相结合。
- 代表性数据集与趋势:
- 解决长尾问题: 新的数据集,如nuPlan和Argoverse 2,通过数据挖掘技术,专门提取并标注了具有挑战性的特定场景(如无保护左转、行人横穿马路),以供模型进行针对性训练 。
- 对抗性条件: 对罕见但至关重要的场景的关注日益增加,包括恶劣天气条件下的数据 和现实世界中地图发生变化的场景(如Argoverse 2的地图变化数据集)。
- 数据中心AI (Data-Centric AI): 重点转向通过提升数据质量来提升模型性能。这包括制定更严格的标注标准、开发更高效的标注工具,以及利用主动学习、数据挖掘等技术来发现最有价值的训练样本 。
- 生成式AI与仿真: 利用生成模型(Generative AI)来创造稀有的角落案例合成数据,已成为增强真实世界数据集的重要策略 。
- VLM/LLM集成: 最前沿的探索方向是创建用于基准测试视觉语言模型(VLM)和大语言模型(LLM)的数据集。诸如NuScenes-QA 、NuScenes-SpatialQA 和DriveLM 等数据集,通过提供场景的问答对或自然语言描述,来测试模型对空间的理解和推理能力,推动自动驾驶向更通用的智能迈进。
数据集的演化历程,实质上是自动驾驶领域“问题解决生命周期”的直接体现。每一代数据集的诞生,都是对前一代所暴露出的主要瓶颈的直接回应。第一代(以KITTI为代表)解决了“我们能否进行3D检测?”这个从0到1的问题,但其暴露出的瓶颈是数据过于简单,缺乏多样性。于是,第二代(以nuScenes/Waymo为代表)回应了“我们能否在复杂、多样、360°的环境中进行鲁棒检测?”这个问题,通过提供大规模、多模态的数据集解决了这一挑战。然而,这一代又暴露出了新的瓶颈——模型在常见物体上表现良好,但在稀有、长尾的场景中频繁失效。
这便催生了第三代的发展。当前,问题变得更加复杂和深刻:“我们如何系统性地解决长尾问题?”,“我们如何确保在角落案例中的安全性?”,以及“我们如何从单纯的感知,迈向真正的场景理解和因果推理?”。针对这些问题,解决方案也呈现出多样化:基于特定场景的数据集(nuPlan)、用于测试通用推理能力的VLM/LLM基准(NuScenes-QA),以及关注数据本身质量和价值的数据中心AI方法论。这一清晰的因果链条表明,数据集不仅仅是被动的数据集合,更是主动的研究工具,其设计旨在瞄准并解决其时代最紧迫的科学与工程挑战。从第二代的“更多数据”到第三代的“更智能的数据和更智能的AI”的转变,是当今该领域最核心的趋势。
第6章 挑战、开放性问题与未来方向
尽管3D感知数据集取得了长足的进步,但领域内仍存在一系列根深蒂固的挑战。本章将探讨这些持续存在的问题,并展望未来数据集的发展轨迹。
6.1 无尽的标注挑战
- 成本与质量: 3D点云的手动标注是一项极其耗时且成本高昂的工作,至今仍是限制数据集规模和发展的首要瓶颈 。更重要的是,确保标注的高质量和一致性是一项巨大挑战。不同标注员之间的理解偏差、复杂场景下的判断困难,都可能引入噪声和错误。因此,建立标准化的标注流程和开发更智能的辅助标注工具,对于提升数据质量至关重要 。
- 模态(Amodal)标注的难度: 精确地标注被遮挡物体的完整3D边界(即模态标注),是提供更高质量真值的关键一步。Argoverse 2在该方向上做出了开创性尝试 ,但这一过程需要聚合多帧信息,技术难度和成本都远高于常规标注,如何大规模、低成本地实现高质量的模态标注,仍是一个开放性问题。
6.2 弥合仿真与现实的鸿沟
- 合成数据的角色: 真实世界的数据采集永远无法穷尽所有安全攸关的、长尾的驾驶场景。因此,高保真度的仿真环境和先进的生成式模型,正成为增强真实数据集、填补数据空白的必要手段 。其核心挑战在于如何最小化仿真数据与真实数据之间的“领域鸿沟”(Domain Gap),确保在合成数据上训练的模型能够有效地泛化到现实世界。未来,那些能够提供成对的真实/仿真数据,或专门用于研究 sim-to-real 泛化问题的数据集将具有极高的价值。
6.3 超越边界框: 迈向整体场景理解
- 更丰富的语义: 未来的感知系统需要理解的远不止是物体的几何边界。数据集需要支持更丰富的语义表示,包括全景分割(同时理解“事物”和“材质”)、功能可供性(Affordance)学习(一个物体可以用来做什么),以及关系理解(物体之间如何交互)。
- 场景图与语言: 近期出现的带有知识图谱(如nSKG )和自然语言标注(如NuScenes-QA )的数据集,标志着一个重要的转变——从让模型识别物体,到让模型以更接近人类的方式去推理场景。这是实现可解释AI(Explainable AI)和更鲁棒决策的关键一步。
6.4 下一代AI对未来数据集的需求
- 地理与环境多样性: 当前绝大多数主流数据集的数据采集地集中在北美和欧洲 。这导致模型可能对其他地区的道路设施、交通文化和驾驶行为存在“偏见”。因此,迫切需要来自更多样化地理位置(如亚洲、发展中国家)的数据 。同时,数据集需要更系统、更全面地覆盖各种对抗性的天气和光照条件,而不仅仅是零星地包含一些雨天或夜晚的场景 。
- 多智能体交互: 未来的自动驾驶系统必须擅长在密集的、社会化的交通环境中导航。这就要求数据集能够提供大量复杂的、多智能体交互的场景。最近发布的MARS数据集在这方面做出了有益的探索,它专门采集了多台自动驾驶车辆在真实道路上相互交互的数据 。
- 面向端到端学习和世界模型的数据: 端到端驾驶模型和世界模型的兴起,对数据提出了新的要求。这些模型直接从原始传感器输入学习到驾驶指令,需要的是海量的、未标注或弱标注的驾驶日志,以及与之相关联的车辆行为和场景结果。Waymo的端到端数据集 和Argoverse 2的大规模无标签LiDAR数据集 是朝这个方向迈出的早期步伐。
展望未来,3D感知数据集的发展正呈现出一种显著的分化趋势,形成了两条并行且互补的技术路线。第一条是**“深度”数据集**路线。这条路线的目标是为有限数量的场景提供极其丰富、密集、多层次的标注,例如,将全景分割、属性、自然语言问答、因果关系等多种信息融合在一起。这类数据集(如NuScenes-QA, nSKG)的创建成本极高,但它们对于训练能够进行复杂逻辑推理、具备深度场景理解能力的强大模型是不可或缺的。这解决了当前监督学习模型在处理角落案例和提供可解释决策方面的局限性。
第二条是**“广度”数据集**路线。受到大语言模型在海量无标签文本上预训练成功的启发,自动驾驶领域也开始探索在海量的、未标注或弱标注的驾驶数据上训练大型“基础模型”或“世界模型”。这条路线催生了对“广度”数据集的需求,例如Argoverse 2的无标签LiDAR部分和Waymo的端到端数据集。这类数据集的采集成本相对较低(无需精细的人工标注),它们对于发展自监督学习和端到端学习范式至关重要,旨在让模型从海量数据中自主学习世界的通用模式和动态规律。
这两条路线并非相互矛盾,而是相辅相成。未来的顶尖自动驾驶系统,很可能需要将在“广度”数据集上预训练过的基础模型,再到“深度”数据集上进行微调,以学习特定的、高级的推理任务。可以预见,“深度”数据集负责教会模型“看懂什么以及如何思考”,而“广度”数据集则负责教会模型“世界的普遍规律是怎样的”。这种双轨并行的发展,将是下一代数据采集和模型训练的核心战略方向。
引用的文献
1. Deep Learning for 3D Point Cloud Enhancement: A Survey - arXiv, https://arxiv.org/html/2411.00857v1 2. Top 27 Leading 3D Point Cloud Datasets for Autonomous Driving and Perception - iMerit, https://imerit.net/resources/blog/top-27-leading-3d-point-cloud-datasets-for-autonomous-driving-and-perception/ 3. A Survey of Deep Learning-Driven 3D Object Detection: Sensor Modalities, Technical Architectures, and Applications - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12196975/ 4. LiDAR-Net: A Real-scanned 3D Point Cloud Dataset for Indoor Scenes - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2024/papers/Guo_LiDAR-Net_A_Real-scanned_3D_Point_Cloud_Dataset_for_Indoor_Scenes_CVPR_2024_paper.pdf 5. TianhaoFu/Awesome-3D-Object-Detection: Papers, code and datasets about deep learning for 3D Object Detection. - GitHub, https://github.com/TianhaoFu/Awesome-3D-Object-Detection 6. 3D Object Detection | Papers With Code, https://paperswithcode.com/task/3d-object-detection 7. A Systematic Survey of Transformer-Based 3D Object Detection for Autonomous Driving: Methods, Challenges and Trends - MDPI, https://www.mdpi.com/2504-446X/8/8/412 8. Graph Neural Networks in Point Clouds: A Survey - MDPI, https://www.mdpi.com/2072-4292/16/14/2518 9. The KITTI Vision Benchmark Suite - Andreas Geiger, https://www.cvlibs.net/datasets/kitti/ 10. SemanticKITTI - A Dataset for LiDAR-based Semantic Scene Understanding, https://semantic-kitti.org/ 11. Moving Object Segmentation - SemanticKITTI - A Dataset for LiDAR-based Semantic Scene Understanding, https://semantic-kitti.org/tasks.html 12. nuScenes, https://www.nuscenes.org/ 13. About – Waymo Open Dataset, https://waymo.com/open/about/ 14. Argoverse, https://www.argoverse.org/ 15. Free LiDAR point cloud for self-driving cars - 3D Geodata Academy, https://learngeodata.eu/lidar-point-cloud-for-self-driving-cars/ 16. Pandaset by Hesai and Scale, https://www.pandaset.org/ 17. ScanNet is an RGB-D video dataset containing 2.5 million views in more than 1500 scans, annotated with 3D camera poses, surface reconstructions, and instance-level semantic segmentations., http://www.scan-net.org/ScanNet/ 18. A survey on semantic segmentation in 3D point cloud scenes - 中国图象图形学报, https://www.cjig.cn/en/article/doi/10.11834/jig.240650/ 19. InLUT3D: Challenging real indoor dataset for point cloud analysis - arXiv, https://arxiv.org/html/2408.03338v1 20. 30 Curated 3D LiDAR Point Cloud Datasets Across Multiple Industries | BasicAI's Blog, https://www.basic.ai/blog-post/30-3d-lidar-point-cloud-datasets-across-multiple-industries 21. 5 Best LiDAR Datasets to Learn & Process Point Clouds Data - Think Autonomous, https://www.thinkautonomous.ai/blog/lidar-datasets/ 22. ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes, http://www.scan-net.org/ 23. Anti-Noise 3D Object Detection of Multimodal Feature Attention Fusion Based on PV-RCNN, https://pmc.ncbi.nlm.nih.gov/articles/PMC9823336/ 24. Argoverse 2, https://www.argoverse.org/av2.html 25. Argoverse 1, https://www.argoverse.org/av1.html 26. nuScenes: A multimodal dataset for autonomous driving - ResearchGate, https://www.researchgate.net/publication/332011352_nuScenes_A_multimodal_dataset_for_autonomous_driving 27. [2312.09676] nuScenes Knowledge Graph -- A comprehensive semantic representation of traffic scenes for trajectory prediction - arXiv, https://arxiv.org/abs/2312.09676 28. 3D Tracking and Forecasting with Rich Maps - Argoverse, https://www.argoverse.org/argoverse_paper.pdf 29. arxiv.org, https://arxiv.org/html/2401.12888v2 30. Best object detection datasets in 2024 - Picsellia, https://www.picsellia.com/post/object-detection-datasets 31. nutonomy/nuscenes-devkit: The devkit of the nuScenes ... - GitHub, https://github.com/nutonomy/nuscenes-devkit 32. Scalability in Perception for Autonomous Driving: Waymo Open ..., https://arxiv.org/abs/1912.04838 33. Download – Waymo Open Dataset, https://waymo.com/open/download 34. PandaSet Terms of Use - Scale AI, https://scale.com/legal/pandaset-terms-of-use 35. PandaSet Dataset - Papers With Code, https://paperswithcode.com/dataset/pandaset 36. [2112.12610] PandaSet: Advanced Sensor Suite Dataset for Autonomous Driving - ar5iv, https://ar5iv.labs.arxiv.org/html/2112.12610 37. PandaSet Open Datasets - Scale AI, https://scale.com/open-av-datasets/pandaset 38. georghess/pandaset · Datasets at Hugging Face, https://huggingface.co/datasets/georghess/pandaset 39. PandaSet Dataset - Kaggle, https://www.kaggle.com/datasets/usharengaraju/pandaset-dataset 40. SemanticKITTI - A Dataset for LiDAR-based Semantic Scene ..., http://semantic-kitti.org/dataset.html 41. Datasets on automated driving (2021), https://www.connectedautomateddriving.eu/data-sharing/topics-in-data-sharing/datasets-on-automated-driving-2021/ 42. ScanNet/ScanNet - GitHub, https://github.com/ScanNet/ScanNet 43. hero9968/ScanNet - GitHub, https://github.com/hero9968/ScanNet 44. Language-Grounded Indoor 3D Semantic Segmentation in the Wild - arXiv, https://arxiv.org/pdf/2204.07761 45. ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2023/papers/Yeshwanth_ScanNet_A_High-Fidelity_Dataset_of_3D_Indoor_Scenes_ICCV_2023_paper.pdf 46. [2308.11417] ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes - arXiv, https://arxiv.org/abs/2308.11417 47. ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes | Papers With Code, https://paperswithcode.com/paper/scannet-a-high-fidelity-dataset-of-3d-indoor 48. [2409.04234] UniDet3D: Multi-dataset Indoor 3D Object Detection - arXiv, https://arxiv.org/abs/2409.04234 49. LincanLi98/Awesome-Data-Centric-Autonomous-Driving - GitHub, https://github.com/LincanLi98/Awesome-Data-Centric-Autonomous-Driving 50. [2401.01454] A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook - arXiv, https://arxiv.org/abs/2401.01454 51. [2305.14836] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario - arXiv, https://arxiv.org/abs/2305.14836 52. [2504.03164] NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving - arXiv, https://arxiv.org/abs/2504.03164 53. [2204.00106] A Survey of Robust 3D Object Detection Methods in Point Clouds - arXiv, https://arxiv.org/abs/2204.00106 54. Autonomous Vehicle Dataset with Real Multi-Driver Scenes and Biometric Data - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC9966019/ 55. New dataset kicks autonomous vehicle research into high gear, https://engineering.nyu.edu/news/new-dataset-kicks-autonomous-vehicle-research-high-gear