来源:3D视觉工坊
添加小助理:dddvision,备注:SLAM,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
一句话总结:提出了SGS-SLAM,第一个基于3D GS的稠密语义视觉SLAM,在提供精确的3D语义分割的同时,还能产生高保真的重建。SGS - SLAM是第一个在单一框架下实现同时定位、重建和分割的基于高斯的SLAM系统。
稠密SLAM可以在未知环境中重建稠密3D地图,这两年大家都是用NeRF来做。但是MLP 在物体边缘处存在过度平滑的问题,导致地图中缺乏细粒度的细节,而且MLP在大场景容易发生灾难性遗忘。
这篇文章将语义地图集成到三维高斯场中,允许在颜色、深度和语义颜色渲染之间实时切换。SGS-SLAM在渲染速度、场景精度和分割精度方面表现出显著优势,可以对特定场景元素进行精确编辑和操作,同时保持了整体渲染的高保真度。
下面一起来阅读一下这项工作~
1. 论文信息
标题:SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM
作者:Mingrui Li, Shuhong Liu, Heng Zhou, Guohao Zhu, Na Cheng, Hongyu Wang
机构:大连理工大学、东京大学、哥伦比亚大学
原文链接:https://arxiv.org/abs/2402.03246
2. 摘要
语义理解在稠密同时定位与地图构建(SLAM)中发挥着至关重要的作用,有助于全面解释场景。将高斯飞溅技术整合到SLAM系统中的最新进展已经证明了它通过使用明确的3D高斯表示生成高质量渲染的有效性。在此进展基础上,我们提出了SGS-SLAM,这是第一个基于3D高斯的语义密集视觉SLAM系统,它在提供精确的3D语义分割的同时,还能产生高保真的重建。具体而言,我们建议在建图过程中采用多通道优化,将外观、几何和语义约束与关键帧优化相结合,以提高重建质量。大量实验表明,SGS-SLAM在相机位姿估计、地图重建和语义分割方面表现出了最先进的性能,优于现有方法,同时保持了实时渲染能力。
3. 效果展示
SGS - SLAM采用包含外观、几何和语义信息的多通道2D输入,利用高斯抛雪球和可微渲染进行联合参数优化。SGS - SLAM提供了精确的三维语义地图和高保真的地图重建。
Replica数据集room0场景操作,通过指定语义标签来显示对象移除和转换的能力。SGS - SLAM允许对单个物体或一组物品进行操作,包括移除一个桌子,以及将桌子连同所有物体一起移动和旋转。
从ScanNet数据集中选取新视角评价场景。渲染后的视图显示了在轨迹中捕获的重建自行车和吉他。SGS - SLAM在很大程度上优于SplaTAM,这主要是由于关键帧优化的集成。
4. 主要贡献
(1)引入了 SGS-SLAM,一种利用三维高斯的稠密语义 SLAM 系统。SGS-SLAM 使用显式体积表示,实现了快速和实时的摄像机跟踪和场景建图。更重要的是,它利用二维语义地图来学习高斯表达的三维语义表示。与先前基于 NeRF 的方法相比,后者在物体边缘过度平滑时,SGS-SLAM 提供了与真值水平相似的分割精度。
(2)在 SGS-SLAM 中,语义地图为优化参数和选择关键帧提供了额外的监督。采用多通道参数优化策略,其中外观、几何和语义信号共同输入到摄像机跟踪和场景重建中。此外,SGS-SLAM 在跟踪阶段利用这些不同的通道进行关键帧选择,集中于主动识别先前在轨迹中观察到的对象。这种方法基于选择的关键帧实现了基于地图的高效和高质量的重建。
(3)利用语义表示,SGS-SLAM 在三维场景中提供了高度准确的解缠物体表示,为场景编辑和操作等下游任务奠定了坚实基础。SGS-SLAM 通过识别物体的语义标签来实现地图中对象的动态移动、旋转或移除。同时确保场景的其余部分保持不变和稳定。
(4)在合成和真实场景基准上进行了广泛的实验。这些实验将SGS-SLAM与基于 NeRF 的隐式方法和新型基于三维高斯的方法进行了比较,并评估了在建图、跟踪和语义分割方面的性能。
5. 实验结果
Replica数据集上定性地比较SGS-SLAM与基准方法在3个场景下的重建结果, 使用彩色方框突出关键细节。结果表明,SGS-SLAM提供了更高的保真度和鲁棒性的重建,特别是通过捕获场景中物体的更详细的特征。
Replica数据集上重建质量的定量对比。 与其他基线方法相比,SGS-SLAM取得了显著的结果,在PSNR上比它们高出10dB。
Replica数据集上的跟踪结果。 SGS-SLAM在实现最高水平的深度L1损失( cm )和最小的ATE误差方面表现优异,在深度损失方面超过基线方法70 %,在ATE RMSE ( cm )方面超过基线方法34 %。这种出色的性能归因于精确的场景重建,它提供了精细详细的渲染结果。反过来,高质量的渲染有助于根据建立的地图进行准确的相机位姿估计,防止错误的几何重建,否则可能导致不准确的跟踪结果。此外,利用来自高斯不同通道的特征,如几何、外观和语义信息,提供了多个层次的监督,从而提高了跟踪性能。
SGS-SLAM与其他神经语义SLAM方法相比的定量评估。 SGS - SLAM表现出最先进的性能,超过初始基线10 %以上。基于NeRF的方法难以识别单个物体,并且需要复杂的多层次模型设计和广泛的特征融合。
7. 总结 & 未来工作
这篇文章提出了第一个基于3D高斯表示的语义稠密视觉SLAM系统SGS - SLAM。作者提出利用多通道参数优化,将外观、几何和语义约束结合起来,以实现高精度的三维语义分割和高保真的稠密地图重建,同时有效地产生鲁棒的相机姿态估计。SGS - SLAM具有最优关键帧优化的优点,重建质量可靠。大量的实验表明,SGS - SLAM提供了最先进的跟踪和建图结果,同时保持了快速的渲染速度。此外,该系统生成的高质量场景重建和精确的三维语义标注为场景编辑等下游任务奠定了坚实的基础,为机器人或AR / VR应用提供了坚实的先验。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
下载
在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:
[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
[无人机]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
大家可以添加小助理:dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。