摘要和1 引言
相关工作
2.1. 视觉与语言导航
2.2. 语义场景理解和实例分割
2.3. 3D场景重建
方法论
3.1. 数据收集
3.2. 从图像中获取开放集语义信息
3.3. 创建开放集3D表示
3.4. 语言引导导航
实验
4.1. 定量评估
4.2. 定性结果
结论和未来工作、披露声明及参考文献
在本节中,我们讨论采用O3D-SIM的视觉语言导航(VLN)方法的流程。我们首先概述我们提出的流程,然后对其组成步骤进行深入分析。我们方法论的初始阶段涉及数据收集,包括一组RGB-D图像以及外部和内部相机参数,这些将首先被概述。随后,我们转向创建开放集3D语义实例地图。此过程分为两个主要阶段:首先,我们从图像中提取开放集语义实例信息;接着,我们利用收集到的开放集信息将3D点云组织成开放集3D语义实例地图。我们讨论的最后部分聚焦于VLN模块,我们讨论其实现和功能。
\ O3D-SIM创建的流程如图2所示。创建O3D-SIM的第一步,在3.2节中介绍,是从输入图像的RGB序列中提取开放集语义实例信息。这些信息包括,对于每个对象实例,掩码信息和由CLIP [9]和DINO [10]嵌入特征表示的语义特征。第二步,在3.3节中介绍,使用这些开放集语义实例信息将输入的3D点云聚类成开放集语义3D对象地图,参见图2和图3。通过随时间应用RGB-D图像序列,该操作得到增量改进。
\
:::info 作者:
(1) Laksh Nanwani,海德拉巴国际信息技术学院,印度;该作者对本工作贡献相同;
(2) Kumaraditya Gupta,海德拉巴国际信息技术学院,印度;
(3) Aditya Mathur,海德拉巴国际信息技术学院,印度;该作者对本工作贡献相同;
(4) Swayam Agrawal,海德拉巴国际信息技术学院,印度;
(5) A.H. Abdul Hafez,哈桑卡利永库大学,沙欣贝伊,加济安泰普,土耳其;
(6) K. Madhava Krishna,海德拉巴国际信息技术学院,印度。
:::
:::info 本论文可在arxiv上获取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可协议。
:::
\


