Tóm tắt và 1 Giới thiệu
Các công trình liên quan
2.1. Điều hướng bằng Thị giác và Ngôn ngữ
2.2. Hiểu cảnh ngữ nghĩa và Phân đoạn thể hiện
2.3. Tái tạo cảnh 3D
Phương pháp
3.1. Thu thập dữ liệu
3.2. Thông tin ngữ nghĩa tập mở từ hình ảnh
3.3. Tạo biểu diễn 3D tập mở
3.4. Điều hướng dựa trên ngôn ngữ
Thí nghiệm
4.1. Đánh giá định lượng
4.2. Kết quả định tính
Kết luận và Công việc tương lai, Tuyên bố công khai, và Tài liệu tham khảo
Trong phần này, chúng tôi thảo luận về quy trình của phương pháp Điều hướng bằng Thị giác và Ngôn ngữ (VLN) của chúng tôi, sử dụng O3D-SIM. Chúng tôi bắt đầu với tổng quan về quy trình đề xuất và sau đó trình bày phân tích sâu về các bước cấu thành của nó. Giai đoạn đầu tiên của phương pháp của chúng tôi liên quan đến việc thu thập dữ liệu, bao gồm một tập hợp các hình ảnh RGB-D và các tham số camera nội tại và ngoại tại, được phác thảo đầu tiên. Tiếp theo, chúng tôi chuyển sang việc tạo Bản đồ Thể hiện Ngữ nghĩa 3D Tập mở. Quá trình này được chia thành hai giai đoạn chính: ban đầu, chúng tôi trích xuất thông tin thể hiện ngữ nghĩa tập mở từ hình ảnh; sau đó, chúng tôi sử dụng thông tin tập mở thu thập được để tổ chức đám mây điểm 3D thành bản đồ thể hiện ngữ nghĩa 3D tập mở. Phần cuối cùng của cuộc thảo luận của chúng tôi tập trung vào mô-đun VLN, nơi chúng tôi nói về việc triển khai và chức năng của nó.
\ Quy trình tạo O3D-SIM được minh họa trong Hình 2. Bước đầu tiên của việc tạo O3D-SIM, được trình bày trong Phần 3.2, là việc trích xuất thông tin thể hiện ngữ nghĩa tập mở từ chuỗi RGB của hình ảnh đầu vào. Thông tin này bao gồm, đối với mỗi thể hiện đối tượng, thông tin mặt nạ và các đặc trưng ngữ nghĩa được biểu diễn bởi các đặc trưng nhúng CLIP [9] và DINO [10]. Bước thứ hai, được trình bày trong Phần 3.3, sử dụng thông tin thể hiện ngữ nghĩa tập mở này để phân cụm đám mây điểm 3D đầu vào thành bản đồ đối tượng ngữ nghĩa 3D tập mở, xem Hình 2 và 3. Hoạt động được cải thiện dần dần bằng cách áp dụng chuỗi hình ảnh RGB-D theo thời gian.
\
:::info Tác giả:
(1) Laksh Nanwani, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;
(2) Kumaraditya Gupta, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;
(3) Aditya Mathur, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;
(4) Swayam Agrawal, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;
(5) A.H. Abdul Hafez, Đại học Hasan Kalyoncu, Sahinbey, Gaziantep, Thổ Nhĩ Kỳ;
(6) K. Madhava Krishna, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ.
:::
:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


