Tóm tắt và 1 Giới thiệu
Các Công trình Liên quan
2.1. Điều hướng Thị giác và Ngôn ngữ
2.2. Hiểu Ngữ cảnh Ngữ nghĩa và Phân đoạn Thể hiện
2.3. Tái tạo Cảnh 3D
Phương pháp
3.1. Thu thập Dữ liệu
3.2. Thông tin Ngữ nghĩa Mở từ Hình ảnh
3.3. Tạo Biểu diễn 3D Mở
3.4. Điều hướng Dựa trên Ngôn ngữ
Thí nghiệm
4.1. Đánh giá Định lượng
4.2. Kết quả Định tính
Kết luận và Công việc Tương lai, Tuyên bố công khai, và Tài liệu tham khảo
Để hoàn thành việc xây dựng O3D-SIM, chúng tôi xây dựng dựa trên các nhúng đặc trưng được trích xuất cho mỗi đối tượng bằng cách chiếu thông tin đối tượng vào không gian 3D, phân cụm và liên kết các đối tượng qua nhiều hình ảnh để tạo ra biểu diễn cảnh 3D toàn diện. Quá trình chiếu thông tin ngữ nghĩa vào không gian 3D và tinh chỉnh bản đồ được minh họa trong Hình 3.
\ 3.3.1. Khởi tạo O3D-SIM
\ Bản đồ 3D ban đầu được tạo ra bằng cách sử dụng một hình ảnh đã chọn, đóng vai trò là khung tham chiếu để khởi tạo biểu diễn cảnh của chúng tôi. Bước này thiết lập cấu trúc nền tảng của cảnh 3D, sau đó được bổ sung dần dần với dữ liệu từ các hình ảnh tiếp theo để làm phong phú thêm độ phức tạp và chi tiết của cảnh.
\ Dữ liệu cho các đối tượng trong cảnh 3D được tổ chức dưới dạng các nút trong một từ điển, ban đầu bắt đầu là trống. Các đối tượng sau đó được xác định từ hình ảnh ban đầu cùng với dữ liệu liên quan bao gồm các đặc trưng nhúng và thông tin về mặt nạ của chúng. Đối với mỗi đối tượng được phân biệt trong hình ảnh, một đám mây điểm 3D được tạo ra bằng cách sử dụng thông tin độ sâu có sẵn và mặt nạ của đối tượng. Việc hình thành đám mây điểm này liên quan đến việc ánh xạ các pixel 2D vào không gian 3D, được hỗ trợ bởi các tham số nội tại của camera và giá trị độ sâu. Sau đó, tư thế camera được sử dụng để căn chỉnh đám mây điểm một cách chính xác trong hệ tọa độ toàn cục. Để tinh chỉnh biểu diễn cảnh của chúng tôi, việc lọc nền loại bỏ các yếu tố được xác định là nền, chẳng hạn như tường hoặc sàn nhà. Các yếu tố này bị loại trừ khỏi quá trình xử lý tiếp theo, đặc biệt là trong giai đoạn phân cụm, vì chúng không cấu thành trọng tâm chính của biểu diễn cảnh của chúng tôi.
\ Tập hợp các đám mây điểm của đối tượng được xử lý thêm bằng cách sử dụng phân cụm DBSCAN[34] để tinh chỉnh biểu diễn. Đám mây điểm được giảm mẫu thông qua lọc lưới voxel để giảm số lượng điểm và độ phức tạp tính toán trong khi vẫn duy trì cấu trúc không gian dữ liệu có thể quản lý được. DBSCAN nhóm các điểm được đóng gói chặt chẽ với nhau trong khi gắn nhãn các điểm nằm riêng lẻ trong các vùng mật độ thấp là nhiễu. Trong bước hậu phân cụm, cụm lớn nhất thường tương ứng với đối tượng chính quan tâm trong đám mây điểm được xác định. Điều này giúp lọc ra nhiễu và các điểm không liên quan, tạo ra biểu diễn sạch hơn của đối tượng quan tâm.
\ Tư thế của một đối tượng trong không gian 3D được xác định bằng cách tính toán hướng của một hộp giới hạn, cung cấp biểu diễn không gian ngắn gọn về vị trí và kích thước của đối tượng trong không gian 3D. Sau đó, đầu ra bản đồ 3D được khởi tạo với một tập hợp các nút ban đầu, bao gồm các nhúng đặc trưng, dữ liệu đám mây điểm, hộp giới hạn và số lượng điểm trong đám mây điểm liên kết với mỗi nút. Mỗi nút cũng bao gồm thông tin nguồn để tạo điều kiện thuận lợi cho việc truy xuất nguồn gốc dữ liệu và liên kết giữa các nút và các đối tượng hình ảnh 2D tương ứng.
\ 3.3.2. Cập nhật Tăng dần của O3D-SIM
\ Sau khi khởi tạo cảnh, chúng tôi cập nhật biểu diễn với dữ liệu từ các hình ảnh mới. Quá trình này đảm bảo cảnh 3D của chúng tôi luôn cập nhật và chính xác khi có thêm thông tin. Nó lặp lại qua từng hình ảnh trong chuỗi hình ảnh; đối với mỗi hình ảnh mới, dữ liệu đa đối tượng được trích xuất và cảnh được cập nhật.
\ Các đối tượng được phát hiện cho mỗi hình ảnh mới, và các nút mới được tạo giống như hình ảnh ban đầu. Các nút tạm thời này chứa dữ liệu 3D cho các đối tượng mới được phát hiện phải được hợp nhất vào cảnh hiện có hoặc được thêm vào như các nút mới. Sự tương đồng giữa các nút cảnh mới được phát hiện và hiện có được xác định bằng cách kết hợp sự tương đồng về hình ảnh, có được từ các nhúng đặc trưng, và sự tương đồng không gian (hình học), có được từ sự chồng lấp của đám mây điểm, để xây dựng một thước đo tương đồng tổng hợp. Nếu thước đo này vượt quá ngưỡng đã định trước, việc phát hiện mới được coi là tương ứng với một đối tượng hiện có trong cảnh. Thật vậy, nút mới được phát hiện hoặc được hợp nhất với một nút cảnh hiện có hoặc được thêm vào như một nút mới.
\ Việc hợp nhất liên quan đến việc tích hợp các đám mây điểm và lấy trung bình các nhúng đặc trưng. Một trung bình có trọng số của các nhúng CLIP và DINO được tính toán, xem xét đóng góp từ thông tin khóa nguồn, với sự ưu tiên cho các nút có nhiều định danh nguồn hơn. Nếu một nút mới cần được thêm vào, nó được kết hợp vào từ điển cảnh.
\ Việc tinh chỉnh cảnh xảy ra sau khi các đối tượng từ tất cả các hình ảnh trong chuỗi đầu vào đã được thêm vào. Quá trình này hợp nhất các nút đại diện cho cùng một đối tượng vật lý nhưng ban đầu được xác định là riêng biệt do bị che khuất, thay đổi góc nhìn hoặc các yếu tố tương tự. Nó sử dụng ma trận chồng lấp để xác định các nút chia sẻ không gian chiếm dụng và hợp nhất chúng một cách hợp lý thành một nút duy nhất. Cảnh được hoàn thiện bằng cách loại bỏ các nút không đáp ứng số lượng điểm tối thiểu hoặc tiêu chí phát hiện. Điều này dẫn đến một biểu diễn cảnh cuối cùng được tinh chỉnh và tối ưu hóa - Bản đồ Thể hiện Ngữ nghĩa 3D Mở, còn gọi là O3D-SIM.
\
:::info Tác giả:
(1) Laksh Nanwani, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp ngang bằng cho công trình này;
(2) Kumaraditya Gupta, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;
(3) Aditya Mathur, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp ngang bằng cho công trình này;
(4) Swayam Agrawal, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;
(5) A.H. Abdul Hafez, Đại học Hasan Kalyoncu, Sahinbey, Gaziantep, Thổ Nhĩ Kỳ;
(6) K. Madhava Krishna, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ.
:::
:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by-SA 4.0 Deed (Ghi nhận-Chia sẻ tương tự 4.0 Quốc tế).
:::
\


