Sàn giao dịchDEX+

Mua Crypto Thị trường Spot Futures500X Tiết kiệm Sự kiện

Xem thêm

Giveaway vàng & BTC2000g

Chi tiết về quy trình O3D-SIM cho VLN. Nó trích xuất thông tin ngữ nghĩa thể hiện mở (mặt nạ, tính năng CLIP/DINO) từ hình ảnh RGB-DChi tiết về quy trình O3D-SIM cho VLN. Nó trích xuất thông tin ngữ nghĩa thể hiện mở (mặt nạ, tính năng CLIP/DINO) từ hình ảnh RGB-D

Trích xuất ngữ nghĩa thực thể: Tính năng CLIP và DINO cho lập bản đồ 3D

Bởi: Hackernoon

2025/12/11 03:00

Chia sẻ

OPEN$0.18927-3.90%

D$0.01375-2.41%

Bảng liên kết

Tóm tắt và 1 Giới thiệu

Các công trình liên quan

2.1. Điều hướng bằng Thị giác và Ngôn ngữ

2.2. Hiểu cảnh ngữ nghĩa và Phân đoạn thể hiện

2.3. Tái tạo cảnh 3D
Phương pháp

3.1. Thu thập dữ liệu

3.2. Thông tin ngữ nghĩa tập mở từ hình ảnh

3.3. Tạo biểu diễn 3D tập mở

3.4. Điều hướng dựa trên ngôn ngữ
Thí nghiệm

4.1. Đánh giá định lượng

4.2. Kết quả định tính
Kết luận và Công việc tương lai, Tuyên bố công khai, và Tài liệu tham khảo

3. Phương pháp

Trong phần này, chúng tôi thảo luận về quy trình của phương pháp Điều hướng bằng Thị giác và Ngôn ngữ (VLN) của chúng tôi, sử dụng O3D-SIM. Chúng tôi bắt đầu với tổng quan về quy trình đề xuất và sau đó trình bày phân tích sâu về các bước cấu thành của nó. Giai đoạn đầu tiên của phương pháp của chúng tôi liên quan đến việc thu thập dữ liệu, bao gồm một tập hợp các hình ảnh RGB-D và các tham số camera nội tại và ngoại tại, được phác thảo đầu tiên. Tiếp theo, chúng tôi chuyển sang việc tạo Bản đồ Thể hiện Ngữ nghĩa 3D Tập mở. Quá trình này được chia thành hai giai đoạn chính: ban đầu, chúng tôi trích xuất thông tin thể hiện ngữ nghĩa tập mở từ hình ảnh; sau đó, chúng tôi sử dụng thông tin tập mở thu thập được để tổ chức đám mây điểm 3D thành bản đồ thể hiện ngữ nghĩa 3D tập mở. Phần cuối cùng của cuộc thảo luận của chúng tôi tập trung vào mô-đun VLN, nơi chúng tôi nói về việc triển khai và chức năng của nó.

\ Quy trình tạo O3D-SIM được minh họa trong Hình 2. Bước đầu tiên của việc tạo O3D-SIM, được trình bày trong Phần 3.2, là việc trích xuất thông tin thể hiện ngữ nghĩa tập mở từ chuỗi RGB của hình ảnh đầu vào. Thông tin này bao gồm, đối với mỗi thể hiện đối tượng, thông tin mặt nạ và các đặc trưng ngữ nghĩa được biểu diễn bởi các đặc trưng nhúng CLIP [9] và DINO [10]. Bước thứ hai, được trình bày trong Phần 3.3, sử dụng thông tin thể hiện ngữ nghĩa tập mở này để phân cụm đám mây điểm 3D đầu vào thành bản đồ đối tượng ngữ nghĩa 3D tập mở, xem Hình 2 và 3. Hoạt động được cải thiện dần dần bằng cách áp dụng chuỗi hình ảnh RGB-D theo thời gian.

:::info Tác giả:

(1) Laksh Nanwani, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;

(2) Kumaraditya Gupta, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;

(3) Aditya Mathur, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;

(4) Swayam Agrawal, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;

(5) A.H. Abdul Hafez, Đại học Hasan Kalyoncu, Sahinbey, Gaziantep, Thổ Nhĩ Kỳ;

(6) K. Madhava Krishna, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ.

:::

:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

Cơ hội thị trường

Giá OpenLedger(OPEN)

$0.18927

$0.18927$0.18927

-3.73%

USD

Biểu đồ giá OpenLedger (OPEN) theo thời gian thực

Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.