Chi tiết về quy trình O3D-SIM cho VLN. Nó trích xuất thông tin ngữ nghĩa thể hiện mở (mặt nạ, tính năng CLIP/DINO) từ hình ảnh RGB-DChi tiết về quy trình O3D-SIM cho VLN. Nó trích xuất thông tin ngữ nghĩa thể hiện mở (mặt nạ, tính năng CLIP/DINO) từ hình ảnh RGB-D

Trích xuất ngữ nghĩa thực thể: Tính năng CLIP và DINO cho lập bản đồ 3D

2025/12/11 03:00

Tóm tắt và 1 Giới thiệu

  1. Các công trình liên quan

    2.1. Điều hướng bằng Thị giác và Ngôn ngữ

    2.2. Hiểu cảnh ngữ nghĩa và Phân đoạn thể hiện

    2.3. Tái tạo cảnh 3D

  2. Phương pháp

    3.1. Thu thập dữ liệu

    3.2. Thông tin ngữ nghĩa tập mở từ hình ảnh

    3.3. Tạo biểu diễn 3D tập mở

    3.4. Điều hướng dựa trên ngôn ngữ

  3. Thí nghiệm

    4.1. Đánh giá định lượng

    4.2. Kết quả định tính

  4. Kết luận và Công việc tương lai, Tuyên bố công khai, và Tài liệu tham khảo

3. Phương pháp

Trong phần này, chúng tôi thảo luận về quy trình của phương pháp Điều hướng bằng Thị giác và Ngôn ngữ (VLN) của chúng tôi, sử dụng O3D-SIM. Chúng tôi bắt đầu với tổng quan về quy trình đề xuất và sau đó trình bày phân tích sâu về các bước cấu thành của nó. Giai đoạn đầu tiên của phương pháp của chúng tôi liên quan đến việc thu thập dữ liệu, bao gồm một tập hợp các hình ảnh RGB-D và các tham số camera nội tại và ngoại tại, được phác thảo đầu tiên. Tiếp theo, chúng tôi chuyển sang việc tạo Bản đồ Thể hiện Ngữ nghĩa 3D Tập mở. Quá trình này được chia thành hai giai đoạn chính: ban đầu, chúng tôi trích xuất thông tin thể hiện ngữ nghĩa tập mở từ hình ảnh; sau đó, chúng tôi sử dụng thông tin tập mở thu thập được để tổ chức đám mây điểm 3D thành bản đồ thể hiện ngữ nghĩa 3D tập mở. Phần cuối cùng của cuộc thảo luận của chúng tôi tập trung vào mô-đun VLN, nơi chúng tôi nói về việc triển khai và chức năng của nó.

\ Quy trình tạo O3D-SIM được minh họa trong Hình 2. Bước đầu tiên của việc tạo O3D-SIM, được trình bày trong Phần 3.2, là việc trích xuất thông tin thể hiện ngữ nghĩa tập mở từ chuỗi RGB của hình ảnh đầu vào. Thông tin này bao gồm, đối với mỗi thể hiện đối tượng, thông tin mặt nạ và các đặc trưng ngữ nghĩa được biểu diễn bởi các đặc trưng nhúng CLIP [9] và DINO [10]. Bước thứ hai, được trình bày trong Phần 3.3, sử dụng thông tin thể hiện ngữ nghĩa tập mở này để phân cụm đám mây điểm 3D đầu vào thành bản đồ đối tượng ngữ nghĩa 3D tập mở, xem Hình 2 và 3. Hoạt động được cải thiện dần dần bằng cách áp dụng chuỗi hình ảnh RGB-D theo thời gian.

\

:::info Tác giả:

(1) Laksh Nanwani, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;

(2) Kumaraditya Gupta, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;

(3) Aditya Mathur, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ; tác giả này đóng góp bình đẳng cho công trình này;

(4) Swayam Agrawal, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ;

(5) A.H. Abdul Hafez, Đại học Hasan Kalyoncu, Sahinbey, Gaziantep, Thổ Nhĩ Kỳ;

(6) K. Madhava Krishna, Viện Công nghệ Thông tin Quốc tế, Hyderabad, Ấn Độ.

:::


:::info Bài báo này có sẵn trên arxiv theo giấy phép CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Cơ hội thị trường
Logo OpenLedger
Giá OpenLedger(OPEN)
$0.18927
$0.18927$0.18927
-3.73%
USD
Biểu đồ giá OpenLedger (OPEN) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

Có thể bạn cũng thích

Các nhà đầu tư Bearish đổ xô đi phòng ngừa rủi ro nợ từ trí tuệ nhân tạo

Các nhà đầu tư Bearish đổ xô đi phòng ngừa rủi ro nợ từ trí tuệ nhân tạo

Giao dịch CDS cho các công ty công nghệ Hoa Kỳ đã tăng 90% kể từ tháng 9, khi các nhà đầu tư phòng hộ trước rủi ro nợ liên quan đến AI.
Chia sẻ
Cryptopolitan2025/12/15 18:24
Vitalik Buterin: "Bằng chứng ZK cho mọi quyết định được thực hiện bởi thuật toán" để đảm bảo tính minh bạch

Vitalik Buterin: "Bằng chứng ZK cho mọi quyết định được thực hiện bởi thuật toán" để đảm bảo tính minh bạch

Đồng sáng lập Ethereum Vitalik Buterin đã ủng hộ việc sử dụng Bằng chứng Zero-knowledge (ZK) để xác minh mọi quyết định được đưa ra bởi các thuật toán, nhấn mạnh tầm quan trọng của dấu thời gian on-chain và việc trì hoãn phát hành mã nguồn để đảm bảo tính minh bạch. Trong một bài đăng gần đây trên X (trước đây là Twitter), Buterin đã phác thảo những biện pháp này nhằm tăng cường niềm tin vào hệ thống AI và blockchain, giải quyết những lo ngại ngày càng tăng về việc ra quyết định thiếu minh bạch trong lĩnh vực công nghệ.
Chia sẻ
MEXC NEWS2025/12/15 20:56
Chiến lược của Michael Saylor $MSTR để duy trì trong chỉ số Nasdaq 100

Chiến lược của Michael Saylor $MSTR để duy trì trong chỉ số Nasdaq 100

Strategy (MSTR), được dẫn dắt bởi người ủng hộ Bitcoin Michael Saylor, sẽ tiếp tục được giữ trong chỉ số danh giá Nasdaq 100, bác bỏ những đồn đoán trước đó về việc bị loại bỏ. Quyết định này nhấn mạnh ảnh hưởng ngày càng tăng của công ty với tư cách là một kho bạc Bitcoin và hiệu suất thị trường mạnh mẽ của họ, có khả năng thúc đẩy niềm tin của nhà đầu tư vào các cổ phiếu liên quan đến tiền mã hoá.
Chia sẻ
MEXC NEWS2025/12/15 21:00