Menjelaskan pipeline O3D-SIM untuk VLN. Ini mengekstrak informasi instans semantik open-set (mask, fitur CLIP/DINO) dari gambar RGB-DMenjelaskan pipeline O3D-SIM untuk VLN. Ini mengekstrak informasi instans semantik open-set (mask, fitur CLIP/DINO) dari gambar RGB-D

Ekstraksi Instans Semantik: Fitur CLIP dan DINO untuk Pemetaan 3D

2025/12/11 03:00

Abstrak dan 1 Pendahuluan

  1. Karya Terkait

    2.1. Navigasi Visi-dan-Bahasa

    2.2. Pemahaman Adegan Semantik dan Segmentasi Instance

    2.3. Rekonstruksi Adegan 3D

  2. Metodologi

    3.1. Pengumpulan Data

    3.2. Informasi Semantik Open-set dari Gambar

    3.3. Membuat Representasi 3D Open-set

    3.4. Navigasi Berbasis Bahasa

  3. Eksperimen

    4.1. Evaluasi Kuantitatif

    4.2. Hasil Kualitatif

  4. Kesimpulan dan Pekerjaan Masa Depan, Pernyataan Pengungkapan, dan Referensi

3. Metodologi

Dalam bagian ini, kami membahas alur kerja metode Navigasi Visi-Bahasa (VLN) kami, yang menggunakan O3D-SIM. Kami mulai dengan gambaran umum alur kerja yang kami usulkan dan kemudian menyajikan analisis mendalam tentang langkah-langkah komponennya. Fase awal metodologi kami melibatkan pengumpulan data, yang terdiri dari sekumpulan gambar RGB-D dan parameter kamera ekstrinsik dan intrinsik, yang diuraikan terlebih dahulu. Selanjutnya, kami beralih ke pembuatan Peta Instance Semantik 3D Open-set. Proses ini dibagi menjadi dua tahap utama: awalnya, kami mengekstrak informasi instance semantik open-set dari gambar; setelah itu, kami memanfaatkan informasi open-set yang dikumpulkan untuk mengatur point cloud 3D menjadi peta instance semantik 3D open-set. Bagian terakhir dari diskusi kami berfokus pada modul VLN, di mana kami membahas implementasi dan fungsionalitasnya.

\ Alur kerja pembuatan O3D-SIM digambarkan dalam Gbr.2. Langkah pertama pembuatan O3D-SIM, yang disajikan di Bagian 3.2, adalah ekstraksi informasi instance semantik open-set dari urutan RGB gambar input. Informasi ini mencakup, untuk setiap instance objek, informasi mask dan fitur semantik yang direpresentasikan oleh fitur embedding CLIP [9] dan DINO [10]. Langkah kedua, yang disajikan di Bagian 3.3, menggunakan informasi instance semantik open-set ini untuk mengelompokkan point cloud 3D input menjadi peta objek semantik 3D open-set, lihat Gambar 2 dan 3. Operasi ini ditingkatkan secara bertahap dengan menerapkan urutan gambar RGB-D dari waktu ke waktu.

\

:::info Penulis:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam karya ini;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam karya ini;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.

:::


:::info Makalah ini tersedia di arxiv di bawah lisensi CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.