Abstrak dan 1 Pendahuluan
Karya Terkait
2.1. Navigasi Visi-dan-Bahasa
2.2. Pemahaman Adegan Semantik dan Segmentasi Instance
2.3. Rekonstruksi Adegan 3D
Metodologi
3.1. Pengumpulan Data
3.2. Informasi Semantik Open-set dari Gambar
3.3. Membuat Representasi 3D Open-set
3.4. Navigasi Berbasis Bahasa
Eksperimen
4.1. Evaluasi Kuantitatif
4.2. Hasil Kualitatif
Kesimpulan dan Pekerjaan Masa Depan, Pernyataan Pengungkapan, dan Referensi
Dalam bagian ini, kami membahas alur kerja metode Navigasi Visi-Bahasa (VLN) kami, yang menggunakan O3D-SIM. Kami mulai dengan gambaran umum alur kerja yang kami usulkan dan kemudian menyajikan analisis mendalam tentang langkah-langkah komponennya. Fase awal metodologi kami melibatkan pengumpulan data, yang terdiri dari sekumpulan gambar RGB-D dan parameter kamera ekstrinsik dan intrinsik, yang diuraikan terlebih dahulu. Selanjutnya, kami beralih ke pembuatan Peta Instance Semantik 3D Open-set. Proses ini dibagi menjadi dua tahap utama: awalnya, kami mengekstrak informasi instance semantik open-set dari gambar; setelah itu, kami memanfaatkan informasi open-set yang dikumpulkan untuk mengatur point cloud 3D menjadi peta instance semantik 3D open-set. Bagian terakhir dari diskusi kami berfokus pada modul VLN, di mana kami membahas implementasi dan fungsionalitasnya.
\ Alur kerja pembuatan O3D-SIM digambarkan dalam Gbr.2. Langkah pertama pembuatan O3D-SIM, yang disajikan di Bagian 3.2, adalah ekstraksi informasi instance semantik open-set dari urutan RGB gambar input. Informasi ini mencakup, untuk setiap instance objek, informasi mask dan fitur semantik yang direpresentasikan oleh fitur embedding CLIP [9] dan DINO [10]. Langkah kedua, yang disajikan di Bagian 3.3, menggunakan informasi instance semantik open-set ini untuk mengelompokkan point cloud 3D input menjadi peta objek semantik 3D open-set, lihat Gambar 2 dan 3. Operasi ini ditingkatkan secara bertahap dengan menerapkan urutan gambar RGB-D dari waktu ke waktu.
\
:::info Penulis:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam karya ini;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam karya ini;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.
:::
:::info Makalah ini tersedia di arxiv di bawah lisensi CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


