Abstrak dan 1 Pendahuluan
Karya Terkait
2.1. Navigasi Visi-dan-Bahasa
2.2. Pemahaman Adegan Semantik dan Segmentasi Instance
2.3. Rekonstruksi Adegan 3D
Metodologi
3.1. Pengumpulan Data
3.2. Informasi Semantik Open-set dari Gambar
3.3. Membuat Representasi 3D Open-set
3.4. Navigasi Berbasis Bahasa
Eksperimen
4.1. Evaluasi Kuantitatif
4.2. Hasil Kualitatif
Kesimpulan dan Pekerjaan Masa Depan, Pernyataan Pengungkapan, dan Referensi
Dalam beberapa waktu terakhir, rekonstruksi adegan 3D telah mengalami kemajuan signifikan. Beberapa karya terbaru di bidang ini termasuk penggunaan pendekatan self-supervised untuk penyelesaian Geometri Semantik dan rekonstruksi penampilan dari pemindaian RGB-D seperti [26], yang menggunakan arsitektur encoder-decoder 3D untuk geometri dan warna. Untuk pendekatan ini, fokusnya adalah menghasilkan rekonstruksi semantik tanpa ground truth. Pendekatan lain adalah mengintegrasikan rekonstruksi 3D real-time dengan SLAM. Ini dilakukan melalui teknik berbasis keyframe dan telah digunakan dalam kasus penggunaan navigasi otonom dan AR terbaru [27]. Metode terbaru lainnya telah melihat pekerjaan pada Neural Radiance Fields [28] untuk ruang dalam ketika memanfaatkan structure-from-motion untuk memahami adegan yang ditangkap kamera. Model NeRF ini dilatih untuk setiap lokasi dan sangat baik untuk pemahaman spasial. Metode lain adalah membangun grafik adegan 3D menggunakan kosakata terbuka dan model dasar seperti CLIP untuk menangkap hubungan semantik antara objek dan representasi visualnya [4]. Selama rekonstruksi, mereka menggunakan fitur yang diekstraksi dari point cloud 3D dan memproyeksikannya ke ruang embedding yang dipelajari oleh CLIP.
\ Karya ini menggunakan metode segmentasi instance 2D open-set, seperti yang dijelaskan pada bagian sebelumnya. Diberikan gambar RGB-D, kita mendapatkan mask objek individual ini dari gambar RGB dan memproyeksikan kembali ke 3D menggunakan gambar Depth. Di sini, kita memiliki pendekatan berbasis instance alih-alih memiliki komputasi titik-per-titik untuk merekonstruksi, yang sebelumnya dilakukan oleh Concept-Fusion [29]. Ekstraksi mask fitur per-objek ini juga membantu kita menghitung embedding, yang mempertahankan sifat open-set dari pipeline ini.
\
:::info Penulis:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama pada karya ini;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama pada karya ini;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.
:::
:::info Makalah ini tersedia di arxiv di bawah lisensi CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


