Mengulas rekonstruksi 3D, termasuk metode self-supervised, SLAM, dan NeRF. Pendekatan kami menggunakan segmentasi instans 2D open-set dan back-projection RGB-D untuk pemetaan 3D berbasis instans yang efisien.Mengulas rekonstruksi 3D, termasuk metode self-supervised, SLAM, dan NeRF. Pendekatan kami menggunakan segmentasi instans 2D open-set dan back-projection RGB-D untuk pemetaan 3D berbasis instans yang efisien.

Penyelesaian Geometri Semantik dan Integrasi SLAM dalam Pemetaan 3D

2025/12/11 02:00

Abstrak dan 1 Pendahuluan

  1. Karya Terkait

    2.1. Navigasi Visi-dan-Bahasa

    2.2. Pemahaman Adegan Semantik dan Segmentasi Instance

    2.3. Rekonstruksi Adegan 3D

  2. Metodologi

    3.1. Pengumpulan Data

    3.2. Informasi Semantik Open-set dari Gambar

    3.3. Membuat Representasi 3D Open-set

    3.4. Navigasi Berbasis Bahasa

  3. Eksperimen

    4.1. Evaluasi Kuantitatif

    4.2. Hasil Kualitatif

  4. Kesimpulan dan Pekerjaan Masa Depan, Pernyataan Pengungkapan, dan Referensi

2.3. Rekonstruksi Adegan 3D

Dalam beberapa waktu terakhir, rekonstruksi adegan 3D telah mengalami kemajuan signifikan. Beberapa karya terbaru di bidang ini termasuk penggunaan pendekatan self-supervised untuk penyelesaian Geometri Semantik dan rekonstruksi penampilan dari pemindaian RGB-D seperti [26], yang menggunakan arsitektur encoder-decoder 3D untuk geometri dan warna. Untuk pendekatan ini, fokusnya adalah menghasilkan rekonstruksi semantik tanpa ground truth. Pendekatan lain adalah mengintegrasikan rekonstruksi 3D real-time dengan SLAM. Ini dilakukan melalui teknik berbasis keyframe dan telah digunakan dalam kasus penggunaan navigasi otonom dan AR terbaru [27]. Metode terbaru lainnya telah melihat pekerjaan pada Neural Radiance Fields [28] untuk ruang dalam ketika memanfaatkan structure-from-motion untuk memahami adegan yang ditangkap kamera. Model NeRF ini dilatih untuk setiap lokasi dan sangat baik untuk pemahaman spasial. Metode lain adalah membangun grafik adegan 3D menggunakan kosakata terbuka dan model dasar seperti CLIP untuk menangkap hubungan semantik antara objek dan representasi visualnya [4]. Selama rekonstruksi, mereka menggunakan fitur yang diekstraksi dari point cloud 3D dan memproyeksikannya ke ruang embedding yang dipelajari oleh CLIP.

\ Karya ini menggunakan metode segmentasi instance 2D open-set, seperti yang dijelaskan pada bagian sebelumnya. Diberikan gambar RGB-D, kita mendapatkan mask objek individual ini dari gambar RGB dan memproyeksikan kembali ke 3D menggunakan gambar Depth. Di sini, kita memiliki pendekatan berbasis instance alih-alih memiliki komputasi titik-per-titik untuk merekonstruksi, yang sebelumnya dilakukan oleh Concept-Fusion [29]. Ekstraksi mask fitur per-objek ini juga membantu kita menghitung embedding, yang mempertahankan sifat open-set dari pipeline ini.

\

:::info Penulis:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama pada karya ini;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama pada karya ini;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.

:::


:::info Makalah ini tersedia di arxiv di bawah lisensi CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.