Abstrak dan 1 Pendahuluan
Karya Terkait
2.1. Navigasi Visi-dan-Bahasa
2.2. Pemahaman Adegan Semantik dan Segmentasi Instance
2.3. Rekonstruksi Adegan 3D
Metodologi
3.1. Pengumpulan Data
3.2. Informasi Semantik Open-set dari Gambar
3.3. Membuat Representasi 3D Open-set
3.4. Navigasi Berbasis Bahasa
Eksperimen
4.1. Evaluasi Kuantitatif
4.2. Hasil Kualitatif
Kesimpulan dan Pekerjaan Masa Depan, Pernyataan Pengungkapan, dan Referensi
Untuk menyelesaikan pembangunan O3D-SIM, kami sekarang membangun berdasarkan embedding fitur yang diekstrak untuk setiap objek dengan memproyeksikan informasi objek ke ruang 3D, melakukan clustering, dan mengasosiasikan objek di berbagai gambar untuk menciptakan representasi adegan 3D yang komprehensif. Proses memproyeksikan informasi semantik ke dalam ruang 3D dan menyempurnakan peta ditunjukkan pada Gambar 3.
\ 3.3.1. Inisialisasi O3D-SIM
\ Peta 3D awalnya dibuat menggunakan gambar yang dipilih, yang bertindak sebagai bingkai referensi untuk menginisialisasi representasi adegan kami. Langkah ini membangun struktur dasar adegan 3D kami, yang kemudian secara progresif ditambah dengan data dari gambar-gambar berikutnya untuk memperkaya kompleksitas dan detail adegan.
\ Data untuk objek dalam adegan 3D diorganisir sebagai node dalam kamus, yang awalnya dimulai sebagai kosong. Objek kemudian diidentifikasi dari gambar awal bersama dengan data terkait yang mencakup fitur embedding dan informasi tentang mask mereka. Untuk setiap objek yang dikenali dalam gambar, point cloud 3D dibuat menggunakan informasi kedalaman yang tersedia dan mask objek. Pembentukan point cloud ini melibatkan pemetaan piksel 2D ke dalam ruang 3D, difasilitasi oleh parameter intrinsik kamera dan nilai kedalaman. Selanjutnya, pose kamera digunakan untuk menyelaraskan point cloud secara akurat dalam sistem koordinat global. Untuk menyempurnakan representasi adegan kami, pemfilteran latar belakang menghapus elemen yang diidentifikasi sebagai latar belakang, seperti dinding atau lantai. Elemen-elemen ini dikecualikan dari pemrosesan lebih lanjut, khususnya pada tahap clustering, karena tidak merupakan fokus utama dari representasi adegan kami.
\ Kumpulan point cloud objek diproses lebih lanjut menggunakan clustering DBSCAN[34] untuk penyempurnaan representasi. Point cloud didownsample melalui pemfilteran grid voxel untuk mengurangi jumlah titik dan kompleksitas komputasi sambil mempertahankan struktur spasial data tetap terkelola. DBSCAN mengelompokkan titik-titik yang terkumpul rapat bersama sambil melabeli titik-titik yang berada sendirian di daerah kepadatan rendah sebagai noise. Dalam langkah pasca-clustering, cluster terbesar yang biasanya sesuai dengan objek utama yang menarik dalam point cloud diidentifikasi. Ini membantu menyaring noise dan titik-titik yang tidak relevan, menghasilkan representasi yang lebih bersih dari objek yang menarik.
\ Pose objek dalam ruang 3D ditentukan dengan menghitung orientasi bounding box, yang menawarkan representasi spasial ringkas dari lokasi dan ukuran objek dalam ruang 3D. Selanjutnya, output peta 3D diinisialisasi dengan set awal node, yang mengenkapsulasi embedding fitur, data point cloud, bounding box, dan jumlah titik dalam point cloud yang terkait dengan setiap node. Setiap node juga menyertakan informasi sumber untuk memfasilitasi pelacakan asal data dan hubungan antara node dan pasangan gambar 2D mereka.
\ 3.3.2. Pembaruan Inkremental O3D-SIM
\ Setelah menginisialisasi adegan, kami memperbarui representasi dengan data dari gambar baru. Proses ini memastikan adegan 3D kami tetap terkini dan tepat saat informasi tambahan tersedia. Ini beriterasi melalui setiap gambar dalam urutan gambar; untuk setiap gambar baru, data multi-objek diekstrak, dan adegan diperbarui.
\ Objek dideteksi untuk setiap gambar baru, dan node baru dibuat seperti gambar awal. Node sementara ini berisi data 3D untuk objek yang baru terdeteksi yang harus digabungkan ke dalam adegan yang ada atau ditambahkan sebagai node baru. Kesamaan antara node yang baru terdeteksi dan node adegan yang ada ditentukan dengan menggabungkan kesamaan visual, yang berasal dari embedding fitur, dan kesamaan spasial (geometris), yang diperoleh dari tumpang tindih point cloud, untuk merumuskan ukuran kesamaan agregat. Jika ukuran ini melampaui ambang batas yang telah ditentukan, deteksi baru dianggap sesuai dengan objek yang ada dalam adegan. Memang, node yang baru terdeteksi baik digabungkan dengan node adegan yang ada atau ditambahkan sebagai node baru.
\ Penggabungan melibatkan integrasi point cloud dan rata-rata embedding fitur. Rata-rata tertimbang dari embedding CLIP dan DINO dihitung, dengan mempertimbangkan kontribusi dari informasi kunci sumber, dengan preferensi untuk node dengan lebih banyak pengidentifikasi sumber. Jika node baru perlu ditambahkan, node tersebut dimasukkan ke dalam kamus adegan.
\ Penyempurnaan adegan terjadi setelah objek dari semua gambar dalam urutan input telah ditambahkan. Proses ini mengkonsolidasikan node yang mewakili objek fisik yang sama tetapi awalnya diidentifikasi sebagai terpisah karena oklusi, perubahan sudut pandang, atau faktor serupa. Ini menggunakan matriks tumpang tindih untuk mengidentifikasi node yang berbagi okupansi spasial dan secara logis menggabungkannya menjadi satu node. Adegan diselesaikan dengan membuang node yang gagal memenuhi jumlah minimum titik atau kriteria deteksi. Ini menghasilkan representasi adegan akhir yang disempurnakan dan dioptimalkan - OpenSet 3D Semantic Instance Maps, alias O3D-SIM.
\
:::info Penulis:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam pekerjaan ini;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; penulis ini berkontribusi sama dalam pekerjaan ini;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.
:::
:::info Makalah ini tersedia di arxiv di bawah lisensi CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


