3DIML adalah kerangka kerja baru yang menggunakan representasi adegan implisit untuk mensegmentasi instance 3D dengan cepat dan akurat. 3DIML menggunakan pendekatan dua fase—InstanceMap dan InstanceLift—untuk secara efektif mengangkat mask instance 2D menjadi bidang label 3D yang konsisten, berbeda dengan teknik berbasis NeRF sebelumnya yang memerlukan optimasi yang memakan waktu dan kerugian yang rumit. Pelatihan dan inferensi sangat dipercepat oleh pipeline modularnya, yang mencapai percepatan hingga 24× sambil mempertahankan segmentasi berkualitas tinggi. 3DIML menawarkan solusi yang dapat diskalakan dan plug-and-play untuk pemahaman adegan 3D yang cepat dalam aplikasi robotika dan visi komputer, terutama dengan penambahan modul InstaLoc untuk lokalisasi instance mendekati waktu nyata.3DIML adalah kerangka kerja baru yang menggunakan representasi adegan implisit untuk mensegmentasi instance 3D dengan cepat dan akurat. 3DIML menggunakan pendekatan dua fase—InstanceMap dan InstanceLift—untuk secara efektif mengangkat mask instance 2D menjadi bidang label 3D yang konsisten, berbeda dengan teknik berbasis NeRF sebelumnya yang memerlukan optimasi yang memakan waktu dan kerugian yang rumit. Pelatihan dan inferensi sangat dipercepat oleh pipeline modularnya, yang mencapai percepatan hingga 24× sambil mempertahankan segmentasi berkualitas tinggi. 3DIML menawarkan solusi yang dapat diskalakan dan plug-and-play untuk pemahaman adegan 3D yang cepat dalam aplikasi robotika dan visi komputer, terutama dengan penambahan modul InstaLoc untuk lokalisasi instance mendekati waktu nyata.

Mengatasi Hambatan Terbesar Segmentasi 3D

2025/10/24 23:33

:::info Penulis:

(1) George Tang, Massachusetts Institute of Technology;

(2) Krishna Murthy Jatavallabhula, Massachusetts Institute of Technology;

(3) Antonio Torralba, Massachusetts Institute of Technology.

:::

Abstrak dan I. Pendahuluan

II. Latar Belakang

III. Metode

IV. Eksperimen

V. Kesimpulan dan Referensi

\ Gbr. 1: Pendekatan kami, 3DIML, mempelajari representasi implisit dari sebuah adegan sebagai komposisi dari instans objek. Hal ini dilakukan dengan mengangkat label instans 2D yang tidak konsisten dari model segmentasi 2D yang sudah jadi (seperti Segment Anything) menjadi label instans 3D yang konsisten. Gambar di atas menunjukkan hasil untuk pemindaian kantor postdoc di alam liar yang dihasilkan menggunakan 3DIML, terdiri dari InstanceMap (kiri) dan InstanceLift. InstanceLoc (kanan) kemudian digunakan untuk menyempurnakan hasilnya. Setiap label 3D yang teridentifikasi ditampilkan dengan warna berbeda. Perhatikan bagaimana objek tipis dan sebagian terhalang dapat diuraikan dengan akurat di seluruh urutan.

\ Abstrak— Kami mengatasi masalah pembelajaran representasi adegan implisit untuk segmentasi instans 3D dari urutan gambar RGB yang diposisikan. Untuk itu, kami memperkenalkan 3DIML, kerangka kerja baru yang secara efisien mempelajari bidang label yang dapat dirender dari sudut pandang baru untuk menghasilkan masker segmentasi instans yang konsisten. 3DIML secara signifikan meningkatkan waktu pelatihan dan inferensi dari metode berbasis representasi adegan implisit yang ada. Berbeda dengan karya sebelumnya yang mengoptimalkan bidang neural secara self-supervised, yang memerlukan prosedur pelatihan rumit dan desain fungsi kerugian, 3DIML memanfaatkan proses dua fase. Fase pertama, InstanceMap, mengambil masker segmentasi 2D dari urutan gambar yang dihasilkan oleh model segmentasi instans frontend, dan mengaitkan masker yang sesuai di seluruh gambar ke label 3D. Masker pseudolabel yang hampir konsisten ini kemudian digunakan dalam fase kedua, InstanceLift, untuk mengawasi pelatihan bidang label neural, yang menginterpolasi area yang terlewatkan oleh InstanceMap dan menyelesaikan ambiguitas. Selain itu, kami memperkenalkan InstanceLoc, yang memungkinkan lokalisasi masker instans mendekati waktu nyata dengan bidang label terlatih dan model segmentasi gambar siap pakai dengan menggabungkan output dari keduanya. Kami mengevaluasi 3DIML pada urutan dari dataset Replica dan ScanNet dan mendemonstrasikan efektivitas 3DIML di bawah asumsi ringan untuk urutan gambar. Kami mencapai peningkatan kecepatan praktis yang besar dibandingkan metode representasi adegan implisit yang ada dengan kualitas sebanding, menunjukkan potensinya untuk memfasilitasi pemahaman adegan 3D yang lebih cepat dan lebih efektif.

I. PENDAHULUAN

Agen cerdas memerlukan pemahaman adegan pada tingkat objek untuk secara efektif melaksanakan tindakan spesifik konteks seperti navigasi dan manipulasi. Sementara segmentasi objek dari gambar telah mengalami kemajuan luar biasa dengan model yang dapat diskalakan yang dilatih pada dataset skala internet [1], [2], memperluas kemampuan tersebut ke pengaturan 3D tetap menjadi tantangan.

\ Dalam karya ini, kami mengatasi masalah pembelajaran representasi adegan 3D dari gambar 2D yang diposisikan yang memfaktorkan adegan yang mendasarinya menjadi kumpulan objek konstituennya. Pendekatan yang ada untuk mengatasi masalah ini telah berfokus pada pelatihan model segmentasi 3D agnostik kelas [3], [4], yang memerlukan sejumlah besar data 3D beranotasi, dan beroperasi langsung pada representasi adegan 3D eksplisit (misalnya, pointclouds). Kelas pendekatan alternatif [5], [6] telah mengusulkan untuk langsung mengangkat masker segmentasi dari model segmentasi instans siap pakai ke dalam representasi 3D implisit, seperti neural radiance fields (NeRF) [7], memungkinkan mereka untuk merender masker instans yang konsisten secara 3D dari sudut pandang baru.

\ Namun, pendekatan berbasis bidang neural tetap sulit dioptimalkan, dengan [5] dan [6] membutuhkan beberapa jam untuk mengoptimalkan gambar resolusi rendah hingga menengah (misalnya, 300 × 640). Secara khusus, Panoptic Lifting [5] menskalakan secara kubik dengan jumlah objek dalam adegan yang mencegahnya diterapkan pada adegan dengan ratusan objek, sementara Contrastively Lifting [6] memerlukan prosedur pelatihan multi-tahap yang rumit, menghambat kepraktisan untuk digunakan dalam aplikasi robotika.

\ Untuk itu, kami mengusulkan 3DIML, teknik efisien untuk mempelajari segmentasi instans yang konsisten secara 3D dari gambar RGB yang diposisikan. 3DIML terdiri dari dua fase: InstanceMap dan InstanceLift. Diberikan masker instans 2D yang tidak konsisten yang diekstrak dari urutan RGB menggunakan model segmentasi instans frontend [2], InstanceMap menghasilkan urutan masker instans yang konsisten. Untuk melakukannya, kami pertama-tama mengaitkan masker di seluruh frame menggunakan kecocokan keypoint antara pasangan gambar yang serupa. Kami kemudian menggunakan asosiasi yang berpotensi berisik ini untuk mengawasi bidang label neural, InstanceLift, yang memanfaatkan struktur 3D untuk menginterpolasi label yang hilang dan menyelesaikan ambiguitas. Tidak seperti karya sebelumnya, yang memerlukan pelatihan multi-tahap dan rekayasa fungsi kerugian tambahan, kami menggunakan satu kerugian rendering untuk supervisi label instans, memungkinkan proses pelatihan untuk konvergen secara signifikan lebih cepat. Total waktu eksekusi 3DIML, termasuk InstanceMap, memakan waktu 10-20 menit, dibandingkan dengan 3-6 jam untuk karya sebelumnya.

\ Selain itu, kami merancang InstaLoc, pipeline lokalisasi cepat yang menerima tampilan baru dan melokalisasi semua instans yang disegmentasi dalam gambar tersebut (menggunakan model segmentasi instans cepat [8]) dengan menanyakan bidang label secara jarang dan menggabungkan prediksi label dengan area gambar yang diekstrak. Akhirnya, 3DIML sangat modular, dan kami dapat dengan mudah menukar komponen metode kami dengan yang lebih berkinerja saat tersedia.

\ Untuk merangkum, kontribusi kami adalah:

\ • Pendekatan pembelajaran bidang neural yang efisien yang memfaktorkan adegan 3D menjadi objek konstituennya

\ • Algoritma lokalisasi instans cepat yang menggabungkan kueri jarang ke bidang label terlatih dengan model segmentasi instans gambar berkinerja untuk menghasilkan masker segmentasi instans yang konsisten secara 3D

\ • Peningkatan waktu eksekusi praktis keseluruhan sebesar 14-24× dibandingkan karya sebelumnya yang diuji pada satu GPU (NVIDIA RTX 3090)

II. LATAR BELAKANG

Segmentasi 2D: Prevalensi arsitektur vision transformer dan peningkatan skala dataset gambar telah menghasilkan serangkaian model segmentasi gambar state-of-the-art. Panoptic dan Contrastive Lifting keduanya mengangkat masker segmentasi panoptik yang dihasilkan oleh Mask2Former [1] ke 3D dengan mempelajari bidang neural. Menuju segmentasi open-set, segment anything (SAM) [2] mencapai kinerja yang belum pernah terjadi sebelumnya dengan pelatihan pada satu miliar masker di lebih dari 11 juta gambar. HQ-SAM [9] meningkatkan SAM untuk masker yang lebih detail. FastSAM [8] menyuling SAM ke dalam arsitektur CNN dan mencapai kinerja serupa sambil menjadi lebih cepat beberapa kali lipat. Dalam karya ini, kami menggunakan GroundedSAM [10], [11], yang menyempurnakan SAM untuk menghasilkan segmentasi masker tingkat objek, bukan tingkat bagian.

\ Bidang neural untuk segmentasi instans 3D: NeRF adalah representasi adegan implisit yang dapat secara akurat mengkodekan geometri kompleks, semantik, dan modalitas lainnya, serta menyelesaikan supervisi yang tidak konsisten dari sudut pandang [12]. Panoptic lifting [5] membangun cabang semantik dan instans pada varian NeRF yang efisien, TensoRF [13], memanfaatkan fungsi kerugian Hungarian matching untuk menetapkan masker instans yang dipelajari ke ID objek pengganti yang diberikan masker referensi yang tidak konsisten. Ini menskalakan dengan buruk dengan peningkatan jumlah objek (karena kompleksitas kubik dari Hungarian matching). Contrastive lifting [6] mengatasi ini dengan menggunakan pembelajaran kontrastif pada fitur adegan, dengan hubungan positif dan negatif ditentukan oleh apakah mereka diproyeksikan ke masker yang sama atau tidak. Selain itu, contrastive lifting memerlukan kerugian berbasis clustering slow-fast untuk pelatihan yang stabil, menghasilkan kinerja yang lebih cepat daripada panoptic lifting tetapi memerlukan beberapa tahap pelatihan, yang menyebabkan konvergensi lambat. Bersamaan dengan kami, Instance-NeRF [14] langsung mempelajari bidang label, tetapi mereka mendasarkan asosiasi masker mereka pada penggunaan NeRF-RPN [15] untuk mendeteksi objek dalam NeRF. Pendekatan kami, sebaliknya, memungkinkan penskalaan ke resolusi gambar yang sangat tinggi sambil hanya memerlukan sejumlah kecil (40-60) kueri bidang neural untuk merender masker segmentasi.

\ Structure from Motion: Selama asosiasi masker di InstanceMap, kami terinspirasi dari pipeline rekonstruksi 3D yang dapat diskalakan seperti hLoc [16], termasuk penggunaan deskriptor visual untuk mencocokkan sudut pandang gambar terlebih dahulu, kemudian menerapkan pencocokan keypoint sebagai pendahuluan untuk asosiasi masker. Kami menggunakan LoFTR [17] untuk ekstraksi dan pencocokan keypoint.

\

:::info Makalah ini tersedia di arxiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

Anda Mungkin Juga Menyukai

Apa yang Terjadi Dengan XRP Dan Mengapa ETF Spot-nya Anjlok 20%?

Apa yang Terjadi Dengan XRP Dan Mengapa ETF Spot-nya Anjlok 20%?

Harga XRP terus berfluktuasi, diperdagangkan secara sideways, yang telah berdampak pada harga ETF spot AS yang memberikan eksposur terhadap altcoin tersebut. Dana XRP Canary Capital telah jatuh 20% sejak peluncurannya, meskipun dana ini tetap menjadi yang terbesar berdasarkan aset yang dikelola (AuM). Pergerakan Harga Sideways XRP Menyebabkan Crash ETF Spot Harga XRP terus diperdagangkan dalam rentang yang sempit, sedikit di atas level psikologis $2, memicu sentimen bearish di kalangan investor. Altcoin ini turun lebih dari 10% dalam sebulan terakhir, sekitar waktu ETF spot XRP pertama, dana Canary, diluncurkan. Aksi harga bearish ini secara signifikan berkontribusi pada crash harga dana XRPC Canary. Bacaan Terkait: ETF XRP Akan Mencapai $1 Miliar - Inilah Berapa Banyak yang Mengalir Setiap Hari Data TradingView menunjukkan bahwa ETF XRP Canary turun 20% sejak peluncurannya pada 13 November. XRPC juga turun hampir 10% minggu lalu di tengah aksi harga yang berfluktuasi. Dana Canary juga kemungkinan jatuh karena meningkatnya persaingan dari tiga dana spot lain yang diluncurkan setelahnya. Hal ini menyebabkan perlambatan dalam arus masuknya sejak dana-dana tersebut diluncurkan. Sementara itu, dana-dana ini melacak harga spot XRP, yang juga menjelaskan crash XRPC Canary. XRP telah mencerminkan aksi harga Bitcoin di tengah kekhawatiran bahwa pasar kripto mungkin sudah berada dalam pasar bearish. Paus XRP juga tampak bearish saat ini, karena data Santiment menunjukkan penurunan transaksi paus dari level tertinggi baru-baru ini yang tercatat pada November. Namun, terlepas dari sentimen bearish ini, dengan pasar kripto saat ini dalam keadaan ketakutan, ETF XRP terus mencatat arus masuk bersih harian. Data SoSo Value menunjukkan bahwa dana-dana ini telah berada dalam rentetan arus masuk bersih selama 16 hari sejak dana XRP Canary diluncurkan pada 13 November, dan mereka belum mencatat hari arus keluar bersih. ETF XRP Canary, yang telah mengalami crash harga 20%, saat ini merupakan dana spot XRP terbesar dengan $364 juta dalam aset yang dikelola. GXRP Grayscale berada di posisi kedua dengan $211 juta, sementara Bitwise dan Franklin Templeton berada di posisi ketiga dan keempat. Sebagai grup, dana-dana XRP ini akan segera mencapai $1 miliar dalam aset yang dikelola, dengan total aset bersih $861 juta. Beberapa Hal Positif Untuk Altcoin Data Santiment menunjukkan bahwa arus keluar pertukaran XRP telah melebihi arus masuk dalam waktu terakhir. Ini adalah hal positif karena menunjukkan bahwa lebih banyak investor yang mengakumulasi daripada menjual. Arus keluar pertukaran biasanya mewakili pergerakan untuk penyimpanan jangka panjang, terutama dalam antisipasi harga yang lebih tinggi. Bacaan Terkait: Pakar Memprediksi Bahwa XRP Akan Membuat Investor Sangat Kaya Dalam postingan X, Santiment menyebutkan bahwa XRP Ledger sedang mengalami tren menarik di mana dompet paus dan hiu berkurang jumlahnya tetapi terus bertambah dalam koin yang dipegang. Platform analitik on-chain tersebut mencatat bahwa ada 20,6% lebih sedikit dompet 100 juta XRP, tetapi dompet-dompet ini, sebagai grup, masih memiliki 48 miliar koin tertinggi dalam 7 tahun. Dengan demikian, dompet 100 juta XRP yang ada melipatgandakan upaya akumulasi mereka dan mengimbangi jumlah dompet yang berkurang. Pada saat penulisan, harga altcoin ini diperdagangkan sekitar $2,07, naik dalam 24 jam terakhir, menurut data dari CoinMarketCap. Gambar unggulan dari Freepik, grafik dari Tradingview.com
Bagikan
NewsBTC2025/12/08 18:30