O3D-SIM este construit prin proiectarea măștilor și a încorporărilor 2D în 3D, folosind DBSCAN pentru rafinarea inițială.O3D-SIM este construit prin proiectarea măștilor și a încorporărilor 2D în 3D, folosind DBSCAN pentru rafinarea inițială.

Construirea reprezentării 3D pentru seturi deschise: Fuziunea caracteristicilor și îmbinarea geometrico-semantică

2025/12/15 01:00

Rezumat și 1 Introducere

  1. Lucrări Conexe

    2.1. Navigare bazată pe Viziune și Limbaj

    2.2. Înțelegerea Semantică a Scenei și Segmentarea Instanțelor

    2.3. Reconstrucția Scenei 3D

  2. Metodologie

    3.1. Colectarea Datelor

    3.2. Informații Semantice Open-set din Imagini

    3.3. Crearea Reprezentării 3D Open-set

    3.4. Navigare Ghidată prin Limbaj

  3. Experimente

    4.1. Evaluare Cantitativă

    4.2. Rezultate Calitative

  4. Concluzie și Lucrări Viitoare, Declarație de divulgare și Referințe

3.3. Crearea Reprezentării 3D Open-set

Pentru a finaliza construirea O3D-SIM, ne bazăm acum pe încorporările de caracteristici extrase pentru fiecare obiect prin proiectarea informațiilor obiectului în spațiul 3D, gruparea și asocierea obiectelor în mai multe imagini pentru a crea o reprezentare cuprinzătoare a scenei 3D. Procesul de proiectare a informațiilor semantice în spațiul 3D și rafinarea hărții este ilustrat în Figura 3.

\ 3.3.1. Inițializarea O3D-SIM

\ Harta 3D este creată inițial folosind o imagine selectată, care acționează ca un cadru de referință pentru inițializarea reprezentării scenei noastre. Acest pas stabilește structura fundamentală a scenei noastre 3D, care este apoi augmentată progresiv cu date din imaginile ulterioare pentru a îmbogăți complexitatea și detaliile scenei.

\ Datele pentru obiectele dintr-o scenă 3D sunt organizate ca noduri într-un dicționar, care inițial începe ca gol. Obiectele sunt apoi identificate din imaginea inițială împreună cu datele conexe care cuprind caracteristici de încorporare și informații despre măștile lor. Pentru fiecare obiect discernut în imagine, un nor de puncte 3D este creat folosind informațiile de adâncime disponibile și masca obiectului. Această formare a norului de puncte implică maparea pixelilor 2D în spațiul 3D, facilitată de parametrii intrinseci ai camerei și valorile de adâncime. Ulterior, poziția camerei este utilizată pentru a alinia cu precizie norul de puncte în sistemul de coordonate global. Pentru a rafina reprezentarea scenei noastre, filtrarea fundalului elimină elementele identificate ca fundal, cum ar fi pereții sau podelele. Aceste elemente sunt excluse de la procesarea ulterioară, în special în etapa de grupare, deoarece nu constituie focusul principal al reprezentării scenei noastre.

\ Setul de nori de puncte ale obiectelor este procesat în continuare folosind gruparea DBSCAN[34] pentru rafinarea reprezentării. Norul de puncte este subeșantionat prin filtrarea grilei voxel pentru a reduce numărul de puncte și complexitatea computațională, păstrând în același timp structura spațială a datelor gestionabilă. DBSCAN grupează punctele care sunt strâns împachetate împreună, etichetând punctele care se află singure în regiuni cu densitate scăzută ca zgomot. Într-o etapă post-grupare, cel mai mare cluster corespunde de obicei obiectului principal de interes din norul de puncte și este identificat. Acest lucru ajută la filtrarea zgomotului și a punctelor irelevante, producând o reprezentare mai curată a obiectului de interes.

\ Poziția unui obiect în spațiul 3D este determinată prin calcularea orientării unei cutii delimitatoare, care oferă o reprezentare spațială concisă a locației și dimensiunii obiectului în spațiul 3D. Ulterior, ieșirea hărții 3D este inițializată cu un set inițial de noduri, încapsulând încorporări de caracteristici, date despre norul de puncte, cutii delimitatoare și numărul de puncte din norul de puncte asociat fiecărui nod. Fiecare nod include, de asemenea, informații despre sursă pentru a facilita urmărirea originilor datelor și legătura dintre noduri și omologii lor de imagine 2D.

\ 3.3.2. Actualizarea Incrementală a O3D-SIM

\ După inițializarea scenei, actualizăm reprezentarea cu date din imagini noi. Acest proces asigură că scena noastră 3D rămâne actuală și precisă pe măsură ce devin disponibile informații suplimentare. Se iterează prin fiecare imagine din secvența de imagini; pentru fiecare imagine nouă, sunt extrase date multi-obiect, iar scena este actualizată.

\ Obiectele sunt detectate pentru fiecare imagine nouă, iar noduri noi sunt create ca în imaginea inițială. Aceste noduri temporare conțin datele 3D pentru obiectele nou detectate care trebuie fie îmbinate în scena existentă, fie adăugate ca noduri noi. Similitudinea dintre nodurile nou detectate și cele existente în scenă este determinată prin combinarea similitudinii vizuale, derivată din încorporările de caracteristici, și similitudinea spațială (geometrică), obținută din suprapunerea norului de puncte, pentru a formula o măsură de similitudine agregată. Dacă această măsură depășește un prag predeterminat, noua detecție este considerată că corespunde unui obiect existent în scenă. Într-adevăr, nodul nou detectat este fie îmbinat cu un nod de scenă existent, fie adăugat ca un nod nou.

\ Îmbinarea implică integrarea norilor de puncte și medierea încorporărilor de caracteristici. Se calculează o medie ponderată a încorporărilor CLIP și DINO, luând în considerare contribuția din informațiile cheie ale sursei, cu o preferință pentru nodurile cu mai mulți identificatori de sursă. Dacă trebuie adăugat un nod nou, acesta este încorporat în dicționarul scenei.

\ Rafinarea scenei are loc odată ce obiectele din toate imaginile din secvența de intrare au fost adăugate. Acest proces consolidează nodurile care reprezintă aceleași obiecte fizice, dar au fost inițial identificate ca separate din cauza ocluziunilor, schimbărilor de punct de vedere sau a factorilor similari. Folosește o matrice de suprapunere pentru a identifica nodurile care împărtășesc ocuparea spațială și le îmbină logic într-un singur nod. Scena este finalizată prin eliminarea nodurilor care nu îndeplinesc numărul minim de puncte sau criteriile de detecție. Acest lucru duce la o reprezentare finală rafinată și optimizată a scenei - Hărți de Instanțe Semantice 3D OpenSet, cunoscute și ca O3D-SIM.

\

:::info Autori:

(1) Laksh Nanwani, Institutul Internațional de Tehnologia Informației, Hyderabad, India; acest autor a contribuit în mod egal la această lucrare;

(2) Kumaraditya Gupta, Institutul Internațional de Tehnologia Informației, Hyderabad, India;

(3) Aditya Mathur, Institutul Internațional de Tehnologia Informației, Hyderabad, India; acest autor a contribuit în mod egal la această lucrare;

(4) Swayam Agrawal, Institutul Internațional de Tehnologia Informației, Hyderabad, India;

(5) A.H. Abdul Hafez, Universitatea Hasan Kalyoncu, Sahinbey, Gaziantep, Turcia;

(6) K. Madhava Krishna, Institutul Internațional de Tehnologia Informației, Hyderabad, India.

:::


:::info Această lucrare este disponibilă pe arxiv sub licența CC by-SA 4.0 Deed (Atribuire-Distribuire în condiții identice 4.0 Internațional).

:::

\

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează [email protected] pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.