O3D-SIM jest zbudowany poprzez rzutowanie masek 2D i osadzanie do 3D, używając DBSCAN do wstępnego udoskonalenia.O3D-SIM jest zbudowany poprzez rzutowanie masek 2D i osadzanie do 3D, używając DBSCAN do wstępnego udoskonalenia.

Budowanie reprezentacji 3D typu open-set: Fuzja cech i łączenie geometryczno-semantyczne

2025/12/15 01:00

Abstrakt i 1 Wprowadzenie

  1. Prace powiązane

    2.1. Nawigacja oparta na wizji i języku

    2.2. Semantyczne zrozumienie sceny i segmentacja instancji

    2.3. Rekonstrukcja sceny 3D

  2. Metodologia

    3.1. Zbieranie danych

    3.2. Otwarta informacja semantyczna z obrazów

    3.3. Tworzenie reprezentacji 3D typu open-set

    3.4. Nawigacja sterowana językiem

  3. Eksperymenty

    4.1. Ocena ilościowa

    4.2. Wyniki jakościowe

  4. Wnioski i przyszłe prace, Oświadczenie o ujawnieniu i Bibliografia

3.3. Tworzenie reprezentacji 3D typu open-set

Aby ukończyć budowę O3D-SIM, bazujemy teraz na osadzeniach cech wyodrębnionych dla każdego obiektu, projektując informacje o obiektach do przestrzeni 3D, grupując i łącząc obiekty z wielu obrazów, aby stworzyć kompleksową reprezentację sceny 3D. Proces projektowania informacji semantycznych do przestrzeni 3D i udoskonalania mapy przedstawiono na Rysunku 3.

\ 3.3.1. Inicjalizacja O3D-SIM

\ Mapa 3D jest początkowo tworzona przy użyciu wybranego obrazu, który służy jako ramka odniesienia do inicjalizacji naszej reprezentacji sceny. Ten krok ustanawia podstawową strukturę naszej sceny 3D, która jest następnie stopniowo wzbogacana danymi z kolejnych obrazów, aby zwiększyć złożoność i szczegółowość sceny.

\ Dane obiektów w scenie 3D są zorganizowane jako węzły w słowniku, który początkowo jest pusty. Obiekty są następnie identyfikowane z początkowego obrazu wraz z powiązanymi danymi, które obejmują cechy osadzenia i informacje o ich maskach. Dla każdego obiektu rozpoznanego na obrazie tworzona jest chmura punktów 3D przy użyciu dostępnych informacji o głębi i maski obiektu. Tworzenie tej chmury punktów obejmuje mapowanie pikseli 2D do przestrzeni 3D, ułatwione przez wewnętrzne parametry kamery i wartości głębi. Następnie pozycja kamery jest wykorzystywana do dokładnego wyrównania chmury punktów w globalnym układzie współrzędnych. Aby udoskonalić naszą reprezentację sceny, filtrowanie tła usuwa elementy zidentyfikowane jako tło, takie jak ściany czy podłogi. Te elementy są wyłączone z dalszego przetwarzania, szczególnie na etapie grupowania, ponieważ nie stanowią głównego punktu zainteresowania naszej reprezentacji sceny.

\ Zestaw chmur punktów obiektów jest dalej przetwarzany przy użyciu grupowania DBSCAN[34] w celu udoskonalenia reprezentacji. Chmura punktów jest próbkowana w dół za pomocą filtrowania siatki wokseli, aby zmniejszyć liczbę punktów i złożoność obliczeniową, zachowując jednocześnie zarządzalną strukturę przestrzenną danych. DBSCAN grupuje punkty, które są ściśle upakowane, jednocześnie oznaczając punkty znajdujące się samotnie w regionach o niskiej gęstości jako szum. W kroku po grupowaniu identyfikowany jest największy klaster, który zazwyczaj odpowiada głównemu obiektowi zainteresowania w chmurze punktów. Pomaga to odfiltrować szum i nieistotne punkty, tworząc czystszą reprezentację obiektu zainteresowania.

\ Pozycja obiektu w przestrzeni 3D jest określana poprzez obliczenie orientacji prostopadłościanu ograniczającego, który oferuje zwięzłą przestrzenną reprezentację lokalizacji i rozmiaru obiektu w przestrzeni 3D. Następnie wyjście mapy 3D jest inicjalizowane z początkowym zestawem węzłów, zawierających osadzenia cech, dane chmury punktów, prostopadłościany ograniczające oraz liczbę punktów w chmurze punktów powiązanych z każdym węzłem. Każdy węzeł zawiera również informacje o źródle, aby ułatwić śledzenie pochodzenia danych i powiązanie między węzłami a ich odpowiednikami w obrazach 2D.

\ 3.3.2. Przyrostowa aktualizacja O3D-SIM

\ Po zainicjowaniu sceny aktualizujemy reprezentację danymi z nowych obrazów. Ten proces zapewnia, że nasza scena 3D pozostaje aktualna i precyzyjna w miarę dostępności dodatkowych informacji. Iteruje on po każdym obrazie w sekwencji obrazów; dla każdego nowego obrazu wyodrębniane są dane wielu obiektów i scena jest aktualizowana.

\ Obiekty są wykrywane dla każdego nowego obrazu, a nowe węzły są tworzone podobnie jak w przypadku początkowego obrazu. Te tymczasowe węzły zawierają dane 3D dla nowo wykrytych obiektów, które muszą zostać albo połączone z istniejącą sceną, albo dodane jako nowe węzły. Podobieństwo między nowo wykrytymi a istniejącymi węzłami sceny jest określane przez połączenie podobieństwa wizualnego, pochodzącego z osadzeń cech, oraz podobieństwa przestrzennego (geometrycznego), uzyskanego z nakładania się chmur punktów, w celu sformułowania zagregowanej miary podobieństwa. Jeśli ta miara przekracza ustalony próg, nowe wykrycie jest uznawane za odpowiadające istniejącemu obiektowi w scenie. Rzeczywiście, nowo wykryty węzeł jest albo łączony z istniejącym węzłem sceny, albo dodawany jako nowy węzeł.

\ Łączenie obejmuje integrację chmur punktów i uśrednianie osadzeń cech. Obliczana jest średnia ważona osadzeń CLIP i DINO, uwzględniająca wkład z informacji o kluczu źródłowym, z preferencją dla węzłów z większą liczbą identyfikatorów źródłowych. Jeśli nowy węzeł musi zostać dodany, jest włączany do słownika sceny.

\ Udoskonalanie sceny następuje po dodaniu obiektów ze wszystkich obrazów w sekwencji wejściowej. Ten proces konsoliduje węzły, które reprezentują te same obiekty fizyczne, ale początkowo zostały zidentyfikowane jako oddzielne z powodu okluzji, zmian punktu widzenia lub podobnych czynników. Wykorzystuje on macierz nakładania się do identyfikacji węzłów, które dzielą przestrzenną zajętość i logicznie łączy je w jeden węzeł. Scena jest finalizowana przez odrzucenie węzłów, które nie spełniają minimalnej liczby punktów lub kryteriów wykrywania. Prowadzi to do udoskonalonej i zoptymalizowanej końcowej reprezentacji sceny - Mapy Instancji Semantycznych 3D typu OpenSet, znane również jako O3D-SIM.

\

:::info Autorzy:

(1) Laksh Nanwani, Międzynarodowy Instytut Technologii Informacyjnych, Hyderabad, Indie; ten autor przyczynił się w równym stopniu do tej pracy;

(2) Kumaraditya Gupta, Międzynarodowy Instytut Technologii Informacyjnych, Hyderabad, Indie;

(3) Aditya Mathur, Międzynarodowy Instytut Technologii Informacyjnych, Hyderabad, Indie; ten autor przyczynił się w równym stopniu do tej pracy;

(4) Swayam Agrawal, Międzynarodowy Instytut Technologii Informacyjnych, Hyderabad, Indie;

(5) A.H. Abdul Hafez, Uniwersytet Hasan Kalyoncu, Sahinbey, Gaziantep, Turcja;

(6) K. Madhava Krishna, Międzynarodowy Instytut Technologii Informacyjnych, Hyderabad, Indie.

:::


:::info Ten artykuł jest dostępny na arxiv na licencji CC by-SA 4.0 Deed (Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowa).

:::

\

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.