Анотація та 1 Вступ
Пов'язані роботи
2.1. Навігація на основі зору та мови
2.2. Семантичне розуміння сцени та сегментація екземплярів
2.3. 3D реконструкція сцени
Методологія
3.1. Збір даних
3.2. Відкрита семантична інформація з зображень
3.3. Створення відкритого 3D представлення
3.4. Навігація на основі мови
Експерименти
4.1. Кількісна оцінка
4.2. Якісні результати
Висновок та майбутня робота, Заява про розкриття інформації та Посилання
У цьому розділі ми обговорюємо конвеєр нашого методу навігації на основі зору та мови (VLN), який використовує O3D-SIM. Ми починаємо з огляду нашого запропонованого конвеєра, а потім представляємо глибокий аналіз його складових етапів. Початкова фаза нашої методології включає збір даних, що складається з набору RGB-D зображень та зовнішніх і внутрішніх параметрів камери, які описані спочатку. Згодом ми переходимо до створення відкритої 3D семантичної карти екземплярів. Цей процес поділяється на два основні етапи: спочатку ми витягуємо відкриту семантичну інформацію про екземпляри із зображень; після цього ми використовуємо зібрану відкриту інформацію для організації 3D хмари точок у відкриту 3D семантичну карту екземплярів. Остання частина нашого обговорення зосереджена на модулі VLN, де ми говоримо про його реалізацію та функціональність.
\ Конвеєр створення O3D-SIM зображено на рис.2. Перший крок створення O3D-SIM, представлений у розділі 3.2, - це вилучення відкритої семантичної інформації про екземпляри з RGB-послідовності вхідних зображень. Ця інформація включає для кожного екземпляра об'єкта інформацію про маску та семантичні особливості, представлені вбудованими функціями CLIP [9] та DINO [10]. Другий крок, представлений у розділі 3.3, використовує цю відкриту семантичну інформацію про екземпляри для кластеризації вхідної 3D хмари точок у відкриту семантичну 3D карту об'єктів, див. рисунки 2 і 3. Операція покращується поступово шляхом застосування послідовності RGB-D зображень з часом.
\
:::info Автори:
(1) Лакш Нанвані, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;
(2) Кумарадітья Гупта, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;
(3) Адітья Матур, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;
(4) Свайям Аграваль, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;
(5) А.Х. Абдул Хафез, Університет Хасана Кальйонджу, Шахінбей, Газіантеп, Туреччина;
(6) К. Мадхава Крішна, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія.
:::
:::info Ця стаття доступна на arxiv за ліцензією CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


