خلاصه و 1 مقدمه
کارهای مرتبط
2.1. ناوبری بینایی و زبان
2.2. درک معنایی صحنه و تقسیمبندی نمونه
2.3. بازسازی صحنه سه بعدی
روششناسی
3.1. جمعآوری دادهها
3.2. اطلاعات معنایی مجموعه باز از تصاویر
3.3. ایجاد نمایش سه بعدی مجموعه باز
3.4. ناوبری هدایت شده با زبان
آزمایشها
4.1. ارزیابی کمی
4.2. نتایج کیفی
نتیجهگیری و کارهای آینده، بیانیه افشا و منابع
برای تکمیل ساخت O3D-SIM، اکنون با استفاده از ویژگیهای استخراج شده برای هر شیء با تصویر کردن اطلاعات شیء به فضای سه بعدی، خوشهبندی و ارتباط اشیاء در چندین تصویر، یک نمایش جامع صحنه سه بعدی ایجاد میکنیم. فرآیند تصویر کردن اطلاعات معنایی به فضای سه بعدی و پالایش نقشه در شکل 3 نشان داده شده است.
\ 3.3.1. مقداردهی اولیه O3D-SIM
\ نقشه سه بعدی در ابتدا با استفاده از یک تصویر انتخاب شده ایجاد میشود که به عنوان قاب مرجع برای مقداردهی اولیه نمایش صحنه ما عمل میکند. این مرحله ساختار پایه صحنه سه بعدی ما را ایجاد میکند که سپس به تدریج با دادههای تصاویر بعدی برای غنیسازی پیچیدگی و جزئیات صحنه تقویت میشود.
\ دادههای مربوط به اشیاء در یک صحنه سه بعدی به عنوان گرههایی در یک دیکشنری سازماندهی میشوند که در ابتدا خالی است. سپس اشیاء از تصویر اولیه همراه با دادههای مرتبط که شامل ویژگیهای جاسازی و اطلاعات مربوط به ماسکهای آنها است، شناسایی میشوند. برای هر شیء تشخیص داده شده در تصویر، یک ابر نقطه سه بعدی با استفاده از اطلاعات عمق موجود و ماسک شیء ایجاد میشود. این تشکیل ابر نقطه شامل نگاشت پیکسلهای دو بعدی به فضای سه بعدی است که توسط پارامترهای ذاتی دوربین و مقادیر عمق تسهیل میشود. سپس، از وضعیت دوربین برای تراز کردن دقیق ابر نقطه در سیستم مختصات جهانی استفاده میشود. برای پالایش نمایش صحنه ما، فیلتر کردن پسزمینه عناصری را که به عنوان پسزمینه شناسایی شدهاند، مانند دیوارها یا کفها، حذف میکند. این عناصر از پردازش بیشتر، به ویژه در مرحله خوشهبندی، حذف میشوند، زیرا آنها تمرکز اصلی نمایش صحنه ما را تشکیل نمیدهند.
\ مجموعه ابر نقاط اشیاء با استفاده از خوشهبندی DBSCAN[34] برای پالایش نمایش بیشتر پردازش میشود. ابر نقطه از طریق فیلتر شبکه وکسل نمونهبرداری کاهشی میشود تا تعداد نقاط و پیچیدگی محاسباتی را کاهش دهد و در عین حال ساختار فضایی دادهها را قابل مدیریت نگه دارد. DBSCAN نقاطی را که به طور فشرده در کنار هم قرار دارند گروهبندی میکند و نقاطی را که در مناطق کم تراکم به تنهایی قرار دارند به عنوان نویز برچسبگذاری میکند. در یک مرحله پس از خوشهبندی، بزرگترین خوشه معمولاً مربوط به شیء اصلی مورد نظر در ابر نقطه است که شناسایی میشود. این کمک میکند تا نویز و نقاط نامربوط فیلتر شوند و نمایش تمیزتری از شیء مورد نظر ایجاد شود.
\ وضعیت یک شیء در فضای سه بعدی با محاسبه جهتگیری یک جعبه محدود کننده تعیین میشود که نمایش فضایی مختصری از موقعیت و اندازه شیء در فضای سه بعدی ارائه میدهد. سپس، خروجی نقشه سه بعدی با مجموعه اولیهای از گرهها مقداردهی اولیه میشود که ویژگیهای جاسازی، دادههای ابر نقطه، جعبههای محدود کننده و تعداد نقاط در ابر نقطه مرتبط با هر گره را در بر میگیرد. هر گره همچنین شامل اطلاعات منبع برای تسهیل ردیابی منشأ دادهها و ارتباط بین گرهها و همتایان تصویر دو بعدی آنها است.
\ 3.3.2. بهروزرسانی تدریجی O3D-SIM
\ پس از مقداردهی اولیه صحنه، ما نمایش را با دادههای تصاویر جدید بهروزرسانی میکنیم. این فرآیند اطمینان میدهد که صحنه سه بعدی ما با در دسترس قرار گرفتن اطلاعات اضافی، بهروز و دقیق باقی میماند. این فرآیند برای هر تصویر در توالی تصویر تکرار میشود؛ برای هر تصویر جدید، دادههای چند شیء استخراج میشود و صحنه بهروزرسانی میشود.
\ اشیاء برای هر تصویر جدید تشخیص داده میشوند و گرههای جدید مانند تصویر اولیه ایجاد میشوند. این گرههای موقت حاوی دادههای سه بعدی برای اشیاء تازه تشخیص داده شده هستند که باید یا با صحنه موجود ادغام شوند یا به عنوان گرههای جدید اضافه شوند. شباهت بین گرههای صحنه تازه تشخیص داده شده و موجود با ترکیب شباهت بصری، مشتق شده از ویژگیهای جاسازی، و شباهت فضایی (هندسی)، به دست آمده از همپوشانی ابر نقطه، برای فرمولبندی یک معیار شباهت کلی تعیین میشود. اگر این معیار از یک آستانه از پیش تعیین شده فراتر رود، تشخیص جدید به عنوان مطابق با یک شیء موجود در صحنه در نظر گرفته میشود. در واقع، گره تازه تشخیص داده شده یا با یک گره صحنه موجود ادغام میشود یا به عنوان یک گره جدید اضافه میشود.
\ ادغام شامل یکپارچهسازی ابرهای نقطه و میانگینگیری از ویژگیهای جاسازی است. میانگین وزنی از جاسازیهای CLIP و DINO با در نظر گرفتن مشارکت از اطلاعات کلید منبع، با ترجیح برای گرههایی با شناسههای منبع بیشتر محاسبه میشود. اگر نیاز به افزودن یک گره جدید باشد، در دیکشنری صحنه گنجانده میشود.
\ پالایش صحنه پس از افزودن اشیاء از تمام تصاویر در توالی ورودی رخ میدهد. این فرآیند گرههایی را که نشاندهنده همان اشیاء فیزیکی هستند اما در ابتدا به دلیل انسدادها، تغییرات نقطه دید یا عوامل مشابه به صورت جداگانه شناسایی شدهاند، تلفیق میکند. از یک ماتریس همپوشانی برای شناسایی گرههایی که اشغال فضایی مشترک دارند استفاده میکند و آنها را به صورت منطقی در یک گره واحد ادغام میکند. صحنه با حذف گرههایی که حداقل تعداد نقاط یا معیارهای تشخیص را برآورده نمیکنند، نهایی میشود. این منجر به یک نمایش صحنه نهایی پالایش شده و بهینهسازی شده میشود - نقشههای نمونه معنایی سه بعدی مجموعه باز، یا به اختصار O3D-SIM.
\
:::info نویسندگان:
(1) لاکش نانوانی، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛ این نویسنده به طور مساوی در این کار مشارکت داشته است؛
(2) کوماراادیتیا گوپتا، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛
(3) آدیتیا ماتور، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛ این نویسنده به طور مساوی در این کار مشارکت داشته است؛
(4) سوایام آگراوال، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛
(5) ای.اچ. عبدالحافظ، دانشگاه حسن کالیونجو، شاهینبی، غازیعنتاب، ترکیه؛
(6) کی. مادهاوا کریشنا، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند.
:::
:::info این مقاله در arxiv در دسترس است تحت مجوز CC by-SA 4.0 Deed (نسبت دادن-اشتراکگذاری مشابه 4.0 بینالمللی).
:::
\


