O3D-SIM با تصویر کردن ماسک‌های دو بعدی و جاسازی‌ها به سه بعدی ساخته شده است، با استفاده از DBSCAN برای پالایش اولیه.O3D-SIM با تصویر کردن ماسک‌های دو بعدی و جاسازی‌ها به سه بعدی ساخته شده است، با استفاده از DBSCAN برای پالایش اولیه.

ساخت نمایش سه‌بعدی مجموعه باز: ادغام ویژگی و ترکیب هندسی-معنایی

2025/12/15 01:00

خلاصه و 1 مقدمه

  1. کارهای مرتبط

    2.1. ناوبری بینایی و زبان

    2.2. درک معنایی صحنه و تقسیم‌بندی نمونه

    2.3. بازسازی صحنه سه بعدی

  2. روش‌شناسی

    3.1. جمع‌آوری داده‌ها

    3.2. اطلاعات معنایی مجموعه باز از تصاویر

    3.3. ایجاد نمایش سه بعدی مجموعه باز

    3.4. ناوبری هدایت شده با زبان

  3. آزمایش‌ها

    4.1. ارزیابی کمی

    4.2. نتایج کیفی

  4. نتیجه‌گیری و کارهای آینده، بیانیه افشا و منابع

3.3. ایجاد نمایش سه بعدی مجموعه باز

برای تکمیل ساخت O3D-SIM، اکنون با استفاده از ویژگی‌های استخراج شده برای هر شیء با تصویر کردن اطلاعات شیء به فضای سه بعدی، خوشه‌بندی و ارتباط اشیاء در چندین تصویر، یک نمایش جامع صحنه سه بعدی ایجاد می‌کنیم. فرآیند تصویر کردن اطلاعات معنایی به فضای سه بعدی و پالایش نقشه در شکل 3 نشان داده شده است.

\ 3.3.1. مقداردهی اولیه O3D-SIM

\ نقشه سه بعدی در ابتدا با استفاده از یک تصویر انتخاب شده ایجاد می‌شود که به عنوان قاب مرجع برای مقداردهی اولیه نمایش صحنه ما عمل می‌کند. این مرحله ساختار پایه صحنه سه بعدی ما را ایجاد می‌کند که سپس به تدریج با داده‌های تصاویر بعدی برای غنی‌سازی پیچیدگی و جزئیات صحنه تقویت می‌شود.

\ داده‌های مربوط به اشیاء در یک صحنه سه بعدی به عنوان گره‌هایی در یک دیکشنری سازماندهی می‌شوند که در ابتدا خالی است. سپس اشیاء از تصویر اولیه همراه با داده‌های مرتبط که شامل ویژگی‌های جاسازی و اطلاعات مربوط به ماسک‌های آنها است، شناسایی می‌شوند. برای هر شیء تشخیص داده شده در تصویر، یک ابر نقطه سه بعدی با استفاده از اطلاعات عمق موجود و ماسک شیء ایجاد می‌شود. این تشکیل ابر نقطه شامل نگاشت پیکسل‌های دو بعدی به فضای سه بعدی است که توسط پارامترهای ذاتی دوربین و مقادیر عمق تسهیل می‌شود. سپس، از وضعیت دوربین برای تراز کردن دقیق ابر نقطه در سیستم مختصات جهانی استفاده می‌شود. برای پالایش نمایش صحنه ما، فیلتر کردن پس‌زمینه عناصری را که به عنوان پس‌زمینه شناسایی شده‌اند، مانند دیوارها یا کف‌ها، حذف می‌کند. این عناصر از پردازش بیشتر، به ویژه در مرحله خوشه‌بندی، حذف می‌شوند، زیرا آنها تمرکز اصلی نمایش صحنه ما را تشکیل نمی‌دهند.

\ مجموعه ابر نقاط اشیاء با استفاده از خوشه‌بندی DBSCAN[34] برای پالایش نمایش بیشتر پردازش می‌شود. ابر نقطه از طریق فیلتر شبکه وکسل نمونه‌برداری کاهشی می‌شود تا تعداد نقاط و پیچیدگی محاسباتی را کاهش دهد و در عین حال ساختار فضایی داده‌ها را قابل مدیریت نگه دارد. DBSCAN نقاطی را که به طور فشرده در کنار هم قرار دارند گروه‌بندی می‌کند و نقاطی را که در مناطق کم تراکم به تنهایی قرار دارند به عنوان نویز برچسب‌گذاری می‌کند. در یک مرحله پس از خوشه‌بندی، بزرگترین خوشه معمولاً مربوط به شیء اصلی مورد نظر در ابر نقطه است که شناسایی می‌شود. این کمک می‌کند تا نویز و نقاط نامربوط فیلتر شوند و نمایش تمیزتری از شیء مورد نظر ایجاد شود.

\ وضعیت یک شیء در فضای سه بعدی با محاسبه جهت‌گیری یک جعبه محدود کننده تعیین می‌شود که نمایش فضایی مختصری از موقعیت و اندازه شیء در فضای سه بعدی ارائه می‌دهد. سپس، خروجی نقشه سه بعدی با مجموعه اولیه‌ای از گره‌ها مقداردهی اولیه می‌شود که ویژگی‌های جاسازی، داده‌های ابر نقطه، جعبه‌های محدود کننده و تعداد نقاط در ابر نقطه مرتبط با هر گره را در بر می‌گیرد. هر گره همچنین شامل اطلاعات منبع برای تسهیل ردیابی منشأ داده‌ها و ارتباط بین گره‌ها و همتایان تصویر دو بعدی آنها است.

\ 3.3.2. به‌روزرسانی تدریجی O3D-SIM

\ پس از مقداردهی اولیه صحنه، ما نمایش را با داده‌های تصاویر جدید به‌روزرسانی می‌کنیم. این فرآیند اطمینان می‌دهد که صحنه سه بعدی ما با در دسترس قرار گرفتن اطلاعات اضافی، به‌روز و دقیق باقی می‌ماند. این فرآیند برای هر تصویر در توالی تصویر تکرار می‌شود؛ برای هر تصویر جدید، داده‌های چند شیء استخراج می‌شود و صحنه به‌روزرسانی می‌شود.

\ اشیاء برای هر تصویر جدید تشخیص داده می‌شوند و گره‌های جدید مانند تصویر اولیه ایجاد می‌شوند. این گره‌های موقت حاوی داده‌های سه بعدی برای اشیاء تازه تشخیص داده شده هستند که باید یا با صحنه موجود ادغام شوند یا به عنوان گره‌های جدید اضافه شوند. شباهت بین گره‌های صحنه تازه تشخیص داده شده و موجود با ترکیب شباهت بصری، مشتق شده از ویژگی‌های جاسازی، و شباهت فضایی (هندسی)، به دست آمده از همپوشانی ابر نقطه، برای فرمول‌بندی یک معیار شباهت کلی تعیین می‌شود. اگر این معیار از یک آستانه از پیش تعیین شده فراتر رود، تشخیص جدید به عنوان مطابق با یک شیء موجود در صحنه در نظر گرفته می‌شود. در واقع، گره تازه تشخیص داده شده یا با یک گره صحنه موجود ادغام می‌شود یا به عنوان یک گره جدید اضافه می‌شود.

\ ادغام شامل یکپارچه‌سازی ابرهای نقطه و میانگین‌گیری از ویژگی‌های جاسازی است. میانگین وزنی از جاسازی‌های CLIP و DINO با در نظر گرفتن مشارکت از اطلاعات کلید منبع، با ترجیح برای گره‌هایی با شناسه‌های منبع بیشتر محاسبه می‌شود. اگر نیاز به افزودن یک گره جدید باشد، در دیکشنری صحنه گنجانده می‌شود.

\ پالایش صحنه پس از افزودن اشیاء از تمام تصاویر در توالی ورودی رخ می‌دهد. این فرآیند گره‌هایی را که نشان‌دهنده همان اشیاء فیزیکی هستند اما در ابتدا به دلیل انسدادها، تغییرات نقطه دید یا عوامل مشابه به صورت جداگانه شناسایی شده‌اند، تلفیق می‌کند. از یک ماتریس همپوشانی برای شناسایی گره‌هایی که اشغال فضایی مشترک دارند استفاده می‌کند و آنها را به صورت منطقی در یک گره واحد ادغام می‌کند. صحنه با حذف گره‌هایی که حداقل تعداد نقاط یا معیارهای تشخیص را برآورده نمی‌کنند، نهایی می‌شود. این منجر به یک نمایش صحنه نهایی پالایش شده و بهینه‌سازی شده می‌شود - نقشه‌های نمونه معنایی سه بعدی مجموعه باز، یا به اختصار O3D-SIM.

\

:::info نویسندگان:

(1) لاکش نانوانی، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛ این نویسنده به طور مساوی در این کار مشارکت داشته است؛

(2) کوماراادیتیا گوپتا، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛

(3) آدیتیا ماتور، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛ این نویسنده به طور مساوی در این کار مشارکت داشته است؛

(4) سوایام آگراوال، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند؛

(5) ای.اچ. عبدالحافظ، دانشگاه حسن کالیونجو، شاهین‌بی، غازی‌عنتاب، ترکیه؛

(6) کی. مادهاوا کریشنا، موسسه بین المللی فناوری اطلاعات، حیدرآباد، هند.

:::


:::info این مقاله در arxiv در دسترس است تحت مجوز CC by-SA 4.0 Deed (نسبت دادن-اشتراک‌گذاری مشابه 4.0 بین‌المللی).

:::

\

سلب مسئولیت: مطالب بازنشرشده در این وب‌ سایت از منابع عمومی گردآوری شده‌ اند و صرفاً به‌ منظور اطلاع‌ رسانی ارائه می‌ شوند. این مطالب لزوماً بازتاب‌ دهنده دیدگاه‌ ها یا مواضع MEXC نیستند. کلیه حقوق مادی و معنوی آثار متعلق به نویسندگان اصلی است. در صورت مشاهده هرگونه محتوای ناقض حقوق اشخاص ثالث، لطفاً از طریق آدرس ایمیل [email protected] با ما تماس بگیرید تا مورد بررسی و حذف قرار گیرد.MEXC هیچ‌ گونه تضمینی نسبت به دقت، جامعیت یا به‌ روزبودن اطلاعات ارائه‌ شده ندارد و مسئولیتی در قبال هرگونه اقدام یا تصمیم‌ گیری مبتنی بر این اطلاعات نمی‌ پذیرد. همچنین، محتوای منتشرشده نباید به‌عنوان توصیه مالی، حقوقی یا حرفه‌ ای تلقی شود و به منزله پیشنهاد یا تأیید رسمی از سوی MEXC نیست.

محتوای پیشنهادی