نبذة مختصرة و1 مقدمة
الأعمال ذات الصلة
2.1. التنقل بالرؤية واللغة
2.2. فهم المشهد الدلالي وتجزئة الكائنات
2.3. إعادة بناء المشهد ثلاثي الأبعاد
المنهجية
3.1. جمع البيانات
3.2. المعلومات الدلالية مفتوحة المجموعة من الصور
3.3. إنشاء التمثيل ثلاثي الأبعاد مفتوح المجموعة
3.4. التنقل الموجه باللغة
التجارب
4.1. التقييم الكمي
4.2. النتائج النوعية
الخاتمة والعمل المستقبلي، وبيان الإفصاح، والمراجع
في هذا القسم، نناقش مسار عمل طريقة التنقل بالرؤية واللغة (VLN) التي تستخدم O3D-SIM. نبدأ بنظرة عامة على مسار العمل المقترح ثم نقدم تحليلاً متعمقاً لخطواته المكونة. تتضمن المرحلة الأولية من منهجيتنا جمع البيانات، التي تتكون من مجموعة من صور RGB-D ومعلمات الكاميرا الخارجية والداخلية، والتي يتم توضيحها أولاً. بعد ذلك، ننتقل إلى إنشاء خريطة الكائنات الدلالية ثلاثية الأبعاد مفتوحة المجموعة. تنقسم هذه العملية إلى مرحلتين رئيسيتين: في البداية، نستخرج معلومات الكائنات الدلالية مفتوحة المجموعة من الصور؛ بعد ذلك، نستخدم المعلومات المفتوحة المجمعة لتنظيم السحابة النقطية ثلاثية الأبعاد في خريطة كائنات دلالية ثلاثية الأبعاد مفتوحة المجموعة. يركز الجزء الأخير من مناقشتنا على وحدة VLN، حيث نتحدث عن تنفيذها ووظائفها.
\ يتم توضيح مسار عمل إنشاء O3D-SIM في الشكل 2. الخطوة الأولى من إنشاء O3D-SIM، المقدمة في القسم 3.2، هي استخراج معلومات الكائنات الدلالية مفتوحة المجموعة من تسلسل RGB للصور المدخلة. تتضمن هذه المعلومات، لكل كائن، معلومات القناع والميزات الدلالية الممثلة بميزات تضمين CLIP [9] و DINO [10]. الخطوة الثانية، المقدمة في القسم 3.3، تستخدم معلومات الكائنات الدلالية مفتوحة المجموعة هذه لتجميع السحابة النقطية ثلاثية الأبعاد المدخلة في خريطة كائنات دلالية ثلاثية الأبعاد مفتوحة المجموعة، انظر الشكلين 2 و 3. يتم تحسين العملية بشكل تدريجي من خلال تطبيق تسلسل صور RGB-D بمرور الوقت.
\
:::info المؤلفون:
(1) لاكش نانواني، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛
(2) كوماراديتيا جوبتا، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛
(3) أديتيا ماثور، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛
(4) سوايام أغراوال، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛
(5) أ.هـ. عبد الحافظ، جامعة حسن كاليونجو، شاهينبي، غازي عنتاب، تركيا؛
(6) ك. مادهافا كريشنا، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند.
:::
:::info هذه الورقة متاحة على arxiv تحت رخصة CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


