يقدم NVIDIA's CCCL 3.1 ثلاثة مستويات من الحتمية للتخفيضات المتوازية، مما يتيح للمطورين المقايضة بين الأداء وقابلية التكرار في حسابات GPU. (اقرأيقدم NVIDIA's CCCL 3.1 ثلاثة مستويات من الحتمية للتخفيضات المتوازية، مما يتيح للمطورين المقايضة بين الأداء وقابلية التكرار في حسابات GPU. (اقرأ

NVIDIA CCCL 3.1 يضيف ضوابط الحتمية للنقطة العائمة لحوسبة GPU

2026/03/06 01:46
3 دقيقة قراءة
للحصول على ملاحظات أو استفسارات بشأن هذا المحتوى، يرجى التواصل معنا على [email protected]

NVIDIA CCCL 3.1 يضيف ضوابط الحتمية للنقطة العائمة للحوسبة على GPU

Caroline Bishop ٥ مارس ٢٠٢٦ ٥:٤٦ م

يقدم NVIDIA CCCL 3.1 ثلاثة مستويات من الحتمية للتخفيضات المتوازية، مما يتيح للمطورين تبادل الأداء بالقابلية للتكرار في حسابات GPU.

NVIDIA CCCL 3.1 يضيف ضوابط الحتمية للنقطة العائمة للحوسبة على GPU

أطلقت NVIDIA ضوابط الحتمية في مكتبات CUDA Core Compute Libraries (CCCL) 3.1، لمعالجة مشكلة مستمرة في الحوسبة المتوازية على GPU: الحصول على نتائج متطابقة من عمليات النقطة العائمة عبر عمليات تشغيل متعددة وأجهزة مختلفة.

يقدم التحديث ثلاثة مستويات قابلة للتكوين من الحتمية من خلال واجهة برمجة تطبيقات جديدة أحادية المرحلة من CUB، مما يمنح المطورين تحكمًا صريحًا في المفاضلة بين القابلية للتكرار والأداء التي ابتليت بها تطبيقات GPU لسنوات.

لماذا تهم حتمية النقطة العائمة

إليك المشكلة: إضافة النقطة العائمة ليست ترابطية بشكل صارم. بسبب التقريب عند دقة محدودة، (a + b) + c لا تساوي دائمًا a + (b + c). عندما تجمع خيوط متوازية القيم بترتيبات غير متوقعة، تحصل على نتائج مختلفة قليلاً في كل تشغيل. بالنسبة للعديد من التطبيقات - النمذجة المالية، المحاكاة العلمية، حسابات البلوكتشين، تدريب التعلم الآلي - يخلق هذا التناقض مشاكل حقيقية.

تتيح واجهة برمجة التطبيقات الجديدة للمطورين تحديد مقدار القابلية للتكرار الذي يحتاجونه بالضبط من خلال ثلاثة أوضاع:

الحتمية غير المضمونة تعطي الأولوية للسرعة الخام. تستخدم عمليات ذرية يتم تنفيذها بأي ترتيب تعمل به الخيوط، لإكمال التخفيضات في إطلاق kernel واحد. قد تختلف النتائج قليلاً بين عمليات التشغيل، ولكن بالنسبة للتطبيقات التي تكفي فيها الإجابات التقريبية، فإن مكاسب الأداء كبيرة - خاصة على مصفوفات الإدخال الأصغر حيث يهيمن العبء الإضافي لإطلاق kernel.

الحتمية من تشغيل إلى تشغيل (الافتراضي) تضمن مخرجات متطابقة عند استخدام نفس الإدخال وتكوين kernel و GPU. تحقق NVIDIA ذلك عن طريق هيكلة التخفيضات كأشجار هرمية ثابتة بدلاً من الاعتماد على العمليات الذرية. تتحد العناصر داخل الخيوط أولاً، ثم عبر warps عبر تعليمات shuffle، ثم عبر الكتل باستخدام الذاكرة المشتركة، مع kernel ثانٍ يجمع النتائج النهائية.

الحتمية من GPU إلى GPU توفر أكثر قابلية تكرار صارمة، مما يضمن نتائج متطابقة عبر GPUs NVIDIA المختلفة. يستخدم التنفيذ مجمع نقطة عائمة قابل للتكرار (RFA) الذي يجمع قيم الإدخال في نطاقات أسية ثابتة - افتراضيًا إلى ثلاثة صناديق - لمواجهة مشكلات عدم الترابط التي تنشأ عند إضافة أرقام بمقادير مختلفة.

مفاضلات الأداء

تحدد معايير NVIDIA على GPUs H200 تكلفة القابلية للتكرار. تزيد الحتمية من GPU إلى GPU وقت التنفيذ بنسبة 20٪ إلى 30٪ لأحجام المشاكل الكبيرة مقارنة بالوضع المريح. تقع الحتمية من تشغيل إلى تشغيل بين الطرفين.

يوفر تكوين RFA ثلاثي الصناديق ما تسميه NVIDIA "افتراضي مثالي" يوازن بين الدقة والسرعة. تحسن الصناديق الأكثر الدقة العددية ولكنها تضيف جمعًا وسيطًا يبطئ التنفيذ.

تفاصيل التنفيذ

يصل المطورون إلى الضوابط الجديدة من خلال cuda::execution::require()، الذي ينشئ كائن بيئة تنفيذ يتم تمريره إلى وظائف التخفيض. بناء الجملة واضح ومباشر - تعيين الحتمية إلى not_guaranteed أو run_to_run أو gpu_to_gpu اعتمادًا على المتطلبات.

تعمل الميزة فقط مع واجهة برمجة تطبيقات جديدة أحادية المرحلة من CUB؛ واجهة برمجة التطبيقات القديمة ثنائية المرحلة لا تقبل بيئات التنفيذ.

الآثار الأوسع

كانت قابلية التكرار للنقطة العائمة عبر المنصات تحديًا معروفًا في الحوسبة عالية الأداء وتطبيقات البلوكتشين، حيث يمكن أن تنتج المجمعات المختلفة وعلامات التحسين والبنى الأساسية للأجهزة نتائج متباينة من عمليات متطابقة رياضيًا. يمثل نهج NVIDIA في الكشف صراحة عن الحتمية كمعامل قابل للتكوين بدلاً من إخفاء تفاصيل التنفيذ حلاً عمليًا.

تخطط الشركة لتوسيع ضوابط الحتمية إلى ما وراء التخفيضات إلى عناصر متوازية إضافية. يمكن للمطورين تتبع التقدم وطلب خوارزميات محددة من خلال مستودع GitHub من NVIDIA، حيث تتتبع مشكلة مفتوحة خارطة طريق الحتمية الموسعة.

مصدر الصورة: Shutterstock
  • nvidia
  • gpu computing
  • cccl
  • floating-point determinism
  • cuda
فرصة السوق
شعار Ucan fix life in1day
Ucan fix life in1day السعر(1)
$0.0005043
$0.0005043$0.0005043
+17.06%
USD
مخطط أسعار Ucan fix life in1day (1) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني [email protected] لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.