5.8 مليون IOPS: لماذا كل هذا؟

مرحبا حبر! تنمو مجموعات البيانات الخاصة بالبيانات الضخمة والتعلم الآلي بشكل كبير ونحن بحاجة إلى مواكبة ذلك. منشورنا حول تقنية مبتكرة أخرى في مجال الحوسبة عالية الأداء (HPC، الحوسبة عالية الأداء)، المعروضة في جناح كينغستون في الحوسبة الفائقة-2019. هذا هو استخدام أنظمة تخزين البيانات عالية الجودة (SDS) في الخوادم المزودة بوحدات معالجة الرسومات (GPU) وتقنية ناقل التخزين GPUDirect. بفضل التبادل المباشر للبيانات بين نظام التخزين ووحدة معالجة الرسومات، وتجاوز وحدة المعالجة المركزية، يتم تسريع تحميل البيانات في مسرعات وحدة معالجة الرسومات بترتيب من حيث الحجم، لذلك تعمل تطبيقات البيانات الضخمة بأقصى أداء توفره وحدات معالجة الرسومات. وفي المقابل، يهتم مطورو أنظمة HPC بالتطورات في أنظمة التخزين ذات أعلى سرعات الإدخال/الإخراج، مثل تلك التي تنتجها شركة Kingston.

5.8 مليون IOPS: لماذا كل هذا؟

أداء وحدة معالجة الرسومات يفوق تحميل البيانات

منذ إنشاء CUDA في عام 2007، وهي عبارة عن بنية حوسبة متوازية للأجهزة والبرامج القائمة على وحدة معالجة الرسومات لتطوير التطبيقات ذات الأغراض العامة، نمت قدرات الأجهزة الخاصة بوحدات معالجة الرسومات نفسها بشكل لا يصدق. اليوم، يتم استخدام وحدات معالجة الرسومات بشكل متزايد في تطبيقات HPC مثل البيانات الضخمة والتعلم الآلي (ML) والتعلم العميق (DL).

لاحظ أنه على الرغم من تشابه المصطلحات، فإن المهمتين الأخيرتين مختلفتان خوارزميًا. يقوم التعلم الآلي بتدريب الكمبيوتر بناءً على البيانات المنظمة، بينما يقوم التعلم التعلم بتدريب الكمبيوتر بناءً على ردود الفعل من الشبكة العصبية. مثال للمساعدة في فهم الاختلافات بسيط للغاية. لنفترض أن الكمبيوتر يجب أن يميز بين صور القطط والكلاب التي يتم تحميلها من نظام التخزين. بالنسبة لتعلم الآلة، يجب عليك إرسال مجموعة من الصور مع العديد من العلامات، والتي تحدد كل منها سمة معينة للحيوان. بالنسبة إلى DL، يكفي تحميل عدد أكبر بكثير من الصور، ولكن مع علامة واحدة فقط "هذه قطة" أو "هذا كلب". يشبه DL إلى حد كبير كيفية تعليم الأطفال الصغار - حيث يتم عرض صور الكلاب والقطط عليهم ببساطة في الكتب وفي الحياة (في أغلب الأحيان، دون حتى شرح الفرق التفصيلي)، ويبدأ دماغ الطفل نفسه في تحديد نوع الحيوان بعد ذلك عدد حرج معين من الصور للمقارنة (وفقًا للتقديرات، نحن نتحدث فقط عن مائة أو عرضين خلال مرحلة الطفولة المبكرة). خوارزميات DL ليست مثالية بعد: لكي تعمل الشبكة العصبية أيضًا بنجاح على تحديد الصور، من الضروري تغذية ملايين الصور ومعالجتها في وحدة معالجة الرسومات.

ملخص المقدمة: استنادًا إلى وحدات معالجة الرسومات، يمكنك إنشاء تطبيقات HPC في مجال البيانات الضخمة وتعلم الآلة وDL، ولكن هناك مشكلة - مجموعات البيانات كبيرة جدًا لدرجة أن الوقت المستغرق في تحميل البيانات من نظام التخزين إلى وحدة معالجة الرسومات يبدأ في تقليل الأداء العام للتطبيق. بمعنى آخر، تظل وحدات معالجة الرسومات السريعة غير مستغلة بشكل كافٍ بسبب بطء بيانات الإدخال/الإخراج القادمة من الأنظمة الفرعية الأخرى. يمكن أن يكون الفرق في سرعة الإدخال/الإخراج لوحدة معالجة الرسومات والناقل إلى وحدة المعالجة المركزية/نظام التخزين أمرًا كبيرًا.

كيف تعمل تقنية التخزين GPUDirect؟

يتم التحكم في عملية الإدخال/الإخراج بواسطة وحدة المعالجة المركزية (CPU)، كما هو الحال في عملية تحميل البيانات من وحدة التخزين إلى وحدات معالجة الرسومات لمزيد من المعالجة. أدى ذلك إلى طلب تقنية من شأنها أن توفر الوصول المباشر بين وحدات معالجة الرسومات ومحركات أقراص NVMe للتواصل بسرعة مع بعضها البعض. كانت NVIDIA أول من قدم مثل هذه التقنية وأطلق عليها اسم GPUDirect Storage. في الواقع، يعد هذا اختلافًا في تقنية GPUDirect RDMA (عنوان الذاكرة المباشرة البعيدة) التي طوروها مسبقًا.

5.8 مليون IOPS: لماذا كل هذا؟
سيقوم Jensen Huang، الرئيس التنفيذي لشركة NVIDIA، بتقديم GPUDirect Storage كبديل لـ GPUDirect RDMA في SC-19. المصدر: نفيديا

يكمن الاختلاف بين GPUDirect RDMA وGPUDirect Storage في الأجهزة التي يتم تنفيذ العنونة بينها. تم إعادة استخدام تقنية GPUDirect RDMA لنقل البيانات مباشرة بين بطاقة واجهة الشبكة الأمامية (NIC) وذاكرة GPU، ويوفر GPUDirect Storage مسارًا مباشرًا للبيانات بين التخزين المحلي أو البعيد مثل NVMe أو NVMe over Fabric (NVMe-oF) و ذاكرة GPU.

يتجنب كل من GPUDirect RDMA وGPUDirect Storage تحركات البيانات غير الضرورية من خلال مخزن مؤقت في ذاكرة وحدة المعالجة المركزية ويسمحان لآلية الوصول المباشر إلى الذاكرة (DMA) بنقل البيانات من بطاقة الشبكة أو وحدة التخزين مباشرة إلى أو من ذاكرة GPU - كل ذلك بدون تحميل على وحدة المعالجة المركزية المركزية. بالنسبة للتخزين GPUDirect، لا يهم موقع التخزين: يمكن أن يكون قرص NVME داخل وحدة GPU، أو داخل حامل، أو متصل عبر الشبكة مثل NVMe-oF.

5.8 مليون IOPS: لماذا كل هذا؟
مخطط تشغيل وحدة تخزين GPUDirect. المصدر: نفيديا

هناك طلب على أنظمة التخزين عالية الجودة على NVMe في سوق تطبيقات HPC

إدراكًا أنه مع ظهور GPUDirect Storage، سيتم جذب اهتمام كبار العملاء إلى تقديم أنظمة تخزين بسرعات إدخال/إخراج تتوافق مع إنتاجية وحدة معالجة الرسومات، وقد أظهر Kingston في معرض SC-19 عرضًا توضيحيًا لنظام يتكون من نظام تخزين يعتمد على أقراص NVMe ووحدة مزودة بوحدة معالجة الرسومات، والتي تقوم بتحليل آلاف صور الأقمار الصناعية في الثانية. لقد كتبنا بالفعل عن نظام التخزين هذا استنادًا إلى 10 محركات أقراص DC1000M U.2 NVMe في تقرير من معرض الكمبيوتر العملاق.

5.8 مليون IOPS: لماذا كل هذا؟
نظام تخزين يعتمد على 10 محركات أقراص DC1000M U.2 NVMe يكمل بشكل مناسب الخادم المزود بمسرعات الرسومات. المصدر: كينغستون

تم تصميم نظام التخزين هذا كوحدة حامل مكونة من وحدة واحدة أو وحدة حامل أكبر ويمكن زيادتها اعتمادًا على عدد محركات أقراص DC1M U.1000 NVMe، التي تبلغ سعة كل منها 2-3.84 تيرابايت. يعد DC7.68M أول طراز NVMe SSD في عامل الشكل U.1000 في خط محركات أقراص مركز البيانات من Kingston. يتمتع بتصنيف التحمل (DWPD، يكتب Drive يوميًا)، مما يسمح له بإعادة كتابة البيانات بكامل طاقتها مرة واحدة يوميًا لضمان عمر محرك الأقراص.

في اختبار fio v3.13 على نظام التشغيل Ubuntu 18.04.3 LTS، Linux kernel 5.0.0-31-generic، أظهرت عينة تخزين المعرض سرعة قراءة (قراءة مستدامة) تبلغ 5.8 مليون IOPS مع إنتاجية مستدامة (نطاق ترددي مستدام) ) 23.8 جيجابت/ثانية.

قال أرييل بيريز، مدير أعمال SSD في Kingston، عن أنظمة التخزين الجديدة: “نحن على استعداد لتزويد الجيل التالي من الخوادم بحلول U.2 NVMe SSD للتخلص من العديد من اختناقات نقل البيانات التي كانت مرتبطة تقليديًا بالتخزين. إن الجمع بين محركات أقراص NVMe SSD وServer Premier DRAM المتميز يجعل من Kingston أحد موفري حلول البيانات الشاملة الأكثر شمولاً في الصناعة."

5.8 مليون IOPS: لماذا كل هذا؟
أظهر اختبار gfio v3.13 إنتاجية تبلغ 23.8 جيجابت في الثانية لنظام التخزين التجريبي على محركات أقراص DC1000M U.2 NVMe. المصدر: كينغستون

كيف سيبدو النظام النموذجي لتطبيقات HPC باستخدام GPUDirect Storage أو تقنية مشابهة؟ هذه بنية ذات فصل فعلي للوحدات الوظيفية داخل الحامل: وحدة أو وحدتان لذاكرة الوصول العشوائي (RAM)، وعدة وحدات أخرى لعقد حوسبة وحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU)، ووحدة واحدة أو أكثر لأنظمة التخزين.

ومع الإعلان عن وحدة GPUDirect Storage والظهور المحتمل لتقنيات مماثلة من موردي وحدات معالجة الرسومات الآخرين، يتزايد طلب Kingston على أنظمة التخزين المصممة للاستخدام في الحوسبة عالية الأداء. ستكون العلامة هي سرعة قراءة البيانات من نظام التخزين، والتي يمكن مقارنتها بإنتاجية بطاقات الشبكة ذات 40 أو 100 جيجابت عند مدخل وحدة الحوسبة المزودة بوحدة معالجة الرسومات. وبالتالي، فإن أنظمة التخزين فائقة السرعة، بما في ذلك NVMe الخارجية عبر Fabric، ستنتقل من كونها غريبة إلى التيار الرئيسي لتطبيقات HPC. وبالإضافة إلى الحسابات العلمية والمالية، فإنها ستجد تطبيقًا في العديد من المجالات العملية الأخرى، مثل الأنظمة الأمنية على مستوى مدينة Safe City الحضرية أو مراكز مراقبة النقل، حيث تكون هناك حاجة إلى سرعات التعرف والتعرف على ملايين الصور عالية الدقة في الثانية. مكانة السوق في نظام التخزين العلوي

يمكن العثور على مزيد من المعلومات حول منتجات Kingston على الموقع الرسمي شركة.

المصدر: www.habr.com

إضافة تعليق