مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

لقد وصل المستقبل، ويتم بالفعل استخدام تقنيات الذكاء الاصطناعي والتعلم الآلي بنجاح من قبل المتاجر المفضلة لديك وشركات النقل وحتى مزارع الديك الرومي.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

وإذا كان هناك شيء ما، فهذا يعني أن هناك بالفعل شيئًا عنه على الإنترنت... مشروع مفتوح! تعرف على كيف يساعدك Open Data Hub على توسيع نطاق التقنيات الجديدة وتجنب تحديات التنفيذ.

مع كل مزايا الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، غالبًا ما تواجه المؤسسات صعوبة في توسيع نطاق هذه التقنيات. المشاكل الرئيسية في هذه الحالة هي عادة ما يلي:

  • تبادل المعلومات والتعاون – يكاد يكون من المستحيل تبادل المعلومات بسهولة والتعاون في التكرارات السريعة.
  • الدخول الى البيانات - لكل مهمة يجب أن يتم بناؤها من جديد ويدويا، الأمر الذي يستغرق الكثير من الوقت.
  • الوصول عند الطلب - لا توجد طريقة للوصول عند الطلب إلى أدوات ومنصات التعلم الآلي، بالإضافة إلى البنية التحتية للحوسبة.
  • إنتاج – تظل النماذج في مرحلة النموذج الأولي ولا يتم تطبيقها للاستخدام الصناعي.
  • تتبع وشرح نتائج الذكاء الاصطناعي - من الصعب تكرار نتائج الذكاء الاصطناعي/التعلم الآلي وتتبعها وتفسيرها.

إذا تركت هذه المشكلات دون معالجة، فإنها تؤثر سلبًا على سرعة وكفاءة وإنتاجية علماء البيانات القيمة. يؤدي هذا إلى إحباطهم وخيبة أملهم في عملهم، ونتيجة لذلك، تضيع توقعات الأعمال فيما يتعلق بالذكاء الاصطناعي/التعلم الآلي.

تقع مسؤولية حل هذه المشكلات على عاتق متخصصي تكنولوجيا المعلومات، الذين يجب عليهم تزويد محللي البيانات بشيء مثل السحابة. بمزيد من التفصيل، نحتاج إلى منصة تمنح حرية الاختيار وتتمتع بإمكانية الوصول إليها بسهولة ويسر. وفي الوقت نفسه، فهو سريع وسهل إعادة التشكيل وقابل للتطوير حسب الطلب ومقاوم للفشل. يساعد بناء مثل هذه المنصة على تقنيات مفتوحة المصدر على تجنب تقييد البائعين والحفاظ على ميزة استراتيجية طويلة المدى من حيث التحكم في التكاليف.

قبل بضع سنوات، حدث شيء مماثل في تطوير التطبيقات وأدى إلى ظهور الخدمات الصغيرة، والسحابات الهجينة، وأتمتة تكنولوجيا المعلومات، والعمليات الرشيقة. للتعامل مع كل هذا، لجأ متخصصو تكنولوجيا المعلومات إلى الحاويات وKubernetes والسحابات الهجينة المفتوحة.

يتم الآن تطبيق هذه التجربة للإجابة على تحديات آل. ولهذا السبب يقوم متخصصو تكنولوجيا المعلومات ببناء منصات تعتمد على الحاويات، وتمكن من إنشاء خدمات الذكاء الاصطناعي/التعلم الآلي ضمن عمليات سريعة، وتسريع الابتكار، ويتم تصميمها مع التركيز على السحابة المختلطة.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

سنبدأ في بناء مثل هذا النظام الأساسي باستخدام Red Hat OpenShift، منصة Kubernetes الخاصة بنا والمخصصة للحاويات للسحابة الهجينة، والتي تتمتع بنظام بيئي سريع النمو من حلول تعلم الآلة للبرامج والأجهزة (NVIDIA، وH2O.ai، وStarburst، وPerceptiLabs، وما إلى ذلك). قام بعض عملاء Red Hat، مثل BMW Group وExxonMobil وغيرهم، بنشر سلاسل أدوات تعلم الآلة المعبأة في حاويات وعمليات DevOps أعلى النظام الأساسي ونظامه البيئي لجلب بنيات تعلم الآلة الخاصة بهم إلى الإنتاج وتسريع عمل محللي البيانات.

سبب آخر لإطلاق مشروع Open Data Hub هو عرض مثال لبنية تعتمد على العديد من مشاريع البرامج مفتوحة المصدر وإظهار كيفية تنفيذ دورة الحياة الكاملة لحل ML استنادًا إلى منصة OpenShift.

مشروع مركز البيانات المفتوح

هذا مشروع مفتوح المصدر تم تطويره ضمن مجتمع التطوير المقابل وينفذ دورة كاملة من العمليات - بدءًا من تحميل البيانات الأولية وتحويلها إلى إنشاء نموذج وتدريبه وصيانته - عند حل مشكلات الذكاء الاصطناعي/تعلم الآلة باستخدام الحاويات وKubernetes على OpenShift منصة. يمكن اعتبار هذا المشروع تطبيقًا مرجعيًا، ومثالًا لكيفية إنشاء حل مفتوح للذكاء الاصطناعي/تعلم الآلة كخدمة يعتمد على OpenShift والأدوات مفتوحة المصدر ذات الصلة مثل Tensorflow وJupyterHub وSpark وغيرها. من المهم ملاحظة أن Red Hat نفسها تستخدم هذا المشروع لتقديم خدمات AI/ML الخاصة بها. بالإضافة إلى ذلك، يتكامل OpenShift مع حلول التعلم الآلي للبرامج والأجهزة الرئيسية من NVIDIA وSeldon وStarbust وغيرهم من الموردين، مما يسهل إنشاء أنظمة التعلم الآلي الخاصة بك وتشغيلها.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

يركز مشروع Open Data Hub على الفئات التالية من المستخدمين وحالات الاستخدام:

  • محلل بيانات يحتاج إلى حل لتنفيذ مشاريع تعلم الآلة، منظم مثل السحابة مع وظائف الخدمة الذاتية.
  • محلل بيانات يحتاج إلى أقصى قدر من الاختيار من أحدث أدوات ومنصات AI/ML مفتوحة المصدر.
  • محلل بيانات يحتاج إلى الوصول إلى مصادر البيانات عند تدريب النماذج.
  • محلل بيانات يحتاج إلى الوصول إلى موارد الحوسبة (وحدة المعالجة المركزية، وحدة معالجة الرسومات، الذاكرة).
  • محلل بيانات يتطلب القدرة على التعاون ومشاركة العمل مع الزملاء وتلقي التعليقات وإجراء تحسينات في التكرار السريع.
  • محلل بيانات يرغب في التفاعل مع المطورين (وفرق التطوير) حتى تدخل نماذج تعلم الآلة ونتائج العمل الخاصة به في مرحلة الإنتاج.
  • مهندس بيانات يحتاج إلى تزويد محلل البيانات بإمكانية الوصول إلى مجموعة متنوعة من مصادر البيانات مع الالتزام بالمتطلبات التنظيمية والأمنية.
  • مسؤول/مشغل نظام تكنولوجيا المعلومات الذي يحتاج إلى القدرة على التحكم بسهولة في دورة حياة (التثبيت والتكوين والترقية) للمكونات والتقنيات مفتوحة المصدر. ونحن بحاجة أيضاً إلى أدوات الإدارة والحصص المناسبة.

يجمع مشروع Open Data Hub مجموعة من الأدوات مفتوحة المصدر لتنفيذ دورة كاملة من عمليات الذكاء الاصطناعي/تعلم الآلة. يتم استخدام Jupyter Notebook هنا كأداة العمل الرئيسية لتحليلات البيانات. تحظى مجموعة الأدوات بشعبية كبيرة بين علماء البيانات اليوم، ويتيح لهم Open Data Hub إنشاء مساحات عمل Jupyter Notebook وإدارتها بسهولة باستخدام JupyterHub المدمج. بالإضافة إلى إنشاء واستيراد دفاتر ملاحظات Jupyter، يحتوي مشروع Open Data Hub أيضًا على عدد من دفاتر الملاحظات الجاهزة على شكل مكتبة الذكاء الاصطناعي.

هذه المكتبة عبارة عن مجموعة من مكونات وحلول التعلم الآلي مفتوحة المصدر للسيناريوهات الشائعة التي تعمل على تبسيط النماذج الأولية السريعة. تم دمج JupyterHub مع نموذج الوصول RBAC الخاص بـ OpenShift، والذي يسمح لك باستخدام حسابات OpenShift الحالية وتنفيذ تسجيل الدخول الموحد. بالإضافة إلى ذلك، يوفر JupyterHub واجهة مستخدم سهلة الاستخدام تسمى Spawner، والتي من خلالها يمكن للمستخدم بسهولة تكوين مقدار موارد الحوسبة (وحدة المعالجة المركزية، والذاكرة، ووحدة معالجة الرسومات) لجهاز Jupyter Notebook المحدد.

بعد أن يقوم محلل البيانات بإنشاء الكمبيوتر المحمول وتكوينه، يتم الاهتمام بجميع المخاوف الأخرى المتعلقة به من خلال برنامج جدولة Kubernetes، الذي يعد جزءًا من OpenShift. يمكن للمستخدمين فقط إجراء تجاربهم وحفظ نتائج عملهم ومشاركتها. بالإضافة إلى ذلك، يمكن للمستخدمين المتقدمين الوصول مباشرة إلى OpenShift CLI shell مباشرة من دفاتر Jupyter المحمولة للاستفادة من أساسيات Kubernetes مثل وظيفة Job أو OpenShift مثل Tekton أو Knative. أو لهذا يمكنك استخدام واجهة المستخدم الرسومية الملائمة لـ OpenShift، والتي تسمى "وحدة تحكم الويب OpenShift".

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

بالانتقال إلى المرحلة التالية، يتيح Open Data Hub إمكانية إدارة خطوط البيانات. ولهذا الغرض، يتم استخدام كائن Ceph، والذي يتم توفيره كمخزن بيانات كائن متوافق مع S3. يتيح لك Apache Spark دفق البيانات من مصادر خارجية أو من وحدة تخزين Ceph S3 المدمجة، كما يسمح لك بإجراء تحويلات أولية للبيانات. يوفر Apache Kafka إدارة متقدمة لخطوط البيانات (حيث يمكن تحميل البيانات عدة مرات، بالإضافة إلى عمليات تحويل البيانات وتحليلها واستمراريتها).

لذلك، قام محلل البيانات بالوصول إلى البيانات وبناء نموذج. والآن لديه الرغبة في مشاركة النتائج التي تم الحصول عليها مع زملائه أو مطوري التطبيقات، وتزويدهم بنموذجه الخاص بمبادئ الخدمة. وهذا يتطلب خادم استدلال، ولدى Open Data Hub مثل هذا الخادم، ويسمى Seldon ويسمح لك بنشر النموذج كخدمة RESTful.

في مرحلة ما، هناك العديد من هذه النماذج على خادم Seldon، وهناك حاجة لمراقبة كيفية استخدامها. لتحقيق ذلك، يقدم Open Data Hub مجموعة من المقاييس ذات الصلة ومحرك إعداد التقارير استنادًا إلى أدوات المراقبة مفتوحة المصدر المستخدمة على نطاق واسع Prometheus وGrafana. ونتيجة لذلك، نتلقى تعليقات لمراقبة استخدام نماذج الذكاء الاصطناعي، خاصة في بيئة الإنتاج.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

وبهذه الطريقة، يوفر Open Data Hub نهجًا يشبه السحابة طوال دورة حياة الذكاء الاصطناعي/التعلم الآلي بأكملها، بدءًا من الوصول إلى البيانات وإعدادها وحتى تدريب النماذج وإنتاجها.

وضع كل ذلك معا

السؤال الذي يطرح نفسه الآن هو كيفية تنظيم كل هذا لمسؤول OpenShift. وهنا يأتي دور مشغل Kubernetes الخاص لمشاريع Open Data Hub.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

يدير هذا المشغل التثبيت والتكوين ودورة الحياة لمشروع Open Data Hub، بما في ذلك نشر الأدوات المذكورة أعلاه مثل JupyterHub وCeph وSpark وKafka وSeldon وPrometheus وGrafana. يمكن العثور على مشروع Open Data Hub في وحدة تحكم الويب OpenShift، في قسم مشغلي المجتمع. وبالتالي، يمكن لمسؤول OpenShift تحديد أن مشاريع OpenShift المقابلة يتم تصنيفها على أنها "مشروع Open Data Hub". يتم ذلك مرة واحدة. بعد ذلك، يقوم محلل البيانات بتسجيل الدخول إلى مساحة مشروعه من خلال وحدة تحكم الويب OpenShift ويرى أن مشغل Kubernetes المقابل مثبت ومتاح لمشاريعه. ثم يقوم بعد ذلك بإنشاء مثيل مشروع Open Data Hub بنقرة واحدة ويتمكن على الفور من الوصول إلى الأدوات الموضحة أعلاه. ويمكن تكوين كل هذا في وضع التوفر العالي والتسامح مع الأخطاء.

مشروع Open Data Hub عبارة عن منصة مفتوحة للتعلم الآلي تعتمد على Red Hat OpenShift

إذا كنت ترغب في تجربة مشروع Open Data Hub بنفسك، فابدأ به تعليمات التثبيت والبرنامج التعليمي التمهيدي. يمكن العثور على التفاصيل الفنية لبنية Open Data Hub هناخطط تطوير المشروع – هنا. في المستقبل، نخطط لتنفيذ تكامل إضافي مع Kubeflow، وحل عدد من المشكلات المتعلقة بتنظيم البيانات وأمنها، وكذلك تنظيم التكامل مع الأنظمة القائمة على القواعد Drools وOptaplanner. عبر عن رأيك وكن مشاركا في المشروع افتح مركز البيانات ممكن على الصفحة مجتمع.

للتلخيص: تمنع تحديات التوسع الخطيرة المؤسسات من تحقيق الإمكانات الكاملة للذكاء الاصطناعي والتعلم الآلي. لقد تم استخدام Red Hat OpenShift بنجاح منذ فترة طويلة لحل المشكلات المماثلة في صناعة البرمجيات. يقدم مشروع Open Data Hub، الذي يتم تنفيذه ضمن مجتمع تطوير المصادر المفتوحة، بنية مرجعية لتنظيم دورة كاملة من عمليات الذكاء الاصطناعي/تعلم الآلة استنادًا إلى السحابة الهجينة OpenShift. لدينا خطة واضحة ومدروسة لتطوير هذا المشروع، ونحن جادون في إنشاء مجتمع نشط ومثمر حوله لتطوير حلول الذكاء الاصطناعي المفتوحة على منصة OpenShift.

المصدر: www.habr.com

إضافة تعليق