بافيل كليمينكوف، NVIDIA: نحاول تقليص الفجوة بين ما يمكن أن يفعله عالم البيانات وما يجب أن يكون قادرًا على فعله

بدأ الدفعة الثانية لطلاب برنامج الماجستير في علوم البيانات وذكاء الأعمال Ozon Masters - ولتسهيل اتخاذ القرار بترك الطلب وإجراء الاختبار عبر الإنترنت، سألنا معلمي البرنامج عما يمكن توقعه من الدراسة والعمل مع البيانات.

بافيل كليمينكوف، NVIDIA: نحاول تقليص الفجوة بين ما يمكن أن يفعله عالم البيانات وما يجب أن يكون قادرًا على فعله كبير علماء البيانات NVIDIA والمعلم دورات في البيانات الضخمة وهندسة البيانات تحدث بافيل كليمينكوف عن سبب حاجة علماء الرياضيات إلى كتابة التعليمات البرمجية والدراسة في Ozon Masters لمدة عامين.

— هل هناك العديد من الشركات التي تستخدم خوارزميات علم البيانات؟

- في الواقع الكثير جداً. الكثير من الشركات الكبيرة التي لديها بيانات ضخمة حقًا إما بدأت في العمل معها بفعالية أو ظلت تعمل معها لفترة طويلة. من الواضح أن نصف السوق يستخدم البيانات التي يمكن وضعها في جدول بيانات Excel أو يمكن حسابها على خادم كبير، ولكن لا يمكن القول أنه لا يوجد سوى عدد قليل من الشركات التي يمكنها العمل مع البيانات.

— أخبرنا قليلاً عن المشاريع التي يتم فيها استخدام علم البيانات.

— على سبيل المثال، أثناء العمل في Rambler، كنا نصنع نظامًا إعلانيًا يعمل وفقًا لمبادئ RTB (المزايدة في الوقت الفعلي) - كنا بحاجة إلى إنشاء العديد من النماذج التي من شأنها تحسين شراء الإعلانات أو، على سبيل المثال، يمكنها التنبؤ باحتمالية ذلك النقرة والتحويل وما إلى ذلك. في الوقت نفسه، يولد مزاد الإعلانات الكثير من البيانات: سجلات طلبات الموقع لمشتري الإعلانات المحتملين، وسجلات ظهور الإعلان، وسجلات النقرات - وهذا هو عشرات تيرابايت من البيانات يوميًا.

علاوة على ذلك، لاحظنا بالنسبة لهذه المهام ظاهرة مثيرة للاهتمام: كلما زادت البيانات التي تقدمها لتدريب النموذج، زادت جودته. عادة، بعد كمية معينة من البيانات، تتوقف جودة التوقعات عن التحسن، ولتحسين الدقة بشكل أكبر، تحتاج إلى استخدام نموذج مختلف جذريًا، ونهج مختلف لإعداد البيانات والميزات وما إلى ذلك. قمنا هنا بتحميل المزيد من البيانات وزادت الجودة.

هذه حالة نموذجية حيث كان على المحللين، أولاً، العمل مع مجموعات كبيرة من البيانات من أجل إجراء تجربة على الأقل، وحيث كان من المستحيل القيام بعينة صغيرة تناسب جهاز MacBook المريح. وفي الوقت نفسه، كنا بحاجة إلى نماذج موزعة، وإلا فلن نتمكن من تدريبها. مع إدخال رؤية الكمبيوتر في الإنتاج، أصبحت هذه الأمثلة أكثر شيوعا، لأن الصور تحتوي على كمية كبيرة من البيانات، ولتدريب نموذج كبير، هناك حاجة إلى ملايين الصور.

السؤال الذي يطرح نفسه على الفور: كيفية تخزين كل هذه المعلومات، وكيفية معالجتها بشكل فعال، وكيفية استخدام خوارزميات التعلم الموزعة - يتحول التركيز من الرياضيات البحتة إلى الهندسة. حتى إذا لم تكتب التعليمات البرمجية في الإنتاج، فيجب أن تكون قادرًا على العمل باستخدام الأدوات الهندسية لإجراء التجربة.

— كيف تغير النهج المتبع في الوظائف الشاغرة في علوم البيانات في السنوات الأخيرة؟

- لقد توقفت البيانات الضخمة عن الضجيج وأصبحت حقيقة واقعة. تعد محركات الأقراص الثابتة رخيصة جدًا، مما يعني أنه من الممكن جمع جميع البيانات بحيث يكون هناك ما يكفي في المستقبل لاختبار أي فرضيات. ونتيجة لذلك، أصبحت المعرفة بأدوات العمل مع البيانات الضخمة شائعة للغاية، ونتيجة لذلك، تظهر المزيد والمزيد من الوظائف الشاغرة لمهندسي البيانات.

في فهمي، نتيجة عمل عالم البيانات ليست تجربة، بل منتج وصل إلى مرحلة الإنتاج. ومن وجهة النظر هذه فقط، قبل ظهور الضجيج حول البيانات الضخمة، كانت العملية أبسط: كان المهندسون منخرطين في التعلم الآلي لحل مشاكل محددة، ولم تكن هناك مشاكل في جلب الخوارزميات إلى الإنتاج.

— ما الذي يتطلبه الأمر لتبقى متخصصًا مطلوبًا؟

— الآن جاء الكثير من الأشخاص إلى علم البيانات الذين درسوا الرياضيات، ونظرية التعلم الآلي، وشاركوا في مسابقات تحليل البيانات، حيث يتم توفير بنية تحتية جاهزة: يتم تنظيف البيانات، وتحديد المقاييس، ولا توجد متطلبات الحل لتكون قابلة للتكرار وسريعة.

ونتيجة لذلك، يأتي الرجال للعمل وهم غير مستعدين لواقع الأعمال، وتنشأ فجوة بين المطورين الجدد والمطورين ذوي الخبرة.

مع تطوير الأدوات التي تسمح لك بتجميع النموذج الخاص بك من الوحدات الجاهزة - ولدى Microsoft وGoogle والعديد من الشركات الأخرى مثل هذه الحلول بالفعل - وأتمتة التعلم الآلي، ستصبح هذه الفجوة أكثر وضوحًا. في المستقبل، ستكون هذه المهنة مطلوبة للباحثين الجادين الذين يتوصلون إلى خوارزميات جديدة، والموظفين ذوي المهارات الهندسية المتقدمة الذين سيقومون بتنفيذ النماذج وأتمتة العمليات. تم تصميم دورة Ozon Masters في هندسة البيانات لتطوير المهارات الهندسية والقدرة على استخدام خوارزميات التعلم الآلي الموزعة على البيانات الضخمة. نحن نحاول تقليص الفجوة بين ما يمكن أن يفعله عالم البيانات وما ينبغي أن يكون قادرًا على فعله عمليًا.

- لماذا يجب على عالم الرياضيات الحاصل على الدبلوم أن يدرس إدارة الأعمال؟

— لقد أدرك مجتمع علوم البيانات الروسي أن المهارة والخبرة يتم تحويلهما بسرعة كبيرة إلى أموال، لذلك، بمجرد أن يتمتع المتخصص بالخبرة العملية، تبدأ تكلفته في النمو بسرعة كبيرة، ويكون الأشخاص الأكثر مهارة مكلفين للغاية - وهذا هذا صحيح في اللحظة الحالية لسوق التنمية.

جزء كبير من وظيفة عالم البيانات هو الدخول في البيانات، وفهم ما يكمن فيها، والتشاور مع الأشخاص المسؤولين عن العمليات التجارية وإنشاء هذه البيانات - وبعد ذلك فقط استخدامها لبناء النماذج. لبدء العمل مع البيانات الضخمة، من المهم للغاية أن تكون لديك مهارات هندسية - وهذا يجعل من الأسهل بكثير تجنب الزوايا الحادة، والتي يوجد الكثير منها في علم البيانات.

قصة نموذجية: لقد كتبت استعلامًا في SQL تم تنفيذه باستخدام إطار عمل Hive الذي يعمل على البيانات الضخمة. تتم معالجة الطلب في عشر دقائق، في أسوأ الحالات - في ساعة أو ساعتين، وفي كثير من الأحيان، عندما تتلقى تنزيلات لهذه البيانات، تدرك أنك نسيت أن تأخذ في الاعتبار بعض العوامل أو المعلومات الإضافية. يجب عليك إعادة إرسال الطلب وانتظار هذه الدقائق والساعات. إذا كنت عبقري الكفاءة، فسوف تتولى مهمة أخرى، ولكن، كما تظهر الممارسة، لدينا عدد قليل من عباقرة الكفاءة، والناس ينتظرون فقط. لذلك، في الدورات، سنخصص الكثير من الوقت لكفاءة العمل من أجل كتابة الاستعلامات في البداية التي لا تعمل لمدة ساعتين، ولكن لعدة دقائق. تضاعف هذه المهارة الإنتاجية ومعها قيمة المتخصص.

– كيف يختلف Ozon Masters عن الدورات الأخرى؟

— يتم تدريس برنامج Ozon Masters من قبل موظفي Ozon، وتعتمد المهام على حالات عمل حقيقية يتم حلها في الشركات. في الواقع، بالإضافة إلى الافتقار إلى المهارات الهندسية، يواجه الشخص الذي درس علم البيانات في الجامعة مشكلة أخرى: مهمة الأعمال التجارية تصاغ بلغة الأعمال، وهدفها بسيط للغاية: كسب المزيد من المال. ويعرف عالم الرياضيات جيدًا كيفية تحسين المقاييس الرياضية - ولكن العثور على مؤشر يرتبط بمقياس الأعمال أمر صعب. وعليك أن تفهم أنك تحل مشكلة عمل، وأن تقوم بالتعاون مع الشركة بصياغة مقاييس يمكن تحسينها رياضيًا. يتم اكتساب هذه المهارة من خلال حالات حقيقية، ويتم تقديمها بواسطة أوزون.
وحتى لو تجاهلنا الحالات، يتم تدريس المدرسة من قبل العديد من الممارسين الذين يحلون مشاكل العمل في الشركات الحقيقية. ونتيجة لذلك، فإن النهج المتبع في التدريس نفسه لا يزال أكثر توجهاً نحو الممارسة. على الأقل في الدورة التدريبية الخاصة بي، سأحاول تحويل التركيز إلى كيفية استخدام الأدوات، وما هي الأساليب الموجودة، وما إلى ذلك. سوف نفهم مع الطلاب أن كل مهمة لها أداة خاصة بها، ولكل أداة مجال تطبيقها.

— أشهر برنامج تدريبي على تحليل البيانات هو بالطبع ShAD — ما الفرق عنه بالضبط؟

— من الواضح أن ShAD وOzon Masters، بالإضافة إلى الوظيفة التعليمية، يحلان المشكلة المحلية المتمثلة في تدريب الموظفين. يتم تعيين أفضل خريجي SHAD في المقام الأول في Yandex، ولكن المهم هو أن Yandex، نظرًا لخصائصها - وهي كبيرة وتم إنشاؤها عندما كان هناك عدد قليل من الأدوات الجيدة للعمل مع البيانات الضخمة - لديها بنية تحتية وأدوات خاصة بها للعمل مع البيانات مما يعني أنه سيتعين عليك إتقانها. لدى Ozon Masters رسالة مختلفة - إذا كنت قد أتقنت البرنامج بنجاح وقامت شركة Ozon أو إحدى الشركات الأخرى البالغ عددها 99% بدعوتك للعمل، فسيكون من الأسهل بكثير البدء في إفادة الأعمال؛ مجموعة المهارات المكتسبة كجزء من Ozon Masters سيكون كافيا لبدء العمل.

- تستمر الدورة لمدة عامين. لماذا تحتاج إلى قضاء الكثير من الوقت في هذا؟

- سؤال جيد. يستغرق الأمر وقتًا طويلاً، لأنه من حيث المحتوى ومستوى المعلمين، يعد هذا برنامج ماجستير متكامل يتطلب الكثير من الوقت لإتقانه، بما في ذلك الواجبات المنزلية.

من وجهة نظري، فإن توقع أن يقضي الطالب 2-3 ساعات أسبوعيًا في المهام هو أمر شائع. أولاً، يتم تنفيذ المهام على مجموعة تدريب، وأي مجموعة مشتركة تعني أن العديد من الأشخاص يستخدمونها في وقت واحد. أي أنه سيتعين عليك الانتظار حتى تبدأ المهمة في التنفيذ؛ وقد يتم تحديد بعض الموارد ونقلها إلى قائمة انتظار ذات أولوية أعلى. ومن ناحية أخرى، فإن أي عمل باستخدام البيانات الضخمة يستغرق الكثير من الوقت.

إذا كانت لديك أي أسئلة أخرى حول البرنامج، أو العمل باستخدام البيانات الضخمة أو المهارات الهندسية، فإن Ozon Masters سيعقد يومًا مفتوحًا عبر الإنترنت يوم السبت 25 أبريل الساعة 12:00. نلتقي بالمعلمين والطلاب في زوم و يوتيوب.

المصدر: www.habr.com

إضافة تعليق