تعلم المجموعة السحرية

يا هبر! نحن ندعو مهندسي البيانات والمتخصصين في التعلم الآلي لحضور درس تجريبي مجاني "إدخال نماذج التعلم الآلي إلى البيئة الصناعية باستخدام مثال التوصيات عبر الإنترنت". ننشر أيضًا مقالًا بقلم Luca Monno - رئيس التحليلات المالية في CDP SpA.

إحدى طرق التعلم الآلي الأكثر فائدة وبساطة هي التعلم الجماعي. التعلم الجماعي هو الأسلوب الأساسي لـ XGBoost وBaging وRandom Forest والعديد من الخوارزميات الأخرى.

هناك العديد من المقالات الرائعة حول "نحو علم البيانات"، لكنني اخترت قصتين (الأول и ثان) الذي أعجبني أكثر. فلماذا أكتب مقالاً آخر عن EL؟ لأنني أريد أن أظهر لك كيف يعمل على مثال بسيط، مما جعلني أفهم أنه لا يوجد سحر هنا.

عندما رأيت EL لأول مرة أثناء العمل (العمل مع بعض نماذج الانحدار البسيطة جدًا) لم أصدق عيني، وما زلت أتذكر الأستاذ الذي علمني هذه الطريقة.

كان لدي نموذجان مختلفان (خوارزميتان تعليميتان ضعيفتان) مع الأسس خارج العينة R² يساوي 0,90 و0,93 على التوالي. قبل النظر إلى النتيجة، اعتقدت أنني سأحصل على R² في مكان ما بين القيمتين الأوليتين. بمعنى آخر، اعتقدت أنه يمكن استخدام EL لجعل أداء النموذج لا يكون سيئًا مثل أسوأ نموذج، ولكن ليس بنفس جودة أفضل نموذج.

ولدهشتي الكبيرة، أعطت نتائج المتوسط ​​البسيط للتنبؤات قيمة R² قدرها 0,95. 

في البداية بدأت بالبحث عن خطأ، ولكن بعد ذلك اعتقدت أنه قد يكون هناك بعض السحر المخفي هنا!

ما هو التعلم الجماعي

باستخدام EL، يمكنك الجمع بين تنبؤات نموذجين أو أكثر للحصول على نموذج أكثر موثوقية وأداء. هناك العديد من المنهجيات للعمل مع مجموعات النماذج. سأتطرق هنا إلى أكثر اثنتين فائدة لإعطائك فكرة.

استخدام تراجع يمكنك متوسط ​​أداء النماذج المتاحة.

استخدام تصنيف يمكنك السماح للنماذج باختيار التسميات. الملصق الذي تم اختياره في أغلب الأحيان هو الذي سيتم اختياره بواسطة النموذج الجديد.

لماذا تعمل EL بشكل أفضل

السبب الرئيسي وراء عمل EL بشكل أفضل هو أن كل توقع به خطأ (نعرف ذلك من نظرية الاحتمالات)، والجمع بين توقعين يمكن أن يساعد في تقليل الخطأ، وبالتالي تحسين مؤشرات الأداء (RMSE، R²، وما إلى ذلك).د.

يوضح الرسم البياني التالي كيفية عمل خوارزميتين ضعيفتين على مجموعة بيانات. تحتوي الخوارزمية الأولى على ميل أكبر من اللازم، بينما تحتوي الثانية على صفر تقريبًا (ربما بسبب التنظيم المفرط). لكن طاقم يظهر نتائج أفضل. 

إذا نظرت إلى R²، فستكون خوارزمية التدريب الأولى والثانية مساوية لـ -0.01¹، 0.22 على التوالي، بينما ستكون للمجموعة 0.73.

تعلم المجموعة السحرية

هناك العديد من الأسباب التي تجعل الخوارزمية نموذجًا سيئًا حتى بالنسبة لمثال أساسي مثل هذا: ربما قررت استخدام التنظيم لتجنب التجاوز، أو قررت عدم إزالة بعض الحالات الشاذة، أو ربما استخدمت الانحدار متعدد الحدود واخترت الدرجة الخاطئة (على سبيل المثال، تم استخدام متعدد الحدود من الدرجة الثانية، وتظهر بيانات الاختبار عدم تناسق واضح، والذي ستكون الدرجة الثالثة أكثر ملاءمة له).

عندما تعمل EL بشكل أفضل

دعونا نلقي نظرة على خوارزميتين للتعلم تعملان على نفس البيانات.

تعلم المجموعة السحرية

هنا يمكنك أن ترى أن الجمع بين النموذجين لم يحسن الأداء كثيرًا. في البداية، بالنسبة لخوارزميات التدريب، كانت قيم R² هي -0,37 و0,22 على التوالي، وبالنسبة للمجموعة اتضح أنها -0,04. أي أن نموذج EL حصل على متوسط ​​قيمة المؤشرات.

ومع ذلك، هناك فرق كبير بين هذين المثالين: في المثال الأول، كانت أخطاء النماذج مرتبطة سلبا، وفي الثاني - إيجابيا (لم يتم تقدير معاملات النماذج الثلاثة، ولكن تم اختيارها ببساطة من قبل المؤلف) كمثال.)

لذلك، يمكن استخدام التعلم الجماعي لتحسين توازن التحيز/التشتت في جميع الحالات، ولكن متى لا ترتبط أخطاء النموذج بشكل إيجابي، ويمكن أن يؤدي استخدام EL إلى أداء أفضل.

نماذج متجانسة وغير متجانسة

في كثير من الأحيان يتم استخدام EL في النماذج المتجانسة (كما في هذا المثال أو الغابة العشوائية)، ولكن في الواقع يمكنك الجمع بين نماذج مختلفة (الانحدار الخطي + الشبكة العصبية + XGBoost) مع مجموعات مختلفة من المتغيرات التوضيحية. من المحتمل أن يؤدي هذا إلى أخطاء غير مترابطة وتحسين الأداء.

مقارنة مع تنويع المحفظة

تعمل EL بطريقة مماثلة للتنويع في نظرية المحفظة، ولكن ذلك أفضل بكثير بالنسبة لنا. 

عندما تقوم بالتنويع، فإنك تحاول تقليل التباين في أدائك من خلال الاستثمار في الأسهم غير المرتبطة. إن محفظة الأسهم المتنوعة بشكل جيد سيكون أداؤها أفضل من أسوأ الأسهم الفردية، ولكنها لن تكون أفضل أبدًا من الأفضل.

نقلا عن وارن بافيت: 

"التنويع هو دفاع ضد الجهل، بالنسبة لشخص لا يعرف ما يفعله، فإن [التنويع] لا معنى له على الإطلاق."

في التعلم الآلي، يساعد EL في تقليل تباين النموذج الخاص بك، ولكن هذا يمكن أن يؤدي إلى نموذج بأداء عام أفضل من أفضل نموذج أولي.

تلخيص

يعد دمج نماذج متعددة في نموذج واحد أسلوبًا بسيطًا نسبيًا يمكن أن يؤدي إلى حل مشكلة تحيز التباين وتحسين الأداء.

إذا كان لديك نموذجان أو أكثر يعملان بشكل جيد، فلا تختار بينهما: استخدمهما جميعًا (ولكن بحذر)!

هل أنت مهتم بالتطور في هذا الاتجاه؟ قم بالتسجيل للحصول على درس تجريبي مجاني "إدخال نماذج التعلم الآلي إلى البيئة الصناعية باستخدام مثال التوصيات عبر الإنترنت" والمشاركة فيها لقاء عبر الإنترنت مع أندريه كوزنتسوف — مهندس التعلم الآلي في مجموعة Mail.ru.

المصدر: www.habr.com

إضافة تعليق