اختيار الميزة في التعلم الآلي

يا هبر!

لقد قمنا في Reksoft بترجمة المقال إلى اللغة الروسية اختيار الميزة في التعلم الآلي. ونتمنى أن يكون مفيدا لكل من يهتم بالموضوع.

في العالم الحقيقي، لا تكون البيانات دائمًا نظيفة كما يعتقد عملاء الأعمال أحيانًا. هذا هو سبب الطلب على استخراج البيانات ومناقشة البيانات. فهو يساعد في تحديد القيم والأنماط المفقودة في البيانات المنظمة للاستعلام والتي لا يستطيع البشر التعرف عليها. من أجل العثور على هذه الأنماط واستخدامها للتنبؤ بالنتائج باستخدام العلاقات المكتشفة في البيانات، يكون التعلم الآلي مفيدًا.

لفهم أي خوارزمية، تحتاج إلى النظر إلى جميع المتغيرات الموجودة في البيانات ومعرفة ما تمثله تلك المتغيرات. وهذا أمر بالغ الأهمية لأن الأساس المنطقي وراء النتائج يعتمد على فهم البيانات. إذا كانت البيانات تحتوي على 5 أو حتى 50 متغيرًا، فيمكنك فحصها جميعًا. ماذا لو كان هناك 200 منهم؟ ثم ببساطة لن يكون هناك ما يكفي من الوقت لدراسة كل متغير على حدة. علاوة على ذلك، فإن بعض الخوارزميات لا تعمل مع البيانات الفئوية، وبعد ذلك سيتعين عليك تحويل جميع الأعمدة الفئوية إلى متغيرات كمية (قد تبدو كمية، لكن المقاييس ستظهر أنها فئوية) لإضافتها إلى النموذج. وبذلك يزداد عدد المتغيرات، ويبلغ عددها حوالي 500، فماذا أفعل الآن؟ قد يعتقد المرء أن الإجابة ستكون تقليل الأبعاد. تعمل خوارزميات تقليل الأبعاد على تقليل عدد المعلمات ولكن لها تأثير سلبي على إمكانية التفسير. ماذا لو كانت هناك تقنيات أخرى تقضي على الميزات بينما تجعل الميزات المتبقية سهلة الفهم والتفسير؟

اعتمادًا على ما إذا كان التحليل يعتمد على الانحدار أو التصنيف، قد تختلف خوارزميات اختيار الميزات، لكن الفكرة الرئيسية لتنفيذها تظل كما هي.

المتغيرات المترابطة للغاية

توفر المتغيرات المرتبطة بشكل كبير مع بعضها البعض نفس المعلومات للنموذج، لذلك ليست هناك حاجة لاستخدامها جميعًا للتحليل. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على ميزتي "الوقت عبر الإنترنت" و"حركة المرور المستخدمة"، فيمكننا أن نفترض أنهما سيكونان مرتبطين إلى حد ما، وسنرى ارتباطًا قويًا حتى إذا اخترنا عينة بيانات غير متحيزة. في هذه الحالة، هناك حاجة إلى واحد فقط من هذه المتغيرات في النموذج. إذا كنت تستخدم كليهما، فسيتم تجهيز النموذج بشكل زائد وانحيازه نحو ميزة واحدة معينة.

القيم P

في خوارزميات مثل الانحدار الخطي، يعد النموذج الإحصائي الأولي فكرة جيدة دائمًا. ويساعد على إظهار أهمية الميزات من خلال قيمها p التي حصل عليها هذا النموذج. بعد تعيين مستوى الأهمية، نتحقق من القيم الاحتمالية الناتجة، وإذا كانت أي قيمة أقل من مستوى الأهمية المحدد، فسيتم إعلان هذه الميزة مهمة، أي أن التغيير في قيمتها من المحتمل أن يؤدي إلى تغيير في قيمة الهدف.

الاختيار المباشر

التحديد الأمامي هو أسلوب يتضمن تطبيق الانحدار التدريجي. يبدأ بناء النموذج بصفر كامل، أي نموذج فارغ، ثم يضيف كل تكرار متغيرًا يعمل على تحسين النموذج الذي يتم بناؤه. يتم تحديد المتغير الذي يتم إضافته إلى النموذج من خلال أهميته. ويمكن حساب ذلك باستخدام مقاييس مختلفة. الطريقة الأكثر شيوعًا هي استخدام القيم الاحتمالية التي تم الحصول عليها في النموذج الإحصائي الأصلي باستخدام جميع المتغيرات. في بعض الأحيان يمكن أن يؤدي التحديد الأمامي إلى الإفراط في ملاءمة النموذج لأنه قد يكون هناك متغيرات شديدة الارتباط في النموذج، حتى لو كانت توفر نفس المعلومات للنموذج (لكن النموذج لا يزال يظهر تحسنًا).

عكس الاختيار

يتضمن الاختيار العكسي أيضًا إزالة السمات خطوة بخطوة، ولكن في الاتجاه المعاكس مقارنةً بالاختيار الأمامي. في هذه الحالة، يتضمن النموذج الأولي جميع المتغيرات المستقلة. يتم بعد ذلك حذف المتغيرات (متغير واحد لكل تكرار) إذا لم تساهم بقيمة في نموذج الانحدار الجديد في كل تكرار. يعتمد استبعاد الميزة على القيم p للنموذج الأولي. تحتوي هذه الطريقة أيضًا على عدم يقين عند إزالة المتغيرات شديدة الارتباط.

القضاء على ميزة العودية

RFE هي تقنية/خوارزمية مستخدمة على نطاق واسع لاختيار العدد الدقيق للميزات المهمة. في بعض الأحيان يتم استخدام الطريقة لشرح عدد من الميزات "الأهم" التي تؤثر على النتائج؛ وأحيانًا لتقليل عدد كبير جدًا من المتغيرات (حوالي 200-400)، ويتم الاحتفاظ فقط بتلك التي تقدم بعض المساهمة على الأقل في النموذج، ويتم استبعاد جميع المتغيرات الأخرى. يستخدم RFE نظام التصنيف. يتم تعيين رتب للميزات الموجودة في مجموعة البيانات. يتم بعد ذلك استخدام هذه الرتب لإزالة الميزات بشكل متكرر استنادًا إلى العلاقة الخطية المتداخلة بينها وأهمية تلك الميزات في النموذج. بالإضافة إلى ميزات التصنيف، يمكن لـ RFE إظهار ما إذا كانت هذه الميزات مهمة أم لا حتى بالنسبة لعدد معين من الميزات (لأنه من المحتمل جدًا أن عدد الميزات المحدد قد لا يكون الأمثل، وقد يكون العدد الأمثل للميزات إما أكثر أو أقل من العدد المحدد).

مخطط أهمية الميزة

عند الحديث عن قابلية تفسير خوارزميات التعلم الآلي، فإننا عادةً ما نناقش الانحدارات الخطية (والتي تسمح لك بتحليل أهمية الميزات باستخدام القيم الاحتمالية) وأشجار القرار (التي توضح حرفيًا أهمية الميزات في شكل شجرة، وفي في نفس الوقت التسلسل الهرمي). من ناحية أخرى، غالبًا ما تستخدم الخوارزميات مثل Random Forest وLightGBM وXG Boost مخططًا لأهمية الميزة، أي يتم رسم مخطط للمتغيرات و"أرقام أهميتها". يعد هذا مفيدًا بشكل خاص عندما تحتاج إلى تقديم أساس منطقي منظم لأهمية السمات من حيث تأثيرها على الأعمال.

التنظيم

يتم التنظيم للتحكم في التوازن بين التحيز والتباين. يُظهر الانحياز مدى تجاوز النموذج لمجموعة بيانات التدريب. يُظهر الانحراف مدى اختلاف التوقعات بين مجموعات بيانات التدريب والاختبار. ومن الناحية المثالية، ينبغي أن يكون كل من التحيز والتباين صغيرا. هذا هو المكان الذي يأتي فيه التنظيم للإنقاذ! هناك تقنيتان رئيسيتان:

تنظيم L1 - Lasso: يعاقب Lasso أوزان النموذج لتغيير أهميتها للنموذج ويمكنه حتى إلغائها (أي إزالة تلك المتغيرات من النموذج النهائي). عادةً، يتم استخدام Lasso عندما تحتوي مجموعة البيانات على عدد كبير من المتغيرات وتريد استبعاد بعضها لفهم كيفية تأثير الميزات المهمة على النموذج بشكل أفضل (أي تلك الميزات التي تم تحديدها بواسطة Lasso وتم تعيين أهميتها).

تنظيم L2 - طريقة ريدج: تتمثل مهمة ريدج في تخزين جميع المتغيرات وفي نفس الوقت إسناد الأهمية لها بناءً على مساهمتها في أداء النموذج. سيكون Ridge خيارًا جيدًا إذا كانت مجموعة البيانات تحتوي على عدد صغير من المتغيرات وجميعها ضرورية لتفسير النتائج والنتائج التي تم الحصول عليها.

نظرًا لأن Ridge يحتفظ بجميع المتغيرات ويقوم Lasso بعمل أفضل في تحديد أهميتها، فقد تم تطوير خوارزمية تجمع بين أفضل ميزات كلا التنظيمين، والمعروفة باسم Elastic-Net.

هناك العديد من الطرق لتحديد ميزات التعلم الآلي، ولكن الفكرة الرئيسية هي نفسها دائمًا: إظهار أهمية المتغيرات ثم حذف بعضها بناءً على الأهمية الناتجة. الأهمية هي مصطلح شخصي للغاية، لأنها ليست مجرد واحدة، ولكنها مجموعة كاملة من المقاييس والرسوم البيانية التي يمكن استخدامها للعثور على السمات الرئيسية.

شكرا لقرائتك! تعلم سعيد!

المصدر: www.habr.com

إضافة تعليق