لا ، حسنًا ، بالطبع لست جادًا. يجب أن يكون هناك حد لمدى إمكانية تبسيط الموضوع. لكن بالنسبة للمراحل الأولى ، فهم المفاهيم الأساسية و "دخول" الموضوع بسرعة ، قد يكون مقبولاً. وكيفية تسمية هذه المواد بشكل صحيح (الخيارات: "التعلم الآلي للدمى" ، "تحليل البيانات من الحفاضات" ، "الخوارزميات لأصغرها") ، سنناقش في النهاية.
للعمل. كتب العديد من برامج التطبيق في MS Excel لتصور وتصور العمليات التي تحدث في طرق التعلم الآلي المختلفة عند تحليل البيانات. الرؤية هي تصديق ، في النهاية ، كما يقول حاملو الثقافة التي طورت معظم هذه الأساليب (بالمناسبة ، ليس كلهم. أقوى "آلة ناقلات الدعم" ، أو SVM ، آلة المتجهات الداعمة هي اختراع مواطننا فلاديمير فابنيك ، معهد موسكو للإدارة .1963 ، بالمناسبة ، الآن ، ومع ذلك ، فهو يدرس ويعمل في الولايات المتحدة الأمريكية).
1. التجميع بواسطة k- الوسائل
تشير المشاكل من هذا النوع إلى "التعلم غير الخاضع للإشراف" ، عندما نحتاج إلى تقسيم بيانات المصدر إلى عدد محدد مسبقًا من الفئات ، ولكن في نفس الوقت ليس لدينا أي عدد من "الإجابات الصحيحة" ، يجب علينا استخراجها من البيانات نفسها. إن المشكلة الكلاسيكية الأساسية المتمثلة في العثور على سلالات من أزهار السوسن (رونالد فيشر ، 1936!) ، والتي تعتبر أول علامة على هذا المجال من المعرفة ، ذات طبيعة.
الطريقة بسيطة للغاية. لدينا مجموعة من الكائنات ممثلة كمتجهات (مجموعات من N أرقام). في القزحية ، هذه مجموعات من 4 أرقام تميز الزهرة: طول وعرض الجزء الخارجي والداخلي حول الزهرة ، على التوالي (
علاوة على ذلك ، بشكل تعسفي (أو ليس بشكل تعسفي ، انظر أدناه) يتم تحديد مراكز المجموعات ، ويتم حساب المسافات من كل كائن إلى مراكز المجموعات. يتم تمييز كل عنصر في خطوة تكرار معينة على أنه ينتمي إلى أقرب مركز. ثم يتم نقل مركز كل مجموعة إلى المتوسط الحسابي لإحداثيات أعضائها (بالقياس إلى الفيزياء ، يطلق عليه أيضًا "مركز الكتلة") ، ويتم تكرار الإجراء.
تتقارب العملية بسرعة كبيرة. في الصور ذات البعدين يبدو كالتالي:
1. التوزيع العشوائي الأولي للنقاط على المستوى وعدد المجموعات
2. تحديد مراكز العناقيد وتخصيص نقاط لمجموعاتها
3. نقل إحداثيات مراكز العناقيد ، وإعادة حساب انتماء النقاط حتى تستقر المراكز. مسار حركة مركز الكتلة إلى الموضع النهائي مرئي.
في أي وقت ، يمكنك تعيين مراكز مجموعات جديدة (بدون إنشاء توزيع جديد للنقاط!) ومعرفة أن عملية التقسيم ليست دائمًا واضحة. رياضيا ، هذا يعني أن الوظيفة المحسّنة (مجموع المسافات المربعة من النقاط إلى مراكز مجموعاتها) لا نجد حدًا عالميًا ، بل حدًا أدنى محليًا. يمكن التغلب على هذه المشكلة إما عن طريق الاختيار غير العشوائي لمراكز التجمعات الأولية ، أو عن طريق تعداد المراكز المحتملة (في بعض الأحيان يكون من المفيد وضعها بالضبط في إحدى النقاط ، ثم على الأقل هناك ضمان بأننا لن نفعل ذلك. الحصول على مجموعات فارغة). على أي حال ، فإن المجموعة المحدودة لها دائمًا عدد لا نهائي.
وصف الطريقة على ويكيبيديا -
2. التقريب بواسطة كثيرات الحدود وتفصيل البيانات. إعادة التدريب
عالم رائع وشائع لعلوم البيانات K.V. تحدث فورونتسوف بإيجاز عن أساليب التعلم الآلي على أنها "علم رسم المنحنيات من خلال النقاط". في هذا المثال ، سنجد نمطًا في البيانات باستخدام طريقة المربعات الصغرى.
يتم عرض تقنية تقسيم البيانات الأولية إلى "تدريب" و "تحكم" ، بالإضافة إلى ظاهرة مثل التجهيز الزائد أو "إعادة الضبط" للبيانات. بالتقريب الصحيح ، سيكون لدينا بعض الأخطاء في بيانات التدريب وخطأ أكبر قليلاً في بيانات التحكم. إذا كان غير صحيح ، فإن الضبط الدقيق لبيانات التدريب وخطأ كبير في بيانات التحكم.
(من الحقائق المعروفة أنه من خلال نقاط N يمكن رسم منحنى واحد من الدرجة N-1 ، وهذه الطريقة بشكل عام لا تعطي النتيجة المرجوة.
1. تعيين التوزيع الأولي
2. نقسم النقاط إلى "تدريب" و "تحكم" بنسبة 70 إلى 30.
3. نقوم برسم منحنى تقريبي على طول نقاط التدريب ، ونرى الخطأ الذي ينتج عن ذلك في بيانات التحكم
4. نرسم منحنى دقيقًا من خلال نقاط التدريب ، ونرى خطأ فادحًا في بيانات التحكم (وصفر في بيانات التدريب ، ولكن ما هي الفائدة؟).
بالطبع ، يتم عرض أبسط نسخة مع قسم واحد إلى مجموعات فرعية "تدريب" و "تحكم" ؛ في الحالة العامة ، يتم ذلك بشكل متكرر للحصول على أفضل تعديل للمعاملات.
3. الانحدار المتدرج وديناميكيات الخطأ
سيكون هناك حالة رباعية الأبعاد وانحدار خطي هنا. سيتم تحديد معاملات الانحدار الخطي خطوة بخطوة باستخدام طريقة الانحدار ، مبدئيًا جميع المعاملات هي صفر. يوضح الرسم البياني المنفصل انخفاض ديناميكيات الخطأ حيث يتم ضبط المعاملات بدقة أكثر فأكثر. من الممكن عرض جميع الإسقاطات الأربعة ثنائية الأبعاد.
إذا قمنا بتعيين خطوة نزول التدرج كبيرة جدًا ، فمن الواضح أننا في كل مرة نتخطى الحد الأدنى ونصل إلى النتيجة في خطوات أكثر ، على الرغم من أننا في النهاية سنصل (ما لم نؤخر خطوة النزول كثيرًا - ثم ستذهب الخوارزمية "في حالة من الفوضى"). كما أن الرسم البياني لاعتماد الخطأ على خطوة التكرار لن يكون سلسًا ، ولكنه "متقلب".
1. قم بتوليد البيانات ، قم بتعيين خطوة نزول التدرج
2. مع الاختيار الصحيح لخطوة النزول المتدرج ، فإننا نصل إلى الحد الأدنى بسلاسة وسرعة كافية
3. إذا تم اختيار خطوة نزول التدرج بشكل غير صحيح ، فإننا نتخطى الحد الأقصى ، ويكون الرسم البياني للخطأ "مضطربًا" ، ويأخذ التقارب عددًا أكبر من الخطوات
и
4. مع اختيار خاطئ تمامًا لخطوة نزول التدرج ، فإننا نبتعد عن الحد الأدنى
(لإعادة إنتاج العملية عند قيم خطوة نزول التدرج الموضحة في الصور ، حدد مربع "البيانات المرجعية").
وفقًا للمجتمع المحترم ، هل هذا التبسيط وطريقة تقديم المواد مقبولان؟ هل يجب ترجمة المقال إلى اللغة الإنجليزية؟
المصدر: www.habr.com