تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

لا ، حسنًا ، بالطبع لست جادًا. يجب أن يكون هناك حد لمدى إمكانية تبسيط الموضوع. لكن بالنسبة للمراحل الأولى ، فهم المفاهيم الأساسية و "دخول" الموضوع بسرعة ، قد يكون مقبولاً. وكيفية تسمية هذه المواد بشكل صحيح (الخيارات: "التعلم الآلي للدمى" ، "تحليل البيانات من الحفاضات" ، "الخوارزميات لأصغرها") ، سنناقش في النهاية.

للعمل. كتب العديد من برامج التطبيق في MS Excel لتصور وتصور العمليات التي تحدث في طرق التعلم الآلي المختلفة عند تحليل البيانات. الرؤية هي تصديق ، في النهاية ، كما يقول حاملو الثقافة التي طورت معظم هذه الأساليب (بالمناسبة ، ليس كلهم. أقوى "آلة ناقلات الدعم" ، أو SVM ، آلة المتجهات الداعمة هي اختراع مواطننا فلاديمير فابنيك ، معهد موسكو للإدارة .1963 ، بالمناسبة ، الآن ، ومع ذلك ، فهو يدرس ويعمل في الولايات المتحدة الأمريكية).

ثلاثة ملفات للمراجعة

1. التجميع بواسطة k- الوسائل

تشير المشاكل من هذا النوع إلى "التعلم غير الخاضع للإشراف" ، عندما نحتاج إلى تقسيم بيانات المصدر إلى عدد محدد مسبقًا من الفئات ، ولكن في نفس الوقت ليس لدينا أي عدد من "الإجابات الصحيحة" ، يجب علينا استخراجها من البيانات نفسها. إن المشكلة الكلاسيكية الأساسية المتمثلة في العثور على سلالات من أزهار السوسن (رونالد فيشر ، 1936!) ، والتي تعتبر أول علامة على هذا المجال من المعرفة ، ذات طبيعة.

الطريقة بسيطة للغاية. لدينا مجموعة من الكائنات ممثلة كمتجهات (مجموعات من N أرقام). في القزحية ، هذه مجموعات من 4 أرقام تميز الزهرة: طول وعرض الجزء الخارجي والداخلي حول الزهرة ، على التوالي (قزحية فيشر - ويكيبيديا.). كمسافة ، أو كمقياس للقرب بين الأشياء ، يتم اختيار المقياس الديكارتي المعتاد.

علاوة على ذلك ، بشكل تعسفي (أو ليس بشكل تعسفي ، انظر أدناه) يتم تحديد مراكز المجموعات ، ويتم حساب المسافات من كل كائن إلى مراكز المجموعات. يتم تمييز كل عنصر في خطوة تكرار معينة على أنه ينتمي إلى أقرب مركز. ثم يتم نقل مركز كل مجموعة إلى المتوسط ​​الحسابي لإحداثيات أعضائها (بالقياس إلى الفيزياء ، يطلق عليه أيضًا "مركز الكتلة") ، ويتم تكرار الإجراء.

تتقارب العملية بسرعة كبيرة. في الصور ذات البعدين يبدو كالتالي:

1. التوزيع العشوائي الأولي للنقاط على المستوى وعدد المجموعات

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

2. تحديد مراكز العناقيد وتخصيص نقاط لمجموعاتها

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

3. نقل إحداثيات مراكز العناقيد ، وإعادة حساب انتماء النقاط حتى تستقر المراكز. مسار حركة مركز الكتلة إلى الموضع النهائي مرئي.

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

في أي وقت ، يمكنك تعيين مراكز مجموعات جديدة (بدون إنشاء توزيع جديد للنقاط!) ومعرفة أن عملية التقسيم ليست دائمًا واضحة. رياضيا ، هذا يعني أن الوظيفة المحسّنة (مجموع المسافات المربعة من النقاط إلى مراكز مجموعاتها) لا نجد حدًا عالميًا ، بل حدًا أدنى محليًا. يمكن التغلب على هذه المشكلة إما عن طريق الاختيار غير العشوائي لمراكز التجمعات الأولية ، أو عن طريق تعداد المراكز المحتملة (في بعض الأحيان يكون من المفيد وضعها بالضبط في إحدى النقاط ، ثم على الأقل هناك ضمان بأننا لن نفعل ذلك. الحصول على مجموعات فارغة). على أي حال ، فإن المجموعة المحدودة لها دائمًا عدد لا نهائي.

يمكنك اللعب بهذا الملف على هذا الرابط (لا تنس تمكين دعم الماكرو. تم فحص الملفات بحثًا عن الفيروسات)

وصف الطريقة على ويكيبيديا - طريقة k- الوسائل

2. التقريب بواسطة كثيرات الحدود وتفصيل البيانات. إعادة التدريب

عالم رائع وشائع لعلوم البيانات K.V. تحدث فورونتسوف بإيجاز عن أساليب التعلم الآلي على أنها "علم رسم المنحنيات من خلال النقاط". في هذا المثال ، سنجد نمطًا في البيانات باستخدام طريقة المربعات الصغرى.

يتم عرض تقنية تقسيم البيانات الأولية إلى "تدريب" و "تحكم" ، بالإضافة إلى ظاهرة مثل التجهيز الزائد أو "إعادة الضبط" للبيانات. بالتقريب الصحيح ، سيكون لدينا بعض الأخطاء في بيانات التدريب وخطأ أكبر قليلاً في بيانات التحكم. إذا كان غير صحيح ، فإن الضبط الدقيق لبيانات التدريب وخطأ كبير في بيانات التحكم.

(من الحقائق المعروفة أنه من خلال نقاط N يمكن رسم منحنى واحد من الدرجة N-1 ، وهذه الطريقة بشكل عام لا تعطي النتيجة المرجوة. لاغرانج استيفاء كثير الحدود على ويكيبيديا)

1. تعيين التوزيع الأولي

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

2. نقسم النقاط إلى "تدريب" و "تحكم" بنسبة 70 إلى 30.

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

3. نقوم برسم منحنى تقريبي على طول نقاط التدريب ، ونرى الخطأ الذي ينتج عن ذلك في بيانات التحكم

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

4. نرسم منحنى دقيقًا من خلال نقاط التدريب ، ونرى خطأ فادحًا في بيانات التحكم (وصفر في بيانات التدريب ، ولكن ما هي الفائدة؟).

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

بالطبع ، يتم عرض أبسط نسخة مع قسم واحد إلى مجموعات فرعية "تدريب" و "تحكم" ؛ في الحالة العامة ، يتم ذلك بشكل متكرر للحصول على أفضل تعديل للمعاملات.

الملف متاح هنا ، تم فحصه بواسطة برنامج مكافحة الفيروسات. تمكين وحدات الماكرو للعمل بشكل صحيح

3. الانحدار المتدرج وديناميكيات الخطأ

سيكون هناك حالة رباعية الأبعاد وانحدار خطي هنا. سيتم تحديد معاملات الانحدار الخطي خطوة بخطوة باستخدام طريقة الانحدار ، مبدئيًا جميع المعاملات هي صفر. يوضح الرسم البياني المنفصل انخفاض ديناميكيات الخطأ حيث يتم ضبط المعاملات بدقة أكثر فأكثر. من الممكن عرض جميع الإسقاطات الأربعة ثنائية الأبعاد.

إذا قمنا بتعيين خطوة نزول التدرج كبيرة جدًا ، فمن الواضح أننا في كل مرة نتخطى الحد الأدنى ونصل إلى النتيجة في خطوات أكثر ، على الرغم من أننا في النهاية سنصل (ما لم نؤخر خطوة النزول كثيرًا - ثم ستذهب الخوارزمية "في حالة من الفوضى"). كما أن الرسم البياني لاعتماد الخطأ على خطوة التكرار لن يكون سلسًا ، ولكنه "متقلب".

1. قم بتوليد البيانات ، قم بتعيين خطوة نزول التدرج

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

2. مع الاختيار الصحيح لخطوة النزول المتدرج ، فإننا نصل إلى الحد الأدنى بسلاسة وسرعة كافية

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

3. إذا تم اختيار خطوة نزول التدرج بشكل غير صحيح ، فإننا نتخطى الحد الأقصى ، ويكون الرسم البياني للخطأ "مضطربًا" ، ويأخذ التقارب عددًا أكبر من الخطوات

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف
и

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

4. مع اختيار خاطئ تمامًا لخطوة نزول التدرج ، فإننا نبتعد عن الحد الأدنى

تعلم الآلة بدون بايثون ، أناكوندا وغيرها من الزحف

(لإعادة إنتاج العملية عند قيم خطوة نزول التدرج الموضحة في الصور ، حدد مربع "البيانات المرجعية").

ملف - اتبع هذا الرابط ، تحتاج إلى تمكين وحدات الماكرو ، لا توجد فيروسات.

وفقًا للمجتمع المحترم ، هل هذا التبسيط وطريقة تقديم المواد مقبولان؟ هل يجب ترجمة المقال إلى اللغة الإنجليزية؟

المصدر: www.habr.com

إضافة تعليق