یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

نه، البته، من جدی نیستم. باید حدی وجود داشته باشد که تا چه حد می توان یک موضوع را ساده کرد. اما برای اولین مراحل، درک مفاهیم اولیه و "ورود" سریع به موضوع، ممکن است قابل قبول باشد. در پایان درباره نحوه نام‌گذاری صحیح این مطالب صحبت خواهیم کرد (گزینه‌ها: «یادگیری ماشین برای آدمک‌ها»، «تجزیه و تحلیل داده‌ها از پوشک»، «الگوریتم‌هایی برای بچه‌های کوچک»).

به نقطه. چندین برنامه کاربردی در MS Excel برای تجسم و نمایش بصری فرآیندهایی که در روش های مختلف یادگیری ماشین هنگام تجزیه و تحلیل داده ها رخ می دهند، نوشت. به هر حال، همانطور که حاملان فرهنگ می گویند، دیدن باور کردن است، که اکثر این روش ها را توسعه داده است (به هر حال، نه همه آنها. قدرتمندترین "ماشین بردار پشتیبان" یا SVM، ماشین بردار پشتیبان اختراع هموطن ما ولادیمیر واپنیک، مؤسسه مدیریت مسکو، اتفاقاً 1963، اما اکنون او در ایالات متحده آمریکا تدریس و کار می کند.

سه فایل برای بررسی

1. K-به معنی خوشه بندی

مشکلات این نوع به «یادگیری بدون نظارت» اشاره دارد، زمانی که ما نیاز داریم داده های اولیه را به تعداد معینی از دسته بندی های شناخته شده از قبل تقسیم کنیم، اما تعداد «پاسخ صحیح» نداریم؛ باید آنها را از خود داده ها استخراج کنیم. . مشکل اساسی کلاسیک یافتن زیرگونه‌های گل زنبق (رونالد فیشر، 1936!) که اولین نشانه این حوزه دانش به حساب می‌آید، دقیقاً از همین ماهیت است.

روش کاملا ساده است. ما مجموعه ای از اشیاء را داریم که به صورت بردار نمایش داده می شوند (مجموعه ای از N عدد). در عنبیه ها، اینها مجموعه ای از 4 عدد هستند که گل را مشخص می کنند: به ترتیب طول و عرض لوب بیرونی و داخلی پرینث (عنبیه های فیشر - ویکی پدیا). متریک دکارتی معمول به عنوان فاصله یا اندازه نزدیکی بین اجسام انتخاب می شود.

در مرحله بعد، مراکز خوشه به طور تصادفی انتخاب می شوند (یا نه به طور تصادفی، به زیر مراجعه کنید)، و فاصله هر شی تا مراکز خوشه محاسبه می شود. هر شی در یک مرحله تکرار معین به عنوان متعلق به نزدیکترین مرکز مشخص می شود. سپس مرکز هر خوشه به میانگین حسابی مختصات اعضای آن منتقل می شود (بر اساس قیاس با فیزیک، به آن "مرکز جرم" نیز می گویند) و این روش تکرار می شود.

روند به سرعت همگرا می شود. در تصاویر دو بعدی به صورت زیر است:

1. توزیع تصادفی اولیه نقاط روی صفحه و تعداد خوشه ها

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

2. تعیین مراکز خوشه و اختصاص امتیاز به خوشه های آنها

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

3. انتقال مختصات مراکز خوشه، محاسبه مجدد وابستگی نقاط تا تثبیت مراکز. مسیر حرکت مرکز خوشه به موقعیت نهایی خود قابل مشاهده است.

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

در هر زمان، می توانید مراکز خوشه جدیدی را تنظیم کنید (بدون ایجاد توزیع جدیدی از نقاط!) و ببینید که فرآیند پارتیشن بندی همیشه بدون ابهام نیست. از نظر ریاضی، این بدان معناست که برای تابعی که بهینه می‌شود (مجموع مجذور فواصل نقاط تا مراکز خوشه‌های آنها)، ما نه یک کل، بلکه یک حداقل محلی پیدا می‌کنیم. این مشکل را می توان با انتخاب غیر تصادفی مراکز اولیه خوشه ای یا با برشمردن مراکز احتمالی برطرف کرد (گاهی اوقات بهتر است آنها را دقیقاً در یکی از نقاط قرار دهیم، پس حداقل تضمینی وجود دارد که خالی نشویم. خوشه ها). در هر صورت، یک مجموعه محدود همیشه یک infimum دارد.

در این لینک می توانید با این فایل بازی کنید (فراموش نکنید که پشتیبانی ماکرو را فعال کنید. فایل ها از نظر ویروس اسکن شده اند)

شرح روش در ویکی پدیا - روش k-means

2. تقریب توسط چند جمله ای ها و تجزیه داده ها. بازآموزی

دانشمند برجسته و متداول کننده علم داده K.V. ورونتسوف به طور خلاصه روش های یادگیری ماشین را به عنوان "علم ترسیم منحنی ها از طریق نقاط" توصیف می کند. در این مثال، با استفاده از روش حداقل مربعات، الگویی را در داده ها پیدا می کنیم.

تکنیک تقسیم داده های منبع به "آموزش" و "کنترل" و همچنین پدیده ای مانند بازآموزی یا "تنظیم مجدد" داده ها نشان داده شده است. با تقریب صحیح، یک خطای مشخص در داده های آموزشی و یک خطای کمی بزرگتر در داده های کنترل خواهیم داشت. اگر نادرست باشد، منجر به تنظیم دقیق داده های آموزشی و خطای بزرگ در داده های آزمایش می شود.

(این یک واقعیت شناخته شده است که از طریق N نقطه می توان یک منحنی منفرد از درجه N-1 رسم کرد و این روش در حالت کلی نتیجه مطلوب را نمی دهد. چند جمله ای درون یابی لاگرانژ در ویکی پدیا)

1. توزیع اولیه را تنظیم کنید

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

2. نقاط را به نسبت 70 به 30 به "آموزش" و "کنترل" تقسیم می کنیم.

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

3. منحنی تقریبی را در امتداد نقاط آموزشی رسم می کنیم، خطای آن را روی داده های کنترل می بینیم.

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

4. ما یک منحنی دقیق را از طریق نقاط آموزشی رسم می کنیم و یک خطای هیولایی در داده های کنترلی می بینیم (و در داده های آموزشی صفر، اما فایده چیست؟).

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

البته ساده ترین گزینه با یک تقسیم به زیر مجموعه های «آموزش» و «کنترل» نشان داده شده است؛ در حالت کلی، این کار بارها برای بهترین تنظیم ضرایب انجام می شود.

فایل در اینجا موجود است و توسط آنتی ویروس اسکن شده است. ماکروها را برای عملکرد صحیح فعال کنید

3. نزول گرادیان و دینامیک تغییر خطا

حالت 4 بعدی و رگرسیون خطی وجود خواهد داشت. ضرایب رگرسیون خطی گام به گام با استفاده از روش گرادیان نزول تعیین می شود، در ابتدا همه ضرایب صفر هستند. یک نمودار جداگانه پویایی کاهش خطا را نشان می دهد زیرا ضرایب با دقت بیشتر و دقیق تر تنظیم می شوند. امکان مشاهده هر چهار پیش بینی 2 بعدی وجود دارد.

اگر گام شیب نزول را خیلی بزرگ تنظیم کنید، می بینید که هر بار از حداقل می گذریم و در تعداد بیشتری از مراحل به نتیجه می رسیم، اگرچه در پایان باز هم می رسیم (مگر اینکه مرحله فرود را نیز به تأخیر بیندازیم. خیلی - سپس الگوریتم "در پیک" خواهد رفت). و نمودار خطا بسته به مرحله تکرار صاف نخواهد بود، بلکه "تکانی" خواهد بود.

1. داده تولید کنید، مرحله نزول گرادیان را تنظیم کنید

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

2. با انتخاب صحیح پله نزول گرادیان به آرامی و سریع به حداقل می رسیم

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

3. اگر مرحله نزول گرادیان به اشتباه انتخاب شده باشد، ما از حداکثر بیش از حد خود عبور می کنیم، نمودار خطا "تند" است، همگرایی تعداد مراحل بیشتری را انجام می دهد.

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان
и

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

4. اگر مرحله نزول گرادیان را کاملاً اشتباه انتخاب کنیم، از حداقل فاصله می گیریم

یادگیری ماشینی بدون پایتون، آناکوندا و سایر خزندگان

(برای بازتولید فرآیند با استفاده از مقادیر مرحله نزول گرادیان نشان داده شده در تصاویر، کادر "اطلاعات مرجع" را علامت بزنید).

فایل در این لینک است، باید ماکروها را فعال کنید، ویروسی وجود ندارد.

به نظر جامعه محترم آیا چنین ساده سازی و روش ارائه مطالب قابل قبول است؟ آیا ارزش ترجمه مقاله به انگلیسی را دارد؟

منبع: www.habr.com

اضافه کردن نظر