نه، البته، من جدی نیستم. باید حدی وجود داشته باشد که تا چه حد می توان یک موضوع را ساده کرد. اما برای اولین مراحل، درک مفاهیم اولیه و "ورود" سریع به موضوع، ممکن است قابل قبول باشد. در پایان درباره نحوه نامگذاری صحیح این مطالب صحبت خواهیم کرد (گزینهها: «یادگیری ماشین برای آدمکها»، «تجزیه و تحلیل دادهها از پوشک»، «الگوریتمهایی برای بچههای کوچک»).
به نقطه. چندین برنامه کاربردی در MS Excel برای تجسم و نمایش بصری فرآیندهایی که در روش های مختلف یادگیری ماشین هنگام تجزیه و تحلیل داده ها رخ می دهند، نوشت. به هر حال، همانطور که حاملان فرهنگ می گویند، دیدن باور کردن است، که اکثر این روش ها را توسعه داده است (به هر حال، نه همه آنها. قدرتمندترین "ماشین بردار پشتیبان" یا SVM، ماشین بردار پشتیبان اختراع هموطن ما ولادیمیر واپنیک، مؤسسه مدیریت مسکو، اتفاقاً 1963، اما اکنون او در ایالات متحده آمریکا تدریس و کار می کند.
1. K-به معنی خوشه بندی
مشکلات این نوع به «یادگیری بدون نظارت» اشاره دارد، زمانی که ما نیاز داریم داده های اولیه را به تعداد معینی از دسته بندی های شناخته شده از قبل تقسیم کنیم، اما تعداد «پاسخ صحیح» نداریم؛ باید آنها را از خود داده ها استخراج کنیم. . مشکل اساسی کلاسیک یافتن زیرگونههای گل زنبق (رونالد فیشر، 1936!) که اولین نشانه این حوزه دانش به حساب میآید، دقیقاً از همین ماهیت است.
روش کاملا ساده است. ما مجموعه ای از اشیاء را داریم که به صورت بردار نمایش داده می شوند (مجموعه ای از N عدد). در عنبیه ها، اینها مجموعه ای از 4 عدد هستند که گل را مشخص می کنند: به ترتیب طول و عرض لوب بیرونی و داخلی پرینث (
در مرحله بعد، مراکز خوشه به طور تصادفی انتخاب می شوند (یا نه به طور تصادفی، به زیر مراجعه کنید)، و فاصله هر شی تا مراکز خوشه محاسبه می شود. هر شی در یک مرحله تکرار معین به عنوان متعلق به نزدیکترین مرکز مشخص می شود. سپس مرکز هر خوشه به میانگین حسابی مختصات اعضای آن منتقل می شود (بر اساس قیاس با فیزیک، به آن "مرکز جرم" نیز می گویند) و این روش تکرار می شود.
روند به سرعت همگرا می شود. در تصاویر دو بعدی به صورت زیر است:
1. توزیع تصادفی اولیه نقاط روی صفحه و تعداد خوشه ها
2. تعیین مراکز خوشه و اختصاص امتیاز به خوشه های آنها
3. انتقال مختصات مراکز خوشه، محاسبه مجدد وابستگی نقاط تا تثبیت مراکز. مسیر حرکت مرکز خوشه به موقعیت نهایی خود قابل مشاهده است.
در هر زمان، می توانید مراکز خوشه جدیدی را تنظیم کنید (بدون ایجاد توزیع جدیدی از نقاط!) و ببینید که فرآیند پارتیشن بندی همیشه بدون ابهام نیست. از نظر ریاضی، این بدان معناست که برای تابعی که بهینه میشود (مجموع مجذور فواصل نقاط تا مراکز خوشههای آنها)، ما نه یک کل، بلکه یک حداقل محلی پیدا میکنیم. این مشکل را می توان با انتخاب غیر تصادفی مراکز اولیه خوشه ای یا با برشمردن مراکز احتمالی برطرف کرد (گاهی اوقات بهتر است آنها را دقیقاً در یکی از نقاط قرار دهیم، پس حداقل تضمینی وجود دارد که خالی نشویم. خوشه ها). در هر صورت، یک مجموعه محدود همیشه یک infimum دارد.
شرح روش در ویکی پدیا -
2. تقریب توسط چند جمله ای ها و تجزیه داده ها. بازآموزی
دانشمند برجسته و متداول کننده علم داده K.V. ورونتسوف به طور خلاصه روش های یادگیری ماشین را به عنوان "علم ترسیم منحنی ها از طریق نقاط" توصیف می کند. در این مثال، با استفاده از روش حداقل مربعات، الگویی را در داده ها پیدا می کنیم.
تکنیک تقسیم داده های منبع به "آموزش" و "کنترل" و همچنین پدیده ای مانند بازآموزی یا "تنظیم مجدد" داده ها نشان داده شده است. با تقریب صحیح، یک خطای مشخص در داده های آموزشی و یک خطای کمی بزرگتر در داده های کنترل خواهیم داشت. اگر نادرست باشد، منجر به تنظیم دقیق داده های آموزشی و خطای بزرگ در داده های آزمایش می شود.
(این یک واقعیت شناخته شده است که از طریق N نقطه می توان یک منحنی منفرد از درجه N-1 رسم کرد و این روش در حالت کلی نتیجه مطلوب را نمی دهد.
1. توزیع اولیه را تنظیم کنید
2. نقاط را به نسبت 70 به 30 به "آموزش" و "کنترل" تقسیم می کنیم.
3. منحنی تقریبی را در امتداد نقاط آموزشی رسم می کنیم، خطای آن را روی داده های کنترل می بینیم.
4. ما یک منحنی دقیق را از طریق نقاط آموزشی رسم می کنیم و یک خطای هیولایی در داده های کنترلی می بینیم (و در داده های آموزشی صفر، اما فایده چیست؟).
البته ساده ترین گزینه با یک تقسیم به زیر مجموعه های «آموزش» و «کنترل» نشان داده شده است؛ در حالت کلی، این کار بارها برای بهترین تنظیم ضرایب انجام می شود.
3. نزول گرادیان و دینامیک تغییر خطا
حالت 4 بعدی و رگرسیون خطی وجود خواهد داشت. ضرایب رگرسیون خطی گام به گام با استفاده از روش گرادیان نزول تعیین می شود، در ابتدا همه ضرایب صفر هستند. یک نمودار جداگانه پویایی کاهش خطا را نشان می دهد زیرا ضرایب با دقت بیشتر و دقیق تر تنظیم می شوند. امکان مشاهده هر چهار پیش بینی 2 بعدی وجود دارد.
اگر گام شیب نزول را خیلی بزرگ تنظیم کنید، می بینید که هر بار از حداقل می گذریم و در تعداد بیشتری از مراحل به نتیجه می رسیم، اگرچه در پایان باز هم می رسیم (مگر اینکه مرحله فرود را نیز به تأخیر بیندازیم. خیلی - سپس الگوریتم "در پیک" خواهد رفت). و نمودار خطا بسته به مرحله تکرار صاف نخواهد بود، بلکه "تکانی" خواهد بود.
1. داده تولید کنید، مرحله نزول گرادیان را تنظیم کنید
2. با انتخاب صحیح پله نزول گرادیان به آرامی و سریع به حداقل می رسیم
3. اگر مرحله نزول گرادیان به اشتباه انتخاب شده باشد، ما از حداکثر بیش از حد خود عبور می کنیم، نمودار خطا "تند" است، همگرایی تعداد مراحل بیشتری را انجام می دهد.
и
4. اگر مرحله نزول گرادیان را کاملاً اشتباه انتخاب کنیم، از حداقل فاصله می گیریم
(برای بازتولید فرآیند با استفاده از مقادیر مرحله نزول گرادیان نشان داده شده در تصاویر، کادر "اطلاعات مرجع" را علامت بزنید).
به نظر جامعه محترم آیا چنین ساده سازی و روش ارائه مطالب قابل قبول است؟ آیا ارزش ترجمه مقاله به انگلیسی را دارد؟
منبع: www.habr.com