Ансамблди үйрөнүүнүн сыйкыры

Эй Хабр! Маалымат инженерлерин жана машина үйрөнүү боюнча адистерди акысыз демо сабакка чакырабыз "Онлайн сунуштардын мисалын колдонуу менен ML моделдерин өнөр жай чөйрөсүнө чыгаруу". Биз ошондой эле макаланы жарыялайбыз Лука Монно - CDP SpA компаниясынын каржылык аналитикасынын жетекчиси.

Эң пайдалуу жана жөнөкөй машина үйрөнүү ыкмаларынын бири - Ensemble Learning. Ansemble Learning XGBoost, Bagging, Random Forest жана башка көптөгөн алгоритмдердин артындагы ыкма.

Маалымат илимине карата көптөгөн сонун макалалар бар, бирок мен эки окуяны тандадым (биринчи и экинчи) мага эң жакты. Анда эмне үчүн ЭЛ жөнүндө дагы бир макала жазуу керек? Анткени мен сага көрсөткүм келет жөнөкөй мисал менен кантип иштейт, бул жерде эч кандай сыйкыр жок экенин түшүндүм.

Мен ЭЛди биринчи жолу иш жүзүндө көргөнүмдө (айрым абдан жөнөкөй регрессиялык моделдер менен иштөө) өз көзүмө ишене алган жокмун жана ушул ыкманы үйрөткөн профессорду дагы деле эстейм.

Менде метрика менен эки башка моделим (эки алсыз окутуу алгоритми) бар болчу үлгүдөн тышкары R² тиешелүүлүгүнө жараша 0,90 жана 0,93 барабар. Натыйжаны кароодон мурун, мен эки баштапкы маанинин ортосунда R² алам деп ойлогом. Башка сөз менен айтканда, мен EL моделди эң ​​начар үлгүдөгүдөй начар эмес, бирок эң мыкты модель аткара албагандай аткаруу үчүн колдонсо болот деп ишенгем.

Менин таң калыштуусу, болжолдоолорду орточо эсеп менен алганда, R² 0,95 болду. 

Адегенде мен ката издей баштадым, бирок кийин бул жерде кандайдыр бир сыйкыр жашырылган болушу мүмкүн деп ойлодум!

Ansemble Learning деген эмне

EL менен сиз эки же андан көп моделдердин божомолдорун бириктирип, күчтүү жана натыйжалуу моделди чыгара аласыз. Моделдик ансамблдер менен иштөөнүн көптөгөн методологиялары бар. Бул жерде мен жалпы түшүнүк берүү үчүн эң пайдалуу экиге токтолом.

Жардамы менен регрессия колдо болгон моделдердин өндүрүмдүүлүгүн орточо алууга болот.

Жардамы менен классификация Сиз моделдерге этикеткаларды тандоо мүмкүнчүлүгүн бере аласыз. Көбүнчө тандалган энбелги жаңы модель тарабынан тандалат.

Эмне үчүн EL жакшыраак иштейт

EL жакшыраак иштешинин негизги себеби, ар бир божомолдо ката бар (биз муну ыктымалдуулук теориясынан билебиз), эки божомолду бириктирүү катаны азайтууга жардам берет, демек, өндүрүмдүүлүктүн көрсөткүчтөрүн жакшыртат (RMSE, R², ж.б.). d.).

Төмөнкү диаграмма эки алсыз алгоритмдин маалымат топтомунда кантип иштешин көрсөтөт. Биринчи алгоритм керектүүдөн чоңураак эңкейишке ээ, ал эми экинчисинде дээрлик нөл бар (мүмкүн, ашыкча жөнгө салуудан улам). Бирок ансамбли алда канча жакшы натыйжаларды керсетет. 

Эгерде сиз R² көрсөткүчүн карасаңыз, анда биринчи жана экинчи машыгуу алгоритми үчүн ал -0.01¹, 0.22ге барабар болот, ал эми ансамбль үчүн 0.73кө барабар болот.

Ансамблди үйрөнүүнүн сыйкыры

Алгоритмдин бул сыяктуу негизги мисалда да жаман модель болушунун көптөгөн себептери бар: балким, сиз ашыкча тууралоону болтурбоо үчүн регуляризацияны колдонууну чечтиңиз же кээ бир аномалияларды жокко чыгарбоо чечимине келдиңиз же полиномдук регрессияны колдонуп, туура эмес кабыл алдыңыз. даражасы (мисалы, биз экинчи даражадагы көп мүчөнү колдондук жана тесттин маалыматтары ачык асимметрияны көрсөтүп турат, ал үчүн үчүнчү даража ылайыктуураак болот).

EL качан жакшы иштейт

Келгиле, бир эле маалыматтар менен иштеген эки окутуу алгоритмин карап көрөлү.

Ансамблди үйрөнүүнүн сыйкыры

Бул жерде сиз эки моделди айкалыштыруу өндүрүмдүүлүгүн жакшыртпаганын көрө аласыз. Башында, эки окутуу алгоритми үчүн R² көрсөткүчтөрү тиешелүүлүгүнө жараша -0,37 жана 0,22ге барабар болгон, ал эми ансамбль үчүн -0,04 болуп чыкты. Башкача айтканда, EL модели көрсөткүчтөрдүн орточо маанисин алды.

Бирок, бул эки мисалдын ортосунда чоң айырма бар: биринчи мисалда, моделдин каталары терс корреляцияланган, ал эми экинчисинде, алар оң корреляцияланган (үч моделдин коэффициенттери бааланган эмес, бирок алар жөн эле тандалып алынган). мисал катары автор.)

Ошондуктан, Ansemble Learning ар кандай учурда, бирок качан болбосун, бир тараптуулук/дисперсиялык балансты жакшыртуу үчүн колдонулушу мүмкүн Модель каталары оң корреляцияланган эмес, EL колдонуу жакшыртылган өндүрүмдүүлүккө алып келиши мүмкүн.

Гомогендүү жана гетерогендүү моделдер

Көбүнчө EL бир тектүү моделдерде колдонулат (бул мисалдагыдай же кокус токойдогудай), бирок чындыгында сиз ар кандай моделдерди (сызыктуу регрессия + нейрон тармагы + XGBoost) түшүндүрүүчү өзгөрмөлөрдүн ар кандай топтомдору менен айкалыштыра аласыз. Бул, кыязы, байланышы жок каталарды жана жакшыртылган аткарууну алып келет.

Портфелди диверсификациялоо менен салыштыруу

EL портфолио теориясындагы диверсификацияга окшош иштейт, бирок биз үчүн ошончолук жакшы. 

Диверсификациялоодо, сиз корреляцияланбаган акцияларга инвестициялоо аркылуу өзүңүздүн көрсөткүчтөрүңүздүн дисперсиясын азайтууга аракет кыласыз. Акциялардын жакшы диверсификацияланган портфели эң начар жеке акцияларга караганда жакшыраак иштейт, бирок эч качан мыктылардан жакшыраак болот.

Уоррен Баффетти цитата кылуу үчүн: 

"Диверсификация - бул сабатсыздыктан коргонуу; эмне кылып жатканын билбеген адам үчүн бул [диверсификация] өтө аз мааниге ээ."

Машина үйрөнүүдө EL сиздин моделиңиздин дисперсиясын азайтууга жардам берет, бирок ал эң жакшы оригиналдуу моделге караганда жалпы өндүрүмдүүлүгү жакшыраак моделге алып келиши мүмкүн.

Кыскасы

Бир нече моделдерди бириктирүү салыштырмалуу жөнөкөй ыкма болуп саналат, ал дисперсия маселесин чечүүгө жана натыйжалуулукту жакшыртууга алып келет.

Эгер сизде жакшы иштеген эки же андан көп моделдер болсо, алардын арасынан тандабаңыз: баарын колдонуңуз (бирок этияттык менен)!

Бул багытта өнүгүүгө кызыкдарсызбы? Акысыз демо сабакка катталыңыз "Онлайн сунуштардын мисалын колдонуу менен ML моделдерин өнөр жай чөйрөсүнө чыгаруу" жана катышуу Андрей Кузнецов менен онлайн жолугушуу — Mail.ru Groupтун машина үйрөнүү инженери.

Source: www.habr.com

Комментарий кошуу