Омӯзиши ансамбли ҷодугарӣ

Эй Ҳабр! Мо муҳандисони маълумот ва мутахассисони омӯзиши мошинҳоро ба дарси ройгони намоишӣ даъват мекунем "Ҷорӣ кардани моделҳои ML ба муҳити саноатӣ бо истифода аз мисоли тавсияҳои онлайн". Мо инчунин мақолаи Лука Монно - Роҳбари таҳлили молиявии CDP SpA -ро нашр мекунем.

Яке аз усулҳои муфид ва соддатарини омӯзиши мошинсозӣ ин омӯзиши Ensemble мебошад. Омӯзиши Ensemble ин усули асосии XGBoost, Bagging, Random Forest ва бисёр алгоритмҳои дигар мебошад.

Бисёр мақолаҳои олиҷаноб дар бораи ба сӯи маълумотҳо вуҷуд доранд, аммо ман ду ҳикояро интихоб кардам (аввал и дуюм) ки ба ман бештар писанд омад. Пас чаро дар бораи EL мақолаи дигар менависед? Зеро ман мехоҳам ба шумо нишон диҳам чӣ тавр он дар мисоли оддӣ кор мекунад, ки ин маро фахмонд, ки дар ин чо сехр нест.

Вақте ки ман бори аввал EL-ро дар амал дидам (кор бо баъзе моделҳои хеле соддаи регрессия) ман ба чашмони худ бовар накардам ва то ҳол профессореро, ки ба ман ин усулро таълим дода буд, дар хотир дорам.

Ман ду модели гуногун доштам (ду алгоритми омӯзиши заиф) бо экспонентҳо берун аз намуна R² ба 0,90 ва 0,93 баробар аст. Пеш аз дидани натиҷа, ман фикр мекардам, ки ман R²-ро дар байни ду арзиши ибтидоӣ мегирам. Ба ибораи дигар, ман фикр мекардам, ки EL-ро метавон истифода бурд, то модел ба қадри бадтарин модел кор накунад, аммо на он қадар хуб модели беҳтарин.

Тааҷҷубоваронаи ман, натиҷаҳои миёнаи оддии пешгӯиҳо R² 0,95 дод. 

Дар аввал ман ба ҷустуҷӯи хато шурӯъ кардам, аммо баъд фикр кардам, ки шояд дар ин ҷо ҷодуе пинҳон бошад!

Омӯзиши ансамбл чист

Бо EL, шумо метавонед пешгӯиҳои ду ё зиёда моделҳоро муттаҳид кунед, то модели боэътимод ва иҷрокунанда ба даст оред. Барои кор бо ансамбльхои модельхо бисьёр методология мавчуд аст. Дар ин ҷо ман ба ду чизи муфидтарин дахл хоҳам кард, то ба шумо идеяе диҳад.

Бо кӯмаки регрессия шумо метавонед ба ҳисоби миёна иҷрои моделҳои дастрас.

Бо кӯмаки тасниф шумо метавонед ба моделҳо иҷозат диҳед, ки тамғакоғазҳоро интихоб кунанд. Нишоне, ки аксар вақт интихоб карда мешуд, ҳамонест, ки аз ҷониби модели нав интихоб карда мешавад.

Чаро EL беҳтар кор мекунад

Сабаби асосии беҳтар кор кардани EL дар он аст, ки ҳар як пешгӯӣ хатогӣ дорад (мо инро аз назарияи эҳтимолият медонем), якҷоя кардани ду пешгӯӣ метавонад ба кам кардани хато кӯмак расонад ва ба ин васила нишондиҳандаҳои самаранокиро беҳтар созад (RMSE, R² ва ғайра). d.).

Диаграммаи зерин нишон медиҳад, ки чӣ гуна ду алгоритми заиф дар маҷмӯи додаҳо кор мекунанд. Дар алгоритми аввал дорои нишебии калонтар аз зарурӣ, дар ҳоле ки дуюм дорад, қариб сифр (эҳтимолан аз сабаби танзими аз ҳад зиёд). Аммо ансамбли натичахои бехтар нишон медихад. 

Агар шумо ба R² назар кунед, он гоҳ алгоритми якум ва дуюми омӯзиш он мутаносибан ба -0.01¹, 0.22 баробар мешавад, дар ҳоле ки барои ансамбл он ба 0.73 баробар хоҳад буд.

Омӯзиши ансамбли ҷодугарӣ

Сабабҳои зиёде мавҷуданд, ки алгоритм ҳатто барои мисоли асосӣ метавонад модели камбизоат бошад: шояд шумо қарор додед, ки регулятсияро истифода баред, то аз ҳад зиёд мувофиқат накунед, ё шумо тасмим гирифтед, ки баъзе аномалияҳоро бартараф накунед, ё шояд шумо регрессияи полиномиро истифода бурда, дараҷаи нодурустро интихоб кардаед. (масалан, полиномияи дараҷаи дуюм истифода шудааст ва маълумоти санҷиш асимметрияи равшанро нишон медиҳад, ки дараҷаи сеюм барои он беҳтар мувофиқ аст).

Вақте ки EL беҳтарин кор мекунад

Биёед ду алгоритми омӯзишро дида бароем, ки дар як маълумот кор мекунанд.

Омӯзиши ансамбли ҷодугарӣ

Дар ин ҷо шумо мебинед, ки якҷоя кардани ду модел корҳоро чандон беҳтар накардааст. Дар аввал, барои ду алгоритми таълим, арзишҳои R² мутаносибан -0,37 ва 0,22 буданд ва барои ансамбл он -0,04 шуд. Яъне модели EL арзиши миёнаи нишондодҳоро гирифт.

Аммо дар байни ин ду мисол фарқияти калон вуҷуд дорад: дар мисоли аввал хатогиҳои моделҳо ба таври манфӣ алоқаманд буданд ва дар дуюм - мусбат (коэффитсиентҳои се модел ҳисоб карда нашудаанд, балки танҳо аз ҷониби муаллиф интихоб карда шудаанд). ҳамчун мисол.)

Аз ин рӯ, омӯзиши Ensemble метавонад барои беҳтар кардани тавозуни ғараз/дисперсия дар ҳама ҳолатҳо истифода шавад, аммо вақте хатогиҳои модел ба таври мусбӣ алоқаманд нестанд, истифодаи EL метавонад ба иҷрои беҳтар оварда расонад.

Моделҳои якхела ва гетерогенӣ

Бисёр вақт EL дар моделҳои якхела истифода мешавад (чунон ки дар ин мисол ё ҷангали тасодуфӣ), аммо дар асл шумо метавонед моделҳои гуногунро (регрессияи хатӣ + шабакаи нейрон + XGBoost) бо маҷмӯи гуногуни тағирёбандаҳои шарҳдиҳанда муттаҳид кунед. Ин эҳтимол ба хатогиҳои номутаносиб оварда мерасонад ва иҷрои онро беҳтар мекунад.

Муқоиса бо диверсификатсияи портфел

EL ба диверсификатсия дар назарияи портфел монанд кор мекунад, аммо барои мо беҳтар аст. 

Вақте ки шумо диверсификатсия мекунед, шумо кӯшиш мекунед, ки фарқиятро дар иҷрои худ тавассути сармоягузорӣ ба саҳмияҳои бо ҳам алоқаманд кам кунед. Портфели хуб диверсификатсияшудаи саҳмияҳо аз бадтарин саҳмияҳои ягона беҳтар кор хоҳад кард, аммо ҳеҷ гоҳ аз беҳтарин беҳтар нест.

Иқтибос аз Уоррен Баффет: 

"Диверсификатсия як муҳофизат аз ҷаҳолат аст, барои касе, ки намедонад, ки чӣ кор мекунад, ин [диверсификатсия] хеле кам маъно дорад."

Дар омӯзиши мошинсозӣ, EL барои коҳиш додани фарқияти модели шумо кӯмак мекунад, аммо ин метавонад ба модели дорои иҷрои беҳтари умумӣ аз беҳтарин модели ибтидоӣ оварда расонад.

Биёед, натиҷаҳои онро бифаҳмем

Якҷоя кардани моделҳои сершумор дар як техникаи нисбатан соддаест, ки метавонад ба ҳалли мушкилоти ихтилофи ихтилоф ва беҳтар шудани кор оварда расонад.

Агар шумо ду ё зиёда модел дошта бошед, ки хуб кор мекунанд, дар байни онҳо интихоб накунед: ҳамаи онҳоро истифода баред (вале бо эҳтиёт)!

Оё шумо ба рушд дар ин самт таваҷҷӯҳ доред? Барои дарси намоишии ройгон обуна шавед "Ҷорӣ кардани моделҳои ML ба муҳити саноатӣ бо истифода аз мисоли тавсияҳои онлайн" ва иштирок мекунанд вохӯрии онлайн бо Андрей Кузнецов — Муҳандиси омӯзиши мошинсозӣ дар Mail.ru Group.

Манбаъ: will.com

Илова Эзоҳ