Интихоби хусусият дар омӯзиши мошинсозӣ

Эй Ҳабр!

Мо дар Reksoft мақоларо ба русӣ тарҷума кардем Интихоби хусусият дар омӯзиши мошинсозӣ. Умедворем, ки он барои ҳамаи онҳое, ки ба мавзӯъ таваҷҷӯҳ доранд, муфид хоҳад буд.

Дар ҷаҳони воқеӣ, маълумот на ҳамеша тоза аст, тавре ки муштариёни тиҷоратӣ баъзан фикр мекунанд. Ин аст, ки чаро истихроҷи додаҳо ва мубориза бо додаҳо талабот доранд. Он барои муайян кардани арзишҳо ва намунаҳои гумшуда дар маълумоти сохтории дархостшуда, ки одамон онҳоро муайян карда наметавонанд, кӯмак мекунад. Барои дарёфт ва истифодаи ин намунаҳо барои пешгӯии натиҷаҳо бо истифода аз муносибатҳои кашфшуда дар маълумот, омӯзиши мошинсозӣ муфид аст.

Барои фаҳмидани ҳар як алгоритм, шумо бояд ба ҳамаи тағирёбандаҳои маълумот назар кунед ва фаҳмед, ки ин тағирёбандаҳо чиро ифода мекунанд. Ин хеле муҳим аст, зеро мантиқи паси натиҷаҳо ба фаҳмидани маълумот асос ёфтааст. Агар маълумот 5 ё ҳатто 50 тағирёбанда дошта бошад, шумо метавонед ҳамаи онҳоро тафтиш кунед. Чӣ мешавад, агар онҳо 200 нафар бошанд? Он гоҳ барои омӯзиши ҳар як тағирёбанда вақти кофӣ нахоҳад буд. Гузашта аз ин, баъзе алгоритмҳо барои маълумоти категориявӣ кор намекунанд ва он гоҳ шумо бояд ҳамаи сутунҳои категорияиро ба тағирёбандаҳои миқдорӣ табдил диҳед (онҳо метавонанд миқдорӣ кунанд, аммо ченакҳо нишон медиҳанд, ки онҳо категориявӣ мебошанд) барои илова кардани онҳо ба модел. Хамин тавр, микдори тагйирёбандахо зиёд шуда, кариб 500 адад аст.. Акнун чй бояд кард? Шояд касе фикр кунад, ки ҷавоб кам кардани андозагирӣ аст. Алгоритмҳои кам кардани андоза шумораи параметрҳоро кам мекунанд, аммо ба тафсир таъсири манфӣ мерасонанд. Чӣ мешавад, агар усулҳои дигаре вуҷуд дошта бошанд, ки хусусиятҳоро нест мекунанд ва боқимондаҳоро фаҳмидан ва тафсир кардан осон аст?

Вобаста аз он, ки таҳлил ба регрессия ё тасниф асос ёфтааст, алгоритмҳои интихоби хусусиятҳо метавонанд фарқ кунанд, аммо идеяи асосии татбиқи онҳо ҳамоно боқӣ мемонад.

Тағйирёбандаҳои мутақобилаи баланд

Таѓйирёбандањое, ки бо њамдигар алоќаманди зиёд доранд, ба модел як маълумот медињанд, аз ин рў барои тањлил истифодаи њамаи онњо лозим нест. Масалан, агар маҷмӯи маълумот дорои хусусиятҳои "Вақти онлайн" ва "Трафики истифодашуда" бошад, мо метавонем тахмин кунем, ки онҳо то андозае мутақобила хоҳанд буд ва мо таносуби қавӣ хоҳем дид, ҳатто агар мо намунаи беғаразонаи маълумотро интихоб кунем. Дар ин ҳолат, танҳо яке аз ин тағирёбандаҳо дар модел лозим аст. Агар шумо ҳардуро истифода баред, модел аз ҳад зиёд муҷаҳҳаз карда мешавад ва ба як хусусияти мушаххас ғаразнок мешавад.

Арзишҳои P

Дар алгоритмҳо ба монанди регрессияи хатӣ, модели ибтидоии оморӣ ҳамеша фикри хуб аст. Он барои нишон додани аҳамияти хусусиятҳо тавассути арзишҳои p-и онҳо, ки бо ин модел ба даст оварда шудаанд, кӯмак мекунад. Сатҳи аҳамиятро муқаррар карда, мо арзишҳои ҳосилшудаи p-ро месанҷем ва агар ягон арзиш аз сатҳи аҳамияти муайяншуда паст бошад, он гоҳ ин хусусият муҳим эълон карда мешавад, яъне тағирёбии арзиши он эҳтимолан ба тағирёбии арзиши он оварда мерасонад. ҳадаф.

Интихоби мустақим

Интихоби пешин як усулест, ки истифодаи регрессияи марҳилавӣ дар бар мегирад. Сохтани модел бо сифри пурра, яъне модели холӣ оғоз мешавад ва сипас ҳар як такрор як тағирёбандаеро илова мекунад, ки модели сохташавандаро такмил медиҳад. Кадом тағирёбанда ба модел илова карда мешавад, аз рӯи аҳамияти он муайян карда мешавад. Инро метавон бо истифода аз ченакҳои гуногун ҳисоб кард. Роҳи маъмултарин ин истифодаи арзишҳои p-и дар модели аслии оморӣ гирифташуда бо истифода аз ҳама тағирёбандаҳо мебошад. Баъзан интихоби пешравӣ метавонад боиси аз ҳад зиёди модел гардад, зеро дар модел тағирёбандаҳои ба ҳам алоқаманд вуҷуд дошта метавонанд, ҳатто агар онҳо ба модели якхела маълумот пешниҳод кунанд (аммо модел ҳанӯз беҳбудиро нишон медиҳад).

Интихоби баръакс

Интихоби баръакс инчунин марҳила ба марҳила нест кардани хислатҳоро дар бар мегирад, аммо дар муқоиса бо интихоби пешравӣ дар самти муқобил. Дар ин ҳолат модели ибтидоӣ ҳамаи тағирёбандаҳои мустақилро дар бар мегирад. Пас аз он тағирёбандаҳо нест карда мешаванд (як итератсия) агар онҳо ба модели нави регрессия дар ҳар як итератсия арзиши саҳм нагузоранд. Истиснои хусусият ба арзишҳои p-и модели ибтидоӣ асос ёфтааст. Ин усул инчунин ҳангоми аз байн бурдани тағирёбандаҳои ба ҳам алоқаманд номуайянӣ дорад.

Бартараф кардани хусусияти рекурсивӣ

RFE як техника/алгоритми васеъ истифодашаванда барои интихоби шумораи дақиқи хусусиятҳои муҳим аст. Баъзан ин усул барои шарҳ додани як қатор хусусиятҳои "муҳимтарин", ки ба натиҷаҳо таъсир мерасонанд, истифода мешавад; ва баъзан барои кам кардани шумораи хеле зиёди тағирёбандаҳо (тақрибан 200-400) ва танҳо онҳое, ки ҳадди аққал як андоза ба модел саҳм мегузоранд, нигоҳ дошта мешаванд ва ҳамаи дигарон хориҷ карда мешаванд. Радиои Озодӣ системаи рейтингиро истифода мебарад. Хусусиятҳои маҷмӯи додаҳо рутбаҳо дода мешаванд. Пас аз ин рутбаҳо барои бартараф кардани хусусиятҳо дар асоси мувофиқати байни онҳо ва аҳамияти ин хусусиятҳо дар модел истифода мешаванд. Илова ба рейтинги хусусиятҳо, RFE метавонад нишон диҳад, ки оё ин хусусиятҳо ҳатто барои шумораи муайяни хусусиятҳо муҳиманд ё не (зеро эҳтимоли зиёд вуҷуд дорад, ки шумораи интихобшудаи хусусиятҳо оптималӣ набошанд ва шумораи оптималии хусусиятҳо шояд бештар бошад. ё камтар аз рақами интихобшуда).

Диаграммаи аҳамияти хусусият

Ҳангоми сухан дар бораи тафсири алгоритмҳои омӯзиши мошинсозӣ, мо одатан регрессияҳои хатиро (ки ба шумо имкон медиҳад аҳамияти хусусиятҳоро бо истифода аз p-қиматҳо таҳлил кунед) ва дарахтони қарорҳоро (айнан аҳамияти хусусиятҳоро дар шакли дарахт нишон медиҳанд ва дар ҳамон вақт иерархияи онҳо). Аз тарафи дигар, алгоритмҳо ба монанди Random Forest, LightGBM ва XG Boost аксар вақт диаграммаи аҳамияти хусусиятро истифода мебаранд, яъне диаграммаи тағирёбандаҳо ва "рақамҳои аҳамияти онҳо" кашида мешаванд. Ин махсусан вақте муфид аст, ки ба шумо лозим аст, ки асосҳои сохториро барои аҳамияти атрибутҳо дар робита ба таъсири онҳо ба тиҷорат пешниҳод кунед.

Танзимкунӣ

Регуляризатсия барои назорат кардани тавозуни байни ғараз ва ихтилоф анҷом дода мешавад. Ғараз нишон медиҳад, ки модел ба маҷмӯи маълумоти омӯзишӣ чӣ қадар мувофиқат кардааст. Инҳироф нишон медиҳад, ки то чӣ андоза пешгӯиҳо байни маҷмӯи маълумотҳои омӯзишӣ ва санҷишӣ фарқ доштанд. Идеалӣ, ҳам ғараз ва ҳам ихтилоф бояд хурд бошад. Дар ин ҷо танзимкунӣ ба наҷот меояд! Ду техникаи асосӣ вуҷуд доранд:

Танзими L1 - Лассо: Лассо вазнҳои моделро барои тағир додани аҳамияти онҳо барои модел ҷазо медиҳад ва ҳатто метавонад онҳоро ба сифр барқарор кунад (яъне он тағирёбандаҳоро аз модели ниҳоӣ хориҷ кунад). Одатан, Lasso вақте истифода мешавад, ки маҷмӯи додаҳо шумораи зиёди тағирёбандаҳоро дар бар мегирад ва шумо мехоҳед, ки баъзеи онҳоро истисно кунед, то беҳтар фаҳмед, ки хусусиятҳои муҳим ба модел таъсир мерасонанд (яъне он хусусиятҳое, ки аз ҷониби Lasso интихоб шудаанд ва аҳамият дода шудаанд).

Танзими L2 - Усули Ridge: Вазифаи Ridge нигоҳ доштани ҳама тағирёбандаҳо ва ҳамзамон ба онҳо вобаста ба саҳми онҳо дар иҷрои модел аҳамият додан аст. Ridge интихоби хуб хоҳад буд, агар маҷмӯи маълумот шумораи ками тағирёбандаҳоро дар бар гирад ва ҳамаи онҳо барои тафсири бозёфтҳо ва натиҷаҳои бадастомада зарур бошанд.

Азбаски Ridge ҳама тағирёбандаҳоро нигоҳ медорад ва Лассо барои муайян кардани аҳамияти онҳо кори беҳтареро иҷро мекунад, алгоритме таҳия карда шуд, ки беҳтарин хусусиятҳои ҳарду регуляризатсияро, ки бо номи Elastic-Net маъруф аст, муттаҳид мекунад.

Роҳҳои зиёди интихоби хусусиятҳо барои омӯзиши мошинсозӣ вуҷуд доранд, аммо идеяи асосӣ ҳамеша як аст: аҳамияти тағирёбандаҳоро нишон диҳед ва сипас баъзеи онҳоро дар асоси аҳамияти натиҷавӣ нест кунед. Аҳамият истилоҳи хеле субъективӣ аст, зеро он на танҳо як, балки маҷмӯи пурраи ченакҳо ва диаграммаҳо мебошад, ки метавонанд барои дарёфти сифатҳои асосӣ истифода шаванд.

Ташаккур барои хондан! Омӯзиши хушбахтона!

Манбаъ: will.com

Илова Эзоҳ