Машиналық оқытудағы мүмкіндіктерді таңдау

Эй Хабр!

Біз Reksoft компаниясында мақаланы орыс тіліне аудардық Машиналық оқытудағы мүмкіндіктерді таңдау. Тақырыпқа қызығушылық танытатындардың барлығына пайдалы болады деп сенеміз.

Нақты әлемде деректер бизнес тұтынушылары кейде ойлайтындай таза бола бермейді. Дәл осы себепті деректерді өндіру және деректер тартысы сұранысқа ие. Бұл адамдар анықтай алмайтын сұрау құрылымдық деректердегі жетіспейтін мәндер мен үлгілерді анықтауға көмектеседі. Деректердегі табылған қарым-қатынастарды пайдаланып нәтижелерді болжау үшін осы үлгілерді табу және пайдалану үшін машиналық оқыту ыңғайлы болады.

Кез келген алгоритмді түсіну үшін деректердегі барлық айнымалыларды қарап, сол айнымалылар нені білдіретінін анықтау керек. Бұл өте маңызды, себебі нәтижелердің негізі деректерді түсінуге негізделген. Егер деректерде 5 немесе тіпті 50 айнымалы болса, олардың барлығын тексеруге болады. Егер олардың саны 200 болса ше? Сонда әрбір айнымалыны зерттеуге уақыт жеткіліксіз болады. Сонымен қатар, кейбір алгоритмдер категориялық деректер үшін жұмыс істемейді, содан кейін оларды үлгіге қосу үшін барлық категориялық бағандарды сандық айнымалыларға түрлендіруге тура келеді (олар сандық болып көрінуі мүмкін, бірақ метрика олардың категориялық екенін көрсетеді). Осылайша, айнымалылар саны артып, олардың саны 500-ге жуық.Енді не істеу керек? Жауап өлшемді азайту болады деп ойлауы мүмкін. Өлшемді азайту алгоритмдері параметрлердің санын азайтады, бірақ интерпретацияға теріс әсер етеді. Қалғандарын түсінуге және түсіндіруге оңай ететін мүмкіндіктерді жоятын басқа әдістер болса ше?

Талдау регрессияға немесе классификацияға негізделгеніне байланысты мүмкіндіктерді таңдау алгоритмдері әртүрлі болуы мүмкін, бірақ оларды жүзеге асырудың негізгі идеясы өзгеріссіз қалады.

Корреляциясы жоғары айнымалылар

Бір-бірімен жоғары корреляцияланған айнымалылар модельге бірдей ақпаратты береді, сондықтан олардың барлығын талдау үшін пайдаланудың қажеті жоқ. Мысалы, егер деректер жиынында "Онлайн уақыт" және "Қолданылған трафик" мүмкіндіктері болса, біз олар біршама өзара байланысты болады деп болжауға болады және бейтарап деректер үлгісін таңдасақ та күшті корреляцияны көреміз. Бұл жағдайда үлгіде осы айнымалылардың біреуі ғана қажет. Егер сіз екеуін де пайдалансаңыз, модель шамадан тыс орнатылады және белгілі бір мүмкіндікке бейім болады.

P-мәндері

Сызықтық регрессия сияқты алгоритмдерде бастапқы статистикалық модель әрқашан жақсы идея болып табылады. Бұл модель арқылы алынған олардың p-мәндері арқылы мүмкіндіктердің маңыздылығын көрсетуге көмектеседі. Маңыздылық деңгейін орната отырып, біз алынған p-мәндерін тексереміз және егер қандай да бір мән көрсетілген маңыздылық деңгейінен төмен болса, онда бұл функция маңызды деп жарияланады, яғни оның мәнінің өзгеруі мәнінің өзгеруіне әкелуі мүмкін. мақсат.

Тікелей таңдау

Алға таңдау – қадамдық регрессияны қолдануды қамтитын әдіс. Модельді құру толық нөлден, яғни бос үлгіден басталады, содан кейін әрбір итерация салынып жатқан үлгіні жақсартуды жасайтын айнымалыны қосады. Модельге қандай айнымалы қосылатыны оның маңыздылығымен анықталады. Мұны әртүрлі көрсеткіштер арқылы есептеуге болады. Ең көп таралған әдіс - барлық айнымалы мәндерді пайдалана отырып, бастапқы статистикалық модельде алынған p-мәндерін пайдалану. Кейде алға таңдау үлгіні шамадан тыс орнатуға әкелуі мүмкін, себебі модельде жоғары корреляциялық айнымалылар болуы мүмкін, тіпті олар үлгіге бірдей ақпаратты берсе де (бірақ үлгі әлі де жақсартуды көрсетеді).

Кері таңдау

Кері таңдау сонымен қатар белгілерді кезең-кезеңмен жоюды қамтиды, бірақ алға таңдаумен салыстырғанда керісінше бағытта. Бұл жағдайда бастапқы модель барлық тәуелсіз айнымалыларды қамтиды. Әр итерацияда жаңа регрессия үлгісіне мән бермесе, айнымалылар жойылады (әр итерация үшін бір). Мүмкіндіктерді алып тастау бастапқы үлгінің p-мәндеріне негізделген. Бұл әдіс жоғары корреляцияланған айнымалыларды жою кезінде де белгісіздікке ие.

Рекурсивті мүмкіндікті жою

RFE – маңызды мүмкіндіктердің нақты санын таңдауға арналған кеңінен қолданылатын әдіс/алгоритм. Кейде әдіс нәтижелерге әсер ететін бірқатар «ең маңызды» мүмкіндіктерді түсіндіру үшін қолданылады; ал кейде айнымалылардың өте үлкен санын азайту үшін (шамамен 200-400), үлгіге кем дегенде қандай да бір үлес қосатындары ғана сақталады, ал қалғандарының барлығы алынып тасталады. RFE рейтинг жүйесін пайдаланады. Деректер жиынындағы мүмкіндіктерге дәрежелер тағайындалған. Содан кейін бұл дәрежелер олардың арасындағы коллинеарлылыққа және модельдегі сол мүмкіндіктердің маңыздылығына негізделген мүмкіндіктерді рекурсивті жою үшін пайдаланылады. Реттеу мүмкіндіктеріне қоса, RFE бұл мүмкіндіктердің белгілі бір мүмкіндіктер саны үшін маңызды немесе маңызды емес екенін көрсете алады (өйткені таңдалған мүмкіндіктер саны оңтайлы болмауы мүмкін және мүмкіндіктердің оңтайлы саны одан да көп болуы мүмкін. немесе таңдалған саннан аз).

Функцияның маңыздылығы диаграммасы

Машиналық оқыту алгоритмдерінің түсіндірмелілігі туралы айтқанда, біз әдетте сызықтық регрессияларды (олар p-мәндерін пайдаланып мүмкіндіктердің маңыздылығын талдауға мүмкіндік береді) және шешім ағаштарын (сөзбе-сөз ағаш түріндегі мүмкіндіктердің маңыздылығын көрсететін, ал сол уақытта олардың иерархиясы). Екінші жағынан, Random Forest, LightGBM және XG Boost сияқты алгоритмдер функцияның маңыздылығы диаграммасын жиі пайдаланады, яғни айнымалылар диаграммасы және «олардың маңыздылық сандары» сызылады. Бұл бизнеске әсер ету тұрғысынан атрибуттардың маңыздылығының құрылымдық негіздемесін беру қажет болғанда әсіресе пайдалы.

Регуляризация

Регуляризация қиғаштық пен дисперсия арасындағы тепе-теңдікті бақылау үшін жасалады. Бағалау модельдің жаттығу деректер жинағына қаншалықты сәйкес келетінін көрсетеді. Ауытқу оқу және сынақ деректер жинақтары арасындағы болжамдардың қаншалықты әртүрлі екенін көрсетеді. Ең дұрысы, ауытқу да, дисперсия да аз болуы керек. Бұл жерде реттеу көмекке келеді! Екі негізгі техника бар:

L1 Regularization - Lasso: Lasso модель үшін маңыздылығын өзгерту үшін үлгі салмақтарын жазалайды және тіпті оларды нөлге дейін жоя алады (яғни, сол айнымалы мәндерді соңғы үлгіден алып тастайды). Әдетте, Lasso деректер жиынында айнымалылардың көп саны болған кезде пайдаланылады және маңызды мүмкіндіктердің үлгіге қалай әсер ететінін жақсырақ түсіну үшін олардың кейбірін алып тастағыңыз келсе (яғни, Lasso таңдаған және маңыздылығы тағайындалған мүмкіндіктер).

L2 Regularization - Ridge әдісі: Ridge жұмысы барлық айнымалы мәндерді сақтау және сонымен бірге олардың үлгі өнімділігіне қосқан үлесі негізінде маңыздылығын беру болып табылады. Деректер жиынында айнымалылардың аз саны болса және олардың барлығы алынған нәтижелер мен нәтижелерді түсіндіру үшін қажет болса, Ridge жақсы таңдау болады.

Ridge барлық айнымалы мәндерді сақтайтындықтан және Lasso олардың маңыздылығын анықтауда жақсы жұмыс істейтіндіктен, Elastic-Net деп аталатын екі реттеудің де ең жақсы мүмкіндіктерін біріктіретін алгоритм әзірленді.

Машиналық оқыту үшін мүмкіндіктерді таңдаудың тағы да көптеген жолдары бар, бірақ негізгі идея әрқашан бірдей: айнымалылардың маңыздылығын көрсетіңіз, содан кейін олардың кейбіреулерін нәтиже маңыздылығына қарай алып тастаңыз. Маңыздылық - бұл өте субъективті термин, өйткені ол бір ғана емес, негізгі атрибуттарды табу үшін пайдалануға болатын көрсеткіштер мен диаграммалардың тұтас жиынтығы.

Оқығаныңызға рахмет! Бақытты оқу!

Ақпарат көзі: www.habr.com

пікір қалдыру