Машин сургалтын онцлогийг сонгох

Хөөе Хабр!

Бид Reksoft-т нийтлэлийг орос хэл рүү орчуулсан Машины сургалтын онцлогийг сонгох. Энэ сэдвийг сонирхож буй бүх хүмүүст хэрэг болно гэж найдаж байна.

Бодит ертөнцөд өгөгдөл нь бизнесийн үйлчлүүлэгчдийн заримдаа боддог шиг үргэлж цэвэр байдаггүй. Ийм учраас дата олборлолт, мэдээллийн маргаан эрэлт хэрэгцээтэй байгаа. Энэ нь хүмүүсийн тодорхойлж чадахгүй байгаа асуулгын бүтэцтэй өгөгдлийн дутуу үнэ цэнэ, хэв маягийг тодорхойлоход тусалдаг. Өгөгдөл дэх нээсэн харилцааг ашиглан үр дүнг таамаглахын тулд эдгээр хэв маягийг олж, ашиглахын тулд машин суралцах нь ашигтай байдаг.

Аливаа алгоритмыг ойлгохын тулд та өгөгдлийн бүх хувьсагчдыг харж, тэдгээр хувьсагчид юуг илэрхийлж байгааг олж мэдэх хэрэгтэй. Үр дүнгийн цаадах үндэслэл нь өгөгдлийг ойлгоход суурилдаг тул энэ нь маш чухал юм. Хэрэв өгөгдөлд 5 эсвэл бүр 50 хувьсагч байгаа бол та бүгдийг нь шалгаж болно. Тэдний 200 нь байвал яах вэ? Дараа нь хувьсагч бүрийг судлах хангалттай хугацаа байхгүй болно. Түүнээс гадна, зарим алгоритм нь категорийн өгөгдөлд ажиллахгүй бөгөөд дараа нь загварт нэмэхийн тулд бүх категорийн баганыг тоон хувьсагч руу хөрвүүлэх шаардлагатай болно (тэдгээр нь тоон үзүүлэлттэй харагдах боловч хэмжигдэхүүнүүд нь категоритой гэдгийг харуулах болно). Ингээд хувьсагчийн тоо нэмэгдэж 500 орчим хувьсагч байна.Одоо яах вэ? Хариулт нь хэмжээст байдлыг багасгах явдал юм гэж бодож магадгүй юм. Хэмжээг багасгах алгоритмууд нь параметрийн тоог багасгадаг боловч тайлбарлах чадварт сөргөөр нөлөөлдөг. Үлдсэнийг нь ойлгох, тайлбарлахад хялбар болгохын зэрэгцээ онцлог шинж чанарыг арилгах өөр арга техник байвал яах вэ?

Шинжилгээ нь регресс эсвэл ангилалд үндэслэсэн эсэхээс хамааран шинж чанарыг сонгох алгоритмууд өөр байж болох ч тэдгээрийг хэрэгжүүлэх гол санаа нь ижил хэвээр байна.

Өндөр хамааралтай хувьсагчид

Өөр хоорондоо маш их хамааралтай хувьсагчид загварт ижил мэдээлэл өгдөг тул бүгдийг нь дүн шинжилгээ хийхэд ашиглах шаардлагагүй. Жишээлбэл, хэрэв өгөгдлийн багц нь "Онлайн цаг" болон "Ашигласан замын хөдөлгөөн" гэсэн функцуудыг агуулж байвал тэдгээр нь хоорондоо ямар нэгэн байдлаар хамааралтай байх бөгөөд бид өгөгдлийн түүврийг бодитойгоор сонгосон ч гэсэн хүчтэй хамаарлыг харах болно. Энэ тохиолдолд загварт эдгээр хувьсагчийн зөвхөн нэг нь л хэрэгтэй. Хэрэв та хоёуланг нь ашиглавал загвар нь хэт тохируулагдсан бөгөөд нэг онцлог шинж чанарт хазайх болно.

P-утгууд

Шугаман регресс гэх мэт алгоритмуудад статистикийн анхны загвар нь үргэлж сайн санаа юм. Энэ загвараар олж авсан p-утгуудаар дамжуулан шинж чанаруудын ач холбогдлыг харуулахад тусалдаг. Ач холбогдлын түвшинг тогтоосны дараа бид үүссэн p-утгыг шалгаж, хэрэв ямар нэгэн утга нь тогтоосон ач холбогдлын түвшнээс доогуур байвал энэ шинж чанарыг чухал гэж зарлана, өөрөөр хэлбэл түүний утгын өөрчлөлт нь утгыг өөрчлөхөд хүргэдэг. бай.

Шууд сонголт

Урагш сонгох нь алхам алхмаар регрессийг ашиглах арга техник юм. Загвар бүтээх нь бүрэн тэг буюу хоосон загвараас эхэлдэг бөгөөд дараа нь давталт бүр нь барьж буй загварт сайжруулалт хийх хувьсагчийг нэмдэг. Загварт ямар хувьсагч нэмэгдэх нь түүний ач холбогдлоор тодорхойлогддог. Үүнийг янз бүрийн хэмжүүр ашиглан тооцоолж болно. Хамгийн түгээмэл арга бол бүх хувьсагчийг ашиглан анхны статистик загварт олж авсан p утгыг ашиглах явдал юм. Заримдаа урагшлах сонголт нь загварт ижил мэдээлэл өгсөн ч гэсэн загварт өндөр хамааралтай хувьсагчид байж болох тул загварыг хэт тохируулахад хүргэдэг (гэхдээ загвар нь сайжруулалтыг харуулж байна).

Урвуу сонголт

Урвуу сонголт нь мөн шинж чанаруудыг алхам алхмаар арилгахыг агуулдаг боловч урагшлах сонголттой харьцуулахад эсрэг чиглэлд байдаг. Энэ тохиолдолд анхны загварт бүх бие даасан хувьсагч орно. Давталт бүрт шинэ регрессийн загварт үнэ цэнийг оруулахгүй бол хувьсагчдыг хасна (давталт бүрт нэг). Онцлогыг хасах нь анхны загварын p-утгууд дээр суурилдаг. Энэ арга нь өндөр хамааралтай хувьсагчдыг арилгахад тодорхойгүй байдал үүсгэдэг.

Рекурсив шинж чанарыг арилгах

RFE нь чухал шинж чанаруудын нарийн тоог сонгоход өргөн хэрэглэгддэг техник/алгоритм юм. Заримдаа энэ аргыг үр дүнд нөлөөлдөг хэд хэдэн "хамгийн чухал" шинж чанаруудыг тайлбарлахад ашигладаг; заримдаа маш олон тооны хувьсагчдыг (ойролцоогоор 200-400) багасгахын тулд зөвхөн загварт тодорхой хувь нэмэр оруулдаг хувьсагчдыг л хадгалж, бусад бүх зүйлийг хасдаг. RFE нь зэрэглэлийн системийг ашигладаг. Өгөгдлийн багц дахь шинж чанаруудад зэрэглэл тогтоогддог. Дараа нь эдгээр зэрэглэлийг тэдгээрийн хоорондын уялдаа холбоо болон загвар дахь тэдгээр шинж чанаруудын ач холбогдлыг харгалзан шинж чанаруудыг рекурсив аргаар арилгахад ашигладаг. Онцлогуудыг эрэмбэлэхээс гадна RFE нь эдгээр функцууд нь өгөгдсөн тооны онцлогт чухал эсвэл чухал биш эсэхийг харуулах боломжтой (учир нь сонгосон тооны онцлог нь оновчтой биш байж магадгүй бөгөөд хамгийн оновчтой тоо нь илүү их байх магадлалтай. эсвэл сонгосон тооноос бага).

Онцлогийн ач холбогдлын диаграм

Машины сургалтын алгоритмуудын тайлбарын талаар ярихдаа бид ихэвчлэн шугаман регресс (энэ нь p-утгыг ашиглан шинж чанаруудын ач холбогдлыг шинжлэх боломжийг олгодог) болон шийдвэрийн мод (мод хэлбэрээр шинж чанаруудын ач холбогдлыг шууд утгаараа харуулдаг) талаар ярилцдаг. Үүний зэрэгцээ тэдний шатлал). Нөгөөтэйгүүр, Random Forest, LightGBM, XG Boost зэрэг алгоритмууд нь ихэвчлэн онцлог ач холбогдлын диаграммыг ашигладаг, өөрөөр хэлбэл хувьсагчдын диаграммыг "тэдгээрийн ач холбогдлын тоо"-ыг зурдаг. Энэ нь бизнест үзүүлэх нөлөөллийн хувьд шинж чанаруудын ач холбогдлын талаар бүтэцлэгдсэн үндэслэлийг өгөх шаардлагатай үед ялангуяа ашигтай байдаг.

Зохицуулалт

Зохицуулалт нь хазайлт ба хэлбэлзлийн тэнцвэрийг хянахын тулд хийгддэг. Хязгаарлалт нь сургалтын өгөгдлийн багцад загвар хэр их нийцэж байгааг харуулдаг. Энэ хазайлт нь сургалтын болон туршилтын өгөгдлийн багцын хооронд таамаглал хэр ялгаатай байсныг харуулж байна. Хамгийн тохиромжтой нь хазайлт, зөрүү хоёулаа бага байх ёстой. Энд л зохицуулалт нь аврах ажилд ирдэг! Хоёр үндсэн техник байдаг:

L1 Зохицуулалт - Лассо: Лассо нь загварын жингийн ач холбогдлыг өөрчлөхийн тулд торгууль ногдуулдаг бөгөөд тэр ч байтугай тэдгээрийг тэг болгож болно (жишээ нь эдгээр хувьсагчдыг эцсийн загвараас хасах). Ерөнхийдөө Lasso-г өгөгдлийн багц нь олон тооны хувьсагч агуулсан үед ашигладаг бөгөөд та чухал шинж чанарууд нь загварт хэрхэн нөлөөлж байгааг илүү сайн ойлгохын тулд заримыг нь хасахыг хүсч байвал (өөрөөр хэлбэл, Lasso сонгосон бөгөөд ач холбогдол өгсөн функцууд).

L2 Regularization - Ridge method: Ridge-ийн үүрэг бол бүх хувьсагчдыг хадгалах ба нэгэн зэрэг загварын гүйцэтгэлд оруулсан хувь нэмрээс нь хамааруулан ач холбогдол өгөх явдал юм. Хэрэв өгөгдлийн багцад цөөн тооны хувьсагч байгаа бөгөөд тэдгээр нь бүгд олж авсан үр дүн, үр дүнг тайлбарлахад шаардлагатай бол Ridge нь сайн сонголт байх болно.

Ridge бүх хувьсагчдыг хадгалж, Lasso нь тэдний ач холбогдлыг илүү сайн тогтоодог тул Elastic-Net гэж нэрлэгддэг хоёр зохицуулалтын хамгийн сайн шинж чанаруудыг нэгтгэсэн алгоритмыг боловсруулсан.

Машины сургалтын онцлогуудыг сонгох өөр олон арга байдаг боловч гол санаа нь үргэлж ижил байдаг: хувьсагчдын ач холбогдлыг харуулж, дараа нь үүссэн ач холбогдлоор нь заримыг нь хасах. Ач холбогдол нь зөвхөн нэг биш, харин үндсэн шинж чанаруудыг олоход ашиглаж болох бүх хэмжүүр, диаграммууд байдаг тул маш субъектив нэр томъёо юм.

Уншсанд баярлалаа! Аз жаргалтай суралцах!

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх