Xulashada muujinta ee barashada mashiinka

Haye Habr!

Anaga oo Reksoft ah ayaa maqaalka u turjumay afka Ruushka Xulashada astaanta ee Barashada Mashiinka. Waxaan rajeyneynaa inay faa'iido u yeelan doonto qof kasta oo xiiseynaya mawduuca.

Dunida dhabta ah, xogtu had iyo jeer maaha mid nadiif ah sida macaamiisha ganacsigu ay mararka qaarkood u maleynayaan. Tani waa sababta macdan qodista iyo muranka xogta loogu baahan yahay. Waxay ka caawisaa in la aqoonsado qiyamka maqan iyo qaababka xogta habaysan ee su'aasha ee aadanuhu aqoonsan karin. Si loo helo oo loo isticmaalo qaababkan si loo saadaaliyo natiijooyinka iyadoo la adeegsanayo cilaaqaadka la ogaaday ee xogta, barashada mashiinka ayaa ku habboon.

Si aad u fahamto algorithm kasta, waxaad u baahan tahay inaad eegto dhammaan doorsoomayaasha xogta oo aad ogaatid waxa doorsoomayaashaas ay matalaan. Tani waa muhiim sababtoo ah sababta ka dambeysa natiijooyinka waxay ku saleysan tahay fahamka xogta. Haddii xogta ay ka kooban tahay 5 ama xitaa 50 doorsoomayaal, waad baari kartaa dhamaantood. Maxaa dhacaya haddii ay jiraan 200 oo iyaga ka mid ah? Markaa ma jiri doonto wakhti ku filan oo lagu barto doorsoome kasta. Waxaa intaa dheer, algorithms-yada qaarkood uma shaqeeyaan xogta qaybsan, ka dibna waa inaad u beddeshaa dhammaan tiirarka kala duwan ee doorsoomayaasha tirada (waxay u ekaan karaan tiro ahaan, laakiin cabbiradu waxay muujinayaan inay yihiin qaybsanaan) si aad ugu darto qaabka. Haddaba, tirada doorsoomayaashu way korodhaa, waxaana jira ilaa 500. Maxaa la sameeyaa hadda? Waxaa laga yaabaa in loo maleeyo in jawaabtu ay tahay in la yareeyo cabbirka. Algorithms-yada dhimista cabbirka waxay yareeyaan tirada halbeegyada laakiin waxay saameyn xun ku leeyihiin fasiraadda. Maxaa dhacaya haddii ay jiraan farsamooyin kale oo baabi'iya sifooyinka iyada oo ka dhigaysa kuwa soo hadhay si sahlan loo fahmi karo loona fasiri karo?

Iyada oo ku xidhan haddii falanqayntu ay ku saleysan tahay dib-u-celinta ama kala-soocidda, algorithm-yada xulashada astaamaha way kala duwanaan karaan, laakiin fikradda ugu weyn ee hirgelintoodu waa isku mid.

Doorsoomayaasha aadka Isku Xiran

Isbeddellada si aad ah ugu xiran midba midka kale wuxuu bixiyaa macluumaad isku mid ah qaabka, markaa looma baahna in dhammaantood loo isticmaalo falanqaynta. Tusaale ahaan, haddii xog-ururinta ay ka kooban tahay astaamaha "Waqtiga khadka tooska ah" iyo "Taraafikada la Isticmaalay", waxaan u qaadan karnaa inay xoogaa isku xirnaan doonaan, waxaana arki doonnaa xiriir xooggan xitaa haddii aan dooranno muunad xogeed aan eex lahayn. Xaaladdan oo kale, mid ka mid ah doorsoomayaashan ayaa loo baahan yahay qaabka. Haddii aad isticmaasho labadaba, moodeelku wuxuu noqon doonaa mid si xad dhaaf ah u habboon oo u eexanaya hal sifo gaar ah.

P-qiimaha

Algorithms sida dib-u-celinta tooska ah, qaabka tirakoobka bilowga ah had iyo jeer waa fikrad wanaagsan. Waxay ka caawisaa si ay u muujiyaan muhiimadda ay leedahay sifooyinka iyada oo loo marayo p-qiimaha kuwaas oo la helay model this. Markaan dejineyno heerka muhiimka ah, waxaan hubineynaa qiimaha p-s ee ka soo baxa, iyo haddii qiimo kasta uu ka hooseeyo heerka muhiimka ah ee la cayimay, markaa qaabkan ayaa lagu dhawaaqay mid muhiim ah, taas oo ah, isbeddelka qiimihiisu wuxuu u badan yahay inuu keeno isbeddel ku yimaada qiimaha bartilmaameedka.

Doorashada tooska ah

Xulashada hore waa farsamo ku lug leh adeegsiga dib-u-celinta tallaabo tallaabo ah. Dhismaha moodeelku wuxuu ku bilaabmaa eber dhammaystiran, yacni, moodel madhan, ka dibna cusboonaysiin kasta wuxuu ku darayaa doorsoome horumariya qaabka la dhisayo. Doorsoomeeyaha lagu daray moodeelka waxaa lagu go'aamiyaa muhiimadiisa. Tan waxaa lagu xisaabin karaa iyadoo la isticmaalayo qiyaaso kala duwan. Habka ugu caansan waa in la isticmaalo p-qiimaha lagu helay qaabka tirakoobka asalka ah iyadoo la adeegsanayo dhammaan doorsoomayaasha. Mararka qaarkood xulashada hore waxay u horseedi kartaa hab-nololeedka qaabka sababtoo ah waxaa jiri kara doorsoomayaal aad isku xiran oo ku jira moodeelka, xitaa haddii ay bixiyaan macluumaad isku mid ah moodeelka (laakiin qaabka ayaa weli muujinaya horumar).

Xulashada gadaal

Xulashada dib-u-soo-noqoshada waxay sidoo kale ku lug leedahay tallaabo-tallaabo baabi'inta sifooyinka, laakiin jihada ka soo horjeeda marka la barbardhigo xulashada hore. Xaaladdan, qaabka hore waxaa ku jira dhammaan doorsoomayaasha madaxbannaan. Doorsoomayaasha ayaa markaa meesha ka saaraya (halkii soo noqnoqda) haddii aysan wax qiimo ah ku biirin qaabka cusub ee dib-u-celinta ee soo noqnoqoshada kasta. Ka saarista muuqaalku waxay ku salaysan tahay p-qiimaha qaabka hore. Habkani waxa kale oo uu leeyahay hubanti la'aan marka meesha laga saarayo doorsoomayaasha aadka isku xidhan.

Tirtiridda Astaamaha Soo noqnoqda

RFE waa farsamo/algorithm si weyn loo isticmaalo oo lagu dooranayo tirada saxda ah ee sifooyinka muhiimka ah. Mararka qaarkood habka waxaa loo isticmaalaa in lagu sharaxo tiro ka mid ah sifooyinka "ugu muhiimsan" ee saameeya natiijooyinka; iyo mararka qaarkood si loo yareeyo tiro aad u badan oo doorsoomayaal ah (qiyaastii 200-400), oo kaliya kuwa sameeya ugu yaraan wax ku biirinta qaabka ayaa la hayaa, kuwa kale oo dhanna waa laga saaray. RFE waxay isticmaashaa nidaamka qiimaynta. Tilmaamaha ku jira xogta xogta ayaa loo qoondeeyay darajooyin. Darajooyinkan ayaa markaa loo isticmaalaa in si isdaba joog ah loo tirtiro sifooyinka ku salaysan isku-dhafka u dhexeeya iyaga iyo muhiimada sifooyinkaas ku jira qaabka. Marka lagu daro sifooyinka kala saraynta, RFE waxay tusi kartaa in astaamahani ay muhiim yihiin iyo in kale xitaa tiro astaamo ah oo la bixiyay (maxaa yeelay waxay aad ugu badan tahay in tirada la doortay ee astaamaha laga yaabo inaysan fiicnayn, tirada ugu fiican ee astaamaha ayaa laga yaabaa inay ka sii badan tahay. ama ka yar tirada la doortay).

Sawirka Muhiimka ah ee Sawirka

Marka laga hadlayo tarjumaadda algorithms barashada mashiinka, waxaan sida caadiga ah ka wada hadalnaa dib-u-celinta toosan (taas oo kuu ogolaaneysa inaad falanqeyso muhiimada sifooyinka adoo isticmaalaya qiimaha p) iyo geedo go'aan ah (macn ahaan muujinaya muhiimada sifooyinka qaabka geedka, iyo at the isla markaasna kala sareyntooda). Dhanka kale, algorithms sida Random Forest, LightGBM iyo XG Boost waxay inta badan isticmaalaan jaantus muhiim ah, taas oo ah, jaantuska doorsoomayaasha iyo "tirooyinka muhimadooda" waa la qorsheeyay. Tani waxay si gaar ah faa'iido u leedahay markaad u baahan tahay inaad bixiso sabab habaysan oo ku saabsan muhiimada sifooyinka marka la eego saameynta ay ku leeyihiin ganacsiga.

Joogteynta

Joogteynta waxaa loo sameeyaa si loo xakameeyo dheelitirka u dhexeeya eexda iyo kala duwanaanshaha. Eexdu waxay tusinaysaa intee in le'eg ee moodalku ka batay xogta tababarka. leexashadu waxay muujinaysaa sida ay u kala duwanaayeen saadaasha udhaxaysay xogta tababarka iyo imtixaanada. Fikrad ahaan, eexda iyo kala duwanaanshuhu waa inay yar yihiin. Tani waa meesha joogtaynta ay ku timaado samatabbixinta! Waxaa jira laba farsamood oo waaweyn:

Nidaaminta L1 - Lasso: Lasso wuxuu ciqaabaa miisaanka moodeelka si uu u beddelo muhiimadda ay u leeyihiin moodeelka oo xitaa wuu baabi'in karaa (tusaale ka saar doorsoomayaashaas qaabka ugu dambeeya). Caadi ahaan, Lasso waxa loo isticmaalaa marka xog-ururinta ay ka kooban tahay doorsoomayaal tiro badan oo aad rabto in aad ka saarto qaar ka mid ah si aad si fiican u fahamto sida astaamaha muhiimka ahi u saameeyaan moodeelka (taas oo ah, sifooyinkaas ay dooratay Lasso oo loo qoondeeyay muhiimada).

Nidaaminta L2 - Habka Ridge: Shaqada Ridge waa in la kaydiyo dhammaan doorsoomayaasha isla mar ahaantaana loo qoondeeyo muhiimada iyaga oo ku saleysan ka qayb qaadashada waxqabadka moodeelka. Ridge waxay noqon doontaa doorasho wanaagsan haddii xogta xogta ay ka kooban tahay tiro yar oo doorsoomayaal ah oo dhamaantood lagama maarmaan u ah inay turjumaan natiijooyinka iyo natiijooyinka la helay.

Maaddaama Ridge uu hayo dhammaan doorsoomayaasha oo Lasso uu qabto shaqo ka wanaagsan oo aasaasida muhiimaddooda, algorithm ayaa la sameeyay kaas oo isku daraya sifooyinka ugu fiican ee labadaba joogtaynta, oo loo yaqaan Elastic-Net.

Waxaa jira siyaabo badan oo badan oo lagu dooran karo sifooyinka barashada mashiinka, laakiin fikradda ugu weyn ayaa had iyo jeer isku mid ah: muuji muhiimada doorsoomayaasha ka dibna tirtir qaar ka mid ah iyaga oo ku saleysan muhiimada ka dhalanaysa. Muhiimadu waa erey shakhsi ahaaneed, maadaama aysan ahayn mid keliya, laakiin dhammaan jaantusyo iyo jaantusyo loo isticmaali karo si loo helo sifooyinka muhiimka ah.

Waad ku mahadsan tahay akhrinta! Barasho wacan!

Source: www.habr.com

Add a comment