Barashada Sixirka

Haye Habr! Waxaan ku martiqaadnay Injineerada Xogta iyo khabiirada Barashada Mashiinka casharka Demo bilaashka ah "Natiijada moodooyinka ML ee jawi warshadeed iyadoo la adeegsanayo tusaalaha talooyinka khadka". Waxaan sidoo kale daabacnaa maqaalka Luca Monno - Madaxa Falanqaynta Maaliyadda ee CDP SpA.

Mid ka mid ah hababka ugu waxtarka badan uguna fudud ee barashada mashiinka waa Barashada Isku-dhafka. Barashada Isku-dhafka ah waa habka ka dambeeya XGBoost, Bagging, Random Forest iyo algorithms kale oo badan.

Waxaa jira maqaallo badan oo wanaagsan oo ku saabsan Sayniska Xogta, laakiin waxaan doortay laba sheeko (marka hore ΠΈ labaad) oo aan aad uga helay. Haddaba maxaad maqaal kale uga qortaa EL? Sababtoo ah waxaan rabaa inaan ku tuso sida ay ula shaqeyso tusaale fudud, taas oo i fahansiisay in aanu halkan sixir ka jirin.

Markii ugu horeysay ee aan arkay EL ficil ahaan (la shaqeynta qaar ka mid ah moodooyinka dib-u-celinta ee aad u fudud) Ma rumaysan karin indhahayga, welina waxaan xusuustaa borofisarkii i baray habkan.

Waxaan haystay laba nooc oo kala duwan (laba algorithms tababbarka daciifka ah) oo leh cabbirro muunad ka baxsan RΒ² waxay la mid tahay 0,90 iyo 0,93, siday u kala horreeyaan. Kahor intaanan eegin natiijada, waxaan u maleeyay inaan heli doono RΒ² meel u dhaxaysa labada qiyam ee asalka ah. Si kale haddii loo dhigo, waxaan rumaysnaa in EL loo isticmaali karo in lagu sameeyo moodal aan u liidanin qaabka ugu xun, laakiin ma aha sidoo kale qaabka ugu fiican.

Si aad ah ula yaabay, celcelis ahaan celceliska saadaasha waxay keentay RΒ² oo ah 0,95. 

Markii hore waxaan bilaabay raadinta qaladka, laakiin markaas waxaan u maleeyay inay jiri karaan xoogaa sixir ah oo halkan ku qarinaya!

Waa maxay Waxbarashada Isku-dhafka ah

Iyadoo EL, waxaad isku dari kartaa saadaasha laba ama in ka badan si aad u soo saarto qaab aad u adag oo wax qabad leh. Waxaa jira habab badan oo loogu shaqeynayo isku-dhafka moodeelka. Halkan waxaan ku taaban doonaa labada ugu faa'iidada badan si aan dulmar uga bixiyo.

Iyada oo gargaar ah dib u gurasho waa suurtogal in la isku celceliyo waxqabadka moodooyinka la heli karo.

Iyada oo gargaar ah kala saarid Waxaad siin kartaa moodooyinka fursad ay ku doortaan sumadaha. Calaamadda inta badan la doortay waa tan uu dooran doono qaabka cusub.

Waa maxay sababta EL si fiican u shaqeyso

Sababta ugu weyn ee ay EL u qabato si ka wanaagsan ayaa ah in saadaal kasta ay leedahay qalad (waxaan ka ognahay tan aragtida ixtimaalka), isku darka laba saadaaliye waxay gacan ka geysan kartaa dhimista qaladka, oo sidaas awgeed hagaajinta cabbirka waxqabadka (RMSE, RΒ², iwm.) d.).

Jaantuska soo socdaa wuxuu muujinayaa sida laba algorithms daciif ah ay ugu shaqeeyaan xogta. Algorithm-ka koowaad wuxuu leeyahay jiirar ka weyn intii loo baahnaa, halka kan labaadna uu leeyahay ku dhawaad ​​eber (laga yaabo inay sabab u tahay nidaaminta xad-dhaafka ah). Laakin wada jir waxay muujinaysaa natiijooyin aad u wanaagsan. 

Haddii aad eegto tusaha RΒ², ka dib algoorithm tababarka koowaad iyo labaad waxay la mid noqon doontaa -0.01ΒΉ, 0.22, siday u kala horreeyaan, halka isku-dhafka ay la mid tahay 0.73.

Barashada Sixirka

Waxaa jira sababo badan oo algorithm u noqon karo moodal xun xitaa tusaale aasaasi ah oo sidan oo kale ah: waxaa laga yaabaa inaad go'aansatay inaad isticmaasho nidaaminta si aad uga fogaato xad-dhaafka, ama waxaad go'aansatay inaadan meesha ka saarin cilladaha qaarkood, ama waxaa laga yaabaa inaad isticmaashay dib-u-celinta polynomial oo aad khalad samaysay. shahaadada (tusaale ahaan, waxaanu isticmaalnay tiro badan oo ah shahaadada labaad, iyo xogta imtixaanku waxay muujinaysaa asymmetry cad taas oo darajada saddexaad ay ku habboon tahay).

Marka EL uu si fiican u shaqeeyo

Aynu eegno laba algorithms waxbarasho oo ku shaqeynaya xog isku mid ah.

Barashada Sixirka

Halkan waxaad ku arki kartaa in isku-darka labada nooc aysan wax badan hagaajineynin waxqabadka. Markii hore, labada algorithms ee tababarka, tilmaamayaasha RΒ² waxay la mid ahaayeen -0,37 iyo 0,22, siday u kala horreeyaan, isu-ururintana waxay u noqotay -0,04. Taasi waa, qaabka EL wuxuu helay celceliska qiimaha tilmaamayaasha.

Si kastaba ha ahaatee, waxaa jira farqi weyn oo u dhexeeya labadan tusaale: tusaalaha koowaad, khaladaadka moodeelka ayaa si xun u xiriiriyay, kan labaadna, si togan ayaa loo xiriiriyay (isugeynta saddexda nooc lama qiyaasin, laakiin si fudud ayaa loo doortay qoraaga tusaale ahaan.)

Sidaa darteed, Waxbarashada Isku-dhafka ah waxaa loo isticmaali karaa si loo hagaajiyo dheellitirka eexda/kala duwanaanshaha kiis kasta, laakiin goorma Khaladaadka moodelku si togan iskuma xidhna, iyadoo la isticmaalayo EL waxay u horseedi kartaa waxqabad horumarsan.

Noocyada isku midka ah iyo kuwa kala duwan

Inta badan EL waxaa loo isticmaalaa moodooyinka isku midka ah (sida tusaale ahaan ama kaynta random), laakiin dhab ahaantii waxaad isku dari kartaa noocyo kala duwan (regression linear + neural network + XGBoost) oo leh noocyo kala duwan oo doorsoomayaal sharraxaad ah. Tani waxay u badan tahay inay keento khaladaad aan xidhiidh la lahayn iyo waxqabadka oo horumaray.

Isbarbardhigga kala duwanaanshaha faylalka

EL waxay si la mid ah u shaqeysaa kala duwanaanshaha aragtida faylalka, laakiin aad ayey noogu fiican tahay. 

Markaad kala duwanaanayso, waxaad isku daydaa inaad hoos u dhigto kala duwanaanshaha waxqabadkaaga adoo maalgelinaya kayd aan xidhiidh lahayn. Kaydka kaydka ee kala duwan ee si fiican u kala duwan ayaa ka shaqayn doona si ka wanaagsan kan ugu xun ee shakhsiga ah, laakiin marnaba kama fiicnaan doono kan ugu fiican.

Sida laga soo xigtay Warren Buffett: 

Kala duwanaanshuhu waa difaac ka dhan ah jaahilnimada; qofka aan garanayn waxa uu sameynayo, [kala duwanaansho] macno yar ayay samaynaysaa."

Barashada mashiinka, EL waxay kaa caawinaysaa yaraynta kala duwanaanshaha moodeelkaaga, laakiin waxa laga yaabaa inay keento moodal leh waxqabad guud oo ka fiican qaabka asalka ah ee ugu fiican.

Aynu soo koobno ​​natiijooyinka

Isku darka noocyo badan oo mid ah ayaa ah farsamo fudud oo u horseedi karta xallinta dhibaatada eexda kala duwanaanshaha iyo hagaajinta waxqabadka.

Haddii aad haysato laba ama in ka badan oo moodel ah oo si fiican u shaqeeya, ha dooran iyaga: dhammaantood isticmaal (laakin si taxadar leh)!

Xiisaynaya horumarinta jihadan? Isku qor casharka demo bilaashka ah "Natiijada moodooyinka ML ee jawi warshadeed iyadoo la adeegsanayo tusaalaha talooyinka khadka" kana qayb qaataan kulan online la Andrey Kuznetsov - Injineer Barashada Mashiinka ee Kooxda Mail.ru.

Source: www.habr.com

Add a comment