Nhọrọ njirimara na mmụta igwe

Ndewo, Habr!

Anyị na Reksoft tụgharịrị akụkọ ahụ n'asụsụ Russian Nhọrọ njirimara na mmụta igwe. Anyị na-atụ anya na ọ ga-aba uru nye onye ọ bụla nwere mmasị na isiokwu ahụ.

N'ime ụwa n'ezie, data adịghị ọcha mgbe niile dị ka ndị ahịa azụmahịa na-eche mgbe ụfọdụ. Nke a bụ ya mere ngwuputa data na mgbagha data ji na-achọ. Ọ na-enyere aka ịchọpụta ụkpụrụ na ụkpụrụ na-efu efu na data ahaziri ajụjụ nke mmadụ enweghị ike ịchọpụta. Ka ịchọta ma jiri usoro ndị a buru amụma nsonaazụ site na iji mmekọrịta achọpụtara na data ahụ, mmụta igwe na-abịa na aka.

Iji ghọta algọridim ọ bụla, ịkwesịrị ileba anya na mgbanwe niile dị na data wee chọpụta ihe mgbanwe ndị ahụ na-anọchi anya ya. Nke a dị oke egwu n'ihi na ebumnuche dị n'azụ nsonaazụ sitere na ịghọta data ahụ. Ọ bụrụ na data nwere 5 ma ọ bụ ọbụna 50 mgbanwe, ị nwere ike nyochaa ha niile. Gịnị ma ọ bụrụ na e nwere 200 n'ime ha? Mgbe ahụ, a gaghị enwe oge zuru ezu iji mụọ mgbanwe ọ bụla. Ọzọkwa, ụfọdụ algọridim anaghị arụ ọrụ maka data categorical, mgbe ahụ, ị ​​​​ga-agbanwegharị kọlụm niile dị iche iche na ọnụọgụ ọnụọgụ (ha nwere ike ịdị ka ọnụọgụ, ma metrics ga-egosi na ha bụ categorical) iji tinye ha na ihe nlereanya ahụ. Ya mere, ọnụ ọgụgụ nke mgbanwe na-abawanye, na e nwere ihe dị ka 500 n'ime ha ihe a ga-eme ugbu a? Mmadụ nwere ike iche na azịza ya ga-abụ ibelata akụkụ. Algọridim mbelata akụkụ akụkụ na-ebelata ọnụ ọgụgụ nke paramita mana na-enwe mmetụta na-adịghị mma na nkọwa. Kedu ihe ma ọ bụrụ na enwere usoro ndị ọzọ na-ewepụ njirimara ma na-eme ka ndị fọdụrụ dị mfe nghọta na ịkọwa?

Dabere ma nyocha ahụ dabere na nlọghachi azụ ma ọ bụ nhazi ọkwa, algọridim nhọrọ njirimara nwere ike ịdị iche, mana isi echiche nke mmejuputa ha ka bụ otu.

Ọdịiche jikọtara nke ukwuu

Mgbanwe ndị a na-ejikọta nke ọma na ibe ha na-enye otu ozi ahụ na ihe nlereanya ahụ, n'ihi ya ọ dịghị mkpa iji ha niile mee nyocha. Dịka ọmụmaatụ, ọ bụrụ na ihe ndekọ data nwere atụmatụ "Oge ntanetị" na "Ofefe ejiri", anyị nwere ike iche na ha ga-ejikọta ya, anyị ga-ahụkwa njikọ siri ike ọbụlagodi na anyị họrọ ihe nlele data enweghị mmasị. N'okwu a, ọ bụ naanị otu n'ime mgbanwe ndị a dị mkpa na ihe nlereanya. Ọ bụrụ na ị na-eji ha abụọ, ihe nlereanya a ga-adaba adaba na eleda anya n'otu akụkụ.

P-ụkpụrụ

Na algọridim dị ka linear regression, ihe mbụ statistical nlereanya bụ mgbe niile ezi echiche. Ọ na-enyere aka igosi mkpa nke atụmatụ site na p-ụkpụrụ ha nke e nwetara site na ihe nlereanya a. N'ịbụ onye edozila ọkwa dị mkpa, anyị na-enyocha p-ụkpụrụ ndị na-esi na ya pụta, ma ọ bụrụ na uru ọ bụla dị n'okpuru ọkwa a kapịrị ọnụ, mgbe ahụ, a na-ekwupụta njirimara a dị ịrịba ama, ya bụ, mgbanwe na uru ya ga-eduga ná mgbanwe na uru nke lekwasịrị anya.

Nhọrọ ozugbo

Nhọrọ ga-aga n'ihu bụ usoro nke gụnyere itinye mgbagha n'ụzọ kwụ ọtọ. Ụlọ ihe nlere anya na-amalite na efu zuru oke, ya bụ, ihe nlereanya efu, mgbe ahụ iteration ọ bụla na-agbakwụnye mgbanwe nke na-eme ka ọ dịkwuo mma na ihe nlereanya a na-ewu. Kedu mgbanwe agbakwunyere na ihe nlereanya a na-ekpebi ihe ọ pụtara. Enwere ike gbakọọ nke a site na iji metrik dị iche iche. Ụzọ kachasịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịsịti anya) p-values ​​anya dị na mbụ statistical nlereanya na-eji niile mgbanwe. Mgbe ụfọdụ nhọpụta n'ihu nwere ike iduga n'ịfefe ihe nlereanya n'ihi na enwere ike inwe mgbanwe dị oke ọnụ na ụdị ahụ, ọ bụrụgodị na ha na-enye otu ozi ahụ na ihe nlereanya ahụ (mana ihe nlereanya ahụ ka na-egosi ọganihu).

Weghachite nhọrọ

Nhọrọ ntụgharị na-agụnyekwa nkwụsị nke nzọụkwụ site na nkwụsị nke àgwà, mana n'akụkụ nke ọzọ ma e jiri ya tụnyere nhọrọ mbugharị. N'okwu a, ụdị mbụ na-agụnye mgbanwe niile nwere onwe. A na-ewepụzi mgbanwe mgbanwe (otu n'otu n'otu) ma ọ bụrụ na ha etinyeghị uru na ụdị regression ọhụrụ na nke ọ bụla. Mwepu njirimara dabere na p-ụkpụrụ nke ụdị mbụ. Usoro a nwekwara ejighị n'aka mgbe ọ na-ewepụ mgbanwe ndị nwere njikọ chiri anya.

Mkpochapụ njirimara na-emegharị ugboro ugboro

RFE bụ usoro/algorithm a na-ejikarị eme ihe maka ịhọrọ ọnụọgụ nke njirimara dị mkpa. Mgbe ụfọdụ, a na-eji usoro ahụ kọwaa ọtụtụ atụmatụ "kachasị mkpa" nke na-emetụta nsonaazụ; na mgbe ụfọdụ iji belata ọnụ ọgụgụ dị ukwuu nke mgbanwe (ihe dị ka 200-400), ma ọ bụ naanị ndị na-eme ma ọ dịkarịa ala ụfọdụ ntinye aka na ihe nlereanya na-ejide, na ndị ọzọ niile na-ewepụ. RFE na-eji usoro ogo. A na-ekenye njirimara ndị dị na nhazi data ọkwa. A na-eji ọkwa ndị a eme ihe iji kpochapụ njirimara ndị na-adabere na njikọ dị n'etiti ha na mkpa njirimara ndị ahụ dị na ihe nlereanya ahụ. Na mgbakwunye na njirimara ogo, RFE nwere ike igosi ma njirimara ndị a dị mkpa ma ọ bụ na ọ bụghị ọbụna maka ọnụọgụ njirimara (n'ihi na ọ ga-abụ na ọnụ ọgụgụ njirimara ahọpụtara nwere ike ọ gaghị adị mma, na ọnụ ọgụgụ kachasị mma nwere ike ịbụ ma ọ bụ karịa. ma ọ bụ ihe na-erughị nọmba ahọpụtara).

Eserese mkpa dị mkpa

Mgbe ị na-ekwu maka nkọwa nke igwe mmụta algọridim, anyị na-ekwukarị banyere regressions linear (nke na-enye gị ohere inyocha mkpa atụmatụ site na iji p-ụkpụrụ) na osisi mkpebi (n'ụzọ nkịtị na-egosi mkpa atụmatụ dị n'ụdị osisi, na na na otu oge ha hirarchy). N'aka nke ọzọ, algọridim dị ka Random Forest, LightGBM na XG Boost na-ejikarị eserese njirimara dị mkpa, ya bụ, eserese nke mgbanwe na "ọnụọgụ ha dị mkpa" na-akpa nkata. Nke a bara uru karịsịa mgbe ịchọrọ ịnye echiche ahaziri ahazi maka mkpa àgwà dị n'ihe gbasara mmetụta ha na azụmahịa.

Nhazi

A na-eme nhazi oge iji chịkwaa nguzozi n'etiti nhụsianya na ndịiche. Eleghị anya na-egosi etu ihe nlereanya ahụ sirila karịa na nhazi data ọzụzụ. Ngbanwe ahụ na-egosi otú amụma dị iche iche si dị n'etiti ọzụzụ na datasets ule. Dị ka o kwesịrị, ma nhụsianya na ọdịiche kwesịrị ịbụ obere. Nke a bụ ebe nhazigharị na-abịa na nnapụta! E nwere ụzọ isi ụzọ abụọ:

L1 Regularization - Lasso: Lasso na-akwụ ụgwọ ihe atụ ka ọ gbanwee mkpa ha dị na ihe nlereanya ahụ ma nwee ike imebi ha (ya bụ, wepụ mgbanwe ndị ahụ na ihe nlereanya ikpeazụ). A na-ejikarị Lasso eme ihe mgbe dataset nwere ọnụ ọgụgụ dị ukwuu nke mgbanwe na ịchọrọ iwepụ ụfọdụ n'ime ha ka ị ghọta nke ọma ka njirimara dị mkpa na-emetụta ihe nlereanya ahụ (ya bụ, njirimara ndị ahụ Lasso ahọrọla ma nye ya mkpa).

L2 Regularization - Usoro Ridge: Ọrụ Ridge bụ ịchekwa mgbanwe niile ma n'otu oge ahụ na-ekenye ha mkpa dabere na ntinye aka ha na arụmọrụ ihe nlereanya ahụ. Ridge ga-abụ ezigbo nhọrọ ma ọ bụrụ na dataset nwere ọnụ ọgụgụ dị nta nke mgbanwe na ha niile dị mkpa iji kọwaa nchoputa na nsonaazụ enwetara.

Ebe ọ bụ na Ridge na-edobe mgbanwe niile na Lasso na-arụ ọrụ ka mma iji guzobe mkpa ha, e mepụtara algọridim nke na-ejikọta njirimara kachasị mma nke usoro nhazi abụọ ahụ, nke a maara dị ka Elastic-Net.

Enwere ọtụtụ ụzọ iji họrọ njirimara maka mmụta igwe, mana isi echiche bụ otu mgbe niile: gosipụta mkpa mgbanwe dị iche iche wee kpochapụ ụfọdụ n'ime ha dabere na mkpa ọ pụtara. Mkpa bụ okwu gbasara onwe ya n'ihi na ọ bụghị naanị otu, kama ọ bụ usoro metrik na eserese niile enwere ike iji chọta njirimara ndị bụ isi.

Daalụ maka ịgụ akwụkwọ! Nmụta nke ọma!

isi: www.habr.com

Zụta nnabata ntụkwasị obi maka saịtị nwere nchekwa DDoS, sava VPS VDS 🔥 Zụta ebe nrụọrụ weebụ a pụrụ ịtụkwasị obi na nchekwa DDoS, sava VPS VDS | ProHoster