Ime Anwansi nke Ọmụmụ mkpokọta

Ndewo, Habr! Anyị na-akpọ ndị injinia data na ndị ọkachamara mmụta igwe ka ha bụrụ nkuzi ngosi efu "Mpụta nke ụdị ML n'ime ebe mmepụta ihe na-eji ihe atụ nke ndụmọdụ ịntanetị". Anyị na-ebipụtakwa akụkọ Luca Monno - Onye isi nchịkọta ego na CDP SpA.

Otu n'ime ụzọ mmụta igwe kachasị bara uru yana dị mfe bụ Ọmụmụ ihe. Ọmụmụ ihe bụ usoro dị n'azụ XGBoost, Bagging, Random Forest na ọtụtụ algọridim ndị ọzọ.

Enwere ọtụtụ nnukwu akụkọ gbasara Sayensị Data, mana ahọpụtara m akụkọ abụọ (mbụ и nke abuo) nke kacha amasị m. Yabụ kedu ihe kpatara dee akụkọ ọzọ gbasara EL? N'ihi na m chọrọ igosi gị otú o si arụ ọrụ na ihe atụ dị mfe, nke mere ka m ghọta na o nweghị anwansi ebe a.

Mgbe mbụ m hụrụ EL na-arụ ọrụ (na-arụ ọrụ na ụfọdụ ụdị regression dị nnọọ mfe) enweghị m ike ikweta anya m, m ka na-echetakwa prọfesọ nke kụziiri m usoro a.

Enwere m ụdị abụọ dị iche iche (algọridim ọzụzụ na-adịghị ike abụọ) nwere metrik na-enweghị atụ R² hà nhata 0,90 na 0,93, n'otu n'otu. Tupu m leba anya na nsonaazụ ya, echere m na m ga-enweta R² ebe n'etiti ụkpụrụ mbụ abụọ ahụ. N'ikwu ya n'ụzọ ọzọ, ekwenyere m na EL nwere ike iji mee ka ihe nlereanya na-eme ka ọ bụrụ nke na-adịghị mma dị ka ihe nlereanya kachasị njọ, ma ọ bụghị dị ka ihe nlereanya kachasị mma nwere ike ịrụ.

Ọ tụrụ m n'anya nke ukwuu, naanị n'ịkọba amụma ndị ahụ nwetara R² nke 0,95. 

Na mbụ, amalitere m ịchọ njehie ahụ, ma mgbe ahụ echere m na enwere ike ịnwe ụfọdụ anwansi na-ezo ebe a!

Gịnị bụ mkpokọta mmụta

Na EL, ị nwere ike ijikọta amụma nke ụdị abụọ ma ọ bụ karịa iji mepụta ụdị siri ike na nke na-arụ ọrụ. Enwere ọtụtụ usoro maka ịrụ ọrụ na ụdị ensembles. N'ebe a, m ga-emetụ aka na abụọ kacha baa uru iji nye nkọwa.

Site n'enyemaka nke nlọghachi azụ ọ ga-ekwe omume na nkezi arụmọrụ nke ụdị dị.

Site n'enyemaka nke nhazi ọkwa Ị nwere ike inye ụdị ohere ịhọrọ akara. Akara a na-ahọrọkarị bụ nke a ga-ahọrọ site na ihe nlereanya ọhụrụ.

Kedu ihe kpatara EL ji arụ ọrụ nke ọma

Isi ihe mere EL ji arụ ọrụ nke ọma bụ na amụma ọ bụla nwere njehie (anyị maara nke a site na echiche nke puru omume), ijikọta amụma abụọ nwere ike inye aka belata njehie ahụ, ya mere melite metrics arụmọrụ (RMSE, R², wdg) d.).

Eserese na-esonụ na-egosi ka algọridim abụọ adịghị ike si arụ ọrụ na nhazi data. Algọridim nke mbụ nwere mkpọda dị ukwuu karịa ka ọ dị mkpa, ebe nke abụọ nwere ihe fọrọ nke nta ka ọ bụrụ efu (ikekwe n'ihi ngbanwe nke ukwuu). Ma ensemble na-egosi nsonaazụ kacha mma. 

Ọ bụrụ na ị na-elele R² egosi, mgbe ahụ maka nke mbụ na nke abụọ ọzụzụ algọridim ọ ga-abụ hà -0.01¹, 0.22, n'otu n'otu, mgbe maka ensemble ọ ga-abụ hà 0.73.

Ime Anwansi nke Ọmụmụ mkpokọta

Enwere ọtụtụ ihe kpatara algọridim nwere ike bụrụ ihe nlereanya na-adịghị mma ọbụna na ihe atụ bụ isi dị ka nke a: ikekwe ị kpebiri iji usoro nhazi iji zere imebiga ihe ókè, ma ọ bụ na ị kpebiri na ị gaghị ewepụ ụfọdụ anomalies, ma ọ bụ ikekwe ị na-eji polynomial regression wee nweta ihe na-ezighị ezi. ogo (dịka ọmụmaatụ, anyị na-eji polynomial nke ogo nke abụọ, na data ule na-egosi asymmetry doro anya nke ogo nke atọ ga-aka mma).

Mgbe EL na-arụ ọrụ nke ọma

Ka anyị lelee algọridim mmụta mmụta abụọ na-arụ ọrụ na otu data.

Ime Anwansi nke Ọmụmụ mkpokọta

N'ebe a, ị nwere ike ịhụ na ijikọta ụdị abụọ ahụ emeghị ka arụmọrụ dịkwuo mma. Na mbido, maka algọridim ọzụzụ abụọ ahụ, ihe ngosi R² hà nhata -0,37 na 0,22, n'otu n'otu, na maka mkpokọta ọ tụgharịrị bụrụ -0,04. Ya bụ, ihe nlereanya EL nwetara nkezi uru nke ndị na-egosi.

Otú ọ dị, e nwere nnukwu ọdịiche dị n'etiti ihe atụ abụọ a: na ihe atụ mbụ, mmejọ ihe nlereanya ahụ na-emekọ ihe na-adịghị mma, na nke abụọ, a na-ejikọta ha nke ọma (ọnụọgụ nke ụdị atọ ndị a adịghị atụle, ma ọ bụ nanị ndị na-ahọrọ ya. onye edemede dịka ọmụmaatụ.)

Ya mere, enwere ike iji nkuzi mkpokọta iji kwalite nguzozi n'ụzọ ọ bụla, mana mgbe Ejikọghị mperi ụdịdị nke ọma, iji EL nwere ike ibute arụmọrụ ka mma.

Ụdị ụdị na ụdị dị iche iche

Ọtụtụ mgbe, a na-eji EL n'ụdị ụdị (dị ka ọ dị na ihe atụ a ma ọ bụ oke ọhịa), mana n'ezie ị nwere ike ijikọ ụdị dị iche iche (linear regression + neural network + XGBoost) na ụdị nkọwa dị iche iche. Nke a nwere ike bute mperi enweghị njikọ yana arụmọrụ emelitere.

Tụnyere na ntule pọtụfoliyo

EL na-arụkwa ọrụ n'otu aka ahụ na mgbanwe dị iche iche na tiori Pọtụfoliyo, mana ọ kaara anyị mma. 

Mgbe ị na-agbanwe agbanwe, ị na-agbalị ibelata ọdịiche nke arụmọrụ gị site na itinye ego na ebuka na-enweghị njikọ. Pọtụfoliyo dị iche iche nke ebuka ga-arụ ọrụ nke ọma karịa ngwaahịa onye kachasị njọ, mana ọ dịghị mma karịa nke kacha mma.

Nkọwa nke Warren Buffett: 

"Diversification bụ ihe nchebe megide amaghị ihe ọ bụla; nye onye na-amaghị ihe ọ na-eme, ọ na-eme ka ọ dị ntakịrị."

N'ịmụ igwe, EL na-enyere aka ibelata ọdịiche nke ihe nlereanya gị, mana ọ nwere ike bute ihe nlereanya nwere arụmọrụ zuru oke karịa ụdị mbụ kacha mma.

Ka anyị chịkọta ihe ọ rụpụtara

Ijikọta ọtụtụ ụdị n'ime otu bụ usoro dị mfe nke nwere ike iduga na-edozi nsogbu nke nhụsianya dị iche iche yana imeziwanye arụmọrụ.

Ọ bụrụ na ị nwere ụdị abụọ ma ọ bụ karịa na-arụ ọrụ nke ọma, ahọrọla n'etiti ha: jiri ha niile (ma jiri nlezianya)!

Ị nwere mmasị na mmepe na ntụziaka a? Debanye aha maka nkuzi ngosi efu "Mpụta nke ụdị ML n'ime ebe mmepụta ihe na-eji ihe atụ nke ndụmọdụ ịntanetị" ma sonye na nzukọ ịntanetị na Andrey Kuznetsov - Injinia mmụta igwe na Mail.ru Group.

isi: www.habr.com

Tinye a comment