Koyon Sihiri

Hai Habr! Muna gayyatar Injiniyoyin Bayanai da ƙwararrun Koyan Injin zuwa darasin Demo kyauta "Gabatar da samfuran ML zuwa yanayin masana'antu ta amfani da misalin shawarwarin kan layi". Muna kuma buga labarin Luca Monno - Shugaban Nazarin Kuɗi a CDP SpA.

Ɗaya daga cikin mafi amfani kuma mafi sauƙi hanyoyin koyan inji shine Ƙwararrun Ƙwararru. Ƙwararren Koyo shine tushen dabara don XGBoost, Bagging, Random Forest, da sauran algorithms masu yawa.

Akwai manyan labarai da yawa akan Ilimin Kimiyyar Bayanai, amma na zaɓi labarai guda biyu (na farko и na biyu) wanda na fi so. Don haka me yasa rubuta wani labarin game da EL? Domin ina so in nuna muku yadda yake aiki akan misali mai sauƙi, wanda ya sa na fahimci cewa babu sihiri a nan.

Lokacin da na fara ganin EL a cikin aiki (aiki tare da wasu nau'ikan juzu'i masu sauƙi) Ba zan iya yarda da idanu na ba, kuma har yanzu ina tunawa da farfesa wanda ya koya mani wannan hanyar.

Ina da samfuran daban-daban guda biyu (masu rauni biyu koyan algorithms) tare da masu ba da izini daga-samfurin R² daidai yake da 0,90 da 0,93 bi da bi. Kafin in kalli sakamakon, na yi tunanin cewa zan sami R² wani wuri tsakanin ƙimar farko guda biyu. A wasu kalmomi, na yi tunanin cewa za a iya amfani da EL don yin samfurin ba ya yi mummunan aiki kamar mafi munin samfurin, amma ba kamar yadda mafi kyawun samfurin zai iya ba.

Abin mamaki na, sakamakon matsakaicin matsakaicin tsinkaya ya ba da R² na 0,95. 

Da farko na fara neman kuskure, amma sai na yi tunanin cewa za a iya ɓoye wani sihiri a nan!

Menene Ilimin Ƙungiya

Tare da EL, zaku iya haɗa tsinkaya na samfura biyu ko fiye don samun ingantaccen abin dogaro da ƙima. Akwai hanyoyi da yawa don aiki tare da ensembles na samfuri. Anan zan tabo guda biyu mafi amfani don ba ku ra'ayi.

Tare da taimakon koma baya za ka iya matsakaita aikin da samuwa model.

Tare da taimakon rarrabuwa za ka iya barin samfuri su zaɓi lakabi. Alamar da aka zaba mafi yawan lokuta ita ce wacce sabon samfurin zai zaba.

Me yasa EL ke aiki mafi kyau

Babban dalilin da yasa EL ke aiki mafi kyau shine saboda kowane tsinkaya yana da kuskure (mun san wannan daga ka'idar yiwuwar), hada tsinkaya guda biyu zai iya taimakawa wajen rage kuskuren, kuma don haka inganta alamun aiki (RMSE, R², da dai sauransu) d.).

Hoton da ke gaba yana nuna yadda algorithms masu rauni guda biyu ke aiki akan saitin bayanai. Algorithm na farko yana da gangara mafi girma fiye da dole, yayin da na biyu yana da kusan sifili (wataƙila saboda yawan daidaitawa). Amma gungu yana nuna kyakkyawan sakamako. 

Idan ka dubi R², to, algorithm na farko da na biyu na horo zai kasance daidai -0.01¹, 0.22, bi da bi, yayin da gungu zai kasance daidai da 0.73.

Koyon Sihiri

Akwai dalilai da yawa da ya sa algorithm na iya zama ƙirar mara kyau ko da misali na asali kamar wannan: watakila kun yanke shawarar yin amfani da tsarin yau da kullun don guje wa wuce gona da iri, ko kuma kun yanke shawarar kada ku kawar da wasu abubuwan da ba su da kyau, ko wataƙila kun yi amfani da koma bayan polynomial kuma ku ɗauki matakin da bai dace ba. (alal misali, yi amfani da polynomial na digiri na biyu, kuma bayanan gwajin yana nuna alamar asymmetry, wanda digiri na uku zai fi dacewa).

Lokacin da EL yayi aiki mafi kyau

Bari mu kalli algorithms koyo guda biyu waɗanda ke aiki akan bayanai iri ɗaya.

Koyon Sihiri

Anan zaka iya ganin cewa hada samfuran biyu bai inganta aiki sosai ba. Da farko, don algorithms horo guda biyu, ƙimar R² sune -0,37 da 0,22, bi da bi, kuma ga tarin ya zama -0,04. Wato, samfurin EL ya sami matsakaicin darajar masu nuna alama.

Duk da haka, akwai babban bambanci tsakanin waɗannan misalan guda biyu: a cikin misali na farko, kurakuran samfuran sun kasance sun bambanta da juna, kuma a cikin na biyu - tabbatacce (ba a ƙididdige ƙididdiga na nau'ikan nau'ikan uku ba, amma marubucin kawai ya zaɓa. misali.)

Saboda haka, Za a iya amfani da Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwararren Ƙwaƙwalwa na Ƙaƙwalwa ) don inganta ma'auni / rarrabawa a kowane yanayi, amma lokacin kurakuran ƙirar ba su da alaƙa da inganci, ta yin amfani da EL na iya haifar da kyakkyawan aiki.

Samfura masu kama da juna

Ana amfani da el sau da yawa a kan ƙirar haɗin kai (kamar yadda a cikin wannan misalin ko bazuwar gandun gizo), amma a zahiri za ku iya haɗa samfuran sadarwa daban-daban + XGboost) tare da saiti daban-daban na masu canji daban-daban. Wannan yana yiwuwa ya haifar da kurakurai marasa alaƙa da haɓaka aiki.

Kwatanta tare da bambancin fayil

EL yana aiki a irin wannan hanya zuwa rarrabuwa a cikin ka'idar fayil, amma ya fi kyau a gare mu. 

Lokacin da kuke haɓakawa, kuna ƙoƙarin rage bambance-bambance a cikin ayyukanku ta hanyar saka hannun jari a hannun jari marasa alaƙa. Ƙididdigar ɗimbin hannun jari na hannun jari zai yi aiki mafi kyau fiye da mafi munin hannun jari ɗaya, amma ba zai fi mafi kyau ba.

Maganar Warren Buffett: 

"Bambantawa kariya ce daga jahilci, ga wanda bai san abin da yake yi ba, yana da ma'ana kadan."

A cikin koyon injin, EL yana taimakawa rage bambance-bambancen samfurin ku, amma wannan na iya haifar da ƙira tare da ingantaccen aiki gabaɗaya fiye da mafi kyawun ƙirar farko.

Bari mu ƙayyade sakamakon

Haɗa samfura da yawa zuwa ɗaya hanya ce mai sauƙi mai sauƙi wacce zata iya haifar da mafita ga bambance-bambancen matsalar son zuciya da ingantaccen aiki.

Idan kuna da samfura biyu ko fiye waɗanda ke aiki da kyau, kar ku zaɓi tsakanin su: yi amfani da su duka (amma tare da taka tsantsan)!

Shin kuna sha'awar haɓaka ta wannan hanyar? Yi rajista don darasin demo kyauta "Gabatar da samfuran ML zuwa yanayin masana'antu ta amfani da misalin shawarwarin kan layi" da shiga online saduwa da Andrey Kuznetsov - Injiniyan Koyon Injiniya a Rukunin Mail.ru.

source: www.habr.com

Add a comment