A'a, da kyau, ba shakka, ba ni da gaske. Dole ne a sami iyaka gwargwadon yadda zai yiwu a sauƙaƙe batun. Amma don matakan farko, fahimtar mahimman ra'ayoyin da sauri "shigar" batun, yana iya zama karbabbe. Za mu tattauna yadda za a yi daidai da sunan wannan abu (zaɓuɓɓuka: "Koyon na'ura don dummies", "Binciken bayanai daga diapers", "Algorithms ga ƙananan yara") a ƙarshe.
Zuwa batu. Rubuta shirye-shiryen aikace-aikace da yawa a cikin MS Excel don gani da kuma wakilci na gani na tafiyar matakai da ke faruwa a cikin hanyoyin koyan na'ura daban-daban lokacin nazarin bayanai. Gani shine gaskatawa, bayan haka, kamar yadda masu ɗaukar al'adun suka ce, waɗanda suka haɓaka mafi yawan waɗannan hanyoyin (ta hanyar, ba duka ba ne. Mafi ƙarfi "na'urar tallan tallan tallan", ko SVM, na'ura mai ɗaukar hoto shine ƙirƙirar na'urar. Dan kasarmu Vladimir Vapnik, Cibiyar Gudanarwa ta Moscow. 1963, ta hanyar! Yanzu, duk da haka, yana koyarwa kuma yana aiki a Amurka).
1. K-yana nufin tari
Matsalolin irin wannan suna nufin "ilimin da ba a kula da shi ba," lokacin da muke buƙatar raba bayanan farko zuwa wasu adadin da aka sani a gaba, amma ba mu da adadin "amsoshi daidai"; dole ne mu cire su daga bayanan da kanta. . Matsala ta asali na gano nau'ikan furanni iris (Ronald Fisher, 1936!), wanda ake la'akari da alamar farko na wannan fagen ilimi, na wannan yanayin ne kawai.
Hanyar yana da sauƙi. Muna da saitin abubuwa da aka wakilta azaman vector (saitin lambobi N). A cikin irises, waɗannan saitin lambobi 4 ne waɗanda ke nuna furen: tsayi da faɗin lobes na waje da na ciki na perianth, bi da bi (
Na gaba, ana zaɓar cibiyoyin gungu ba da gangan (ko ba da gangan ba, duba ƙasa), kuma ana ƙididdige nisa daga kowane abu zuwa cibiyoyin tari. Kowane abu a matakin da aka bayar ana yiwa alama alama ce ta cibiyar mafi kusa. Sa'an nan kuma an canja wurin tsakiyar kowane gungu zuwa ma'anar lissafin ma'anar ma'auni na membobinta (ta hanyar kwatanta da kimiyyar lissafi, kuma ana kiranta "cibiyar taro") kuma ana maimaita hanyar.
Tsarin yana haɗuwa da sauri. A cikin hotuna ta fuskoki biyu yana kama da haka:
1. Farko bazuwar rarraba maki a kan jirgin sama da adadin gungu
2. Ƙayyadaddun cibiyoyin gungu da ba da maki ga gungu
3. Canja wurin haɗin gwiwar cibiyoyin cluster, sake ƙididdige alaƙar maki har sai cibiyoyin sun daidaita. Ana ganin yanayin cibiyar tari zuwa matsayinta na ƙarshe.
A kowane lokaci, zaku iya saita sabbin cibiyoyin gungu (ba tare da samar da sabon rarraba maki ba!) Kuma ku ga cewa tsarin rarraba ba koyaushe yana da tabbas ba. A ilimin lissafi, wannan yana nufin cewa don inganta aikin (jimilar nisan murabba'i daga maki zuwa cibiyoyin gungu), ba mu sami na duniya ba, amma mafi ƙarancin gida. Ana iya shawo kan wannan matsala ko dai ta hanyar zaɓin wuraren da ba na farko ba, ko kuma ta hanyar ƙididdige cibiyoyi masu yiwuwa (wani lokaci yana da kyau a sanya su daidai a ɗaya daga cikin maki, to aƙalla akwai tabbacin cewa ba za mu sami fanko ba. gungu). A kowane hali, saitin iyaka koyaushe yana da rashin ƙarfi.
Bayanin hanyar akan Wikipedia -
2. Kimanta ta hanyar polynomials da rushewar bayanai. Sake horarwa
Fitaccen masanin kimiyya kuma mashahurin masanin kimiyyar bayanai K.V. Vorontsov a taƙaice ya kwatanta hanyoyin koyon inji a matsayin "kimiyyar zana lankwasa ta maki." A cikin wannan misali, za mu sami tsari a cikin bayanan ta amfani da mafi ƙarancin hanyar murabba'ai.
Ana nuna dabarar rarraba bayanan tushen zuwa "horarwa" da "sarrafawa", da kuma irin wannan sabon abu kamar sake horarwa, ko "sake daidaitawa" zuwa bayanan. Tare da daidaitaccen ƙima, za mu sami wani kuskure akan bayanan horo da ɗan ƙaramin kuskure akan bayanan sarrafawa. Idan ba daidai ba, yana haifar da daidaitaccen daidaitawa ga bayanan horo da babban kuskure akan bayanan gwajin.
(Yana da sananne cewa ta hanyar N maki za a iya zana guda lankwasa na N-1th digiri, kuma wannan hanya a cikin general yanayin ba ya ba da sakamakon da ake so.
1. Saita rarrabawar farko
2. Mun raba maki a cikin "horo" da "iko" a cikin rabo na 70 zuwa 30.
3. Muna zana madaidaicin madaidaicin tare da wuraren horo, muna ganin kuskuren da yake bayarwa akan bayanan sarrafawa.
4. Muna zana madaidaicin madaidaicin ta hanyar wuraren horo, kuma muna ganin kuskuren kuskure akan bayanan sarrafawa (kuma sifili akan bayanan horo, amma menene ma'anar?).
An nuna, ba shakka, shine zaɓi mafi sauƙi tare da rarrabuwa guda ɗaya zuwa "horarwa" da "sarrafawa"; a cikin yanayin gaba ɗaya, ana yin wannan sau da yawa don mafi kyawun daidaitawar ƙididdiga.
3. Saukowar hankali da yanayin canjin kuskure
Za a sami shari'ar mai girma 4 da koma bayan layi. Za'a ƙayyade ƙididdiga na koma baya na layi mataki-mataki ta amfani da hanyar saukowar gradient, da farko duk ƙididdiga ba su da sifili. Wani jadawali na daban yana nuna ƙarfin raguwar kurakurai yayin da ake daidaita ma'auni da ƙari daidai. Yana yiwuwa a duba duk tsinkaya mai girma biyu guda huɗu.
Idan ka saita matakin gangaren gradient da girma, za ka ga cewa duk lokacin da za mu tsallake mafi ƙanƙanta kuma za mu kai ga sakamakon a cikin matakai masu yawa, kodayake a ƙarshe za mu isa (sai dai idan mun jinkirta matakin saukowa ma. da yawa - to algorithm zai tafi "a cikin spades"). Kuma jadawali na kuskuren dangane da mataki na maimaitawa ba zai zama mai santsi ba, amma "mai laushi".
1. Ƙirƙirar bayanai, saita matakin saukowar gradient
2. Tare da madaidaicin zaɓi na matakin saukowa na gradient, muna da sauƙi da sauri isa mafi ƙarancin
3. Idan an zaɓi matakin ƙaddamarwa ba daidai ba, muna yin overshoot matsakaicin, jadawalin kuskuren shine "mai ban tsoro", haɗuwa yana ɗaukar matakai mafi girma.
и
4. Idan muka zaɓi matakin saukowar gradient gaba ɗaya ba daidai ba, za mu matsa daga mafi ƙaranci
(Don sake haifar da tsari ta amfani da ƙimar matakin saukowar gradient da aka nuna a cikin hotuna, duba akwatin “bayanan bayanai”).
A cewar al'ummar da ake girmamawa, shin irin wannan sauƙaƙawa da kuma hanyar gabatar da kayan abin yarda ne? Shin yana da daraja fassara labarin zuwa Turanci?
source: www.habr.com