Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

Le, ukoll, ovvjament, jien mhux serju. Għandu jkun hemm limitu sa fejn ikun possibbli li suġġett jiġi ssimplifikat. Iżda għall-ewwel stadji, il-fehim tal-kunċetti bażiċi u malajr "ddaħħal" is-suġġett, jista 'jkun aċċettabbli. Aħna ser niddiskutu kif insemmu b'mod korrett dan il-materjal (għażliet: "Tagħlim bil-magni għall-manikini", "Analiżi tad-dejta mill-ħrieqi", "Algoritmi għaż-żgħar") fl-aħħar.

Sal-punt. Kiteb diversi programmi ta’ applikazzjoni f’MS Excel għall-viżwalizzazzjoni u r-rappreżentazzjoni viżwali ta’ proċessi li jseħħu f’metodi differenti ta’ tagħlim tal-magni meta tiġi analizzata d-dejta. Jaraw huwa jemmen, wara kollox, kif jgħidu l-portaturi tal-kultura, li żviluppat ħafna minn dawn il-metodi (mill-mod, mhux kollha kemm huma. L-aktar qawwija "support vector machine", jew SVM, support vector machine hija l-invenzjoni ta ' il-kompatrijott tagħna Vladimir Vapnik, Istitut ta 'Ġestjoni ta' Moska 1963, issa, madankollu, huwa jgħallem u jaħdem fl-Istati Uniti).

Tliet fajls għal reviżjoni

1. K-means clustering

Problemi ta 'dan it-tip jirreferu għal "tagħlim mhux sorveljat", meta għandna bżonn naqsmu d-dejta inizjali f'ċertu numru ta' kategoriji magħrufa minn qabel, iżda ma għandna l-ebda numru ta '"tweġibiet korretti" irridu niġbduhom mid-dejta nnifisha; . Il-problema klassika fundamentali tas-sejba ta 'sottospeċi ta' fjuri ta 'l-iris (Ronald Fisher, 1936!), Li hija meqjusa bħala l-ewwel sinjal ta' dan il-qasam ta 'għarfien, hija biss ta' din in-natura.

Il-metodu huwa pjuttost sempliċi. Għandna sett ta 'oġġetti rappreżentati bħala vectors (settijiet ta' N numri). Fl-iris, dawn huma settijiet ta '4 numri li jikkaratterizzaw il-fjura: it-tul u l-wisa' tal-lobi ta 'barra u ta' ġewwa tal-perijant, rispettivament (L-iris ta' Fischer - Wikipedija). Il-metrika Kartesjana tas-soltu tintgħażel bħala d-distanza, jew il-kejl tal-prossimità bejn l-oġġetti.

Sussegwentement, iċ-ċentri tal-cluster jintgħażlu b'mod każwali (jew mhux bl-addoċċ, ara hawn taħt), u d-distanzi minn kull oġġett għaċ-ċentri tal-cluster huma kkalkulati. Kull oġġett f'pass ta' iterazzjoni partikolari huwa mmarkat bħala li jappartjeni għall-eqreb ċentru. Imbagħad iċ-ċentru ta 'kull cluster jiġi trasferit għall-medja aritmetika tal-koordinati tal-membri tiegħu (b'analoġija mal-fiżika, tissejjaħ ukoll "ċentru tal-massa"), u l-proċedura hija ripetuta.

Il-proċess jikkonverġi pjuttost malajr. Fl-istampi f'żewġ dimensjonijiet jidher bħal dan:

1. Distribuzzjoni każwali inizjali tal-punti fuq il-pjan u n-numru ta 'clusters

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

2. L-ispeċifikazzjoni taċ-ċentri tal-clusters u l-assenjazzjoni tal-punti għar-raggruppamenti tagħhom

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

3. It-trasferiment tal-koordinati taċ-ċentri tal-clusters, il-kalkolu mill-ġdid tal-affiljazzjoni tal-punti sakemm iċ-ċentri jistabbilizzaw. It-trajettorja taċ-ċentru tal-cluster li jiċċaqlaq għall-pożizzjoni finali tiegħu hija viżibbli.

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

Fi kwalunkwe ħin, tista 'tissettja ċentri ta' cluster ġodda (mingħajr ma tiġġenera distribuzzjoni ġdida ta 'punti!) U tara li l-proċess ta' qsim mhux dejjem mhux ambigwu. Matematikament, dan ifisser li għall-funzjoni li qed tiġi ottimizzata (is-somma tad-distanzi kwadri mill-punti saċ-ċentri tar-raggruppamenti tagħhom), insibu mhux minimu globali, iżda lokali. Din il-problema tista’ tingħeleb jew permezz ta’ għażla mhux każwali ta’ ċentri ta’ cluster inizjali, jew billi jiġu enumerati ċentri possibbli (xi kultant ikun vantaġġuż li jitpoġġew eżattament f’wieħed mill-punti, allura għallinqas ikun hemm garanzija li ma nibqgħux vojta clusters). Fi kwalunkwe każ, sett finit dejjem ikollu infimum.

Tista' tilgħab b'dan il-fajl f'din il-link (tinsiex li tippermetti l-appoġġ makro. Il-fajls ġew skannjati għal viruses)

Deskrizzjoni tal-metodu fuq il-Wikipedija - metodu k-means

2. Approssimazzjoni mill-polinomji u t-tqassim tad-dejta. Taħriġ mill-ġdid

Xjentist notevoli u popolarizzatur tax-xjenza tad-dejta K.V. Vorontsov jiddeskrivi fil-qosor metodi ta’ tagħlim bil-magni bħala “ix-xjenza li tfassal kurvi permezz ta’ punti.” F'dan l-eżempju, insibu mudell fid-dejta bl-użu tal-metodu tal-inqas kwadri.

It-teknika tad-diviżjoni tad-dejta tas-sors f'"taħriġ" u "kontroll" hija murija, kif ukoll fenomenu bħal taħriġ mill-ġdid, jew "aġġustament mill-ġdid" għad-dejta. B'approssimazzjoni korretta, se jkollna ċertu żball fuq id-dejta tat-taħriġ u żball kemmxejn akbar fuq id-dejta tal-kontroll. Jekk mhux korrett, jirriżulta f'aġġustament preċiż tad-dejta tat-taħriġ u żball kbir fuq id-dejta tat-test.

(Huwa fatt magħruf li permezz ta 'punti N wieħed jista' jiġbed kurva waħda tal-grad N-1, u dan il-metodu fil-każ ġenerali ma jagħtix ir-riżultat mixtieq. Polinomju ta' interpolazzjoni ta' Lagrange fuq il-Wikipedija)

1. Issettja d-distribuzzjoni inizjali

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

2. Aħna naqsmu l-punti fi "taħriġ" u "kontroll" fi proporzjon ta '70 sa 30.

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

3. Aħna niġbed il-kurva approssimattiva tul il-punti tat-taħriġ, naraw l-iżball li tagħti fuq id-dejta tal-kontroll

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

4. Aħna niġbed kurva eżatta permezz tal-punti tat-taħriġ, u naraw żball mostruż fuq id-dejta tal-kontroll (u żero fuq id-dejta tat-taħriġ, imma x'inhu l-punt?).

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

Tintwera, ovvjament, l-iktar għażla sempliċi b'diviżjoni waħda f'sottogruppi ta '"taħriġ" u "kontroll" fil-każ ġenerali, dan isir ħafna drabi għall-aħjar aġġustament tal-koeffiċjenti;

Il-fajl huwa disponibbli hawn, skennjat minn antivirus. Ippermetti macros għal tħaddim korrett

3. Inżul tal-gradjent u d-dinamika tal-bidla tal-iżball

Se jkun hemm każ 4-dimensjonali u rigressjoni lineari. Il-koeffiċjenti ta 'rigressjoni lineari se jiġu determinati pass pass bl-użu tal-metodu ta' nżul gradjent, inizjalment il-koeffiċjenti kollha huma żero. Grafika separata turi d-dinamika tat-tnaqqis tal-iżball hekk kif il-koeffiċjenti huma aġġustati aktar u aktar preċiż. Huwa possibbli li tara l-erba 'projezzjonijiet bi-dimensjonali kollha.

Jekk issettja l-pass tal-inżul tal-gradjent kbir wisq, tista’ tara li kull darba naqbżu l-minimu u naslu għar-riżultat f’numru akbar ta’ passi, għalkemm fl-aħħar xorta naslu (sakemm ma ndewmux ukoll il-pass tal-inżul ħafna - allura l-algoritmu se jmur "fi spades"). U l-graff tal-iżball skont il-pass tal-iterazzjoni mhux se jkun bla xkiel, iżda "jerky".

1. Iġġenera data, issettja l-pass tal-inżul tal-gradjent

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

2. Bl-għażla korretta tal-pass tal-inżul gradjent, aħna nilħqu l-minimu bla xkiel u malajr

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

3. Jekk il-pass tal-inżul tal-gradjent jintgħażel b'mod żbaljat, inqabżu l-massimu, il-graff tal-iżball huwa "jerky", il-konverġenza tieħu numru akbar ta 'passi

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra
и

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

4. Jekk nagħżlu l-pass tal-inżul tal-gradjent b'mod kompletament żbaljat, nimxu 'l bogħod mill-minimu

Tagħlim bil-magni mingħajr Python, Anaconda u rettili oħra

(Biex tirriproduċi l-proċess billi tuża l-valuri tal-pass tal-inżul tal-gradjent murija fl-istampi, iċċekkja l-kaxxa "dejta ta' referenza").

Il-fajl jinsab f'din il-link, trid tippermetti l-macros, m'hemm l-ebda virus.

Skont il-komunità rispettata, tali simplifikazzjoni u metodu ta' preżentazzjoni tal-materjal huma aċċettabbli? Ta’ min jittraduċu l-artiklu għall-Ingliż?

Sors: www.habr.com

Żid kumment