Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

Jo, mirë, sigurisht, nuk jam serioz. Duhet të ketë një kufi në masën në të cilën është e mundur të thjeshtohet një temë. Por për fazat e para, kuptimi i koncepteve bazë dhe "hyrja" e shpejtë në temë, mund të jetë e pranueshme. Ne do të diskutojmë se si ta emërtojmë saktë këtë material (opsionet: "Mësimi i makinës për dummies", "Analiza e të dhënave nga pelenat", "Algoritmet për të vegjlit") në fund.

Drejt e në temë. Shkroi disa programe aplikimi në MS Excel për vizualizimin dhe paraqitjen vizuale të proceseve që ndodhin në metoda të ndryshme të mësimit të makinerive gjatë analizimit të të dhënave. Të shohësh është të besosh, në fund të fundit, siç thonë bartësit e kulturës, e cila ka zhvilluar shumicën e këtyre metodave (meqë ra fjala, jo të gjitha. Makina më e fuqishme "makina vektoriale mbështetëse", ose SVM, makina vektoriale mbështetëse është shpikja e bashkatdhetari ynë Vladimir Vapnik, Instituti i Menaxhimit në Moskë, 1963, meqë ra fjala, tani, megjithatë, ai jep mësim dhe punon në SHBA).

Tre dosje për shqyrtim

1. K-do të thotë grumbullim

Problemet e këtij lloji i referohen "mësimit të pambikëqyrur", kur duhet t'i ndajmë të dhënat fillestare në një numër të caktuar kategorish të njohura paraprakisht, por nuk kemi asnjë numër "përgjigjesh të sakta"; ne duhet t'i nxjerrim ato nga vetë të dhënat. . Problemi themelor klasik i gjetjes së nëngrupeve të luleve të irisit (Ronald Fisher, 1936!), i cili konsiderohet si shenja e parë e kësaj fushe dijeje, është pikërisht e kësaj natyre.

Metoda është mjaft e thjeshtë. Kemi një grup objektesh të paraqitur si vektorë (bashkësi N numrash). Në irises, këto janë grupe prej 4 numrash që karakterizojnë lulen: gjatësia dhe gjerësia e lobeve të jashtme dhe të brendshme të perianthit, përkatësisht (Iriset e Fischer - Wikipedia). Metrika e zakonshme karteziane zgjidhet si distanca ose matja e afërsisë midis objekteve.

Më pas, qendrat e grupimeve zgjidhen në mënyrë të rastësishme (ose jo rastësisht, shih më poshtë), dhe llogariten distancat nga secili objekt në qendrat e grupimeve. Çdo objekt në një hap të caktuar përsëritjeje shënohet se i përket qendrës më të afërt. Pastaj qendra e çdo grupi transferohet në mesataren aritmetike të koordinatave të anëtarëve të saj (për analogji me fizikën, quhet edhe "qendra e masës"), dhe procedura përsëritet.

Procesi konvergon mjaft shpejt. Në fotot në dy dimensione duket kështu:

1. Shpërndarja fillestare e rastësishme e pikave në rrafsh dhe numri i grupimeve

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

2. Specifikimi i qendrave të grupimeve dhe caktimi i pikëve për grupimet e tyre

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

3. Transferimi i koordinatave të qendrave të grupimeve, rillogaritja e përkatësisë së pikave deri në stabilizimin e qendrave. Trajektorja e qendrës së grupimit që lëviz në pozicionin e saj përfundimtar është e dukshme.

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

Në çdo kohë, mund të vendosni qendra të reja grupimi (pa gjeneruar një shpërndarje të re pikash!) dhe të shihni që procesi i ndarjes nuk është gjithmonë i paqartë. Matematikisht, kjo do të thotë që për funksionin që optimizohet (shuma e distancave në katror nga pikat në qendrat e grupimeve të tyre), nuk gjejmë një minimum global, por një minimum lokal. Ky problem mund të kapërcehet ose nga një zgjedhje jo e rastësishme e qendrave fillestare të grupimeve, ose duke numëruar qendrat e mundshme (nganjëherë është e dobishme t'i vendosim ato saktësisht në njërën nga pikat, atëherë të paktën ekziston një garanci që nuk do të mbetemi bosh grupime). Në çdo rast, një grup i kufizuar gjithmonë ka një infimum.

Ju mund të luani me këtë skedar në këtë lidhje (Mos harroni të aktivizoni mbështetjen makro. Skedarët janë skanuar për viruse)

Përshkrimi i metodës në Wikipedia - metoda k-means

2. Përafrimi me polinome dhe zbërthimi i të dhënave. Rikualifikimi

Shkencëtari i shquar dhe popullarizuesi i shkencës së të dhënave K.V. Vorontsov shkurtimisht përshkruan metodat e mësimit të makinerive si "shkenca e vizatimit të kthesave përmes pikave". Në këtë shembull, ne do të gjejmë një model në të dhënat duke përdorur metodën e katrorëve më të vegjël.

Tregohet teknika e ndarjes së të dhënave burimore në "trajnim" dhe "kontroll", si dhe një fenomen i tillë si rikualifikimi, ose "ri-rregullimi" i të dhënave. Me përafrim të saktë, do të kemi një gabim të caktuar në të dhënat e trajnimit dhe një gabim pak më të madh në të dhënat e kontrollit. Nëse është e pasaktë, rezulton në rregullim të saktë të të dhënave të trajnimit dhe një gabim të madh në të dhënat e testit.

(Është i njohur fakti që përmes N pikave mund të vizatohet një kurbë e vetme e shkallës N-1, dhe kjo metodë në rastin e përgjithshëm nuk jep rezultatin e dëshiruar. Polinom i interpolimit të Lagranzhit në Wikipedia)

1. Vendosni shpërndarjen fillestare

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

2. Ne i ndajmë pikat në "stërvitje" dhe "kontroll" në një raport 70 me 30.

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

3. Vizatojmë kurbën e përafërt përgjatë pikave të trajnimit, shohim gabimin që jep në të dhënat e kontrollit

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

4. Ne vizatojmë një kurbë të saktë nëpër pikat e trajnimit dhe shohim një gabim monstruoz në të dhënat e kontrollit (dhe zero në të dhënat e trajnimit, por cila është pika?).

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

Natyrisht, tregohet opsioni më i thjeshtë me një ndarje të vetme në nëngrupe "trajnimi" dhe "kontrolli"; në rastin e përgjithshëm, kjo bëhet shumë herë për rregullimin më të mirë të koeficientëve.

Skedari është i disponueshëm këtu, i skanuar me antivirus. Aktivizo makrot për funksionimin e duhur

3. Zbritja e gradientit dhe dinamika e ndryshimit të gabimit

Do të ketë një rast 4-dimensional dhe regresion linear. Koeficientët e regresionit linear do të përcaktohen hap pas hapi duke përdorur metodën e zbritjes së gradientit, fillimisht të gjithë koeficientët janë zero. Një grafik i veçantë tregon dinamikën e reduktimit të gabimit pasi koeficientët rregullohen gjithnjë e më saktë. Është e mundur të shikoni të katër projeksionet 2-dimensionale.

Nëse e vendosni hapin e zbritjes së gradientit shumë të madh, mund të shihni se çdo herë do të kapërcejmë minimumin dhe do të arrijmë në rezultat në një numër më të madh hapash, megjithëse në fund do të arrijmë akoma (përveç nëse e vonojmë edhe hapin e zbritjes shumë - atëherë algoritmi do të shkojë " me lopata"). Dhe grafiku i gabimit në varësi të hapit të përsëritjes nuk do të jetë i qetë, por "i vrullshëm".

1. Gjeneroni të dhëna, vendosni hapin e zbritjes së gradientit

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

2. Me zgjedhjen e duhur të hapit të zbritjes së gradientit, ne e arrijmë pa probleme dhe shpejt minimumin

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

3. Nëse hapi i zbritjes së gradientit është zgjedhur gabimisht, ne e tejkalojmë maksimumin, grafiku i gabimit është "i çrregullt", konvergjenca merr një numër më të madh hapash

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë
и

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

4. Nëse zgjedhim hapin e zbritjes së gradientit krejtësisht gabimisht, largohemi nga minimumi

Mësimi i makinerive pa Python, Anaconda dhe zvarranikë të tjerë

(Për të riprodhuar procesin duke përdorur vlerat e hapit të zbritjes së gradientit të treguara në foto, kontrolloni kutinë "të dhënat e referencës").

Skedari është në këtë lidhje, duhet të aktivizoni makro, nuk ka viruse.

Sipas komunitetit të respektuar, a është i pranueshëm një thjeshtësim dhe metodë e tillë e paraqitjes së materialit? A ia vlen ta përktheni artikullin në anglisht?

Burimi: www.habr.com

Shto një koment