NÄ, protams, es nerunÄju nopietni. Ir jÄbÅ«t ierobežotam, cik lielÄ mÄrÄ ir iespÄjams vienkÄrÅ”ot priekÅ”metu. Bet pirmajiem posmiem, izprotot pamatjÄdzienus un Ätri āieejotā tÄmÄ, tas var bÅ«t pieÅemami. NoslÄgumÄ apspriedÄ«sim, kÄ pareizi nosaukt Å”o materiÄlu (opcijas: āMaŔīnmÄcÄ«ba manekeniemā, āDatu analÄ«ze no autiÅbiksÄ«tÄmā, āAlgoritmi mazajiemā).
LÄ«dz punktam. ProgrammÄ MS Excel uzrakstÄ«ja vairÄkas lietojumprogrammas, lai vizualizÄtu un vizuÄli attÄlotu procesus, kas notiek dažÄdÄs maŔīnmÄcÄ«Å”anÄs metodÄs, analizÄjot datus. Galu galÄ redzÄt ir ticÄt, kÄ saka kultÅ«ras nesÄji, kas izstrÄdÄja lielÄko daļu Å”o metožu (starp citu, ne visas. VisspÄcÄ«gÄkÄ āatbalsta vektora maŔīnaā jeb SVM atbalsta vektora maŔīna ir izgudrojums mÅ«su tautietis Vladimirs VapÅiks, Maskavas menedžmenta institÅ«ts. 1963, starp citu!Tagad taÄu mÄca un strÄdÄ ASV).
1. K-nozÄ«mÄ klasterizÄciju
Å Äda veida problÄmas attiecas uz ānepÄrraudzÄ«tu mÄcÄ«Å”anosā, kad sÄkotnÄjie dati ir jÄsadala noteiktÄ skaitÄ iepriekÅ” zinÄmu kategoriju, bet mums nav nekÄda skaita āpareizo atbilžuā, mums tÄs ir jÄizvelk no paÅ”iem datiem. . KlasiskÄ fundamentÄlÄ problÄma ā atrast Ä«risu ziedu pasugas (Ronalds FiÅ”ers, 1936!), kas tiek uzskatÄ«ta par Ŕīs zinÄÅ”anu jomas pirmo pazÄ«mi, ir tieÅ”i Å”Äda.
Metode ir diezgan vienkÄrÅ”a. Mums ir objektu kopa, kas attÄlota kÄ vektori (N skaitļu kopas). ÄŖrisos tie ir 4 skaitļu komplekti, kas raksturo ziedu: attiecÄ«gi apmales ÄrÄjÄs un iekÅ”ÄjÄs daivas garums un platums (
PÄc tam klasteru centri tiek atlasÄ«ti nejauÅ”i (vai ne nejauÅ”i, skatÄ«t zemÄk), un tiek aprÄÄ·inÄti attÄlumi no katra objekta lÄ«dz klasteru centriem. Katrs objekts noteiktÄ iterÄcijas solÄ« ir atzÄ«mÄts kÄ piederÄ«gs tuvÄkajam centram. PÄc tam katra klastera centrs tiek pÄrnests uz tÄ dalÄ«bnieku koordinÄtu vidÄjo aritmÄtisko (pÄc analoÄ£ijas ar fiziku to sauc arÄ« par āmasas centruā), un procedÅ«ra tiek atkÄrtota.
Process saplÅ«st diezgan Ätri. BildÄs divÄs dimensijÄs tas izskatÄs Å”Ädi:
1. SÄkotnÄjais nejauÅ”ais punktu sadalÄ«jums plaknÄ un klasteru skaits
2. Klasteru centru norÄdÄ«Å”ana un punktu pieŔķirÅ”ana to klasteriem
3. Klasteru centru koordinÄtu pÄrneÅ”ana, punktu piederÄ«bas pÄrrÄÄ·ins lÄ«dz centru stabilizÄÅ”anÄs. Ir redzama klastera centra kustÄ«bas trajektorija uz galÄ«go pozÄ«ciju.
JebkurÄ laikÄ varat iestatÄ«t jaunus klasteru centrus (neÄ£enerÄjot jaunu punktu sadalÄ«jumu!) un redzÄt, ka sadalÄ«Å”anas process ne vienmÄr ir nepÄrprotams. MatemÄtiski tas nozÄ«mÄ, ka optimizÄjamajai funkcijai (attÄlumu kvadrÄtÄ summa no punktiem lÄ«dz to kopu centriem) mÄs atrodam nevis globÄlo, bet lokÄlo minimumu. Å o problÄmu var pÄrvarÄt vai nu nejauÅ”i izvÄloties sÄkotnÄjos klasteru centrus, vai arÄ« uzskaitot iespÄjamos centrus (dažkÄrt ir izdevÄ«gi tos novietot tieÅ”i kÄdÄ no punktiem, tad vismaz ir garantija, ka tukÅ”os nepaliksim kopas). JebkurÄ gadÄ«jumÄ ierobežotai kopai vienmÄr ir infimums.
Metodes apraksts VikipÄdijÄ -
2. AproksimÄcija pÄc polinomiem un datu sadalÄ«juma. PÄrkvalificÄÅ”anÄs
IevÄrojams zinÄtnieks un datu zinÄtnes popularizÄtÄjs K.V. Voroncovs Ä«si raksturo maŔīnmÄcÄ«Å”anÄs metodes kÄ "zinÄtni par lÄ«kÅu zÄ«mÄÅ”anu caur punktiem". Å ajÄ piemÄrÄ mÄs datos atradÄ«sim modeli, izmantojot mazÄko kvadrÄtu metodi.
ParÄdÄ«ts avota datu sadalÄ«Å”anas paÅÄmiens āapmÄcÄ«bÄā un ākontrolÄā, kÄ arÄ« tÄda parÄdÄ«ba kÄ pÄrkvalificÄÅ”anÄs vai datu āatkÄrtota pielÄgoÅ”anaā. Ar pareizu tuvinÄjumu mums bÅ«s noteikta kļūda treniÅu datos un nedaudz lielÄka kļūda kontroles datos. Ja tas ir nepareizi, tas rada precÄ«zu pielÄgoÅ”anos apmÄcÄ«bas datiem un milzÄ«gu kļūdu testa datos.
(Ir labi zinÄms fakts, ka caur N punktiem var uzzÄ«mÄt vienu N-1 pakÄpes lÄ«kni, un Ŕī metode kopumÄ nedod vÄlamo rezultÄtu.
1. Iestatiet sÄkotnÄjo sadalÄ«jumu
2. Punktus sadalÄm ātreniÅosā un ākontrolÄā attiecÄ«bÄ 70 pret 30.
3. UzzÄ«mÄjam aptuveno lÄ«kni gar treniÅu punktiem, redzam kļūdu, ko tÄ dod kontroles datos
4. MÄs novelkam precÄ«zu lÄ«kni caur treniÅu punktiem, un mÄs redzam milzÄ«gu kļūdu kontroles datos (un nulle treniÅu datos, bet kÄda jÄga?).
ParÄdÄ«ts, protams, vienkÄrÅ”Äkais variants ar vienu iedalÄ«jumu āapmÄcÄ«basā un ākontrolesā apakÅ”kopÄs; vispÄrÄ«gÄ gadÄ«jumÄ tas tiek darÄ«ts daudzas reizes, lai vislabÄk pielÄgotu koeficientus.
3. Gradienta nolaiÅ”anÄs un kļūdu izmaiÅu dinamika
BÅ«s 4-dimensiju gadÄ«jums un lineÄrÄ regresija. LineÄrÄs regresijas koeficienti tiks noteikti soli pa solim, izmantojot gradienta nolaiÅ”anÄs metodi, sÄkotnÄji visi koeficienti ir nulle. AtseviŔķs grafiks parÄda kļūdu samazinÄÅ”anas dinamiku, jo koeficienti tiek koriÄ£Äti arvien precÄ«zÄk. Ir iespÄjams apskatÄ«t visas Äetras 2-dimensiju projekcijas.
Ja gradienta nolaiÅ”anÄs soli iestatÄt pÄrÄk lielu, jÅ«s varat redzÄt, ka katru reizi mÄs izlaidÄ«sim minimumu un sasniegsim rezultÄtu lielÄkÄ soļu skaitÄ, lai gan beigÄs mÄs tomÄr nonÄksim (ja vien mÄs neaizkavÄsim nolaiÅ”anÄs soli daudz - tad algoritms darbosies ā pÄ«Ä·osā). Un kļūdas grafiks atkarÄ«bÄ no iterÄcijas soļa nebÅ«s gluds, bet gan āsaraustÄ«tsā.
1. Ä¢enerÄjiet datus, iestatiet gradienta nolaiÅ”anÄs soli
2. Pareizi izvÄloties gradienta nolaiÅ”anÄs soli, mÄs vienmÄrÄ«gi un Ätri sasniedzam minimumu
3. Ja gradienta nolaiÅ”anÄs solis ir izvÄlÄts nepareizi, mÄs pÄrsniedzam maksimumu, kļūdu grafiks ir āsaraustÄ«tsā, konverÄ£encei nepiecieÅ”ams lielÄks soļu skaits
Šø
4. Ja gradienta nolaiÅ”anÄs soli izvÄlamies pilnÄ«gi nepareizi, mÄs attÄlinÄmies no minimuma
(Lai reproducÄtu procesu, izmantojot attÄlos redzamÄs gradienta nolaiÅ”anÄs soļu vÄrtÄ«bas, atzÄ«mÄjiet lodziÅu āatsauces datiā).
Vai, pÄc cienÄ«jamÄs sabiedrÄ«bas domÄm, Å”Äda vienkÄrÅ”oÅ”ana un materiÄla pasniegÅ”anas metode ir pieÅemama? Vai ir vÄrts tulkot rakstu angļu valodÄ?
Avots: www.habr.com