Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

Na, wel, wrth gwrs, dydw i ddim o ddifrif. Rhaid bod terfyn i’r graddau y mae’n bosibl symleiddio pwnc. Ond ar gyfer y camau cyntaf, deall cysyniadau sylfaenol a “mynd i mewn” yn gyflym i'r pwnc, gall fod yn dderbyniol. Byddwn yn trafod sut i enwi'r deunydd hwn yn gywir (opsiynau: "Peiriant dysgu ar gyfer dymis", "Dadansoddi data o diapers", "Algorithmau ar gyfer y rhai bach") ar y diwedd.

I'r pwynt. Ysgrifennodd nifer o raglenni cymhwysiad yn MS Excel ar gyfer delweddu a chynrychiolaeth weledol o brosesau sy'n digwydd mewn gwahanol ddulliau dysgu peirianyddol wrth ddadansoddi data. Mae gweld yn credu, wedi'r cyfan, fel y dywed cludwyr y diwylliant, a ddatblygodd y rhan fwyaf o'r dulliau hyn (gyda llaw, nid pob un ohonynt. Y "peiriant fector cymorth" mwyaf pwerus, neu SVM, peiriant fector cymorth yw dyfeisio ein cydwladwr Vladimir Vapnik, Sefydliad Rheolaeth Moscow. 1963, gyda llaw! Erbyn hyn, fodd bynnag, mae'n dysgu ac yn gweithio yn UDA).

Tair ffeil i'w hadolygu

1. K-yn golygu clystyru

Mae problemau o'r math hwn yn cyfeirio at “ddysgu heb oruchwyliaeth,” pan fydd angen i ni rannu'r data cychwynnol yn nifer penodol o gategorïau hysbys ymlaen llaw, ond nid oes gennym unrhyw nifer o “atebion cywir”; rhaid inni eu tynnu o'r data ei hun . Mae'r broblem glasurol sylfaenol o ddod o hyd i isrywogaeth o flodau iris (Ronald Fisher, 1936!), a ystyrir yn arwydd cyntaf y maes gwybodaeth hwn, o'r natur hon yn unig.

Mae'r dull yn eithaf syml. Mae gennym set o wrthrychau a gynrychiolir fel fectorau (setiau o rifau N). Mewn irises, mae'r rhain yn setiau o 4 rhif sy'n nodweddu'r blodyn: hyd a lled llabedau allanol a mewnol y perianth, yn y drefn honno (Irises Fischer - Wikipedia). Dewisir y metrig Cartesaidd arferol fel y pellter, neu fesur o agosrwydd rhwng gwrthrychau.

Nesaf, dewisir canolfannau clwstwr ar hap (neu nid ar hap, gweler isod), a chyfrifir y pellteroedd o bob gwrthrych i'r canolfannau clwstwr. Mae pob gwrthrych ar gam iteriad penodol wedi'i farcio fel un sy'n perthyn i'r ganolfan agosaf. Yna trosglwyddir canol pob clwstwr i gymedr rhifyddol cyfesurynnau ei aelodau (trwy gydweddiad â ffiseg, fe'i gelwir hefyd yn “ganolfan màs”), ac ailadroddir y weithdrefn.

Mae'r broses yn cydgyfeirio yn eithaf cyflym. Mewn lluniau mewn dau ddimensiwn mae'n edrych fel hyn:

1. Dosbarthiad hap cychwynnol pwyntiau ar y plân a nifer y clystyrau

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

2. Pennu canolfannau clwstwr a phennu pwyntiau i'w clystyrau

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

3. Trosglwyddo cyfesurynnau'r canolfannau clwstwr, gan ailgyfrifo cysylltiad y pwyntiau nes bod y canolfannau'n sefydlogi. Mae trywydd y ganolfan glwstwr yn symud i'w safle terfynol yn weladwy.

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

Ar unrhyw adeg, gallwch osod canolfannau clwstwr newydd (heb gynhyrchu dosbarthiad newydd o bwyntiau!) a gweld nad yw'r broses rannu bob amser yn ddiamwys. Yn fathemategol, mae hyn yn golygu, ar gyfer y ffwythiant sy'n cael ei optimeiddio (swm y pellteroedd sgwâr o bwyntiau i ganol eu clystyrau), ein bod ni'n canfod nid lleiafswm byd-eang, ond lleiafswm lleol. Gellir goresgyn y broblem hon naill ai trwy ddewis canolfannau clwstwr cychwynnol heb fod ar hap, neu drwy gyfrif canolfannau posibl (weithiau mae'n fanteisiol eu gosod yn union ar un o'r pwyntiau, yna o leiaf mae gwarant na fyddwn yn mynd yn wag. clystyrau). Beth bynnag, mae gan set gyfyngedig bob amser infimum.

Gallwch chi chwarae gyda'r ffeil hon trwy'r ddolen hon (peidiwch ag anghofio galluogi cymorth macro. Mae'r ffeiliau wedi'u sganio am firysau)

Disgrifiad o'r dull ar Wicipedia - k-yn golygu dull

2. Brasamcan yn ôl polynomialau a dadansoddiad data. Ailhyfforddi

Gwyddonydd rhyfeddol a phoblogydd gwyddor data K.V. Mae Vorontsov yn disgrifio dulliau dysgu peirianyddol yn fyr fel “gwyddor tynnu cromliniau trwy bwyntiau.” Yn yr enghraifft hon, byddwn yn dod o hyd i batrwm yn y data gan ddefnyddio'r dull sgwariau lleiaf.

Dangosir y dechneg o rannu'r data ffynhonnell yn “hyfforddiant” a “rheolaeth”, yn ogystal â ffenomen fel ailhyfforddi, neu “ail-addasu” i'r data. Gyda brasamcan cywir, bydd gennym gamgymeriad penodol ar y data hyfforddi a gwall ychydig yn fwy ar y data rheoli. Os yw'n anghywir, mae'n arwain at addasiad manwl gywir i'r data hyfforddi a gwall enfawr ar ddata'r prawf.

(Mae'n ffaith adnabyddus y gall un, trwy bwyntiau N, dynnu un gromlin o'r radd N-1fed, ac nid yw'r dull hwn yn yr achos cyffredinol yn rhoi'r canlyniad a ddymunir. polynomial rhyngosodiad Lagrange ar Wicipedia)

1. Gosodwch y dosbarthiad cychwynnol

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

2. Rhannwn y pwyntiau yn “hyfforddiant” a “rheolaeth” mewn cymhareb o 70 i 30.

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

3. Rydym yn tynnu'r gromlin fras ar hyd y pwyntiau hyfforddi, gwelwn y gwall y mae'n ei roi ar y data rheoli

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

4. Rydym yn tynnu union gromlin trwy'r pwyntiau hyfforddi, a gwelwn wall gwrthun ar y data rheoli (a sero ar y data hyfforddi, ond beth yw'r pwynt?).

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

Wrth gwrs, dangosir yw'r opsiwn symlaf gydag un rhaniad yn is-setiau “hyfforddiant” a “rheolaeth”; yn yr achos cyffredinol, gwneir hyn sawl gwaith ar gyfer yr addasiad gorau o'r cyfernodau.

Mae'r ffeil ar gael yma, wedi'i sganio gan wrthfeirws. Galluogi macros ar gyfer gweithrediad cywir

3. Disgyniad graddiant a dynameg newid gwall

Bydd achos 4-dimensiwn ac atchweliad llinol. Bydd cyfernodau atchweliad llinol yn cael eu pennu gam wrth gam gan ddefnyddio'r dull disgyniad graddiant, i ddechrau mae pob cyfernod yn sero. Mae graff ar wahân yn dangos deinameg lleihau gwallau wrth i'r cyfernodau gael eu haddasu'n fwyfwy cywir. Mae'n bosibl gweld y pedwar amcanestyniad 2-ddimensiwn.

Os byddwch yn gosod y cam disgyniad graddiant yn rhy fawr, gallwch weld y byddwn yn hepgor yr isafswm bob tro ac yn cyrraedd y canlyniad mewn nifer fwy o gamau, er y byddwn yn dal i gyrraedd yn y diwedd (oni bai ein bod yn gohirio'r cam disgyn hefyd llawer - yna bydd yr algorithm yn mynd “mewn rhawiau”). Ac ni fydd graff y gwall yn dibynnu ar y cam iteriad yn llyfn, ond yn “ysgeglyd”.

1. Cynhyrchu data, gosodwch y cam disgyniad graddiant

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

2. Gyda dewis cywir y cam disgyniad graddiant, rydym yn llyfn ac yn gyflym yn cyrraedd yr isafswm

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

3. Os yw'r cam disgyniad graddiant yn cael ei ddewis yn anghywir, rydyn ni'n gor-lenwi'r uchafswm, mae'r graff gwall yn “jerky”, mae cydgyfeiriant yn cymryd nifer fwy o gamau

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill
и

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

4. Os byddwn yn dewis y cam disgyniad graddiant yn gwbl anghywir, rydym yn symud i ffwrdd o'r lleiafswm

Dysgu peirianyddol heb Python, Anaconda ac ymlusgiaid eraill

(I atgynhyrchu’r broses gan ddefnyddio’r gwerthoedd cam disgyniad graddiant a ddangosir yn y lluniau, gwiriwch y blwch “data cyfeirio”).

Mae'r ffeil yn y ddolen hon, mae angen i chi alluogi macros, nid oes unrhyw firysau.

Yn ôl y gymuned uchel ei pharch, a yw'r fath symleiddio a dull o gyflwyno'r deunydd yn dderbyniol? Ydy hi'n werth cyfieithu'r erthygl i'r Saesneg?

Ffynhonnell: hab.com

Ychwanegu sylw