Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

Na, baş e, bê guman, ez ne ciddî me. Ji bo hêsankirina mijarekê divê sînorek hebe. Lê ji bo qonaxên yekem, têgihîştina têgehên bingehîn û zû "ketina" mijarê, dibe ku were pejirandin. Em ê nîqaş bikin ka meriv çawa meriv vê materyalê rast bi nav dike (vebijark: "Fêrbûna makîneyê ji bo dummies", "Analîzkirina daneyê ji pelika", "Algorîtmayên ji bo piçûkan") di dawiyê de.

Ji bo xalê. Gelek bernameyên serîlêdanê di MS Excel de ji bo dîtbarîkirin û temsîla dîtbarî ya pêvajoyên ku di awayên fêrbûna makîneya cihêreng de di dema analîzkirina daneyan de çêdibin nivîsand. Dîtin, wekî ku hilgirên çandê dibêjin, bawerkirin e, ya ku piraniya van rêbazan pêşxistiye (bi awayê, ne hemî. "makîneya vektora piştgiriyê" ya herî hêzdar, an jî SVM, makîneya vektora piştgirîyê îcada hevwelatiyê me Vladîmîr Vapnik, Enstîtuya Rêvebiriyê ya Moskowê. 1963, lê belê, niha ew li DYAyê mamostetiyê dike û dixebite).

Sê pel ji bo vekolînê

1. K-tê wateya kombûnê

Pirsgirêkên bi vî rengî wekî "fêrbûna neçavdêrî" vedibêjin, dema ku em hewce ne ku daneyên destpêkê li çend kategoriyên ku ji berê ve têne zanîn veqetînin, lê hêj hejmarek "bersivên rast" tune ne; divê em wan ji daneyê bixwe derxin. . Pirsgirêka bingehîn a klasîk a dîtina binecureyên kulîlkên îrisê (Ronald Fisher, 1936!), ku nîşana yekem a vê qada zanînê tê hesibandin, bi vî rengî ye.

Rêbaz pir hêsan e. Di destê me de komek tişt hene ku wekî vektoran têne temsîl kirin (komên N-jimaran). Di irises de, ev komek ji 4 hejmaran in ku kulîlkê diyar dikin: bi rêzê ve dirêjî û firehiya lobên derve û hundurîn ên peranth (Irises Fischer - Wîkîpediya). Metrîka Cartesian ya asayî wekî dûrbûn, an pîvana nêzîkbûna di navbera tiştan de tê hilbijartin.

Dûv re, navendên komê bi rengek bêserûber têne hilbijartin (an ne bi tesadufî, li jêr binêre), û dûrahiyên ji her tiştê heya navendên komê têne hesibandin. Her tişt di pêngavek dubarekirinê de wekî ku girêdayî navenda herî nêzîk tê nîşankirin. Dûv re navenda her komê tê veguheztin navgîniya hejmarî ya koordînatên endamên wê (ji hêla fizîkê ve, jê re "navenda girseyê" jî tê gotin), û prosedur dubare dibe.

Pêvajo pir zû digihîje hev. Di wêneyên du pîvanan de ev xuya dike:

1. Dabeşkirina rasthatî ya destpêkê ya xalên li ser balafirê û hejmara koman

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

2. Diyarkirina navendên koman û danîna xalan ji komên wan re

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

3. Veguheztina koordînatên navendên komê, ji nû ve hesabkirina girêdana xalan heta ku navend aram bibin. Rêwîtiya navenda komê ku berbi pozîsyona xweya dawî ve diçe xuya ye.

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

Di her kêliyê de, hûn dikarin navendên komê yên nû saz bikin (bêyî ku dabeşek nû ya xalan çêbikin!) û bibînin ku pêvajoya dabeşkirinê her gav ne zelal e. Ji hêla matematîkî ve, ev tê vê wateyê ku ji bo fonksiyona ku tê xweşbîn kirin (hevdengiya dûrahiya çargoşe ya ji xalan heya navendên komên wan), em ne gerdûnek, lê hindiktirînek herêmî dibînin. Ev pirsgirêk dikare bi hilbijarkek ne-rasthatî ya navendên komê yên destpêkê, an jî bi jimartina navendên mimkun were derbas kirin (carinan bi avantaj e ku meriv wan tam li yek ji xalan bi cîh bike, wê hingê bi kêmanî garantiyek heye ku em ê vala nebin. koman). Di her rewşê de, komek bêdawî her gav xwedan infimum e.

Hûn dikarin li ser vê lînkê bi vê pelê bilîzin (Ji bîr nekin ku piştgirîya makro çalak bikin. Pelên ji bo vîrusan hatine kontrol kirin)

Danasîna rêbazê li ser Wîkîpediya - k-tê wateya rêbazê

2. Nêzîkbûna ji hêla pirnomîlan û dabeşkirina daneyan. Xwendingûherrî

Zanyarê hêja û populerkerê zanista daneyê K.V. Vorontsov bi kurtî rêbazên fêrbûna makîneyê wekî "zanista xêzkirina kevanan bi xalan" binav dike. Di vê nimûneyê de, em ê di daneyan de nimûneyek bi karanîna rêbaza çarçikên herî kêm bibînin.

Teknîka dabeşkirina daneya çavkaniyê li "perwerdekirin" û "kontrol" tê destnîşan kirin, û her weha diyardeyek wekî ji nû ve perwerdekirin, an "ji nû ve sererastkirina" daneyan tê destnîşan kirin. Bi nêzîkbûna rast, em ê di daneyên perwerdehiyê de hin xeletiyek û di daneyên kontrolê de xeletiyek piçûktir hebe. Heke nerast be, ew dibe sedema sererastkirina rastîn a daneyên perwerdehiyê û xeletiyek mezin li ser daneyên testê.

(Rastiyek naskirî ye ku bi riya N xalan mirov dikare yek kevçîyek ji dereceya N-1-ê xêz bike, û ev rêbaz di rewşa gelemperî de encamek tê xwestin nade. Li ser Wîkîpediyayê polînomiya navberkirina Lagrange)

1. Dabeşkirina destpêkê saz bikin

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

2. Em xalên "perwerdekirin" û "kontrol" di rêjeya 70 û 30 de dabeş dikin.

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

3. Em li kêleka xalên perwerdehiyê xêzika nêzik xêz dikin, em xeletiya ku ew dide daneyên kontrolê dibînin

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

4. Em di nav xalên perwerdehiyê de xêzek tam xêz dikin, û em li ser daneyên kontrolê xeletiyek cinawir dibînin (û li ser daneyên perwerdehiyê sifir, lê xal çi ye?).

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

Nîşankirî, bê guman, vebijarka herî hêsan e ku bi dabeşkirina yekane di binkomên "perwerdekirin" û "kontrol" de ye; di rewşa gelemperî de, ev gelek caran ji bo verastkirina çêtirîn a hevberan tê kirin.

Pelê li vir heye, ji hêla antivirus ve hatî skankirin. Ji bo xebata rast makro çalak bikin

3. Daketina gradient û dînamîkên guherîna xeletiyê

Dê rewşek 4-alî û paşveçûnek xêzik hebe. Rêbazên regresyonê yên xêz dê bi rêbaza daketina gradient gav bi gav bêne diyar kirin, di destpêkê de hemî kêşe sifir in. Grafikek veqetandî dînamîkên kêmkirina xeletiyê destnîşan dike ji ber ku hevber bêtir û bêtir rast têne sererast kirin. Mimkun e ku meriv her çar pêşnûmeyên 2-alî were dîtin.

Ger hûn gavê daketina gradientê pir mezin destnîşan bikin, hûn dikarin bibînin ku her carê em ê ji hindiktirîn gav biavêjin û dê bi hejmareke mezintir gavan bigihîjin encamê, her çend di dawiyê de em ê dîsa jî bigihîjin (heya ku em gavê daketinê jî dereng nekin pir - wê hingê algorîtma dê biçe "bi tîpan"). Û grafika xeletiyê ya ku li gorî gavê dubarekirinê ve girêdayî ye, dê ne sivik be, lê "qermî" be.

1. Daneyên biafirînin, gavê daketina gradient saz bikin

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

2. Bi hilbijartina rast a gavê daketina gradient, em bi lez û bez digihîjin herî kêm

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

3. Heke gavê daketina gradient bi xeletî were hilbijartin, em ji herî zêde derdixin, grafika xeletiyê "gerkî" ye, hevgirtin hejmareke mezin gavan digire

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din
и

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

4. Heke em gavê daketina gradient bi tevahî xelet hilbijêrin, em ji herî kêm dûr dikevin

Fêrbûna makîneyê bêyî Python, Anaconda û reptilên din

(Ji bo dubarekirina pêvajoyê bi karanîna nirxên gavê yên daketina gradient ên ku di wêneyan de têne xuyang kirin, qutiya "daneyên referansê" kontrol bikin).

Pelê li vê lînkê ye, divê hûn makroyan çalak bikin, vîrus tune.

Li gorî civaka rêzdar, hêsankirin û rêbazek weha ya pêşkêşkirina materyalê tê pejirandin? Ma hêja ye ku gotar bi Englishngilîzî were wergerandin?

Source: www.habr.com

Add a comment