Tsia, mazava ho azy, tsy matotra aho. Tsy maintsy misy fetra ny halehiben'ny fahafahana manatsotra lohahevitra iray. Saingy ho an'ny dingana voalohany, ny fahatakarana ny foto-kevitra fototra ary ny "miditra" haingana amin'ny lohahevitra, dia mety ho azo ekena izany. Hiresaka momba ny fomba hanomezana anarana ity fitaovana ity isika (safidy: "Fianarana milina ho an'ny dummies", "Fanadihadiana data avy amin'ny diapers", "Algorithm ho an'ny ankizy") amin'ny farany.
To the point. Nanoratra programa fampiharana maromaro tao amin'ny MS Excel ho fanehoana an-tsary sy fanehoana an-tsary ireo dingana mitranga amin'ny fomba fianarana milina samihafa rehefa mamakafaka data. Ny fahitana dia mino, na izany aza, araka ny filazan'ireo mpihazona ny kolontsaina, izay namolavola ny ankamaroan'ireo fomba ireo (amin'ny fomba, fa tsy izy rehetra. Ny "machine vector support" mahery indrindra, na SVM, support vector machine dia ny famoronana ny Ny mpiray tanindrazana aminay Vladimir Vapnik, Moscow Institute of Management 1963, ankehitriny anefa dia mampianatra sy miasa any Etazonia).
1. K-dia midika hoe clustering
Ny olana amin'ity karazana ity dia manondro ny "fianarana tsy voafehy", rehefa mila mizara ny angon-drakitra voalohany amin'ny sokajy maromaro fantatra mialoha isika, saingy tsy manana "valiny marina" isika; . Ny olana mahazatra fototra amin'ny fitadiavana zana-boankazo amin'ny voninkazo iris (Ronald Fisher, 1936!), Izay heverina ho famantarana voalohany amin'ity sehatry ny fahalalana ity, dia avy amin'izany toetra izany.
Ny fomba dia tena tsotra. Manana andian-javatra aseho ho vectors (sehatra N isa). Ao amin'ny irises, ireto dia andiana isa 4 izay mampiavaka ny voninkazo: ny halavany sy ny sakan'ny lavaka ivelany sy anatiny amin'ny perianth, tsirairay avy (
Manaraka izany, ny foibe cluster dia voafantina kisendrasendra (na tsy kisendrasendra, jereo eto ambany), ary ny halaviran'ny zavatra tsirairay mankany amin'ny foibe cluster dia kajy. Ny zavatra tsirairay amin'ny dingana famerimberenana nomena dia voamarika ho an'ny foibe akaiky indrindra. Avy eo ny afovoan'ny cluster tsirairay dia nafindra tany amin'ny aritmetika midika ny kΓ΄rdinalin'ny mpikambana ao aminy (amin'ny analogy amin'ny fizika, antsoina koa hoe "ivon'ny faobe"), ary miverimberina ny fomba.
Mifamatotra haingana ny dingana. Amin'ny sary amin'ny lafiny roa dia toa izao:
1. Fizarana kisendrasendra voalohany ny teboka eo amin'ny fiaramanidina sy ny isan'ny cluster
2. Famaritana ny ivon'ny kluster ary manendry teboka ho an'ny vondron'izy ireo
3. Mamindra ny koordinate amin'ireo ivon'ny kluster, kajio indray ny firaisan'ireo teboka mandra-pahatonga ny ivontoerana hiorina. Hita taratra ny lalan'ny foibe cluster mizotra mankany amin'ny toerany farany.
Amin'ny fotoana rehetra dia azonao atao ny mametraka foibe cluster vaovao (tsy miteraka fizarana teboka vaovao!) Amin'ny lafiny matematika, midika izany fa ho an'ny asa atao optimized (ny fitambaran'ny elanelana efamira manomboka amin'ny teboka mankany amin'ny ivon'ny cluster), dia tsy hita eran-tany, fa ambany indrindra eo an-toerana. Ity olana ity dia azo resena na amin'ny alalan'ny safidy tsy kisendrasendra amin'ny foibe cluster voalohany, na amin'ny fanisana ireo foibe azo atao (indraindray dia mahasoa ny mametraka azy ireo amin'ny iray amin'ireo teboka, fara faharatsiny, misy antoka fa tsy ho foana isika. clusters). Na izany na tsy izany, misy infimum foana ny fitambarana voafetra.
Famaritana ny fomba ao amin'ny Wikipedia -
2. Famaritana amin'ny alΓ lan'ny polynomials sy ny fahatapahan'ny data. Fampiofanana indray
Mpahay siansa miavaka sy malaza amin'ny siansa data K.V. Vorontsov dia manoritsoritra fohifohy ny fomba fianarana milina ho "ny siansa amin'ny fanaovana sary miolakolaka amin'ny teboka." Amin'ity ohatra ity dia hahita lamina ao amin'ny angon-drakitra isika amin'ny fampiasana ny fomba efamira kely indrindra.
Ny teknikan'ny fizarana ny loharanom-baovao ho "fiofanana" sy "fanaraha-maso" dia aseho, ary koa ny tranga toy ny famerenana indray, na "fanitsiana indray" ny angona. Miaraka amin'ny tombantombana marina, dia hanana hadisoana sasantsasany amin'ny angon-drakitra fanofanana isika ary hadisoana kely kokoa amin'ny angona fanaraha-maso. Raha tsy mety dia miteraka fanitsiana marina amin'ny angon-drakitra fanofanana izany ary fahadisoana goavana amin'ny angona fitsapana.
(Fanta-daza fa amin'ny alΓ lan'ny teboka N dia afaka manoritra curve tokana amin'ny ambaratonga N-1, ary ity fomba ity amin'ny tranga ankapobeny dia tsy manome vokatra irina.
1. Apetraho ny fizarana voalohany
2. Zarainay ho "fiofanana" sy "fifehezana" amin'ny tahan'ny 70 ka hatramin'ny 30 ny teboka.
3. Misintona ny curve manodidina ny teboka fanofanana isika, mahita ny fahadisoana omeny amin'ny angon-drakitra fanaraha-maso
4. Manao filaharana marina amin'ny alalan'ireo teboka fanofanana isika, ary mahita fahadisoana goavana eo amin'ny angon-drakitra fanaraha-maso (ary aotra amin'ny angon-drakitra fanofanana, fa inona no hevitra?).
Aseho, mazava ho azy, ny safidy tsotra indrindra miaraka amin'ny fizarana tokana ho an'ny "fiofanana" sy "fifehezana" amin'ny tranga ankapobeny, izany dia atao imbetsaka ho an'ny fanitsiana tsara indrindra amin'ny coefficients.
3. Ny fidinan'ny gradient sy ny fiovaovan'ny fahadisoana
Hisy tranga 4 dimensional sy fihemorana tsipika. Ny coefficients rΓ©gression linear dia hofaritana tsikelikely amin'ny alΓ lan'ny fomba fidinan'ny gradient, amin'ny voalohany dia aotra ny coefficient rehetra. Ny kisary misaraka dia mampiseho ny dinamika amin'ny fampihenana ny fahadisoana satria ny coefficients dia ahitsy kokoa sy marina kokoa. Azo atao ny mijery ireo projections 2 dimensional efatra.
Raha apetrakao lehibe loatra ny dingan'ny fidinana miandalana, dia ho hitanao fa isaky ny mitsambikina ny kely indrindra isika dia ho tonga amin'ny vokatra amin'ny dingana maromaro kokoa, na dia mbola ho tonga aza isika amin'ny farany (raha tsy hoe manemotra ny dingana fidinana koa isika. be dia be - dia handeha " amin'ny spades" ny algorithm). Ary ny grafofaon'ny hadisoana miankina amin'ny dingan'ny famerimberenana dia tsy ho malama, fa "mijerky".
1. Mamorona angona, apetraho ny dingana fidinana miandalana
2. Miaraka amin'ny fifantenana marina ny dingan'ny fidinana miandalana, dia mahatratra ny kely indrindra isika ary haingana
3. Raha tsy voafantina ny dingana fidinana miandalana, dia mihoatra ny ambony indrindra isika, ny kisarisary diso dia "mijerky", ny convergence dia maka dingana maromaro kokoa
ΠΈ
4. Raha toa ka diso tanteraka ny dingana fidinana miandalana dia miala amin'ny kely indrindra isika
(Mba hamerenana ny dingana amin'ny fampiasana ny soatoavin'ny gradient descente hita eo amin'ny sary, jereo ny boaty "data reference").
Araka ny filazanβny vondrom-piarahamonina hajaina, azo ekena ve ny fanatsorana sy ny fomba fanolorana ny fitaovana toy izany? Mendrika ny handikana ny lahatsoratra amin'ny teny anglisy ve?
Source: www.habr.com