Maschinnléieren ouni Python, Anaconda an aner Reptilien

Nee, natierlech, ech sinn net eescht. Et muss eng Limite sinn, wéi wäit et méiglech ass e Sujet ze vereinfachen. Awer fir déi éischt Etappen, Basiskonzepter ze verstoen a séier d'Thema "anzeginn", kann et akzeptabel sinn. Mir wäerten diskutéieren wéi Dir dëst Material richteg nennt (Optiounen: "Maschinn léieren fir Dummies", "Datenanalyse vu Windel", "Algorithmen fir déi Kleng") um Enn.

Zum Punkt. Verschidde Applikatiounsprogrammer an MS Excel geschriwwen fir Visualiséierung a visuell Representatioun vu Prozesser déi a verschiddene Maschinnléieremethoden optrieden wann Dir Daten analyséiert. Gesinn ass gleewen, no all, wéi d'Träger vun der Kultur soen, déi déi meescht vun dëse Methoden entwéckelt hunn (iwwregens net all. eise Landsmann Vladimir Vapnik, Moskauer Institut fir Management 1963, awer elo léiert a schafft an den USA.

Dräi Fichier fir Iwwerpréiwung

1. K-bedeit Clustering

Probleemer vun dësem Typ bezéien sech op "oniwwerwaacht Léieren", wa mir déi initial Donnéeën an eng gewëssen Zuel vu Kategorien, déi am Viraus bekannt sinn, opdeelen, awer mir hunn keng Zuel vu "korrekt Äntwerten" mir mussen se aus den Donnéeën selwer extrahéieren . De fundamentale klassesche Problem fir Ënnerarten vun Irisblummen ze fannen (Ronald Fisher, 1936!), Wat als éischt Zeeche vun dësem Wëssensfeld ugesi gëtt, ass just vun dëser Natur.

D'Method ass ganz einfach. Mir hunn eng Rei vun Objeten representéiert als Vecteure (Sets vun N Zuelen). An Irises sinn dës Sätze vu 4 Zuelen, déi d'Blumm charakteriséieren: d'Längt an d'Breet vun den äusseren an bannenzege Lëpsen vum Perianth, respektiv (Fischer's Irises - Wikipedia). Déi üblech Cartesian Metrik gëtt als Distanz oder Moossnam vun der Proximitéit tëscht Objekter gewielt.

Als nächst ginn Clusterzentren zoufälleg ausgewielt (oder net zoufälleg, kuckt hei ënnen), an d'Distanz vun all Objet an de Clusterzentren berechent. All Objet an engem bestëmmten Iteratiounsschrëtt ass markéiert als gehéiert zum nootsten Zentrum. Da gëtt den Zentrum vun all Stärekoup op d'arithmetesch Moyenne vun de Koordinate vu senge Memberen transferéiert (analogie mat der Physik, et gëtt och den "Masszentrum" genannt), an d'Prozedur gëtt widderholl.

De Prozess konvergéiert zimlech séier. Op Biller an zwou Dimensiounen gesäit et esou aus:

1. Ufank zoufälleg Verdeelung vun Punkten op de Fliger an d'Zuel vun de Stärekéip

Maschinnléieren ouni Python, Anaconda an aner Reptilien

2. Cluster Zentren spezifizéieren an Punkten un hir Cluster zouzeschreiwen

Maschinnléieren ouni Python, Anaconda an aner Reptilien

3. D'Koordinate vun de Clusterzentren iwwerdroen, d'Verbindung vun de Punkten nei berechnen bis d'Zentren stabiliséieren. D'Streck vum Stärekoupzentrum, deen op seng definitiv Positioun beweegt, ass sichtbar.

Maschinnléieren ouni Python, Anaconda an aner Reptilien

Zu all Moment kënnt Dir nei Clusterzentren astellen (ouni eng nei Verdeelung vu Punkten ze generéieren!) A kuckt datt de Partitionéierungsprozess net ëmmer eendeiteg ass. Mathematesch heescht dat, datt fir d'Funktioun optimiséiert gëtt (d'Zomm vun de quadrateschen Distanzen vu Punkten op d'Zentren vun hire Stärekéip), mir net e globale, mee e lokale Minimum fannen. Dëse Problem kann entweder duerch eng net-zoufälleg Auswiel vun initialen Stärekoup Zentren iwwerwonne ginn, oder duerch Opzielung vun méiglech Zentren (heiansdo ass et avantagéis se genee op ee vun de Punkten ze placéieren, da gëtt et op d'mannst eng Garantie datt mir net eidel ginn Cluster). Op alle Fall huet e finite Set ëmmer en Infimum.

Dir kënnt mat dëser Datei op dësem Link spillen (vergiesst net Macro-Ënnerstëtzung z'aktivéieren. D'Fichier'en goufen op Viren gescannt)

Beschreiwung vun der Method op Wikipedia - k-heescht Method

2. Approximatioun duerch Polynomen an Datenopdeelung. Weiderbildung

Bemierkenswäert Wëssenschaftler a Popularisateur vun der Datewëssenschaft K.V. Vorontsov beschreift kuerz Maschinn Léiermethoden als "d'Wëssenschaft fir d'Kurven duerch Punkten ze zéien." An dësem Beispill fanne mir e Muster an den Donnéeën mat der mannst Quadrat Method.

D'Technik fir d'Quelldaten an "Ausbildung" a "Kontroll" opzedeelen gëtt gewisen, wéi och e Phänomen wéi d'Retraining, oder "Re-Adjustment" un d'Daten. Mat der korrekter Approximatioun hu mir e gewësse Feeler op den Trainingsdaten an e bësse méi grouss Feeler op de Kontrolldaten. Wann et falsch ass, féiert dat zu enger präzis Upassung un d'Trainingsdaten an e grousse Feeler op den Testdaten.

(Et ass e bekannte Fakt datt duerch N Punkten eng eenzeg Curve vum N-1. Grad zéien kann, an dës Method am allgemenge Fall gëtt net dat gewënschte Resultat. Lagrange Interpolatiounspolynom op Wikipedia)

1. Setzt d'initial Verdeelung

Maschinnléieren ouni Python, Anaconda an aner Reptilien

2. Mir deelen d'Punkten an "Training" a "Kontroll" an engem Verhältnis vu 70 bis 30.

Maschinnléieren ouni Python, Anaconda an aner Reptilien

3. Mir zéien d'Approximatiounskurve laanscht d'Trainingspunkten, mir gesinn de Feeler deen et op d'Kontrolldaten gëtt

Maschinnléieren ouni Python, Anaconda an aner Reptilien

4. Mir molen eng genee Kéier duerch d'Trainingspunkten, a mir gesinn e monstréise Feeler op der Kontrolldaten (an null op Trainingsdaten, awer wat ass de Punkt?).

Maschinnléieren ouni Python, Anaconda an aner Reptilien

Gewise gëtt natierlech déi einfachst Optioun mat enger eenzeger Divisioun an "Training" a "Kontroll" Subsets am allgemenge Fall, gëtt dëst vill Mol fir déi bescht Upassung vun de Koeffizienten gemaach.

De Fichier ass hei verfügbar, gescannt vum Antivirus. Aktivéiert Makroen fir korrekt Operatioun

3. Gradient Ofstamung an Dynamik vun Feeler änneren

Et gëtt e 4-dimensionalen Fall a linear Réckgang. Linear Regressiounskoeffizienten ginn Schrëtt fir Schrëtt mat der Gradient Ofstamungsmethod bestëmmt, am Ufank sinn all Koeffizienten null. Eng separat Grafik weist d'Dynamik vun der Feelerreduktioun wéi d'Koeffizienten ëmmer méi präzis ugepasst ginn. Et ass méiglech all véier 2-zweedimensional Projektiounen ze gesinn.

Wann Dir de Gradient Ofstamungsschrëtt ze grouss setzt, kënnt Dir gesinn datt mir all Kéier de Minimum iwwersprangen an an enger méi grousser Unzuel u Schrëtt zum Resultat kommen, obwuel mir um Enn nach ëmmer ukommen (ausser mir verspéiten och den Ofstamungsschrëtt) vill - da wäert den Algorithmus "a Spads" goen. An d'Grafik vum Feeler ofhängeg vun der Iteratiounsschrëtt wäert net glat sinn, awer "ruckend".

1. Generéiere Daten, set de Gradient Ofstamungsschrëtt

Maschinnléieren ouni Python, Anaconda an aner Reptilien

2. Mat der korrekter Auswiel vum Gradient Ofstamungsschrëtt erreechen mir glat a séier de Minimum

Maschinnléieren ouni Python, Anaconda an aner Reptilien

3. Wann de Gradient Ofstamungsschrëtt falsch ausgewielt gëtt, iwwerschreiden mir de Maximum, d'Fehlergrafik ass "ruckend", d'Konvergenz hëlt eng méi grouss Zuel vu Schrëtt

Maschinnléieren ouni Python, Anaconda an aner Reptilien
и

Maschinnléieren ouni Python, Anaconda an aner Reptilien

4. Wa mir de Gradient Ofstamungsschrëtt komplett falsch auswielen, gi mir vum Minimum ewech

Maschinnléieren ouni Python, Anaconda an aner Reptilien

(Fir de Prozess ze reproduzéieren mat de Gradient-Descent-Schrëtt-Wäerter, déi an de Biller ugewise sinn, kontrolléiert d'Këscht "Referenzdaten").

De Fichier ass op dësem Link, Dir musst Makroen aktivéieren, et gi keng Viren.

No der respektéierter Gemeinschaft ass sou eng Vereinfachung a Methode fir d'Material ze presentéieren akzeptabel? Ass et derwäert den Artikel op Englesch ze iwwersetzen?

Source: will.com

Setzt e Commentaire