Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Onlangs uitgebracht artikel, wat de afgelopen jaren een goede trend laat zien op het gebied van machinaal leren. Kortom: het aantal machine learning startups is de afgelopen twee jaar sterk gedaald.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?
Goed. Laten we eens kijken naar “of de zeepbel is gebarsten”, “hoe we kunnen blijven leven” en praten over waar zo’n kronkeltje überhaupt vandaan komt.

Laten we eerst eens kijken naar wat de aanjager van deze curve was. Waar kwam ze vandaan? Ze zullen zich waarschijnlijk alles herinneren overwinning machine learning in 2012 tijdens de ImageNet-wedstrijd. Dit is tenslotte het eerste mondiale evenement! Maar in werkelijkheid is dit niet het geval. En de groei van de curve begint iets eerder. Ik zou het in verschillende punten opsplitsen.

  1. In 2008 ontstond de term ‘big data’. Echte producten zijn begonnen verschijnen sinds 2010. Big data is direct gerelateerd aan machinaal leren. Zonder big data is de stabiele werking van de algoritmen die toen bestonden onmogelijk. En dit zijn geen neurale netwerken. Tot 2012 waren neurale netwerken voorbehouden aan een marginale minderheid. Maar toen begonnen compleet andere algoritmen te werken, die al jaren of zelfs decennia bestonden: SVM's(1963,1993), Willekeurig bos (1995) AdaBoost (2003),... Startups uit die jaren worden vooral geassocieerd met de automatische verwerking van gestructureerde data: kassa's, gebruikers, reclame, veel meer.

    Een afgeleide van deze eerste golf is een reeks raamwerken zoals XGBoost, CatBoost, LightGBM, enz.

  2. In 2011-2012 convolutionele neurale netwerken won een aantal beeldherkenningswedstrijden. Het daadwerkelijke gebruik ervan werd enigszins vertraagd. Ik zou zeggen dat er in 2014 enorm betekenisvolle startups en oplossingen verschenen. Het kostte twee jaar om te verwerken dat neuronen nog steeds werken, om handige raamwerken te creëren die binnen een redelijke tijd geïnstalleerd en gelanceerd konden worden, om methoden te ontwikkelen die de convergentietijd zouden stabiliseren en versnellen.

    Convolutionele netwerken maakten het mogelijk om computervisieproblemen op te lossen: classificatie van afbeeldingen en objecten in het beeld, objectdetectie, herkenning van objecten en mensen, beeldverbetering, enz., enz.

  3. 2015-2017. De opkomst van algoritmen en projecten gebaseerd op terugkerende netwerken of hun analogen (LSTM, GRU, TransformerNet, enz.). Er zijn goed functionerende spraak-naar-tekst-algoritmen en automatische vertaalsystemen verschenen. Ze zijn gedeeltelijk gebaseerd op convolutionele netwerken om basiskenmerken te extraheren. Mede doordat we hebben geleerd hele grote en goede datasets te verzamelen.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

“Is de zeepbel gebarsten? Is de hype oververhit? Zijn ze gestorven als blockchain?”
Anders! Morgen stopt Siri met werken op je telefoon, en overmorgen weet Tesla het verschil niet meer tussen een bocht en een kangoeroe.

Neurale netwerken werken al. Ze zitten op tientallen apparaten. Ze stellen je echt in staat om geld te verdienen, de markt en de wereld om je heen te veranderen. Hype ziet er een beetje anders uit:

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Het is alleen zo dat neurale netwerken niet langer iets nieuws zijn. Ja, veel mensen hebben hoge verwachtingen. Maar een groot aantal bedrijven heeft geleerd neuronen te gebruiken en op basis daarvan producten te maken. Neuronen bieden nieuwe functionaliteit, zorgen ervoor dat u banen kunt schrappen en de prijs van diensten kunt verlagen:

  • Productiebedrijven integreren algoritmen om defecten op de productielijn te analyseren.
  • Veehouderijen kopen systemen om koeien te controleren.
  • Automatische maaidorsers.
  • Geautomatiseerde callcenters.
  • Filters in SnapChat. (nou ja, in ieder geval iets nuttigs!)

Maar het belangrijkste, en niet het meest voor de hand liggende: “Er zijn geen nieuwe ideeën meer, anders zullen ze geen onmiddellijk kapitaal opleveren.” Neurale netwerken hebben tientallen problemen opgelost. En zij zullen nog meer beslissen. Alle voor de hand liggende ideeën die er waren, hebben aanleiding gegeven tot veel startups. Maar alles wat zich aan de oppervlakte bevond, was al verzameld. De afgelopen twee jaar ben ik geen enkel nieuw idee tegengekomen voor het gebruik van neurale netwerken. Geen enkele nieuwe aanpak (nou ja, er zijn een paar problemen met GAN's).

En elke volgende startup wordt steeds complexer. Er zijn niet langer twee jongens nodig die een neuron trainen met behulp van open data. Het vereist programmeurs, een server, een team van markers, complexe ondersteuning, enz.

Hierdoor zijn er minder startups. Maar er is meer productie. Kentekenherkenning toevoegen? Er zijn honderden specialisten met relevante ervaring op de markt. U kunt iemand inhuren en binnen een paar maanden maakt uw medewerker het systeem. Of koop kant-en-klaar. Maar een nieuwe startup doen?.. Gek!

U moet een bezoekersvolgsysteem opzetten - waarom betalen voor een heleboel licenties als u binnen 3-4 maanden uw eigen licenties kunt maken en deze kunt aanscherpen voor uw bedrijf.

Nu doorlopen neurale netwerken hetzelfde pad dat tientallen andere technologieën hebben doorlopen.

Weet je nog hoe het concept van ‘website-ontwikkelaar’ sinds 1995 is veranderd? De markt is nog niet verzadigd met specialisten. Er zijn heel weinig professionals. Maar ik durf te wedden dat er over vijf tot tien jaar niet veel verschil meer zal zijn tussen een Java-programmeur en een neurale netwerkontwikkelaar. Van beide specialisten zullen er genoeg op de markt zijn.

Er zal eenvoudigweg een klasse van problemen zijn die door neuronen kunnen worden opgelost. Er is een taak ontstaan: huur een specialist in.

"Wat is het volgende? Waar is de beloofde kunstmatige intelligentie?”

Maar hier is er een klein maar interessant misverstand :)

De technologiestapel die vandaag de dag bestaat, zal ons blijkbaar niet naar kunstmatige intelligentie leiden. Ideeën en hun nieuwigheid hebben zichzelf grotendeels uitgeput. Laten we het hebben over wat het huidige ontwikkelingsniveau inhoudt.

Beperkingen

Laten we beginnen met zelfrijdende auto’s. Het lijkt duidelijk dat het mogelijk is om met de technologie van vandaag volledig autonome auto’s te maken. Maar over hoeveel jaar dit zal gebeuren, is niet duidelijk. Tesla gelooft dat dit binnen een paar jaar zal gebeuren -


Er zijn nog veel meer specialisten, die dit op 5-10 jaar schatten.

Naar mijn mening zal de infrastructuur van steden naar mijn mening over vijftien jaar zelf zodanig veranderen dat de opkomst van autonome auto's onvermijdelijk zal worden en de voortzetting ervan zal worden. Maar dit kan niet als intelligentie worden beschouwd. Het moderne Tesla is een zeer complexe pijplijn voor het filteren, zoeken en omscholen van gegevens. Dit zijn regels-regels-regels, gegevensverzameling en filters daarover (hier hier Ik heb hier wat meer over geschreven, of kijk vanaf dit merken).

Het eerste probleem:

En dit is waar we het zien eerste fundamentele probleem. Grote gegevens. Dit is precies wat aanleiding gaf tot de huidige golf van neurale netwerken en machinaal leren. Om iets complex en automatisch te doen, heb je tegenwoordig veel gegevens nodig. Niet alleen veel, maar heel, heel veel. We hebben geautomatiseerde algoritmen nodig voor het verzamelen, markeren en gebruiken ervan. We willen de auto de vrachtwagens laten zien die naar de zon gericht zijn. We moeten er eerst een voldoende aantal verzamelen. We willen dat de auto niet gek wordt als er een fiets aan de kofferbak is vastgeschroefd - meer voorbeelden.

Bovendien is één voorbeeld niet genoeg. Honderden? Duizenden?

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Tweede probleem:

Tweede probleem: – visualisatie van wat ons neurale netwerk heeft begrepen. Dit is een zeer niet-triviale taak. Tot nu toe begrijpen maar weinig mensen hoe ze dit kunnen visualiseren. Deze artikelen zijn zeer recent, dit zijn slechts enkele voorbeelden, ook al zijn ze ver verwijderd:
Visualisatie obsessie met texturen. Het laat goed zien waar het neuron de neiging heeft zich op te fixeren + wat het als startinformatie beschouwt.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?
Visualisatie Aandacht bij vertalingen. In feite kan aantrekkingskracht vaak juist worden gebruikt om te laten zien wat de oorzaak is van een dergelijke netwerkreactie. Ik heb zulke dingen gezien voor zowel foutopsporing als productoplossingen. Er zijn veel artikelen over dit onderwerp. Maar hoe complexer de gegevens, hoe moeilijker het is om te begrijpen hoe u tot robuuste visualisatie kunt komen.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Nou ja, de goede oude set van ‘kijk wat er in het gaas zit filters" Deze foto's waren 3-4 jaar geleden populair, maar iedereen besefte al snel dat de foto's mooi waren, maar niet veel betekenis hadden.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Ik heb geen tientallen andere gadgets, methoden, hacks en onderzoek genoemd over hoe je de binnenkant van het netwerk kunt weergeven. Werken deze hulpmiddelen? Helpen ze u snel te begrijpen wat het probleem is en het netwerk te debuggen?.. Krijgt u het laatste percentage? Nou, het gaat over hetzelfde:

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Je kunt elke wedstrijd bekijken op Kaggle. En een beschrijving van hoe mensen definitieve beslissingen nemen. We hebben 100-500-800 modellen gestapeld en het werkte!

Ik overdrijf natuurlijk. Maar deze benaderingen bieden geen snelle en directe antwoorden.

Als u voldoende ervaring heeft en verschillende opties heeft doorzocht, kunt u een oordeel vellen over waarom uw systeem een ​​dergelijke beslissing heeft genomen. Maar het zal moeilijk zijn om het gedrag van het systeem te corrigeren. Installeer een kruk, verplaats de drempel, voeg een dataset toe, neem een ​​ander backend-netwerk.

Derde probleem

Derde fundamentele probleem – rasters leren statistieken, geen logica. Statistisch gezien dit het gezicht:

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Logischerwijs lijkt het niet erg op elkaar. Neurale netwerken leren niets ingewikkelds, tenzij ze daartoe worden gedwongen. Ze leren altijd de eenvoudigst mogelijke gebaren. Heb jij ogen, een neus, een hoofd? Dit is dus het gezicht! Of geef een voorbeeld waarbij ogen niet een gezicht betekenen. En nogmaals - miljoenen voorbeelden.

Er is genoeg ruimte aan de onderkant

Ik zou zeggen dat het deze drie mondiale problemen zijn die momenteel de ontwikkeling van neurale netwerken en machinaal leren beperken. En waar deze problemen het niet beperkten, wordt het al actief gebruikt.

Dit is het einde? Zijn neurale netwerken actief?

Onbekend. Maar iedereen hoopt natuurlijk van niet.

Er zijn veel benaderingen en richtingen voor het oplossen van de fundamentele problemen die ik hierboven heb benadrukt. Maar tot nu toe heeft geen van deze benaderingen het mogelijk gemaakt iets fundamenteel nieuws te doen, iets op te lossen dat nog niet is opgelost. Tot nu toe worden alle fundamentele projecten uitgevoerd op basis van een stabiele aanpak (Tesla), of blijven het testprojecten van instituten of bedrijven (Google Brain, OpenAI).

Grofweg gesproken is de hoofdrichting het creëren van een representatie op hoog niveau van de invoergegevens. In zekere zin ‘herinnering’. Het eenvoudigste voorbeeld van geheugen zijn verschillende "Embedding" - beeldrepresentaties. Nou ja, bijvoorbeeld alle gezichtsherkenningssystemen. Het netwerk leert van een gezicht een stabiele representatie te verkrijgen die niet afhankelijk is van rotatie, belichting of resolutie. In wezen minimaliseert het netwerk de statistiek ‘verschillende gezichten zijn ver weg’ en ‘identieke gezichten zijn dichtbij’.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Voor een dergelijke training zijn tien- en honderdduizenden voorbeelden nodig. Maar het resultaat vertoont enkele beginselen van ‘One-shot Learning’. Nu hebben we geen honderden gezichten nodig om een ​​persoon te herinneren. Slechts één gezicht en dat is alles wat we zijn Laten we het uitzoeken!
Er is alleen één probleem... Het raster kan alleen vrij eenvoudige objecten leren. Wanneer u probeert geen gezichten te onderscheiden, maar bijvoorbeeld 'mensen aan de hand van kleding' (taak Heridentificatie) - de kwaliteit daalt met vele ordes van grootte. En het netwerk kan niet langer vrij voor de hand liggende veranderingen in hoeken leren.

En leren van miljoenen voorbeelden is ook best leuk.

Er wordt gewerkt aan een aanzienlijke vermindering van de verkiezingen. Men kan zich bijvoorbeeld meteen een van de eerste werken herinneren OneShot-leren van google:

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Er zijn bijvoorbeeld veel van dergelijke werken 1 of 2 of 3.

Er is één minpuntje: training werkt meestal goed op enkele eenvoudige 'MNIST'-voorbeelden. En als je doorgaat met complexe taken, heb je een grote database, een model van objecten of een soort magie nodig.
Over het algemeen is het werken aan One-Shot-training een zeer interessant onderwerp. Je vindt veel ideeën. Maar voor het grootste deel belemmeren de twee problemen die ik heb genoemd (vooropleiding op een enorme dataset / instabiliteit op complexe data) het leerproces enorm.

Aan de andere kant benaderen GAN’s – generatieve vijandige netwerken – het onderwerp inbedding. Je hebt waarschijnlijk een aantal artikelen over Habré over dit onderwerp gelezen. (1, 2,3)
Een kenmerk van GAN is de vorming van een interne toestandsruimte (in wezen dezelfde inbedding), waarmee u een afbeelding kunt tekenen. Het kan zijn persoon, kan zijn activiteit.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Het probleem met GAN is dat hoe complexer het gegenereerde object is, hoe moeilijker het is om het te beschrijven in de “generator-discriminator”-logica. Als gevolg hiervan zijn de enige echte toepassingen van GAN waar men over hoort DeepFake, dat wederom gezichtsrepresentaties manipuleert (waarvoor een enorme basis bestaat).

Ik heb heel weinig andere nuttige toepassingen gezien. Meestal een soort bedrog waarbij tekeningen van afbeeldingen worden afgemaakt.

En opnieuw. Niemand heeft enig idee hoe dit ons in staat zal stellen een betere toekomst tegemoet te gaan. Het representeren van logica/ruimte in een neuraal netwerk is goed. Maar we hebben een groot aantal voorbeelden nodig, we begrijpen niet hoe het neuron dit op zichzelf vertegenwoordigt, we begrijpen niet hoe we het neuron een heel complex idee kunnen laten onthouden.

Versterking leren - dit is een benadering vanuit een heel andere richting. Je herinnert je vast nog hoe Google iedereen versloeg in Go. Recente overwinningen in Starcraft en Dota. Maar hier is alles verre van zo rooskleurig en veelbelovend. Hij praat het beste over RL en de complexiteit ervan Dit artikel.

Om kort samen te vatten wat de auteur schreef:

  • Out-of-the-box-modellen passen/werken in de meeste gevallen niet slecht
  • Praktische problemen zijn op andere manieren gemakkelijker op te lossen. Boston Dynamics maakt geen gebruik van RL vanwege de complexiteit/onvoorspelbaarheid/computationele complexiteit ervan
  • Om RL te laten werken, heb je een complexe functie nodig. Het is vaak moeilijk om te maken/schrijven
  • Moeilijk om modellen te trainen. Je moet veel tijd besteden aan het oppompen en uit de lokale optima komen
  • Hierdoor is het moeilijk om het model te herhalen, het model is bij de kleinste veranderingen instabiel
  • Vaak overtreft het sommige willekeurige patronen, zelfs een generator voor willekeurige getallen

Het belangrijkste punt is dat RL nog niet in productie werkt. Google heeft enkele experimenten ( 1, 2 ). Maar ik heb geen enkel productsysteem gezien.

Geheugen. Het nadeel van alles wat hierboven beschreven is, is het gebrek aan structuur. Een van de manieren om dit allemaal op te ruimen is door het neurale netwerk toegang te geven tot afzonderlijk geheugen. Zodat ze de resultaten van haar stappen daar kan vastleggen en herschrijven. Vervolgens kan het neurale netwerk worden bepaald door de huidige geheugenstatus. Dit lijkt sterk op klassieke processors en computers.

De meest bekende en populaire artikel – van DeepMind:

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Het lijkt erop dat dit de sleutel is tot het begrijpen van intelligentie? Maar waarschijnlijk niet. Het systeem heeft nog steeds een enorme hoeveelheid gegevens nodig voor training. En het werkt voornamelijk met gestructureerde tabelgegevens. Bovendien, wanneer Facebook beslist Toen ze een soortgelijk probleem hadden, kozen ze het pad “het geheugen opschroeven, het neuron gewoon ingewikkelder maken en meer voorbeelden geven – en het leert het vanzelf.”

ontwarring. Een andere manier om een ​​zinvolle herinnering te creëren is door dezelfde inbedding te nemen, maar tijdens de training aanvullende criteria te introduceren waarmee je ‘betekenissen’ erin kunt benadrukken. Zo willen we een neuraal netwerk trainen om onderscheid te maken tussen menselijk gedrag in een winkel. Als we het standaardpad zouden volgen, zouden we een tiental netwerken moeten maken. De één zoekt naar een persoon, de tweede bepaalt wat hij doet, de derde is zijn leeftijd, de vierde is zijn geslacht. Afzonderlijke logica kijkt naar het deel van de winkel waar het dit doet/is getraind. De derde bepaalt zijn traject, enz.

Of, als er een oneindige hoeveelheid gegevens zou zijn, dan zou het mogelijk zijn om één netwerk te trainen voor alle mogelijke uitkomsten (het is duidelijk dat een dergelijke reeks gegevens niet kan worden verzameld).

De ontvlechtingsaanpak vertelt ons: laten we het netwerk zo trainen dat het zelf onderscheid kan maken tussen concepten. Zodat het een inbedding zou vormen op basis van de video, waarbij één gebied de actie zou bepalen, één de positie op de vloer in de tijd zou bepalen, één de lengte van de persoon zou bepalen en één het geslacht van de persoon zou bepalen. Tegelijkertijd zou ik het netwerk bij het trainen bijna niet met dergelijke sleutelconcepten willen aanzetten, maar liever dat het gebieden benadrukt en groepeert. Er zijn nogal wat van dergelijke artikelen (sommige van hen 1, 2, 3) en over het algemeen zijn ze behoorlijk theoretisch.

Maar deze richting zou, althans theoretisch, de problemen moeten dekken die in het begin zijn opgesomd.

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Beeldontleding volgens de parameters “muurkleur/vloerkleur/objectvorm/objectkleur/etc.”

Is de machine learning-zeepbel gebarsten, of is dit het begin van een nieuwe dageraad?

Ontleding van een gezicht volgens de parameters “grootte, wenkbrauwen, oriëntatie, huidskleur, enz.”

Ander

Er zijn veel andere, niet zo mondiale, gebieden waarmee je op de een of andere manier de database kunt verkleinen, met meer heterogene gegevens kunt werken, enz.

Aandacht. Het heeft waarschijnlijk geen zin om dit als een aparte methode te beschouwen. Gewoon een aanpak die anderen verbetert. Er zijn veel artikelen aan hem gewijd (1,2,3). Het aandachtspunt is het verbeteren van de reactie van het netwerk, specifiek op belangrijke objecten tijdens de training. Vaak door een soort externe doelaanduiding, of een klein extern netwerk.

3D-simulatie. Als je een goede 3D-engine maakt, kun je er vaak 90% van de trainingsdata mee dekken (ik zag zelfs een voorbeeld waarbij bijna 99% van de data door een goede engine werd gedekt). Er zijn veel ideeën en hacks om een ​​netwerk dat is getraind op een 3D-engine te laten werken met behulp van echte gegevens (fijnafstemming, stijloverdracht, enz.). Maar vaak is het maken van een goede engine meerdere ordes van grootte moeilijker dan het verzamelen van gegevens. Voorbeelden wanneer motoren werden gemaakt:
Robottraining (google, hersentuin)
opleiding herkenning goederen in de winkel (maar in de twee projecten die we deden, konden we het gemakkelijk zonder doen).
Trainen bij Tesla (nogmaals de video hierboven).

Bevindingen

Het hele artikel is in zekere zin een conclusie. Waarschijnlijk was de belangrijkste boodschap die ik wilde overbrengen ‘de gratis geschenken zijn voorbij, neuronen bieden niet langer eenvoudige oplossingen’. Nu moeten we hard werken om complexe beslissingen te nemen. Of hard werken aan complex wetenschappelijk onderzoek.

Over het algemeen is het onderwerp discutabel. Misschien hebben lezers meer interessante voorbeelden?

Bron: www.habr.com

Voeg een reactie