Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Nemrég megjelent cikk, ami jó tendenciát mutat a gépi tanulás terén az elmúlt években. Röviden: az elmúlt két évben zuhant a gépi tanulással induló vállalkozások száma.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?
Jól. Nézzük meg, hogy „kirobbant-e a buborék”, „hogyan éljünk tovább”, és beszéljünk arról, honnan ered ez a kavarodás.

Először is beszéljünk arról, hogy mi volt ennek a görbének az erősítője. Honnan jött? Valószínűleg mindenre emlékezni fognak győzelem gépi tanulás 2012-ben az ImageNet versenyen. Hiszen ez az első globális esemény! De a valóságban ez nem így van. És a görbe növekedése egy kicsit korábban kezdődik. Több pontra bontanám.

  1. 2008-ban megjelent a „big data” kifejezés. Elindultak a valódi termékek megjelenik 2010 óta. A Big Data közvetlenül kapcsolódik a gépi tanuláshoz. Big data nélkül lehetetlen az akkoriban létező algoritmusok stabil működése. És ezek nem neurális hálózatok. 2012-ig a neurális hálózatok marginális kisebbség birtokában voltak. Ekkor azonban teljesen más algoritmusok kezdtek működni, amelyek évek, sőt évtizedek óta léteztek: Svm(1963,1993, XNUMX), Véletlen Erdő (1995), AdaBoost (2003),... Az akkori startupok elsősorban a strukturált adatok automatikus feldolgozásához kötődnek: pénztárgépek, felhasználók, reklámok, sok más.

    Ennek az első hullámnak a származéka olyan keretrendszerek halmaza, mint az XGBoost, CatBoost, LightGBM stb.

  2. 2011-2012-ben konvolúciós neurális hálózatok számos képfelismerő versenyt nyert. A tényleges használatuk némileg késett. Azt mondanám, hogy 2014-ben kezdtek megjelenni a masszívan értelmes startupok és megoldások. Két évbe telt megemészteni, hogy a neuronok még mindig működnek, kényelmes keretrendszereket létrehozni, amelyek ésszerű időn belül telepíthetők és elindíthatók, olyan módszereket dolgoztak ki, amelyek stabilizálják és felgyorsítják a konvergenciaidőt.

    A konvolúciós hálózatok lehetővé tették a számítógépes látásproblémák megoldását: képek és tárgyak osztályozása a képen, tárgyfelismerés, tárgyak és emberek felismerése, képjavítás stb., stb.

  3. 2015-2017. Az ismétlődő hálózatokon vagy analógjain (LSTM, GRU, TransformerNet stb.) alapuló algoritmusok és projektek fellendülése. Megjelentek a jól működő beszéd-szöveg algoritmusok és gépi fordítórendszerek. Ezek részben konvolúciós hálózatokon alapulnak az alapvető jellemzők kinyerésére. Részben annak köszönhető, hogy megtanultunk igazán nagy és jó adatkészleteket gyűjteni.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

„Pokant a buborék? Túlfűtött a hype? Blokkláncként haltak meg?”
Másképp! Holnap a Siri nem fog dolgozni a telefonodon, holnapután pedig a Tesla nem fogja tudni, mi a különbség a kanyar és a kenguru között.

A neurális hálózatok már működnek. Több tucat készülékben vannak. Valóban lehetővé teszik, hogy pénzt keressen, megváltoztassa a piacot és a körülötte lévő világot. A Hype kicsit másképp néz ki:

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Csak arról van szó, hogy a neurális hálózatok már nem valami újdonság. Igen, sok embernek magasak az elvárásai. De nagyon sok vállalat megtanulta használni a neuronokat, és ezek alapján termékeket készíteni. A neuronok új funkcionalitást biztosítanak, lehetővé teszik a munkahelyek leépítését és a szolgáltatások árának csökkentését:

  • A gyártó vállalatok algoritmusokat integrálnak a gyártósor hibáinak elemzésére.
  • Az állattartó gazdaságok rendszereket vásárolnak a tehenek ellenőrzésére.
  • Automata kombájnok.
  • Automatizált Call Centerek.
  • Szűrők a SnapChatben. (legalább valami hasznosat!)

De a legfontosabb, és nem a legnyilvánvalóbb: "Nincs több új ötlet, különben nem hoznak azonnali tőkét." A neurális hálózatok tucatnyi problémát oldottak meg. És még többet fognak dönteni. Az összes létező kézenfekvő ötlet sok startuphoz vezetett. De mindent, ami a felszínen volt, már összeszedték. Az elmúlt két évben egyetlen új ötlettel sem találkoztam a neurális hálózatok használatára vonatkozóan. Egyetlen új megközelítés sincs (jó, jó, van néhány probléma a GAN-okkal).

És minden további indítás egyre bonyolultabb. Már nincs szükség két fickóra, akik nyílt adatok segítségével edzenek egy neuront. Kell hozzá programozók, szerver, marker csapat, komplex támogatás stb.

Ennek eredményeként kevesebb az induló vállalkozás. De több a termelés. Rendszámfelismerést kell hozzáadni? Több száz megfelelő tapasztalattal rendelkező szakember van a piacon. Felvehet valakit és pár hónap múlva az alkalmazottja elkészíti a rendszert. Vagy vásároljon készen. De új startupot csinálni?... Őrültség!

Létre kell hoznod egy látogatókövető rendszert – minek fizetned egy rakás licencet, ha 3-4 hónap alatt elkészítheted a sajátodat, élesítheted a vállalkozásod számára.

Most a neurális hálózatok ugyanazon az úton mennek keresztül, mint több tucat más technológia.

Emlékszel, hogyan változott a „weboldal-fejlesztő” fogalma 1995 óta? A piac még nincs telítve szakemberekkel. Nagyon kevés a szakember. De le merek fogadni, hogy 5-10 év múlva nem lesz nagy különbség Java programozó és neurális hálózat fejlesztő között. Mindkét szakemberből lesz elég a piacon.

Egyszerűen lesz egy osztály a problémáknak, amelyeket az idegsejtek meg tudnak oldani. Feladat merült fel - fogadjon szakembert.

"Mi a következő lépés? Hol van a beígért mesterséges intelligencia?”

De itt van egy apró, de érdekes félreértés :)

A ma létező technológiai halom láthatóan nem vezet el minket a mesterséges intelligenciához. Az ötletek és újszerűségük nagyrészt kimerítették magukat. Beszéljünk arról, hogy mi tartja a jelenlegi fejlettségi szintet.

Korlátozások

Kezdjük az önvezető autókkal. Világosnak tűnik, hogy a mai technológiával teljesen autonóm autókat lehet készíteni. De hogy ez hány év múlva fog megtörténni, az nem világos. A Tesla úgy gondolja, hogy ez néhány éven belül megtörténik -


Sok más is van szakemberek, akik 5-10 évre becsülik.

Valószínűleg véleményem szerint 15 év múlva a városok infrastruktúrája maga is megváltozik oly módon, hogy az autonóm autók megjelenése elkerülhetetlenné válik, és annak folytatása lesz. De ez nem tekinthető intelligenciának. A modern Tesla egy nagyon összetett folyamat az adatok szűrésére, keresésére és átképzésére. Ezek szabályok-szabályok-szabályok, adatgyűjtés és ezek feletti szűrők (itt itt Erről írtam egy kicsit bővebben, vagy nézz utána ezt jelek).

Az első probléma

És itt látjuk első alapvető probléma. Nagy adat. Pontosan ez hozta létre a neurális hálózatok és a gépi tanulás jelenlegi hullámát. Manapság ahhoz, hogy valami összetett és automatikus munkát végezzen, sok adatra van szüksége. Nemcsak sokat, hanem nagyon-nagyon sokat. Automatizált algoritmusokra van szükségünk az összegyűjtésükhöz, jelölésükhöz és használatukhoz. Azt szeretnénk elérni, hogy az autó lássa a nap felé néző teherautókat – először össze kell gyűjtenünk belőlük megfelelő számút. Azt akarjuk, hogy az autó ne őrüljön meg a csomagtartóhoz csavarozott kerékpárral – több minta.

Ráadásul egy példa nem elég. Több száz? Ezrek?

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Második probléma

Második probléma — annak vizualizálása, amit a neurális hálózatunk megért. Ez egy nagyon nem triviális feladat. Eddig kevesen értik, hogyan képzeljék el ezt. Ezek a cikkek nagyon frissek, ez csak néhány példa, még ha távoli is:
Megjelenítés a textúrák megszállottsága. Jól mutatja, hogy az idegsejt mire szokott fixálni + mit érzékel kiindulási információnak.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?
Megjelenítés Figyelem a fordítások. Valójában a vonzalom gyakran pontosan arra használható, hogy megmutassa, mi váltott ki egy ilyen hálózati reakciót. Láttam már ilyet hibakeresésnél és termékmegoldásnál is. Nagyon sok cikk van ebben a témában. De minél összetettebbek az adatok, annál nehezebb megérteni, hogyan lehet robusztus vizualizációt elérni.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Nos, igen, a jó öreg készlet: „Nézd, mi van a háló belsejében szűrők" Ezek a képek 3-4 éve népszerűek voltak, de hamar rájött mindenki, hogy szépek a képek, de nem sok jelentésük van.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Nem említettem több tucat egyéb kütyüt, módszert, hackelést, kutatást a hálózat belsejének megjelenítésére. Működnek ezek az eszközök? Segítenek gyorsan megérteni, mi a probléma, és hibakeresést végezni a hálózaton?... Megszerzi az utolsó százalékot? Nos, nagyjából ugyanaz:

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Bármilyen versenyt megnézhet a Kaggle-n. És annak leírása, hogy az emberek hogyan hozzák meg a végső döntéseket. 100-500-800 darab modellt raktunk egymásra és működött!

Persze túlzok. De ezek a megközelítések nem adnak gyors és közvetlen válaszokat.

Elegendő tapasztalat birtokában, a különböző lehetőségek körbejárása után meg tudja mondani, miért döntött így a rendszere. De nehéz lesz korrigálni a rendszer viselkedését. Szereljen be egy mankót, mozgassa a küszöböt, adjon hozzá egy adatkészletet, vegyen egy másik háttérhálózatot.

Harmadik probléma

Harmadik alapvető probléma — a rácsok statisztikát tanítanak, nem logikát. Statisztikailag ez az arc:

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Logikusan nem nagyon hasonlít. A neurális hálózatok nem tanulnak meg semmi bonyolultat, hacsak nem kényszerítik őket. Mindig a lehető legegyszerűbb jelekre tanítanak. Van szemed, orrod, fejed? Szóval ez az arc! Vagy mondjon egy példát, ahol a szemek nem jelentenek arcot. És ismét - milliónyi példa.

Rengeteg hely van alul

Azt mondanám, hogy jelenleg ez a három globális probléma korlátozza a neurális hálózatok és a gépi tanulás fejlődését. És ahol ezek a problémák nem korlátozták, ott már aktívan használják.

Ez a vég? Felépültek a neurális hálózatok?

Ismeretlen. De persze mindenki reméli, hogy nem.

A fentebb kiemelt alapvető problémák megoldásának számos megközelítése és iránya létezik. De ez idáig egyik megközelítés sem tette lehetővé, hogy valami alapvetően újat hozzunk létre, megoldjunk valamit, ami még nem megoldott. Eddig minden alapvető projekt stabil megközelítések alapján zajlik (Tesla), vagy marad intézetek vagy vállalatok tesztprojektje (Google Brain, OpenAI).

Nagyjából a fő irány a bemeneti adatok valamilyen magas szintű megjelenítése. Bizonyos értelemben „memória”. A memória legegyszerűbb példája a különféle „Beágyazás” - képábrázolások. Nos, például az összes arcfelismerő rendszer. A hálózat megtanulja, hogy egy arcból valamilyen stabil ábrázolást kapjon, amely nem függ a forgástól, a megvilágítástól vagy a felbontástól. Lényegében a hálózat minimalizálja a „különböző arcok távol vannak” és „az azonos arcok közel vannak” mutatót.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Egy ilyen képzéshez több tíz és százezer példa kell. De az eredmény magán viseli az „egyszeri tanulás” néhány alapelemét. Most már nem kell több száz arc ahhoz, hogy emlékezzünk egy személyre. Csak egy arc, és csak ennyi vagyunk találjuk ki!
Csak egy probléma van... A rács csak meglehetősen egyszerű objektumokat képes megtanulni. Amikor nem arcokat próbálunk megkülönböztetni, hanem például „az embereket ruhák alapján” (feladat Újraazonosítás) - a minőség sok nagyságrenddel csökken. És a hálózat már nem tudja megtanulni a meglehetősen nyilvánvaló szögváltozásokat.

És a milliónyi példából tanulni is szórakoztató.

Dolgoznak a választások jelentős csökkentésén. Például azonnal felidézhető az egyik első munka OneShot Learning a google-ból:

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Sok ilyen mű van például 1 vagy 2 vagy 3.

Csak egy mínusz van - az edzés általában jól működik néhány egyszerű, „MNIST” példán. Az összetett feladatokhoz való továbblépéshez pedig szükség van egy nagy adatbázisra, egy objektummodellre vagy valamilyen varázslatra.
Általában véve a One-Shot tréningen végzett munka nagyon érdekes téma. Rengeteg ötletet találsz. De többnyire az általam felsorolt ​​két probléma (előképzés egy hatalmas adatkészleten / instabilitás összetett adatokon) nagymértékben zavarja a tanulást.

Másrészt a GAN-ok – a generatív ellenséges hálózatok – a beágyazás témáját közelítik meg. Valószínűleg egy csomó cikket olvastál Habréról ebben a témában. (1, 2,3)
A GAN sajátossága valamilyen belső állapottér kialakítása (lényegében ugyanaz a beágyazás), amely lehetővé teszi a kép rajzolását. Lehet személy, lehet akciók.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

A GAN problémája az, hogy minél összetettebb a generált objektum, annál nehezebb leírni a „generátor-diszkriminátor” logikával. Ennek eredményeként a GAN egyetlen valódi alkalmazása, amelyről hallani, a DeepFake, amely ismételten manipulálja az arcábrázolásokat (aminek hatalmas alapja van).

Nagyon kevés más hasznos felhasználást láttam. Általában valamiféle trükk, ami a képek rajzainak befejezésével jár.

És újra. Senkinek sincs fogalma arról, hogyan fog ez lehetővé tenni számunkra, hogy egy szebb jövő felé haladjunk. A logika/tér ábrázolása neurális hálózatban jó. De nagyon sok példára van szükségünk, nem értjük, hogy a neuron ezt önmagában hogyan reprezentálja, nem értjük, hogyan tudjunk emlékezni egy nagyon összetett gondolatra.

Erősítő tanulás - ez egy egészen más irányból való megközelítés. Biztosan emlékszel arra, hogy a Google hogyan győzött le mindenkit a Go-ban. Legutóbbi győzelmek a Starcraftban és a Dotában. De itt minden korántsem olyan rózsás és ígéretes. Ő beszél a legjobban az RL-ről és annak bonyolultságáról ezt a cikket.

Röviden összefoglalva, amit a szerző írt:

  • A dobozból kivett modellek a legtöbb esetben nem illeszkednek / rosszul működnek
  • A gyakorlati problémákat könnyebb más módon megoldani. A Boston Dynamics nem használja az RL-t annak összetettsége/kiszámíthatatlansága/számítási összetettsége miatt
  • Az RL működéséhez összetett függvényre van szükség. Gyakran nehéz létrehozni/írni
  • Nehéz modelleket képezni. Sok időt kell töltenie, hogy felpumpálja magát, és kilépjen a helyi optimumból
  • Emiatt nehéz megismételni a modellt, a modell a legkisebb változtatásokkal is instabil
  • Gyakran túlilleszt valamilyen baloldali mintát, egészen a véletlenszám-generátorig

A lényeg az, hogy az RL még nem működik a termelésben. A Google-nak van néhány kísérlete ( 1, 2 ). De egyetlen termékrendszert sem láttam.

Memory design. A fent leírtak hátránya a szerkezet hiánya. Mindezek rendbetételének egyik módja az, hogy a neurális hálózat számára külön memóriához való hozzáférést biztosítunk. Hogy ott rögzíthesse és átírhassa lépéseinek eredményét. Ekkor a neurális hálózat az aktuális memóriaállapot alapján határozható meg. Ez nagyon hasonlít a klasszikus processzorokhoz és számítógépekhez.

A leghíresebb és legnépszerűbb cikk - a DeepMindből:

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Úgy tűnik, ez a kulcs az intelligencia megértéséhez? De valószínűleg nem. A rendszer továbbra is hatalmas mennyiségű adatot igényel a képzéshez. És főleg strukturált táblázatos adatokkal működik. Sőt, amikor a Facebook határozott egy hasonló problémát, akkor azt az utat választották, hogy „csavarja meg a memóriát, csak bonyolultabbá tegye a neuront, és legyen több példa – és az magától tanul”.

Megoldás. Az értelmes emlékezés másik módja az, hogy ugyanazokat a beágyazásokat vesszük, de a képzés során további kritériumokat vezetünk be, amelyek lehetővé teszik a „jelentések” kiemelését bennük. Például egy neurális hálózatot szeretnénk megtanítani, hogy különbséget tegyen az emberi viselkedés között az üzletben. Ha a szabványos utat követnénk, egy tucat hálózatot kellene létrehoznunk. Az egyik embert keres, a második meghatározza, hogy mit csinál, a harmadik a korát, a negyedik a nemét. Külön logika nézi az üzletnek azt a részét, ahol ezt megteszik/kiképezték. A harmadik meghatározza a pályáját stb.

Vagy ha végtelen mennyiségű adat lenne, akkor lehetséges lenne egy hálózatot betanítani az összes lehetséges eredményre (nyilván ilyen adattömb nem gyűjthető).

A szétválasztási megközelítés azt mondja nekünk – képezzük a hálózatot úgy, hogy maga is különbséget tudjon tenni a fogalmak között. Úgy, hogy a videó alapján egy beágyazást alkotna, ahol egy terület határozná meg a cselekvést, időben meghatározná a padlón elfoglalt pozíciót, meghatározná a személy magasságát, és meghatározná a személy nemét. Ugyanakkor a képzés során szinte nem is szeretném ilyen kulcsfogalmakkal sugalmazni a hálózatot, hanem inkább azt, hogy kiemelje és csoportosítsa a területeket. Elég sok ilyen cikk van (néhány közülük 1, 2, 3) és általában meglehetősen elméletiek.

De ennek az iránynak – legalábbis elméletileg – le kell fednie az elején felsorolt ​​problémákat.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Képbontás a „falszín/padlószín/objektum forma/objektum színe/stb” paraméterek szerint.

Kidurrant a gépi tanulási buborék, vagy egy új hajnal kezdete?

Az arc bontása a „méret, szemöldök, tájolás, bőrszín stb.” paraméterek szerint.

Más

Sok más, nem annyira globális terület van, amely lehetővé teszi az adatbázis csökkentését, heterogénebb adatokkal való munkát stb.

Figyelem. Valószínűleg nincs értelme ezt külön módszerként elkülöníteni. Csak egy megközelítés, amely másokat fejleszt. Sok cikket szentelnek neki (1,2,3). A figyelem lényege, hogy fokozzuk a hálózat reagálását kifejezetten a jelentős tárgyakra a képzés során. Gyakran valamilyen külső célmegjelölés, vagy egy kis külső hálózat által.

3D szimuláció. Ha csinálsz egy jó 3D-s motort, akkor sokszor az edzésadatok 90%-át lefedheted vele (még láttam olyan példát is, ahol az adatok közel 99%-át egy jó motor fedte le). Számos ötlet és hack létezik arra vonatkozóan, hogyan lehet egy 3D-s motorra betanított hálózatot valós adatok felhasználásával működőképessé tenni (Finomhangolás, stílusátvitel stb.). De gyakran jó motort készíteni több nagyságrenddel nehezebb, mint adatgyűjtést végezni. Példák a motorok gyártására:
Robotképzés (google, agykert)
edzés elismerés árut a boltban (de a két projektben, amit csináltunk, könnyen megvoltunk nélküle).
Edzés a Teslában (ismét a fenti videó).

Álláspontja

Az egész cikk bizonyos értelemben következtetés. Valószínűleg a fő üzenet, amit el akartam mondani, az volt, hogy „az ingyenes szolgáltatásoknak vége, a neuronok már nem kínálnak egyszerű megoldásokat”. Most keményen kell dolgoznunk, hogy összetett döntéseket hozzunk. Vagy dolgozzon keményen komplex tudományos kutatással.

Általában a téma vitatható. Esetleg vannak érdekesebb példáik az olvasóknak?

Forrás: will.com

Hozzászólás