Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Nýlega gefið út grein, sem sýnir góða þróun í vélanámi undanfarin ár. Í stuttu máli: fjölda gangsetninga vélanáms hefur fækkað á síðustu tveimur árum.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?
Jæja. Við skulum skoða „hvort bólan hefur sprungið“, „hvernig á að halda áfram að lifa“ og tala um hvaðan þessi skítkast kemur í fyrsta lagi.

Í fyrsta lagi skulum við tala um hvað var hvatamaður þessa ferils. Hvaðan kom hún? Þeir munu líklega muna allt sigur vélanám árið 2012 á ImageNet keppninni. Enda er þetta fyrsti alþjóðlegi viðburðurinn! En í raun og veru er þetta ekki raunin. Og vöxtur ferilsins byrjar aðeins fyrr. Ég myndi skipta því niður í nokkra punkta.

  1. Árið 2008 kom hugtakið „stór gögn“ til sögunnar. Alvöru vörur byrjaðar birtast síðan 2010. Stór gögn eru beintengd vélanámi. Án stórra gagna er stöðug virkni reikniritanna sem voru til á þeim tíma ómöguleg. Og þetta eru ekki taugakerfi. Fram til 2012 voru taugakerfi varðveitt jaðar minnihlutahópi. En svo fóru allt önnur reiknirit að virka, sem höfðu verið til í mörg ár, eða jafnvel áratugi: SVM(1963,1993), Random Forest (1995), AdaBoost (2003),... Sprotafyrirtæki þessara ára tengjast fyrst og fremst sjálfvirkri úrvinnslu skipulögðra gagna: sjóðvélar, notendur, auglýsingar, margt fleira.

    Afleiða þessarar fyrstu bylgju er sett af ramma eins og XGBoost, CatBoost, LightGBM osfrv.

  2. Árin 2011-2012 snúnings tauganet unnið fjölda myndaviðurkenningarkeppna. Raunveruleg notkun þeirra tafðist nokkuð. Ég myndi segja að gríðarlega þýðingarmikil sprotafyrirtæki og lausnir byrjuðu að birtast árið 2014. Það tók tvö ár að melta að taugafrumur virka enn, búa til þægilegan ramma sem hægt var að setja upp og setja á markað á hæfilegum tíma, til að þróa aðferðir sem myndu koma á stöðugleika og flýta fyrir samrunatímanum.

    Snúningsnet gerðu það mögulegt að leysa tölvusjónarvandamál: flokkun mynda og hluta í myndinni, greiningu hluta, auðkenning á hlutum og fólki, endurbætur á mynd o.s.frv.

  3. 2015-2017. Uppsveifla reiknirita og verkefna sem byggjast á endurteknum netkerfum eða hliðstæðum þeirra (LSTM, GRU, TransformerNet osfrv.). Vel virkar tal-til-texta reiknirit og vélþýðingarkerfi hafa birst. Þau eru að hluta til byggð á samþjöppunarnetum til að draga út grunneiginleika. Að hluta til vegna þess að við lærðum að safna mjög stórum og góðum gagnasettum.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

„Er bólan sprungin? Er hype ofhitnuð? Dóu þeir sem blockchain?
Annars! Á morgun mun Siri hætta að vinna í símanum þínum og daginn eftir mun Tesla ekki vita muninn á beygju og kengúru.

Taugakerfi eru nú þegar að virka. Þau eru í tugum tækja. Þeir leyfa þér í raun að vinna sér inn peninga, breyta markaðnum og heiminum í kringum þig. Hype lítur aðeins öðruvísi út:

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Það er bara það að taugakerfi eru ekki lengur eitthvað nýtt. Já, margir hafa miklar væntingar. En mikill fjöldi fyrirtækja hefur lært að nota taugafrumur og búa til vörur út frá þeim. Taugafrumur veita nýja virkni, gera þér kleift að fækka störfum og lækka verð á þjónustu:

  • Framleiðslufyrirtæki eru að samþætta reiknirit til að greina galla í framleiðslulínum.
  • Búfjárbú kaupa kerfi til að stjórna kúm.
  • Sjálfvirkar blöndunartæki.
  • Sjálfvirk símaver.
  • Síur í SnapChat. (jæja, allavega eitthvað gagnlegt!)

En aðalatriðið, og ekki það augljósasta: "Það eru ekki fleiri nýjar hugmyndir, eða þær munu ekki koma með augnablik fjármagn." Taugakerfi hafa leyst heilmikið af vandamálum. Og þeir munu ákveða enn meira. Allar augljósu hugmyndirnar sem voru til gáfu tilefni til margra gangsetninga. En öllu sem var á yfirborðinu hafði þegar verið safnað saman. Undanfarin tvö ár hef ég ekki rekist á eina nýja hugmynd um notkun tauganeta. Ekki ein ný nálgun (jæja, allt í lagi, það eru nokkur vandamál með GAN).

Og hver síðari gangsetning er sífellt flóknari. Það þarf ekki lengur tvo stráka sem þjálfa taugafrumu með því að nota opin gögn. Það krefst forritara, netþjóns, hóps merkja, flókins stuðnings osfrv.

Þar af leiðandi eru færri sprotafyrirtæki. En það er meiri framleiðsla. Þarftu að bæta við númeraplötuviðurkenningu? Það eru hundruðir sérfræðinga með viðeigandi reynslu á markaðnum. Þú getur ráðið einhvern og eftir nokkra mánuði mun starfsmaður þinn búa til kerfið. Eða kaupa tilbúið. En að gera nýja gangsetningu?.. Brjálað!

Þú þarft að búa til rakningarkerfi fyrir gesti - af hverju að borga fyrir fullt af leyfum þegar þú getur búið til þitt eigið á 3-4 mánuðum, skerpt það fyrir fyrirtæki þitt.

Nú eru taugakerfi að fara í gegnum sömu leið og tugir annarrar tækni hafa farið í gegnum.

Manstu hvernig hugtakið „vefsíðuframleiðandi“ hefur breyst síðan 1995? Markaðurinn er ekki enn mettaður af sérfræðingum. Það eru mjög fáir fagmenn. En ég get veðjað á að eftir 5-10 ár verður ekki mikill munur á Java forritara og taugakerfisframleiðanda. Það verður nóg af báðum sérfræðingum á markaðnum.

Það verður einfaldlega flokkur vandamála sem hægt er að leysa með taugafrumum. Verkefni hefur komið upp - ráðið sérfræðing.

"Hvað er næst? Hvar er gervigreindin sem lofað var?"

En hér er lítill en áhugaverður misskilningur :)

Tæknistaflan sem er til í dag mun greinilega ekki leiða okkur til gervigreindar. Hugmyndir og nýjung þeirra hafa að mestu tæmst. Við skulum tala um hvað heldur núverandi þróunarstigi.

Takmarkanir

Byrjum á sjálfkeyrandi bílum. Það virðist vera ljóst að það er hægt að búa til fullkomlega sjálfstæða bíla með tækni nútímans. En hversu mörg ár þetta mun gerast er ekki ljóst. Tesla telur að þetta muni gerast eftir nokkur ár -


Það eru margir aðrir sérfræðingar, sem áætla að það sé 5-10 ár.

Líklegast, að mínu mati, munu innviðir borga sjálfir breytast á þann hátt eftir 15 ár að tilkoma sjálfstýrðra bíla verður óumflýjanleg og verður framhald þess. En þetta getur ekki talist greind. Nútíma Tesla er mjög flókin leiðsla fyrir gagnasíun, leit og endurmenntun. Þetta eru reglur-reglur-reglur, gagnasöfnun og síur yfir þær (hér hér Ég skrifaði aðeins meira um þetta, eða horfi frá þetta merki).

Fyrsta vandamálið

Og þetta er þar sem við sjáum fyrsta grundvallarvandamálið. Stór gögn. Þetta er einmitt það sem fæddi af sér núverandi bylgju tauganeta og vélanáms. Nú á dögum, til að gera eitthvað flókið og sjálfvirkt, þarftu mikið af gögnum. Ekki bara mikið, heldur mjög, mjög mikið. Við þurfum sjálfvirk reiknirit fyrir söfnun þeirra, merkingu og notkun. Við viljum láta bílinn sjá vörubílana standa frammi fyrir sólinni - við verðum fyrst að safna nægilega mörgum af þeim. Við viljum að bíllinn klikki ekki með reiðhjól boltað í skottið - fleiri sýnishorn.

Þar að auki er eitt dæmi ekki nóg. Hundruð? Þúsundir?

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Annað vandamál

Annað vandamál - sjónmynd af því sem tauganet okkar hefur skilið. Þetta er mjög lítið verkefni. Fram að þessu skilja fáir hvernig á að sjá þetta fyrir sér. Þessar greinar eru mjög nýlegar, þetta eru aðeins nokkur dæmi, jafnvel þótt fjarlæg:
Sjónræn þráhyggja fyrir áferð. Það sýnir vel hvað taugafruman hefur tilhneigingu til að festa sig við + hvað hún skynjar sem upphafsupplýsingar.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?
Sjónræn Athygli kl þýðingar. Reyndar er oft hægt að nota aðdráttarafl einmitt til að sýna hvað olli slíkum netviðbrögðum. Ég hef séð svona hluti fyrir bæði kembiforrit og vörulausnir. Það eru margar greinar um þetta efni. En því flóknari sem gögnin eru, því erfiðara er að skilja hvernig á að ná fram öflugri sjónmynd.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Jæja, já, gamla góða settið af „sjáðu hvað er inni í möskvanum í síur" Þessar myndir voru vinsælar fyrir 3-4 árum, en allir áttuðu sig fljótt á því að myndirnar voru fallegar, en þær höfðu ekki mikla þýðingu.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Ég minntist ekki á heilmikið af öðrum græjum, aðferðum, hakkum, rannsóknum á því hvernig á að sýna innra netið. Virka þessi verkfæri? Hjálpa þeir þér fljótt að skilja hvað vandamálið er og kemba netið? .. Fáðu síðustu prósentuna? Jæja, þetta er svipað:

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Þú getur horft á hvaða keppni sem er á Kaggle. Og lýsing á því hvernig fólk tekur lokaákvarðanir. Við söfnuðum 100-500-800 einingum af gerðum og það virkaði!

Ég er auðvitað að ýkja. En þessar aðferðir gefa ekki skjót og bein svör.

Með næga reynslu, eftir að hafa pælt í mismunandi valkostum, geturðu kveðið upp dóm um hvers vegna kerfið þitt tók slíka ákvörðun. En það verður erfitt að leiðrétta hegðun kerfisins. Settu upp hækju, færðu þröskuldinn, bættu við gagnasafni, taktu annað bakendanet.

Þriðja vandamálið

Þriðja grundvallarvandamálið — rist kenna tölfræði, ekki rökfræði. Tölfræðilega þetta andlit:

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Rökfræðilega séð er það ekki mjög líkt. Taugakerfi læra ekki neitt flókið nema þau séu neydd til þess. Þeir kenna alltaf einföldustu táknin sem mögulegt er. Ertu með augu, nef, höfuð? Svo þetta er andlitið! Eða gefðu dæmi þar sem augu þýða ekki andlit. Og aftur - milljónir dæma.

Það er nóg pláss neðst

Ég myndi segja að það séu þessi þrjú alþjóðlegu vandamál sem takmarka þróun tauganeta og vélanáms eins og er. Og þar sem þessi vandamál takmarkaðu það ekki, er það nú þegar virkt notað.

Þetta er endirinn? Eru taugakerfi uppi?

Óþekktur. En auðvitað vona allir ekki.

Það eru margar aðferðir og leiðbeiningar til að leysa grundvallarvandamálin sem ég benti á hér að ofan. En hingað til hefur engin af þessum aðferðum gert það mögulegt að gera eitthvað nýtt í grundvallaratriðum, leysa eitthvað sem ekki hefur enn verið leyst. Hingað til eru öll grundvallarverkefni unnin á grundvelli stöðugra aðferða (Tesla), eða eru áfram prófverkefni stofnana eða fyrirtækja (Google Brain, OpenAI).

Í grófum dráttum er meginstefnan sú að búa til einhverja háttsetta framsetningu á inntaksgögnunum. Í vissum skilningi, "minni". Einfaldasta dæmið um minni er ýmis „innfelling“ - myndbirting. Jæja, til dæmis öll andlitsgreiningarkerfi. Netið lærir að fá frá andliti einhverja stöðuga framsetningu sem er ekki háð snúningi, lýsingu eða upplausn. Í meginatriðum lágmarkar netið mæligildið „mismunandi andlit eru langt“ og „söm andlit eru nálægt.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Til slíkrar þjálfunar þarf tugi og hundruð þúsunda dæma. En niðurstaðan ber nokkrar af grunnatriðum „Einstaks nám“. Nú þurfum við ekki hundruð andlita til að muna mann. Bara eitt andlit og það er allt sem við erum við skulum komast að því!
Það er bara eitt vandamál... Gridið getur aðeins lært frekar einfalda hluti. Þegar reynt er að greina ekki andlit, heldur, til dæmis, „fólk eftir fötum“ (verkefni Endurauðkenning) - gæði lækka um margar stærðargráður. Og netið getur ekki lengur lært nokkuð augljósar breytingar á sjónarhornum.

Og það er líka skemmtilegt að læra af milljónum dæma.

Unnið er að því að draga verulega úr kosningum. Til dæmis má strax rifja upp eitt af fyrstu verkunum OneShot Learning frá Google:

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Það eru til dæmis mörg slík verk 1 eða 2 eða 3.

Það er einn mínus - venjulega virkar þjálfun vel á sumum einföldum „MNIST“ dæmum. Og þegar þú ferð yfir í flókin verkefni þarftu stóran gagnagrunn, líkan af hlutum eða einhvers konar galdra.
Almennt séð er vinna við One-Shot þjálfun mjög áhugavert viðfangsefni. Þú finnur fullt af hugmyndum. En að mestu leyti trufla þessi tvö vandamál sem ég taldi upp (forþjálfun á risastóru gagnasafni / óstöðugleiki á flóknum gögnum) mjög náminu.

Á hinn bóginn, GANs—kynslóð andstæðing net—nálgast efni Embedding. Þú hefur líklega lesið fullt af greinum um Habré um þetta efni. (1, 2,3)
Einkenni GAN er myndun innra ástandsrýmis (í meginatriðum sama innfelling), sem gerir þér kleift að teikna mynd. Það getur verið andlit, getur verið starfsemi.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Vandamálið með GAN er að því flóknari sem myndaður hlutur er, því erfiðara er að lýsa honum í „rafall-mismununar“ rökfræði. Þess vegna eru einu raunverulegu forritin af GAN sem heyrst hefur um DeepFake, sem aftur vinnur með andlitsmyndir (sem það er gríðarstór grunnur fyrir).

Ég hef séð mjög lítið annað gagnlegt. Yfirleitt einhvers konar brögð sem felast í því að klára teikningar af myndum.

Og aftur. Enginn hefur hugmynd um hvernig þetta mun gera okkur kleift að fara inn í bjartari framtíð. Það er gott að tákna rökfræði/rými í taugakerfi. En við þurfum gríðarlegan fjölda dæma, við skiljum ekki hvernig taugafruman táknar þetta í sjálfu sér, við skiljum ekki hvernig á að láta taugafrumu muna einhverja mjög flókna hugmynd.

Styrkingarnám - þetta er nálgun úr allt annarri átt. Þú manst örugglega hvernig Google vann alla í Go. Nýlegir sigrar í Starcraft og Dota. En hér er allt fjarri því að vera svo rosalegt og efnilegt. Hann talar best um RL og margbreytileika þess Þessi grein.

Til að draga stuttlega saman það sem höfundur skrifaði:

  • Módel úr kassanum passa ekki / virka illa í flestum tilfellum
  • Hagnýt vandamál er auðveldara að leysa á annan hátt. Boston Dynamics notar ekki RL vegna þess hve flókið/ófyrirsjáanlegt/flækjustig er
  • Til að RL virki þarftu flókna aðgerð. Það er oft erfitt að búa til/skrifa
  • Erfitt að þjálfa módel. Þú þarft að eyða miklum tíma til að dæla upp og komast út úr staðbundinni optima
  • Þess vegna er erfitt að endurtaka líkanið, líkanið er óstöðugt með minnstu breytingum
  • Passar oft yfir einhverskonar vinstrisinnað mynstur, upp í slembitöluframleiðanda

Lykilatriðið er að RL vinnur ekki enn í framleiðslu. Google hefur nokkrar tilraunir ( 1, 2 ). En ég hef ekki séð eitt einasta vörukerfi.

Minni. Gallinn við allt sem lýst er hér að ofan er skortur á uppbyggingu. Ein af aðferðunum til að reyna að koma þessu öllu í lag er að veita tauganetinu aðgang að aðskildu minni. Svo að hún geti skráð og endurskrifað niðurstöður skrefa sinna þar. Þá er hægt að ákvarða tauganetið af núverandi minnisástandi. Þetta er mjög svipað og klassískum örgjörvum og tölvum.

Frægasta og vinsælasta grein — frá DeepMind:

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Svo virðist sem þetta sé lykillinn að því að skilja greind? En líklega ekki. Kerfið krefst enn mikið magn af gögnum fyrir þjálfun. Og það virkar aðallega með skipulögðum töflugögnum. Þar að auki, þegar Facebook ákveðið svipað vandamál, þá tóku þeir leiðina „skrúfið minni, gerðu bara taugafrumuna flóknari og hafa fleiri dæmi - og hún mun læra af sjálfu sér.

Afþreying. Önnur leið til að búa til þýðingarmikið minni er að taka sömu innfellingar, en á meðan á þjálfun stendur skaltu kynna viðbótarviðmiðanir sem gera þér kleift að draga fram „merkingu“ í þeim. Til dæmis viljum við þjálfa taugakerfi til að greina á milli mannlegrar hegðunar í verslun. Ef við færum stöðluðu leiðina, þyrftum við að búa til tugi neta. Einn er að leita að manneskju, annar er að ákveða hvað hann er að gera, sá þriðji er aldur hans, sá fjórði er kyn hans. Aðskilin rökfræði lítur á þann hluta verslunarinnar þar sem hún er/er þjálfuð til að gera þetta. Sá þriðji ákvarðar feril þess o.s.frv.

Eða, ef það væri óendanlega mikið af gögnum, þá væri hægt að þjálfa eitt net fyrir allar mögulegar niðurstöður (augljóslega er ekki hægt að safna slíkum fjölda gagna).

Aðgreiningaraðferðin segir okkur - við skulum þjálfa netið þannig að það sjálft geti greint á milli hugtaka. Þannig að það myndi mynda innfellingu byggða á myndbandinu, þar sem eitt svæði myndi ákvarða aðgerðina, einn myndi ákvarða stöðuna á gólfinu í tíma, einn myndi ákvarða hæð einstaklingsins og einn myndi ákvarða kyn viðkomandi. Á sama tíma, við þjálfun, vil ég næstum ekki hvetja netið með slíkum lykilhugtökum, heldur að það sé undirstrikað og hópað svæði. Það eru allmargar slíkar greinar (sumar þeirra 1, 2, 3) og almennt eru þeir nokkuð fræðilegir.

En þessi stefna, að minnsta kosti fræðilega, ætti að ná yfir vandamálin sem talin eru upp í upphafi.

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Niðurbrot myndar samkvæmt breytunum „vegglitur/gólflitur/lögun hlutar/litur hlutar/o.s.frv.“

Er vélanámsbólan sprungin eða er það upphaf nýrrar dögunar?

Niðurbrot andlits samkvæmt breytunum „stærð, augabrúnir, stefnu, húðlit osfrv.“

Annað

Það eru mörg önnur, ekki svo alþjóðleg, svæði sem gera þér kleift að minnka gagnagrunninn á einhvern hátt, vinna með ólíkari gögn o.s.frv.

athygli. Það þýðir líklega ekki að skilja þetta út sem sérstaka aðferð. Bara nálgun sem eykur aðra. Margar greinar eru tileinkaðar honum (1,2,3). Tilgangurinn með athygli er að auka viðbrögð netkerfisins sérstaklega við mikilvægum hlutum meðan á þjálfun stendur. Oft með einhvers konar ytri markatilnefningu, eða litlu utanaðkomandi neti.

3D uppgerð. Ef þú býrð til góða þrívíddarvél geturðu oft dekkað 3% af þjálfunargögnum með henni (ég sá meira að segja dæmi þar sem tæplega 90% af gögnunum voru þakin góð vél). Það eru margar hugmyndir og hakk um hvernig á að láta net sem er þjálfað á þrívíddarvél virka með raunverulegum gögnum (fínstilling, stílflutningur osfrv.). En oft er erfiðara að búa til góða vél en að safna gögnum. Dæmi þegar vélar voru gerðar:
Vélmennaþjálfun (Google, braindagen)
Þjálfun viðurkenning vörur í versluninni (en í þeim tveimur verkefnum sem við gerðum, vorum við auðveldlega án þess).
Æfing hjá Tesla (aftur, myndbandið hér að ofan).

Niðurstöður

Öll greinin er í vissum skilningi ályktanir. Sennilega voru aðalskilaboðin sem ég vildi koma á framfæri „ókeypnunum er lokið, taugafrumur veita ekki lengur einfaldar lausnir.“ Nú þurfum við að leggja hart að okkur við að taka flóknar ákvarðanir. Eða vinna hörðum höndum við flóknar vísindarannsóknir.

Almennt séð er umræðuefnið umdeilt. Kannski hafa lesendur áhugaverðari dæmi?

Heimild: www.habr.com

Bæta við athugasemd