Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Tækni og líkön fyrir framtíðar tölvusjónkerfi okkar voru búin til og endurbætt smám saman og í mismunandi verkefnum fyrirtækisins okkar - í Mail, Cloud, Search. Þeir þroskast eins og góður ostur eða koníak. Dag einn komumst við að því að taugakerfi okkar sýna framúrskarandi árangur í viðurkenningu og við ákváðum að sameina þau í eina b2b vöru - Vision - sem við notum nú sjálf og bjóðum þér að nota.

Í dag virkar tölvusjóntækni okkar á Mail.Ru Cloud Solutions pallinum með góðum árangri og leysir mjög flókin hagnýt vandamál. Það er byggt á fjölda tauganeta sem eru þjálfuð á gagnasettum okkar og sérhæfa sig í að leysa beitt vandamál. Öll þjónusta keyrir á netþjónaaðstöðu okkar. Þú getur samþætt opinbera Vision API inn í forritin þín, þar sem allir möguleikar þjónustunnar eru tiltækir. API er hratt - þökk sé GPU netþjónum er meðalviðbragðstími innan netkerfisins okkar 100 ms.

Farðu til köttsins, þar er ítarleg saga og mörg dæmi um verk Vision.

Dæmi um þjónustu þar sem við sjálf notum nefnda andlitsgreiningartækni er viðburðir. Einn af íhlutum þess eru Vision ljósmyndastandar sem við setjum upp á ýmsum ráðstefnum. Ef þú nálgast slíkan myndabás, tekur mynd með innbyggðu myndavélinni og slærð inn netfangið þitt, mun kerfið samstundis finna meðal fjölda mynda þær sem ljósmyndarar ráðstefnunnar tóku þig á og, ef þess er óskað, mun senda myndirnar sem fundust til þín með tölvupósti. Og við erum ekki að tala um sviðsettar andlitsmyndir - Vision þekkir þig jafnvel í bakgrunni í hópi gesta. Auðvitað eru það ekki myndastandarnir sjálfir sem þekkjast, þetta eru bara spjaldtölvur í fallegum standum sem einfaldlega taka myndir af gestum með innbyggðum myndavélum og senda upplýsingar til netþjónanna þar sem allir auðkenningargaldarnir gerast. Og við höfum séð oftar en einu sinni hversu furðulegur árangur tækninnar er jafnvel meðal myndgreiningarsérfræðinga. Hér að neðan munum við tala um nokkur dæmi.

1. Andlitsþekkingarlíkanið okkar

1.1. Tauganet og vinnsluhraði

Til viðurkenningar notum við breytingu á taugakerfislíkaninu ResNet 101. Meðaltalssamsöfnun í lokin er skipt út fyrir fulltengt lag, svipað og það er gert í ArcFace. Hins vegar er stærð vektormynda 128, ekki 512. Þjálfunarsettið okkar inniheldur um 10 milljónir mynda af 273 manns.

Líkanið keyrir mjög hratt þökk sé vandlega völdum uppsetningararkitektúr netþjóns og GPU-tölvu. Það tekur allt frá 100 ms að fá svar frá API á innri netum okkar - þetta felur í sér andlitsgreiningu (að greina andlit á mynd), þekkja og skila Persónuauðkenni í API svarinu. Með miklu magni af gögnum sem berast - myndir og myndbönd - mun það taka mun lengri tíma að flytja gögnin yfir á þjónustuna og fá svar.

1.2. Mat á virkni líkansins

En það er mjög óljóst verkefni að ákvarða skilvirkni tauganeta. Gæði vinnu þeirra fer eftir því hvaða gagnasöfn líkönin voru þjálfuð í og ​​hvort þau voru fínstillt til að vinna með ákveðin gögn.

Við byrjuðum að meta nákvæmni líkansins okkar með hinu vinsæla LFW sannprófunarprófi, en það er of lítið og einfalt. Eftir að hafa náð 99,8% nákvæmni er það ekki lengur gagnlegt. Það er góð samkeppni um að meta viðurkenningarlíkön - Megaface, þar sem við náðum smám saman 82% sæti 1. Megaface prófið samanstendur af milljón ljósmyndum - afvegaleiðum - og fyrirsætan ætti að geta vel greint nokkur þúsund ljósmyndir af frægu fólki frá Facescrub gagnasafn frá truflunum. Hins vegar, eftir að hafa hreinsað Megaface prófið af villum, komumst við að því að með hreinsuðu útgáfunni náum við nákvæmni upp á 98% stöðu 1 (myndir af frægum einstaklingum eru almennt nokkuð sérstakar). Þess vegna bjuggu þeir til sérstakt auðkenningarpróf, svipað Megaface, en með ljósmyndum af „venjulegu“ fólki. Síðan bættum við greiningarnákvæmni á gagnapakkanum okkar og fórum langt á undan. Að auki notum við klasagæðapróf sem samanstendur af nokkur þúsund myndum; það líkir eftir andlitsmerkingum í skýi notandans. Í þessu tilviki eru klasar hópar svipaðra einstaklinga, einn hópur fyrir hvern auðþekkjanlegan einstakling. Við könnuðum gæði vinnu á raunverulegum hópum (satt).

Auðvitað eiga sér stað auðkenningarvillur með hvaða gerð sem er. En slíkar aðstæður eru oft leystar með því að fínstilla þröskulda fyrir tilteknar aðstæður (fyrir allar ráðstefnur notum við sömu þröskulda, en t.d. fyrir aðgangsstýringarkerfi verðum við að hækka viðmiðunarmörkin til muna þannig að það verði færri rangar jákvæðar). Mikill meirihluti ráðstefnugesta var þekktur á réttan hátt af Vision ljósmyndabásum okkar. Stundum horfði einhver á klipptu forsýninguna og sagði: "Kerfið þitt gerði mistök, það var ekki ég." Svo opnuðum við myndina í heild sinni og það kom í ljós að það var virkilega þessi gestur á myndinni, bara við vorum ekki að mynda hann, heldur einhvern annan, manneskjan var bara í bakgrunni á óskýra svæðinu. Þar að auki þekkir taugakerfið oft rétt jafnvel þegar hluti af andlitinu sést ekki, eða einstaklingurinn stendur í prófíl eða jafnvel hálfsnúinn. Kerfið getur borið kennsl á mann, jafnvel þó að andlitið sé á sviði sjónbjögunar, til dæmis þegar tekið er með gleiðhornslinsu.

1.3. Dæmi um próf við erfiðar aðstæður

Hér að neðan eru dæmi um hvernig taugakerfi okkar virkar. Myndir eru sendar til inntaksins, sem hún verður að merkja með PersonID - einstakt auðkenni einstaklings. Ef tvær eða fleiri myndir eru með sama auðkenni, þá sýna þessar myndir sömu manneskjuna, samkvæmt fyrirmyndunum.

Við skulum strax athuga að við prófun höfum við aðgang að ýmsum breytum og líkanaþröskuldum sem við getum stillt til að ná tiltekinni niðurstöðu. Opinbera API er fínstillt fyrir hámarks nákvæmni í algengum tilfellum.

Byrjum á því einfaldasta, með andlitsgreiningu sem snýr að framan.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Jæja, þetta var of auðvelt. Við skulum flækja verkefnið, bæta við skeggi og handfylli af árum.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Sumir munu segja að þetta hafi heldur ekki verið of erfitt, því í báðum tilfellum er allt andlitið sýnilegt og miklar upplýsingar um andlitið eru tiltækar fyrir reikniritið. Allt í lagi, við skulum breyta Tom Hardy í prófíl. Þetta vandamál er miklu flóknara og við eyddum miklu átaki til að leysa það á farsælan hátt á meðan við héldum lágu villuhlutfalli: við völdum þjálfunarsett, hugsuðum í gegnum arkitektúr taugakerfisins, bættum tapaðgerðirnar og bættum forvinnsluna. af ljósmyndum.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Við skulum setja höfuðfat á hann:

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Við the vegur, þetta er dæmi um sérstaklega erfiðar aðstæður, þar sem andlitið er mjög hulið, og á neðstu myndinni er líka djúpur skuggi sem felur augun. Í raunveruleikanum breytir fólk mjög oft útliti sínu með hjálp dökkra gleraugu. Gerum það sama við Tom.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Allt í lagi, við skulum reyna að henda inn myndum frá mismunandi aldri og að þessu sinni ætlum við að gera tilraunir með annan leikara. Tökum mun flóknara dæmi þar sem aldurstengdar breytingar eru sérstaklega áberandi. Ástandið er ekki langsótt, það kemur oft fyrir þegar bera þarf saman myndina í vegabréfinu við andlit handhafa. Þegar öllu er á botninn hvolft er fyrsta myndinni bætt við vegabréfið þegar eigandinn er 20 ára og við 45 ára aldur getur einstaklingur breyst mikið:

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Heldurðu að aðalsérfræðingurinn í ómögulegum verkefnum hafi ekki breyst mikið með aldrinum? Ég held að jafnvel nokkrir myndu sameina efstu og neðri myndirnar, strákurinn hefur breyst svo mikið í gegnum árin.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Taugakerfi verða mun oftar fyrir breytingum á útliti. Til dæmis, stundum geta konur breytt ímynd sinni mjög með hjálp snyrtivara:

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Nú skulum við flækja verkefnið enn meira: Segjum sem svo að mismunandi hlutar andlitsins séu þakin mismunandi ljósmyndum. Í slíkum tilfellum getur reikniritið ekki borið saman heil sýni. Hins vegar ræður Vision vel við aðstæður sem þessar.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Við the vegur, það geta verið mörg andlit í ljósmynd, til dæmis geta meira en 100 manns passað í almenna ljósmynd af sal. Þetta er erfið staða fyrir taugakerfi þar sem hægt er að lýsa mörg andlit á annan hátt, sum úr fókus. Hins vegar, ef myndin er tekin með nægilegri upplausn og gæðum (að minnsta kosti 75 pixlar á hvern ferning sem hylur andlitið), mun Vision geta greint og þekkt hana.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Sérkenni fréttamynda og mynda úr eftirlitsmyndavélum er að fólk er oft óskýrt vegna þess að það var úr fókus eða var á hreyfingu á þeirri stundu:

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Einnig getur birtustyrkur verið mjög mismunandi eftir myndum. Þetta verður líka oft ásteytingarsteinn, mörg reiknirit eiga í miklum erfiðleikum með að vinna myndir sem eru of dökkar og of ljósar, svo ekki sé minnst á að passa nákvæmlega saman. Leyfðu mér að minna þig á að til að ná þessari niðurstöðu þarftu að stilla þröskuldana á ákveðinn hátt; þessi eiginleiki er ekki enn aðgengilegur almenningi. Við notum sama tauganetið fyrir alla viðskiptavini; það hefur þröskulda sem henta fyrir flest hagnýt verkefni.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Við birtum nýlega nýja útgáfu af líkaninu sem þekkir asísk andlit með mikilli nákvæmni. Þetta var áður mikið vandamál, sem var jafnvel kallað „vélanám“ (eða „tauganet“) rasismi. Evrópsk og amerísk tauganet þekktu vel hvít andlit, en með mongólíð og negroid andlit var ástandið mun verra. Sennilega var ástandið í Kína nákvæmlega hið gagnstæða. Þetta snýst allt um þjálfunargagnasett sem endurspegla ríkjandi tegundir fólks í tilteknu landi. Hins vegar er ástandið að breytast, í dag er þetta vandamál ekki svo bráð. Sjón hefur engin vandamál með fólk af mismunandi kynþáttum.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Andlitsþekking er aðeins eitt af mörgum forritum tækni okkar; Sjón er hægt að þjálfa til að þekkja hvað sem er. Til dæmis, númeraplötur, þar á meðal við aðstæður sem eru erfiðar fyrir reiknirit: í skörpum sjónarhornum, óhrein og erfitt að lesa númeraplötur.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

2. Hagnýt notkunartilvik

2.1. Líkamleg aðgangsstýring: þegar tveir nota sama passann

Með aðstoð Vision er hægt að innleiða kerfi til að skrá komu og brottför starfsmanna. Hefðbundið kerfi sem byggir á rafrænum pössum hefur augljósa ókosti, til dæmis er hægt að fara framhjá tveimur með einu merki. Ef aðgangsstýringarkerfið (ACS) er bætt við Vision mun það skrá heiðarlega hver kom/fari og hvenær.

2.2. Tímamæling

Þetta Vision notkunartilvik er nátengt því fyrra. Ef þú bætir við aðgangskerfinu með andlitsgreiningarþjónustu okkar mun það ekki aðeins geta greint aðgangsstýringarbrot heldur einnig til að skrá raunverulega viðveru starfsmanna í byggingunni eða aðstöðunni. Með öðrum orðum, Vision mun hjálpa þér að taka heiðarlega með í reikninginn hver kom til vinnu og fór á hvaða tíma og hver sleppti vinnu alveg, jafnvel þó að samstarfsmenn hans hafi staðið fyrir honum fyrir framan yfirmenn.

2.3. Vídeógreining: Rekja og öryggi fólks

Með því að fylgjast með fólki sem notar Vision geturðu metið nákvæmlega raunverulega umferð á verslunarsvæðum, lestarstöðvum, göngum, götum og mörgum öðrum opinberum stöðum. Vöktun okkar getur einnig verið mjög gagnleg við að stjórna aðgangi, til dæmis að vöruhúsi eða öðru mikilvægu skrifstofuhúsnæði. Og auðvitað hjálpar það að leysa öryggisvandamál að rekja fólk og andlit. Tókstu einhvern við að stela úr versluninni þinni? Bættu PersonID hans, sem var skilað af Vision, á svartan lista yfir myndbandsgreiningarhugbúnaðinn þinn, og næst þegar kerfið lætur öryggið strax vita ef þessi tegund birtist aftur.

2.4. Í viðskiptum

Verslunarfyrirtæki og ýmis þjónustufyrirtæki hafa áhuga á biðröðviðurkenningu. Með hjálp Vision geturðu viðurkennt að þetta er ekki tilviljunarkenndur hópur fólks heldur biðröð og ákvarða lengd þess. Og svo upplýsir kerfið þá sem ráða um biðröð svo þeir geti áttað sig á stöðunni: annaðhvort streymir gestir inn og þarf að kalla til viðbótarstarfsmenn eða einhver er að slaka á vinnuskyldum sínum.

Annað áhugavert verkefni er að aðskilja starfsmenn fyrirtækisins í salnum frá gestum. Venjulega er kerfið þjálfað til að aðskilja hluti sem klæðast ákveðnum fötum (klæðnaðarkóði) eða með einhverjum sérkennum (merkja trefil, merki á brjósti og svo framvegis). Þetta hjálpar til við að meta mætingu nákvæmara (svo að starfsmenn „blási ekki upp“ tölfræði fólks í salnum með því einu að vera viðstödd).

Með því að nota andlitsgreiningu geturðu líka metið áhorfendur þína: hver er hollustu gesta, það er hversu margir snúa aftur til starfsstöðvarinnar og með hvaða tíðni. Reiknaðu hversu margir einstakir gestir koma til þín á mánuði. Til að hámarka kostnað við aðdráttarafl og varðveislu geturðu einnig fundið út breytingar á umferð eftir vikudegi og jafnvel tíma dags.

Sérleyfisveitendur og keðjufyrirtæki geta pantað mat byggt á ljósmyndum á gæðum vörumerkja ýmissa verslunarstaða: tilvist lógóa, skilta, veggspjalda, borða o.s.frv.

2.5. Með flutningum

Annað dæmi um að tryggja öryggi með myndbandsgreiningum er að bera kennsl á yfirgefna hluti í sölum flugvalla eða lestarstöðva. Hægt er að þjálfa sjón til að þekkja hluti úr hundruðum flokka: húsgögn, töskur, ferðatöskur, regnhlífar, ýmis konar fatnað, flöskur og svo framvegis. Ef myndbandsgreiningarkerfið þitt greinir eigandalausan hlut og þekkir hann með Vision sendir það merki til öryggisþjónustunnar. Svipað verkefni er tengt sjálfvirkri uppgötvun óvenjulegra aðstæðna á opinberum stöðum: einhverjum líður illa, eða einhver reykir á röngum stað, eða einstaklingur dettur á teinana, og svo framvegis - öll þessi mynstur er hægt að þekkja með myndbandsgreiningarkerfum í gegnum Vision API.

2.6. Skjalaflæði

Annað áhugavert framtíðarforrit Vision sem við erum að þróa núna er skjalaþekking og sjálfvirk þáttun þeirra í gagnagrunna. Í stað þess að slá inn handvirkt (eða það sem verra er, slá inn) endalausar seríur, númer, útgáfudaga, reikningsnúmer, bankaupplýsingar, fæðingardaga og fæðingarstaði og mörg önnur formleg gögn, geturðu skannað skjöl og sent þau sjálfkrafa yfir örugga rás í gegnum API í skýið, þar sem kerfið mun þekkja þessi skjöl á flugu, flokka þau og skila svari með gögnum á tilskildu sniði fyrir sjálfvirka innkomu í gagnagrunninn. Í dag veit Vision nú þegar hvernig á að flokka skjöl (þar á meðal PDF) - greinir á milli vegabréfa, SNILS, TIN, fæðingarvottorðs, hjónabandsvottorðs og annarra.

Auðvitað er tauganetið ekki fær um að takast á við allar þessar aðstæður út úr kassanum. Í hverju tilviki er nýtt líkan smíðað fyrir tiltekinn viðskiptavin, tekið tillit til margra þátta, blæbrigða og krafna, gagnasöfn valin og endurtekningar á þjálfun, prófunum og stillingum framkvæmdar.

3. API rekstraráætlun

„inngangshlið“ Vision fyrir notendur er REST API. Það getur tekið á móti myndum, myndbandsskrám og útsendingum frá netmyndavélum (RTSP straumum) sem inntak.

Til að nota Vision þarftu skrá í Mail.ru Cloud Solutions þjónustunni og fá aðgangslykil (client_id + client_secret). Notendavottun er framkvæmd með því að nota OAuth samskiptareglur. Upprunagögnin í meginmáli POST beiðna eru send til API. Og til að bregðast við því fær viðskiptavinurinn frá API viðurkenningarniðurstöðu á JSON sniði og svarið er byggt upp: það inniheldur upplýsingar um fundna hluti og hnit þeirra.

Með skegg, dökk gleraugu og í prófíl: erfiðar aðstæður fyrir tölvusjón

Dæmi um svar

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Svarið inniheldur áhugaverða breytu ógnvekjandi - þetta er skilyrt „svalur“ andlits á mynd, með hjálp þess veljum við bestu mynd af andliti úr röðinni. Við þjálfuðum taugakerfi til að spá fyrir um líkurnar á að mynd verði líkað við á samfélagsmiðlum. Því betri gæði myndarinnar og því meira brosandi sem andlitið er, því meiri er æðislegt.

API Vision notar hugtak sem kallast rúm. Þetta er tæki til að búa til mismunandi sett af andlitum. Dæmi um rými eru svartir og hvítir listar, listar yfir gesti, starfsmenn, viðskiptavini o.s.frv. Fyrir hvert tákn í Vision er hægt að búa til allt að 10 rými, hvert rými getur haft allt að 50 þúsund persónuauðkenni, það er allt að 500 þúsund á hvert tákn. Þar að auki er fjöldi tákna á reikning ekki takmarkaður.

Í dag styður API eftirfarandi greiningar- og viðurkenningaraðferðir:

  • Recognize/Set - uppgötvun og auðkenning á andlitum. Úthlutar sjálfkrafa PersonID til hvers einstaks einstaklings, skilar Persónuauðkenni og hnitum þeirra sem fundust.
  • Eyða - að eyða tilteknu persónuauðkenni úr persónugagnagrunninum.
  • Truncate - hreinsar allt plássið frá PersonID, gagnlegt ef það var notað sem prófrými og þú þarft að endurstilla gagnagrunninn fyrir framleiðslu.
  • Greina - uppgötvun á hlutum, senum, númeraplötum, kennileitum, biðröðum osfrv. Skilar flokki fundinna hluta og hnitum þeirra
  • Finna fyrir skjöl - finnur sérstakar tegundir skjala í Rússlandi (greinir vegabréf, SNILS, skattakennitölu osfrv.).

Við munum einnig fljótlega ljúka vinnu við aðferðir við OCR, ákvarða kyn, aldur og tilfinningar, auk þess að leysa söluvandamál, það er að stýra sjálfkrafa vörubirtingu í verslunum. Þú getur fundið heildar API skjöl hér: https://mcs.mail.ru/help/vision-api

4. Niðurstaða

Nú, í gegnum opinbera API, geturðu fengið aðgang að andlitsgreiningu í myndum og myndböndum; auðkenning á ýmsum hlutum, númeraplötum, kennileitum, skjölum og heilum senum er studd. Umsóknarsviðsmyndir - hafið. Komdu, prófaðu þjónustuna okkar, settu hana erfiðustu verkefnin. Fyrstu 5000 færslurnar eru ókeypis. Kannski verður það „það sem vantar“ í verkefnin þín.

Þú getur þegar í stað nálgast API við skráningu og tengingu. Framtíðarsýn. Allir notendur Habra fá kynningarkóða fyrir aukafærslur. Vinsamlegast skrifaðu mér netfangið sem þú notaðir til að skrá reikninginn þinn!

Heimild: www.habr.com

Bæta við athugasemd