Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Tecnulugie è mudelli per u nostru futuru sistema di visione di l'informatica sò stati creati è migliurati gradualmente è in diversi prughjetti di a nostra cumpagnia - in Mail, Cloud, Search. Maturavanu cum'è un bon furmagliu o cognac. Un ghjornu avemu capitu chì e nostre rete neurali mostranu risultati eccellenti in ricunniscenza, è avemu decisu di cunghjuntà li in un solu pruduttu b2b - Vision - chì avemu avà aduprà noi stessi è vi offre à aduprà.

Oghje, a nostra tecnulugia di visione di l'urdinatore nantu à a piattaforma Mail.Ru Cloud Solutions hè travagliatu cù successu è risolve prublemi pratichi assai cumplessi. Hè basatu annantu à una quantità di rete neurali chì sò furmati nantu à i nostri setti di dati è spicializati in risolve i prublemi applicati. Tutti i servizii funzionanu nantu à i nostri servitori. Pudete integrà l'API di Vision publica in e vostre applicazioni, attraversu quale tutte e capacità di u serviziu sò dispunibili. L'API hè rapida - grazia à i GPU di u servitore, u tempu di risposta mediu in a nostra reta hè 100 ms.

Andate à u ghjattu, ci hè una storia detallata è parechji esempi di u travagliu di Vision.

Un esempiu di un serviziu in quale noi stessi utilizemu e tecnulugia di ricunniscenza faciale citate hè Events. Unu di i so cumpunenti hè Vision photo stands, chì avemu installatu in diverse cunferenze. Se vi avvicinate à un tali stand di foto, pigliate una foto cù a camera integrata è inserite u vostru email, u sistema truverà immediatamente trà l'array di ritratti quelli chì sò stati catturati da i fotografi di u staffu di a cunferenza, è, se vulete, vi manderà e fotografie trovate per email. È ùn parlemu micca di ritratti in scena - Vision vi ricunnosce ancu in u fondu in una folla di visitatori. Di sicuru, ùn sò micca i stands fotografici stessi chì sò ricunnisciuti, questi sò solu tablette in belli stands chì simpricimenti piglianu foto di l'invitati cù e so camere integrate è trasmettenu infurmazioni à i servitori, induve tutta a magia di ricunniscenza succede. È avemu vistu più d'una volta quantu sorprendente l'efficacità di a tecnulugia hè ancu trà i specialisti di ricunniscenza di l'imaghjini. Quì sottu parlemu di qualchi esempi.

1. U nostru mudellu di ricunniscenza faccia

1.1. Rete neurale è velocità di trasfurmazioni

Per u ricunniscenza, usemu una mudificazione di u mudellu di a rete neurale ResNet 101, u Pooling mediu à a fine hè rimpiazzatu da una capa cumpletamente cunnessa, simili à cumu si faci in ArcFace. In ogni casu, a dimensione di e rapprisentazioni vettoriali hè 128, micca 512. U nostru gruppu di furmazione cuntene circa 10 milioni di ritratti di 273 593 persone.

U mudellu funziona assai rapidamente grazia à una architettura di cunfigurazione di u servitore accuratamente selezziunata è a GPU computing. Ci vole da 100 ms per riceve una risposta da l'API in e nostre rete internu - questu include a rilevazione di faccia (deteczione di una faccia in una foto), ricunnosce è rinvià PersonID in a risposta API. Cù grandi volumi di dati in entrata - foto è video - duverà assai più tempu per trasfiriri i dati à u serviziu è per riceve una risposta.

1.2. A valutazione di l'efficacità di u mudellu

Ma a determinazione di l'efficienza di e rete neurali hè un compitu assai ambiguu. A qualità di u so travagliu dipende da quale setti di dati sò stati furmati i mudelli è s'ellu sò stati ottimizzati per travaglià cù dati specifichi.

Avemu cuminciatu à valutà a precisione di u nostru mudellu cù a famosa prova di verificazione LFW, ma hè troppu chjucu è simplice. Dopu avè righjuntu 99,8% di precisione, ùn hè più utile. Ci hè una bona cumpetizione per a valutazione di mudelli di ricunniscenza - Megaface, nantu à quale avemu gradualmente righjuntu u 82% rank 1. A prova Megaface hè custituita da un milione di ritratti - distractors - è u mudellu deve esse capace di distingue bè parechji millai di ritratti di celebrità da Facescrub. dataset da i distrattori. In ogni casu, dopu avè sbulicatu a prova Megaface d'errori, avemu trovu chì cù a versione sbulicata ghjunghjemu una precisione di 98% rank 1 (i ritratti di celebrità sò generalmente abbastanza specifichi). Per quessa, anu creatu una prova d'identificazione separata, simili à Megaface, ma cù ritratti di persone "ordinariu". Dopu avemu migliuratu a precisione di ricunniscenza nantu à i nostri datasets è andemu assai avanti. Inoltre, avemu aduprà una prova di qualità di clustering chì hè custituita da parechji milla foto; simula i marcati facciali in u nuvulu di l'utilizatori. In questu casu, i gruppi sò gruppi di individui simili, un gruppu per ogni persona ricunnisciuta. Avemu verificatu a qualità di u travagliu nantu à i gruppi veri (veru).

Di sicuru, l'errore di ricunniscenza accade cù qualsiasi mudellu. Ma tali situazioni sò spessu risolti da fine-tuning i soglia per cundizioni specifichi (per tutte e cunferenze avemu aduprà i stessi soglie, ma, per esempiu, per i sistemi di cuntrollu di l'accessu avemu da aumentà assai i soglia per chì ci sò menu falsi pusitivi). A maiò parte di i visitori di a cunferenza sò stati ricunnisciuti currettamente da e nostre cabine di foto Vision. Calchì volta qualcunu guardava l'anteprima tagliata è diceva: "U vostru sistema hà fattu un sbagliu, ùn era micca mè". Allora avemu apertu a foto in a so sanu, è si scopre chì ci era veramente stu visitatore in a foto, solu noi ùn eramu micca fotografatu, ma qualcunu altru, a persona hè ghjustu in u fondu in a zona sfocatura. Inoltre, a rete neurale spessu ricunnosce currettamente ancu quandu una parte di a faccia ùn hè micca visibile, o a persona hè in u prufilu, o ancu a mità vultata. U sistema pò ricunnosce una persona ancu s'è a faccia hè in l'area di distorsioni ottiche, per dì, quandu si spara cù una lente larga.

1.3. Esempii di teste in situazioni difficili

Quì sottu sò esempi di cumu funziona a nostra rete neurale. I ritratti sò sottumessi à l'input, chì deve etichettate cù PersonID - un identificatore unicu di una persona. Se duie o più imagine anu u stessu ID, allora, sicondu i mudelli, sti ritratti riprisentanu a stessa persona.

Notate immediatamente chì quandu testemu, avemu accessu à diversi paràmetri è soglie di mudelli chì pudemu cunfigurà per ottene un risultatu particulari. L'API publica hè ottimizzata per a massima precisione in casi cumuni.

Cuminciamu cù a cosa più simplice, cù u ricunniscenza facciale di fronte.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Ebbè, era troppu faciule. Cumplichemu u compitu, aghjunghje una barba è un pocu di anni.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Qualchidunu diceranu chì questu era ancu micca troppu difficiule, perchè in i dui casi a faccia sana hè visibile, è assai infurmazione nantu à a faccia hè dispunibule per l'algoritmu. Va bè, turnemu Tom Hardy in prufilu. Stu prublema hè assai più cumplessu, è avemu passatu assai sforzu per risolve cù successu, mantenendu una rata d'errore bassu: avemu sceltu un set di furmazione, pensatu à l'architettura di a rete neurale, affinchendu e funzioni di perdita è migliurà a pre-processazione. di ritratti.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Mettimu un capu nantu à ellu:

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Per via, questu hè un esempiu di una situazione particularmente difficiuli, postu chì a faccia hè assai oscurata, è in a foto di fondu ci hè ancu una ombra prufonda chì oculta l'ochji. In a vita vera, a ghjente spessu cambia a so apparenza cù l'aiutu di vetri scuri. Facemu u listessu cù Tom.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Va bè, pruvemu à scaccià ritratti di diverse età, è sta volta sperimentaremu cù un attore diversu. Pigliemu un esempiu assai più cumplessu, induve i cambiamenti in l'età sò soprattuttu pronunzianu. A situazione ùn hè micca scontu, si faci abbastanza spessu quandu avete bisognu di paragunà a foto in u passaportu cù a faccia di u portatore. Dopu tuttu, a prima fotografia hè aghjuntu à un passaportu quandu u pruprietariu hà 20 anni, è à l'età di 45 una persona pò cambià assai:

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Pensate chì u principale specialista in missione impussibule ùn hà micca cambiatu assai cù l'età? Pensu chì ancu uni pochi di persone cunghjunghjenu e foto in cima è in fondu, u zitellu hà cambiatu tantu annantu à l'anni.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

E rete neurali scontranu cambiamenti in l'apparenza assai più spessu. Per esempiu, qualchì volta e donne ponu cambià assai a so imagina cù l'aiutu di cusmetichi:

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Avà complichemu u compitu ancu di più: supponi chì e diverse parti di a faccia sò cuparti in diverse ritratti. In tali casi, l'algoritmu ùn pò micca paragunà campioni interi. Tuttavia, Vision tratta bè situazioni cum'è questu.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

In modu, ci ponu esse assai facci in una fotografia per esempiu, più di 100 persone ponu esse in una fotografia generale di una sala. Questa hè una situazione difficiule per e rete neurali, postu chì parechje facce ponu esse illuminate in modu diversu, alcune fora di focu. In ogni casu, se a foto hè presa cù una risuluzione è una qualità sufficiente (almenu 75 pixels per quadru chì copre a faccia), Vision serà capace di detectà è ricunnosce.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

A peculiarità di e fotografie di reportage è di l'imaghjini da e camere di surviglianza hè chì e persone sò spessu sfocate perchè eranu fora di focu o si movevanu in quellu mumentu:

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Inoltre, l'intensità di l'illuminazione pò varià assai da una maghjina à una maghjina. Questu, troppu, spessu diventa un bloccu di stumbling parechji algoritmi anu una grande difficultà per processà currettamente l'imaghjini chì sò troppu scuri è troppu chjaru, per ùn dì micca di cunfurmà accuratamente. Lasciami ricurdà chì per ottene stu risultatu avete bisognu di cunfigurà i soglii in un certu modu, sta funzione ùn hè ancu publicamente dispunibule. Adupremu a stessa rete neurale per tutti i clienti hà soglia chì sò adattati per a maiò parte di e attività pratiche.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Recentemente avemu lanciatu una nova versione di u mudellu chì ricunnosce i facci asiatichi cun alta precisione. Questu era un grande prublema, chì era ancu chjamatu "machine learning" (o "net neural network") racismu. E reti neurali europee è americane ricunnoscevanu bè i facci caucasiani, ma cù e facci mongoledi è negroidi a situazione era assai peghju. Probabilmente, in Cina a situazione era esattamente u cuntrariu. Hè tuttu di setti di dati di furmazione chì riflettenu i tipi dominanti di persone in un paese particulari. Tuttavia, a situazione hè cambiata oghje stu prublema ùn hè micca cusì acutu. A visione ùn hà micca prublema cù e persone di diverse razze.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

A ricunniscenza faciale hè solu una di e parechje applicazioni di a nostra tecnulugia Vision pò esse furmatu per ricunnosce qualcosa. Per esempiu, licenze, cumpresi in cundizioni difficiuli per l'algoritmi: à anguli sharp, brutti è difficiuli di leghje licenze.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

2. Casi d'usu praticu

2.1. Cuntrolla d'accessu fisicu: quandu duie persone utilizanu u listessu pass

Cù l'aiutu di Vision, pudete implementà sistemi per registrà l'arrivu è a partenza di l'impiegati. U sistema tradiziunale basatu nantu à i passaghji elettronichi hà svantaghji evidenti, per esempiu, pudete passà duie persone cù una badge. Se u sistema di cuntrollu di l'accessu (ACS) hè cumplementatu cù Vision, registrà onestamente quale hè vinutu / partutu è quandu.

2.2. U seguimentu di u tempu

Stu casu d'usu di Vision hè strettamente ligatu à u precedente. Se supplementà u sistema d'accessu cù u nostru serviziu di ricunniscenza faciale, serà capace micca solu di detectà e violazioni di cuntrollu di l'accessu, ma ancu di registrà a prisenza attuale di l'impiegati in l'edificiu o l'installazione. In altri palori, Vision vi aiuterà à piglià onestamente in cunsiderà quale hè ghjuntu à u travagliu è si n'andò à quale ora, è chì hà saltatu u travagliu in tuttu, ancu s'è i so culleghi copreu per ellu davanti à i so superiori.

2.3. Video Analytics: Tracking People and Security

Tracendu e persone chì utilizanu Vision, pudete valutà accuratamente u trafficu reale di e zone cummerciale, stazioni di treni, passaggi, strade è assai altri lochi publichi. U nostru seguimentu pò ancu esse di grande aiutu in u cuntrollu di l'accessu, per esempiu, à un magazzinu o à altri locali impurtanti di l'uffiziu. E, sicuru, u seguimentu di e persone è e facci aiuta à risolve i prublemi di sicurità. Avete pigliatu qualcunu chì arrubba da a vostra tenda? Aghjunghjite u so PersonID, chì hè statu tornatu da Vision, à a lista negra di u vostru software di analisi di video, è a prossima volta u sistema avviserà immediatamente a sicurità se stu tipu torna.

2.4. In u cummerciu

Retail è diverse imprese di serviziu sò interessate à ricunniscenza di fila. Cù l'aiutu di Vision, pudete ricunnosce chì questu ùn hè micca una folla casuale di persone, ma una fila, è determina a so durata. È dopu u sistema informa à quelli incaricati nantu à una fila per pudè capisce a situazione: o ci hè un afflussu di visitatori è i travagliadori addiziunali anu da esse chjamati, o qualcunu hè slacking in i so funzioni di travagliu.

Un altru compitu interessante hè di separà l'impiegati di a cumpagnia in a sala da i visitori. Di genere, u sistema hè furmatu per separà l'uggetti chì portanu certi vestiti (codice di vestitu) o cù qualchì caratteristica distintiva (sciarpa di marca, badge nantu à u pettu, etc.). Questu aiuta à valutà più precisamente l'assistenza (per chì l'impiegati ùn "inflate" micca e statistiche di e persone in a sala per a so mera prisenza).

Utilizendu u ricunniscenza faciale, pudete ancu evaluà u vostru audience: quale hè a lealtà di i visitori, vale à dì, quantu persone tornanu à u vostru stabilimentu è cù quale freccia. Calculate quanti visitatori unichi venenu à voi per mese. Per ottimisà i costi di attrazione è retenzioni, pudete ancu scopre u cambiamentu di u trafficu secondu u ghjornu di a settimana è ancu l'ora di u ghjornu.

Franchisori è cumpagnie di a catena ponu urdinà una valutazione basatu nantu à e fotografie di a qualità di a marca di diversi punti di vendita: a presenza di loghi, segni, cartelli, banners, etc.

2.5. Per trasportu

Un altru esempiu di assicurà a sicurità cù l'analisi video hè l'identificazione di l'articuli abbandunati in i saloni di l'aeroporti o di stazioni di treni. A visione pò esse furmatu per ricunnosce l'uggetti di centinaie di classi: pezzi di mobili, sacchetti, valigie, ombrelli, diversi tipi di vestiti, buttigli, etc. Se u vostru sistema di analisi video detecta un ughjettu senza pruprietariu è u ricunnosce cù Vision, manda un signalu à u serviziu di sicurità. Un compitu simili hè assuciatu cù a rilevazione automatica di situazioni inusual in i lochi publichi: qualcunu si senti malatu, o qualcunu fuma in u locu sbagliatu, o una persona cascà nantu à i rails, è cusì - tutti questi mudelli ponu esse ricunnisciuti da i sistemi di analisi video. via l'API Vision.

2.6. Flussu di documentu

Un'altra interessante applicazione futura di Vision chì sviluppemu attualmente hè a ricunniscenza di documenti è a so analisi automatica in basa di dati. Invece di entre manualmente (o peghju, entre) serie infinite, numeri, date d'emissione, numeri di contu, dati bancari, date è posti di nascita è assai altri dati formalizzati, pudete scansà documenti è mandà automaticamente in un canale sicuru via u canali. API à u nuvulu, induve u sistema ricunnoscerà questi documenti nantu à a mosca, analizà è torna una risposta cù dati in u formatu necessariu per l'ingressu automaticu in a basa di dati. Oghje Vision sapi digià cumu classificà i documenti (cumpresu PDF) - distingue trà passaporti, SNILS, TIN, certificati di nascita, certificati di matrimoniu è altri.

Di sicuru, a rete neurale ùn hè micca capaci di trattà tutte queste situazioni fora di a scatula. In ogni casu, un novu mudellu hè custruitu per un cliente specificu, parechji fatturi, sfumature è esigenze sò cunsiderate, setti di dati sò selezziunati, è iterazioni di furmazione, teste è cunfigurazione sò realizati.

3. Schema di funziunamentu API

A "porta d'entrata" di Vision per l'utilizatori hè l'API REST. Pò riceve foto, fugliali video è trasmissioni da e camere di rete (flussi RTSP) cum'è input.

Per aduprà Vision, avete bisognu adiriscia in u serviziu Mail.ru Cloud Solutions è riceve tokens d'accessu (client_id + client_secret). L'autentificazione di l'utilizatori hè realizatu cù u protocolu OAuth. I dati fonte in i corpi di e dumande POST sò mandati à l'API. È in risposta, u cliente riceve da l'API un risultatu di ricunniscenza in formatu JSON, è a risposta hè strutturata: cuntene infurmazione nantu à l'uggetti truvati è e so coordenate.

Cù barba, occhiali scuri è in prufilu: situazioni difficili per a visione di l'urdinatore

Risposta di mostra

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

A risposta cuntene un parametru interessante di awesomeness - questu hè a "coolness" condicionale di una faccia in una foto, cù u so aiutu selezziunà u megliu colpu di una faccia da a sequenza. Avemu furmatu una rete neurale per predichendu a probabilità chì una foto serà piaciuta nantu à e rete soziale. A megliu a qualità di a foto è u più sorridente a faccia, più grande hè a meraviglia.

API Vision usa un cuncettu chjamatu spaziu. Questu hè un strumentu per creà diversi gruppi di facci. Esempii di spazii sò listi neri è bianchi, listi di visitatori, impiegati, clienti, etc. Per ogni token in Vision, pudete creà sin'à 10 spazii, ogni spaziu pò avè sin'à 50 mila PersonIDs, vale à dì, finu à 500 mila. per token. Inoltre, u numeru di tokens per contu ùn hè micca limitatu.

Oghje l'API supporta i seguenti metudi di rilevazione è ricunniscenza:

  • Ricunniscenza / Set - rilevazione è ricunniscenza di facci. Assigna automaticamente un PersonID à ogni persona unica, torna u PersonID è e coordenate di e persone truvate.
  • Elimina - sguassà un PersonID specificu da a basa di dati di persone.
  • Truncate - sguassate u spaziu tutale da PersonID, utile s'ellu hè stata utilizata cum'è spaziu di prova è avete bisognu di resettate a basa di dati per a produzzione.
  • Detect - rilevazione di oggetti, scene, targhe, punti di riferimentu, fila, etc. Ritorna a classa di l'uggetti truvati è e so coordenate
  • Detect for documents - rileva tipi specifichi di documenti di a Federazione Russa (distingue passaportu, SNILS, numeru d'identificazione fiscale, etc.).

Finiremu ancu prestu u travagliu nantu à i metudi per l'OCR, a determinazione di u sessu, l'età è l'emozioni, è ancu di risolve i prublemi di merchandising, vale à dì per cuntrullà automaticamente a visualizazione di merchenzie in i magazzini. Pudete truvà a documentazione API cumpleta quì: https://mcs.mail.ru/help/vision-api

4. Chjave

Avà, attraversu l'API publicu, pudete accede à u ricunniscenza faciale in foto è video l'identificazione di diversi oggetti, targhe, punti di riferimentu, documenti è scene intere hè supportatu. Scenari d'applicazione - u mare. Venite, pruvate u nostru serviziu, stabilisce i travaglii più difficili. I primi 5000 transazzioni sò liberi. Forsi serà u "ingrediente mancante" per i vostri prughjetti.

Pudete accede immediatamente à l'API dopu a registrazione è a cunnessione. Vision. Tutti l'utilizatori di Habra ricevenu un codice promozionale per transazzioni supplementari. Per piacè scrivimi l'indirizzu email chì avete usatu per registrà u vostru contu!

Source: www.habr.com

Add a comment