B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Teknoloġiji u mudelli għas-sistema futura tagħna ta 'viżjoni bil-kompjuter ġew maħluqa u mtejba gradwalment u fi proġetti differenti tal-kumpanija tagħna - f'Mail, Cloud, Fittex. Huma mmaturaw bħal ġobon tajjeb jew konjak. Ġurnata waħda indunajna li n-netwerks newrali tagħna juru riżultati eċċellenti fir-rikonoxximent, u ddeċidejna li ngħaqqduhom fi prodott b2b wieħed - Vision - li issa nużaw lilna nfusna u noffrulek biex tużah.

Illum, it-teknoloġija tal-viżjoni tal-kompjuter tagħna fuq il-pjattaforma Mail.Ru Cloud Solutions qed taħdem b'suċċess u ssolvi problemi prattiċi kumplessi ħafna. Hija bbażata fuq numru ta 'netwerks newrali li huma mħarrġa fuq is-settijiet tad-dejta tagħna u jispeċjalizzaw fis-soluzzjoni ta' problemi applikati. Is-servizzi kollha jaħdmu fuq il-faċilitajiet tas-server tagħna. Tista' tintegra l-API Vision pubblika fl-applikazzjonijiet tiegħek, li permezz tagħha l-kapaċitajiet kollha tas-servizz huma disponibbli. L-API hija veloċi - grazzi għal GPUs tas-server, il-ħin medju ta 'rispons fin-netwerk tagħna huwa ta' 100 ms.

Mur għand il-qattus, hemm storja dettaljata u ħafna eżempji tax-xogħol ta 'Vision.

Bħala eżempju ta’ servizz li aħna stess nużaw it-teknoloġiji imsemmija għar-rikonoxximent tal-wiċċ, nistgħu niċċitaw avvenimenti. Wieħed mill-komponenti tiegħu huwa Vision photo stands, li aħna ninstallaw f'diversi konferenzi. Jekk tavviċina tali stand tar-ritratti, ħu ritratt bil-kamera integrata u daħħal l-email tiegħek, is-sistema immedjatament issib fost il-firxa ta 'ritratti dawk li fihom inqabadt minn fotografi tal-persunal tal-konferenza, u, jekk mixtieq, jibgħatlek ir-ritratti misjuba bl-email. U mhux qed nitkellmu dwar ritratti fi stadji—Vision tagħrafek anke fl-isfond stess f’folla ta’ viżitaturi. Naturalment, mhumiex l-istands tar-ritratti nfushom li huma rikonoxxuti, dawn huma biss pilloli fi stands sbieħ li sempliċiment jieħdu ritratti tal-mistednin bil-kameras mibnija tagħhom u jittrasmettu informazzjoni lis-servers, fejn isseħħ il-maġija kollha ta 'rikonoxximent. U rajna aktar minn darba kemm l-effettività tat-teknoloġija hija sorprendenti anke fost speċjalisti tar-rikonoxximent tal-immaġni. Hawn taħt se nitkellmu dwar xi eżempji.

1. Il-Mudell tagħna ta 'Rikonoxximent tal-wiċċ

1.1. Netwerk newrali u veloċità tal-ipproċessar

Għar-rikonoxximent, nużaw modifika tal-mudell tan-netwerk newrali ResNet 101. Il-Medja Pooling fl-aħħar jinbidel b'saff kompletament konness, simili għal kif isir f'ArcFace. Madankollu, id-daqs tar-rappreżentazzjonijiet tal-vettur huwa 128, mhux 512. Is-sett ta 'taħriġ tagħna fih madwar 10 miljun ritratt ta' 273 persuna.

Il-mudell jaħdem malajr ħafna grazzi għal arkitettura tal-konfigurazzjoni tas-server magħżula bir-reqqa u kompjuters GPU. Huwa jieħu minn 100 ms biex tirċievi tweġiba mill-API fuq in-netwerks interni tagħna - dan jinkludi l-iskoperta tal-wiċċ (l-iskoperta ta 'wiċċ f'ritratt), l-għarfien u r-ritorn ta' PersonID fir-rispons tal-API. B'volumi kbar ta 'data li tidħol - ritratti u vidjows - se tieħu ħafna aktar ħin biex tittrasferixxi d-data lis-servizz u biex tirċievi tweġiba.

1.2. Evalwazzjoni tal-effettività tal-mudell

Iżda d-determinazzjoni tal-effiċjenza tan-netwerks newrali huwa kompitu ambigwu ħafna. Il-kwalità tax-xogħol tagħhom tiddependi fuq liema settijiet ta' dejta ġew imħarrġa l-mudelli u jekk kinux ottimizzati biex jaħdmu ma' dejta speċifika.

Bdejna nevalwaw l-eżattezza tal-mudell tagħna bit-test ta 'verifika popolari LFW, iżda huwa żgħir wisq u sempliċi. Wara li tilħaq preċiżjoni ta '99,8%, m'għadhiex utli. Hemm kompetizzjoni tajba għall-evalwazzjoni ta 'mudelli ta' rikonoxximent - Megaface, li gradwalment lħaqna 82% rank 1. It-test Megaface jikkonsisti f'miljun ritratt - distractors - u l-mudell għandu jkun kapaċi jiddistingwi sew diversi eluf ta 'ritratti ta' ċelebritajiet mill-Facescrub dataset minn distraturi. Madankollu, wara li kklerja t-test Megaface ta 'żbalji, sibna li bil-verżjoni approvata niksbu preċiżjoni ta' 98% rank 1 (ritratti ta 'ċelebritajiet huma ġeneralment pjuttost speċifiċi). Għalhekk, huma ħolqu test ta 'identifikazzjoni separat, simili għal Megaface, iżda b'ritratti ta' nies "ordinarji". Imbagħad tjiebna l-eżattezza tar-rikonoxximent fuq is-settijiet tad-dejta tagħna u marru 'l quddiem ħafna. Barra minn hekk, nużaw test ta 'kwalità ta' clustering li jikkonsisti f'diversi eluf ta 'ritratti; tissimula l-immarkar tal-wiċċ fil-sħaba tal-utent. F'dan il-każ, clusters huma gruppi ta 'individwi simili, grupp wieħed għal kull persuna rikonoxxibbli. Aħna vverifikajna l-kwalità tax-xogħol fuq gruppi reali (veru).

Naturalment, żbalji ta 'rikonoxximent iseħħu ma' kwalunkwe mudell. Iżda sitwazzjonijiet bħal dawn spiss jiġu solvuti billi jiġu rfinati l-limiti għal kundizzjonijiet speċifiċi (għall-konferenzi kollha nużaw l-istess limiti, iżda, pereżempju, għal sistemi ta 'kontroll tal-aċċess irridu nżidu ħafna l-limiti sabiex ikun hemm inqas pożittivi foloz). Il-maġġoranza l-kbira tal-viżitaturi tal-konferenzi ġew rikonoxxuti b'mod korrett mill-kabini tar-ritratti tal-Viżjoni tagħna. Xi drabi xi ħadd kien iħares lejn il-preview maqtugħa u jgħid, "Is-sistema tiegħek għamilt żball, ma kontx jien." Imbagħad ftaħna r-ritratt kollu kemm hu, u rriżulta li kien hemm verament dan il-viżitatur fir-ritratt, biss aħna ma konniex nirritrattawlu, iżda xi ħadd ieħor, il-persuna biss inzertat li kienet fl-isfond fiż-żona ta 'ċajpra. Barra minn hekk, in-netwerk newrali ħafna drabi jirrikonoxxi b'mod korrett anki meta parti mill-wiċċ ma tkunx viżibbli, jew il-persuna tkun wieqfa fil-profil, jew saħansitra nofs imdawwar. Is-sistema tista 'tagħraf persuna anki jekk il-wiċċ ikun fiż-żona ta' distorsjoni ottika, ngħidu aħna, meta tispara b'lenti b'angolu wiesa '.

1.3. Eżempji ta' ttestjar f'sitwazzjonijiet diffiċli

Hawn taħt hawn eżempji ta’ kif jaħdem in-netwerk newrali tagħna. Ir-ritratti jintbagħtu lill-input, li hi trid ittikketta bl-użu ta 'PersonID - identifikatur uniku ta' persuna. Jekk żewġ stampi jew aktar għandhom l-istess ID, allura, skont il-mudelli, dawn ir-ritratti juru l-istess persuna.

Ejja ninnutaw immedjatament li meta nittestjaw, ikollna aċċess għal diversi parametri u limiti tal-mudell li nistgħu nikkonfiguraw biex niksbu riżultat partikolari. L-API pubblika hija ottimizzata għal preċiżjoni massima fuq każijiet komuni.

Nibdew bl-aktar ħaġa sempliċi, b'rikonoxximent tal-wiċċ ta 'quddiem.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Ukoll, dan kien faċli wisq. Ejja nikkomplikaw il-kompitu, żid daqna u ftit snin.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Xi wħud jgħidu li dan ma kienx wisq diffiċli, għax fiż-żewġ każijiet il-wiċċ kollu huwa viżibbli, u ħafna informazzjoni dwar il-wiċċ hija disponibbli għall-algoritmu. Tajjeb, ejja nbiddlu lil Tom Hardy fi profil. Din il-problema hija ħafna aktar kumplessa, u qattajna ħafna sforz biex insolvuha b'suċċess filwaqt li nżommu rata baxxa ta 'żball: għażilna sett ta' taħriġ, ħsibna fl-arkitettura tan-netwerk newrali, għamilna l-funzjonijiet ta 'telf u tjiebna l-ipproċessar minn qabel. ta’ ritratti.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Ejja npoġġulu headdress:

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Mill-mod, dan huwa eżempju ta 'sitwazzjoni partikolarment diffiċli, peress li l-wiċċ huwa mgħotti ħafna, u fir-ritratt ta' isfel hemm ukoll dell profond li jaħbi l-għajnejn. Fil-ħajja reali, in-nies ħafna drabi jibdlu d-dehra tagħhom bl-għajnuna ta 'nuċċalijiet skuri. Ejja nagħmlu l-istess ma’ Tom.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Tajjeb, ejja nippruvaw nitfaw ritratti ta’ etajiet differenti, u din id-darba nesperimentaw ma’ attur differenti. Ejja nieħdu eżempju ħafna aktar kumpless, fejn il-bidliet relatati mal-età huma speċjalment evidenti. Is-sitwazzjoni mhix imbiegħda; isseħħ spiss meta jkollok bżonn tqabbel ir-ritratt fil-passaport mal-wiċċ ta 'min iġorr. Wara kollox, l-ewwel ritratt jiżdied mal-passaport meta s-sid ikollu 20 sena, u sa l-età ta '45 persuna tista' tinbidel ħafna:

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Taħseb li l-ispeċjalista ewlieni fuq missjonijiet impossibbli ma nbidilx ħafna bl-età? Naħseb li anke ftit nies jgħaqqdu r-ritratti ta 'fuq u ta' isfel, it-tifel inbidel tant matul is-snin.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Netwerks newrali jiltaqgħu ma 'bidliet fid-dehra ħafna aktar spiss. Pereżempju, xi drabi n-nisa jistgħu jibdlu ħafna l-immaġni tagħhom bl-għajnuna tal-kożmetiċi:

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Issa ejja nikkomplikaw il-kompitu saħansitra aktar: ngħidu li partijiet differenti tal-wiċċ huma koperti b'ritratti differenti. F'każijiet bħal dawn, l-algoritmu ma jistax iqabbel kampjuni sħaħ. Madankollu, Vision jimmaniġġja sitwazzjonijiet bħal din tajjeb.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Mill-mod, jista 'jkun hemm ħafna uċuħ f'ritratt; pereżempju, aktar minn 100 persuna jistgħu jidħlu f'ritratt ġenerali ta' sala. Din hija sitwazzjoni diffiċli għan-netwerks newrali, peress li ħafna uċuħ jistgħu jinxtegħlu b'mod differenti, xi wħud barra mill-fokus. Madankollu, jekk ir-ritratt jittieħed b'riżoluzzjoni u kwalità suffiċjenti (mill-inqas 75 pixel għal kull kwadru li jkopri l-wiċċ), il-Viżjoni tkun kapaċi tiskoprih u tagħraf.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Il-partikolarità tar-ritratti tar-rapportaġġ u l-immaġini mill-kameras tas-sorveljanza hija li n-nies ħafna drabi huma mċajpra minħabba li ma kinux iffukati jew kienu qed jiċċaqilqu f’dak il-mument:

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Ukoll, l-intensità tad-dawl tista 'tvarja ħafna minn immaġni għal immaġni. Dan ukoll ħafna drabi jsir ostaklu; ħafna algoritmi għandhom diffikultà kbira biex jipproċessaw b'mod korrett immaġini li huma skuri wisq u ħfief wisq, biex ma nsemmux li jqabbluhom b'mod preċiż. Ħa nfakkarkom li biex tikseb dan ir-riżultat jeħtieġ li tikkonfigura l-limiti b'ċertu mod; din il-karatteristika għadha mhix disponibbli pubblikament. Aħna nużaw l-istess netwerk newrali għall-klijenti kollha; għandu limiti li huma adattati għall-biċċa l-kbira tal-kompiti prattiċi.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Dan l-aħħar ħriġna verżjoni ġdida tal-mudell li tirrikonoxxi l-uċuħ Asjatiċi bi preċiżjoni għolja. Din kienet problema kbira, li saħansitra kienet tissejjaħ ir-razziżmu ta '“tagħlim bil-magni” (jew “netwerk newrali”). Netwerks newrali Ewropej u Amerikani għarfu sew l-uċuħ Kawkasi, iżda bl-uċuħ Mongoloid u Negroid is-sitwazzjoni kienet ħafna agħar. Probabbilment, fiċ-Ċina s-sitwazzjoni kienet eżattament l-oppost. Dan kollu huwa dwar settijiet ta' data ta' taħriġ li jirriflettu t-tipi dominanti ta' nies f'pajjiż partikolari. Madankollu, is-sitwazzjoni qed tinbidel; illum din il-problema mhix daqshekk akuta. Il-viżjoni m'għandha l-ebda problema ma 'nies ta' razez differenti.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Ir-rikonoxximent tal-wiċċ huwa biss waħda mill-ħafna applikazzjonijiet tat-teknoloġija tagħna; Il-Viżjoni tista’ tiġi mħarrġa biex tagħraf xi ħaġa. Pereżempju, pjanċi tal-liċenzja, inkluż f'kundizzjonijiet diffiċli għall-algoritmi: f'angoli qawwija, pjanċi tal-liċenzja maħmuġin u diffiċli biex jinqraw.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

2. Każijiet ta' użu prattiku

2.1. Kontroll tal-aċċess fiżiku: meta żewġ persuni jużaw l-istess pass

Bl-għajnuna ta 'Vision, tista' timplimenta sistemi għar-reġistrazzjoni tal-wasla u t-tluq tal-impjegati. Is-sistema tradizzjonali bbażata fuq passes elettroniċi għandha żvantaġġi ovvji, pereżempju, tista 'tgħaddi żewġ persuni billi tuża badge waħda. Jekk is-sistema ta 'kontroll ta' aċċess (ACS) hija supplimentata bil-Viżjoni, se tirreġistra b'mod onest min ġie / telaq u meta.

2.2. Traċċar tal-ħin

Dan il-każ ta' użu tal-Viżjoni huwa relatat mill-qrib ma' dak ta' qabel. Jekk tissupplimenta s-sistema ta 'aċċess bis-servizz tagħna ta' rikonoxximent tal-wiċċ, tkun tista 'mhux biss tiskopri vjolazzjonijiet tal-kontroll tal-aċċess, iżda wkoll tirreġistra l-preżenza attwali tal-impjegati fil-bini jew fil-faċilità. Fi kliem ieħor, Vision se jgħinek onestament tqis min ġie għax-xogħol u telaq f’liema ħin, u min qabeż ix-xogħol għal kollox, anke jekk il-kollegi tiegħu koprewlu quddiem is-superjuri tiegħu.

2.3. Analiżi tal-Vidjo: Intraċċar u Sigurtà tan-Nies

Billi ssegwi n-nies li jużaw Vision, tista 'tivvaluta b'mod preċiż it-traffiku reali ta' żoni tax-xiri, stazzjonijiet tal-ferrovija, passaġġi, toroq u ħafna postijiet pubbliċi oħra. It-traċċar tagħna jista 'jkun ukoll ta' għajnuna kbira fil-kontroll tal-aċċess, pereżempju, għal maħżen jew bini importanti ieħor tal-uffiċċju. U ovvjament, it-traċċar tan-nies u l-uċuħ jgħin biex issolvi l-problemi tas-sigurtà. Qbadt lil xi ħadd jisraq mill-maħżen tiegħek? Żid il-PersonID tiegħu, li ġie rritornat minn Vision, mal-lista s-sewda tas-software tal-analiżi tal-vidjo tiegħek, u d-darba li jmiss is-sistema immedjatament tavża lis-sigurtà jekk dan it-tip jerġa' jidher.

2.4. Fil-kummerċ

In-negozji tal-bejgħ bl-imnut u diversi servizzi huma interessati fir-rikonoxximent tal-kju. Bl-għajnuna ta 'Vision, tista' tagħraf li din mhix folla każwali ta 'nies, iżda kju, u tiddetermina t-tul tagħha. U mbagħad is-sistema tinforma lil dawk inkarigati dwar kju sabiex ikunu jistgħu jifhmu s-sitwazzjoni: jew ikun hemm influss ta 'viżitaturi u jeħtieġ li jissejħu ħaddiema addizzjonali, jew xi ħadd qed jonqos mid-dmirijiet tax-xogħol tiegħu.

Kompitu ieħor interessanti huwa li tissepara l-impjegati tal-kumpanija fis-sala mill-viżitaturi. Tipikament, is-sistema hija mħarrġa biex tissepara oġġetti li jilbsu ċerti ħwejjeġ (kodiċi tal-ilbies) jew b'xi karatteristika distintiva (xalpa tad-ditta, badge fuq is-sider, eċċ). Dan jgħin biex tiġi evalwata b'mod aktar preċiż l-attendenza (sabiex l-impjegati ma "jgħollux" l-istatistika tan-nies fis-sala bis-sempliċi preżenza tagħhom).

Bl-użu tar-rikonoxximent tal-wiċċ, tista 'wkoll tevalwa l-udjenza tiegħek: x'inhi l-lealtà tal-viżitaturi, jiġifieri, kemm nies jerġgħu lura fl-istabbiliment tiegħek u b'liema frekwenza. Ikkalkula kemm viżitaturi uniċi jiġu għandek kull xahar. Biex tottimizza l-ispejjeż tal-attrazzjoni u ż-żamma, tista 'ssib ukoll il-bidla fit-traffiku skont il-ġurnata tal-ġimgħa u anke l-ħin tal-ġurnata.

Il-franchisors u l-kumpaniji tal-katina jistgħu jordnaw valutazzjoni tar-ritratti tal-kwalità tal-marka ta 'diversi ħwienet tal-bejgħ bl-imnut: il-preżenza ta' logos, sinjali, posters, banners, eċċ.

2.5. Bit-trasport

Eżempju ieħor ta’ kif tiġi żgurata s-sigurtà bl-użu tal-analiżi tal-vidjo huwa l-identifikazzjoni ta’ oġġetti abbandunati fis-swali tal-ajruporti jew tal-istazzjonijiet tal-ferrovija. Il-viżjoni tista 'tiġi mħarrġa biex tagħraf oġġetti ta' mijiet ta 'klassijiet: biċċiet ta' għamara, basktijiet, valiġġi, umbrelel, diversi tipi ta 'ħwejjeġ, fliexken, eċċ. Jekk is-sistema analitika tal-vidjo tiegħek tiskopri oġġett mingħajr sid u tagħraf billi tuża Vision, tibgħat sinjal lis-servizz tas-sigurtà. Kompitu simili huwa assoċjat ma 'l-iskoperta awtomatika ta' sitwazzjonijiet mhux tas-soltu f'postijiet pubbliċi: xi ħadd iħossu ħażin, jew xi ħadd ipejjep fil-post ħażin, jew persuna taqa 'fuq il-binarji, eċċ - dawn ix-xejriet kollha jistgħu jiġu rikonoxxuti minn sistemi analitiċi tal-vidjo permezz tal-Vision API.

2.6. Fluss tad-dokument

Applikazzjoni oħra interessanti fil-futur ta' Vision li qed niżviluppaw bħalissa hija r-rikonoxximent tad-dokumenti u l-analiżi awtomatika tagħhom f'databases. Minflok ma ddaħħal manwalment (jew agħar minn hekk, iddaħħal) serje bla tarf, numri, dati tal-ħruġ, numri tal-kontijiet, dettalji bankarji, dati u postijiet tat-twelid u ħafna data formalizzata oħra, tista’ tiskennja dokumenti u tibgħathom awtomatikament minn kanal sigur permezz tal- API għall-sħaba, fejn is-sistema tirrikonoxxi dawn id-dokumenti fuq il-fly, tisparsahom u tirritorna tweġiba bid-dejta fil-format meħtieġ għal dħul awtomatiku fid-database. Illum Vision diġà taf kif tikklassifika dokumenti (inkluż PDF) - tiddistingwi bejn passaporti, SNILS, TIN, ċertifikati tat-twelid, ċertifikati taż-żwieġ u oħrajn.

Naturalment, in-netwerk newrali mhuwiex kapaċi jimmaniġġja dawn is-sitwazzjonijiet kollha barra mill-kaxxa. F'kull każ, jinbena mudell ġdid għal klijent speċifiku, jitqiesu ħafna fatturi, sfumaturi u rekwiżiti, jintgħażlu settijiet ta 'dejta, u jsiru iterazzjonijiet ta' taħriġ, ittestjar u konfigurazzjoni.

3. Skema ta 'operazzjoni API

Il-"bieb tad-dħul" tal-Viżjoni għall-utenti huwa l-API REST. Jista 'jirċievi ritratti, fajls tal-vidjo u xandiriet minn kameras tan-netwerk (flussi RTSP) bħala input.

Biex tuża Vision, għandek bżonn jirreġistraw fis-servizz Mail.ru Cloud Solutions u tirċievi tokens ta’ aċċess (client_id + client_secret). L-awtentikazzjoni tal-utent titwettaq bl-użu tal-protokoll OAuth. Id-dejta tas-sors fil-korpi tat-talbiet tal-POST tintbagħat lill-API. U bi tweġiba, il-klijent jirċievi mill-API riżultat ta 'rikonoxximent fil-format JSON, u r-rispons huwa strutturat: fih informazzjoni dwar l-oġġetti misjuba u l-koordinati tagħhom.

B'daqna, nuċċalijiet skuri u fil-profil: sitwazzjonijiet diffiċli għall-viżjoni tal-kompjuter

Tweġiba tal-kampjun

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

It-tweġiba fiha parametru tal-biża 'interessanti - din hija l-"coolness" kondizzjonali ta' wiċċ f'ritratt, bl-għajnuna tagħha aħna nagħżlu l-aħjar sparatura ta 'wiċċ mis-sekwenza. Ħarrġajna netwerk newrali biex inbassru l-probabbiltà li ritratt jingħoġob fuq in-netwerks soċjali. L-aħjar il-kwalità tar-ritratt u l-aktar jitbissem il-wiċċ, l-akbar l-awesomeness.

API Vision juża kunċett imsejjaħ spazju. Din hija għodda għall-ħolqien ta 'settijiet differenti ta' uċuħ. Eżempji ta’ spazji huma listi suwed u bojod, listi ta’ viżitaturi, impjegati, klijenti, eċċ. Għal kull token f’Vision, tista’ toħloq sa 10 spazji, kull spazju jista’ jkollu sa 50 elf PersonIDs, jiġifieri sa 500 elf kull token. Barra minn hekk, in-numru ta 'tokens għal kull kont mhuwiex limitat.

Illum l-API tappoġġja l-metodi ta' skoperta u rikonoxximent li ġejjin:

  • Agħraf/Issettja - skoperta u rikonoxximent tal-uċuħ. Awtomatikament jassenja PersonID lil kull persuna unika, jirritorna l-PersonID u l-koordinati tal-persuni misjuba.
  • Ħassar - tħassar PersonID speċifiku mid-database tal-persuna.
  • Truncate - ikklerja l-ispazju kollu minn PersonID, utli jekk intuża bħala spazju tat-test u għandek bżonn tirrisettja d-database għall-produzzjoni.
  • Sejbien - skoperta ta' oġġetti, xeni, pjanċi tal-liċenzja, postijiet familjari, kjuwijiet, eċċ. Jirritorna l-klassi ta' oġġetti misjuba u l-koordinati tagħhom
  • Issib għal dokumenti - jiskopri tipi speċifiċi ta 'dokumenti tal-Federazzjoni Russa (jiddistingwi passaport, SNILS, numru ta' identifikazzjoni tat-taxxa, eċċ.).

Dalwaqt se nkunu wkoll inlestu x-xogħol fuq metodi għall-OCR, li jiddeterminaw is-sess, l-età u l-emozzjonijiet, kif ukoll insolvu problemi ta 'merchandising, jiġifieri, għall-kontroll awtomatiku tal-wiri ta' oġġetti fil-ħwienet. Tista' ssib dokumentazzjoni kompleta tal-API hawn: https://mcs.mail.ru/help/vision-api

4. Konklużjoni

Issa, permezz tal-API pubbliku, tista 'taċċessa r-rikonoxximent tal-wiċċ f'ritratti u vidjows; l-identifikazzjoni ta' diversi oġġetti, pjanċi tal-liċenzja, postijiet familjari, dokumenti u xeni sħaħ hija appoġġjata. Xenarji ta 'applikazzjoni - il-baħar. Ejja, ittestja s-servizz tagħna, waqqafha l-aktar kompiti delikati. L-ewwel 5000 tranżazzjoni huma b'xejn. Forsi se jkun l-"ingredjent nieqes" għall-proġetti tiegħek.

Tista' taċċessa l-API istantanjament wara r-reġistrazzjoni u l-konnessjoni. viżjoni. L-utenti kollha ta' Habra jirċievu kodiċi promozzjonali għal tranżazzjonijiet addizzjonali. Jekk jogħġbok iktebli l-indirizz elettroniku li użajt biex irreġistra l-kont tiegħek!

Sors: www.habr.com

Żid kumment