Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ang mga teknolohiya at modelo para sa aming computer vision system sa hinaharap ay nilikha at pinahusay nang paunti-unti at sa iba't ibang proyekto ng aming kumpanya - sa Mail, Cloud, Search. Nag-mature sila tulad ng magandang keso o cognac. Isang araw, napagtanto namin na ang aming mga neural network ay nagpapakita ng mahusay na mga resulta bilang pagkilala, at nagpasya kaming pagsamahin ang mga ito sa isang solong produkto ng b2b - Vision - na ginagamit namin ngayon sa aming sarili at nag-aalok sa iyo na gamitin.

Ngayon, ang aming teknolohiya sa computer vision sa platform ng Mail.Ru Cloud Solutions ay matagumpay na gumagana at nilulutas ang napakasalimuot na praktikal na mga problema. Ito ay batay sa ilang mga neural network na sinanay sa aming mga set ng data at dalubhasa sa paglutas ng mga inilapat na problema. Ang lahat ng mga serbisyo ay tumatakbo sa aming mga pasilidad ng server. Maaari mong isama ang pampublikong Vision API sa iyong mga application, kung saan magagamit ang lahat ng mga kakayahan ng serbisyo. Mabilis ang API - salamat sa mga GPU ng server, ang average na oras ng pagtugon sa loob ng aming network ay 100 ms.

Pumunta sa pusa, mayroong isang detalyadong kuwento at maraming mga halimbawa ng gawain ng Vision.

Ang isang halimbawa ng isang serbisyo kung saan kami mismo ang gumagamit ng nabanggit na mga teknolohiya sa pagkilala sa mukha ay Mga Kaganapan. Ang isa sa mga bahagi nito ay ang Vision photo stand, na ini-install namin sa iba't ibang mga kumperensya. Kung lalapit ka sa naturang photo stand, kumuha ng litrato gamit ang built-in na camera at ilagay ang iyong email, makikita kaagad ng system sa hanay ng mga larawan ang mga nakuhanan ka ng mga photographer ng staff ng conference, at, kung ninanais, ipapadala sa iyo ang mga nahanap na litrato sa pamamagitan ng email. At hindi namin pinag-uusapan ang tungkol sa mga naka-stage na portrait shotβ€”nakikilala ka ng Vision kahit na sa mismong background sa karamihan ng mga bisita. Siyempre, hindi ang mismong larawan ang kinikilala, ang mga ito ay mga tablet lamang sa magagandang stand na kumukuha lang ng mga larawan ng mga bisita gamit ang kanilang mga built-in na camera at nagpapadala ng impormasyon sa mga server, kung saan nangyayari ang lahat ng magic ng pagkilala. At nakita namin nang higit sa isang beses kung gaano nakakagulat ang pagiging epektibo ng teknolohiya kahit na sa mga espesyalista sa pagkilala ng imahe. Sa ibaba ay pag-uusapan natin ang ilang mga halimbawa.

1. Ang Ating Modelo sa Pagkilala sa Mukha

1.1. Neural network at bilis ng pagproseso

Para sa pagkilala, gumagamit kami ng pagbabago ng modelo ng neural network ng ResNet 101. Ang Average na Pooling sa dulo ay pinapalitan ng isang ganap na konektadong layer, katulad ng kung paano ito ginagawa sa ArcFace. Gayunpaman, ang laki ng mga representasyon ng vector ay 128, hindi 512. Ang aming set ng pagsasanay ay naglalaman ng humigit-kumulang 10 milyong larawan ng 273 katao.

Ang modelo ay tumatakbo nang napakabilis salamat sa isang maingat na napiling arkitektura ng configuration ng server at GPU computing. Ito ay tumatagal mula sa 100 ms upang makatanggap ng tugon mula sa API sa aming mga panloob na network - kabilang dito ang pagtukoy ng mukha (pagtukoy ng mukha sa isang larawan), pagkilala at pagbabalik ng PersonID sa tugon ng API. Sa malaking dami ng papasok na data - mga larawan at video - kakailanganin ng mas maraming oras upang ilipat ang data sa serbisyo at makatanggap ng tugon.

1.2. Pagtatasa ng pagiging epektibo ng modelo

Ngunit ang pagtukoy sa kahusayan ng mga neural network ay isang napaka-hindi maliwanag na gawain. Ang kalidad ng kanilang trabaho ay depende sa kung saang data set ang mga modelo ay sinanay at kung sila ay na-optimize para sa pagtatrabaho sa partikular na data.

Sinimulan naming suriin ang katumpakan ng aming modelo gamit ang sikat na LFW verification test, ngunit ito ay masyadong maliit at simple. Matapos maabot ang 99,8% na katumpakan, hindi na ito kapaki-pakinabang. Mayroong isang mahusay na kumpetisyon para sa pagsusuri ng mga modelo ng pagkilala - Megaface, kung saan unti-unti naming naabot ang 82% na ranggo 1. Ang Megaface test ay binubuo ng isang milyong mga larawan - mga distractor - at ang modelo ay dapat na mahusay na makilala ang ilang libong mga larawan ng mga kilalang tao mula sa Facescrub dataset mula sa mga distractor. Gayunpaman, nang na-clear ang Megaface test ng mga error, nalaman namin na sa na-clear na bersyon ay nakakamit namin ang katumpakan ng 98% na ranggo 1 (ang mga larawan ng mga celebrity ay karaniwang medyo partikular). Samakatuwid, lumikha sila ng isang hiwalay na pagsubok sa pagkakakilanlan, katulad ng Megaface, ngunit may mga larawan ng "ordinaryong" tao. Pagkatapos ay pinahusay namin ang katumpakan ng pagkilala sa aming mga dataset at nauna kami. Bilang karagdagan, gumagamit kami ng pagsubok sa kalidad ng clustering na binubuo ng ilang libong larawan; ginagaya nito ang face tagging sa cloud ng user. Sa kasong ito, ang mga cluster ay mga grupo ng magkatulad na indibidwal, isang grupo para sa bawat nakikilalang tao. Sinuri namin ang kalidad ng trabaho sa mga totoong grupo (totoo).

Siyempre, nangyayari ang mga error sa pagkilala sa anumang modelo. Ngunit ang mga ganitong sitwasyon ay kadalasang nareresolba sa pamamagitan ng pag-fine-tune ng mga threshold para sa mga partikular na kundisyon (para sa lahat ng kumperensya ay gumagamit kami ng parehong mga limitasyon, ngunit, halimbawa, para sa mga access control system kailangan naming pataasin nang husto ang mga threshold para mas kaunti ang mga false positive). Ang karamihan sa mga bisita sa kumperensya ay nakilala nang tama ng aming mga photo booth ng Vision. Minsan may tumitingin sa na-crop na preview at sasabihin, "Nagkamali ang system mo, hindi ako." Then we opened the photo in its entirety, and it turned out na meron talaga itong bisita sa photo, hindi lang namin siya kinukunan, pero ibang tao, nagkataon lang na nasa background ang tao sa blur zone. Bukod dito, ang neural network ay madalas na nakikilala nang tama kahit na ang bahagi ng mukha ay hindi nakikita, o ang tao ay nakatayo sa profile, o kahit na kalahating nakatalikod. Ang sistema ay maaaring makilala ang isang tao kahit na ang mukha ay nasa lugar ng optical distortion, halimbawa, kapag nag-shoot gamit ang isang wide-angle lens.

1.3. Mga halimbawa ng pagsubok sa mahihirap na sitwasyon

Nasa ibaba ang mga halimbawa kung paano gumagana ang aming neural network. Ang mga larawan ay isinumite sa input, na dapat niyang lagyan ng label gamit ang PersonID - isang natatanging identifier ng isang tao. Kung ang dalawa o higit pang mga larawan ay may parehong ID, kung gayon, ayon sa mga modelo, ang mga larawang ito ay naglalarawan ng parehong tao.

Tandaan natin kaagad na kapag sumusubok, mayroon tayong access sa iba't ibang mga parameter at mga threshold ng modelo na maaari nating i-configure upang makamit ang isang partikular na resulta. Ang pampublikong API ay na-optimize para sa maximum na katumpakan sa mga karaniwang kaso.

Magsimula tayo sa pinakasimpleng bagay, na may pagkilala sa mukha sa harap.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Well, iyon ay masyadong madali. Palubhain natin ang gawain, magdagdag ng balbas at ilang taon.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ang ilan ay magsasabi na ito ay hindi rin masyadong mahirap, dahil sa parehong mga kaso ang buong mukha ay nakikita, at maraming impormasyon tungkol sa mukha ang magagamit sa algorithm. Okay, gawing profile natin si Tom Hardy. Ang problemang ito ay mas kumplikado, at gumugol kami ng maraming pagsisikap upang matagumpay na malutas ito habang pinapanatili ang isang mababang rate ng error: pumili kami ng set ng pagsasanay, pinag-isipan ang arkitektura ng neural network, hinasa ang mga function ng pagkawala at pinahusay ang pre-processing ng mga litrato.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Lagyan natin siya ng headdress:

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Sa pamamagitan ng paraan, ito ay isang halimbawa ng isang partikular na mahirap na sitwasyon, dahil ang mukha ay labis na nakakubli, at sa ilalim na larawan mayroon ding malalim na anino na nagtatago sa mga mata. Sa totoong buhay, madalas na binabago ng mga tao ang kanilang hitsura sa tulong ng madilim na baso. Gawin din natin si Tom.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Okay, subukan nating maglagay ng mga larawan mula sa iba't ibang edad, at sa pagkakataong ito ay mag-eeksperimento tayo sa ibang aktor. Kumuha tayo ng isang mas kumplikadong halimbawa, kung saan ang mga pagbabagong nauugnay sa edad ay partikular na binibigkas. Ang sitwasyon ay hindi malayo, madalas itong nangyayari kapag kailangan mong ihambing ang larawan sa pasaporte sa mukha ng maydala. Pagkatapos ng lahat, ang unang larawan ay idinagdag sa isang pasaporte kapag ang may-ari ay 20 taong gulang, at sa edad na 45 ang isang tao ay maaaring magbago nang malaki:

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Sa palagay mo ba ang pangunahing espesyalista sa mga imposibleng misyon ay hindi nagbago nang malaki sa edad? Sa tingin ko, kahit na ilang tao ang pagsasama-samahin ang mga larawan sa itaas at ibaba, ang batang lalaki ay nagbago nang malaki sa mga nakaraang taon.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ang mga neural network ay nakakaranas ng mga pagbabago sa hitsura nang mas madalas. Halimbawa, kung minsan ang mga kababaihan ay maaaring lubos na magbago ng kanilang imahe sa tulong ng mga pampaganda:

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ngayon ay mas gawing kumplikado ang gawain: ipagpalagay na ang iba't ibang bahagi ng mukha ay natatakpan ng iba't ibang mga larawan. Sa ganitong mga kaso, hindi maihahambing ng algorithm ang buong sample. Gayunpaman, mahusay na pinangangasiwaan ng Vision ang mga sitwasyong tulad nito.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Sa pamamagitan ng paraan, maaaring mayroong maraming mga mukha sa isang larawan; halimbawa, higit sa 100 mga tao ang maaaring magkasya sa isang pangkalahatang larawan ng isang bulwagan. Ito ay isang mahirap na sitwasyon para sa mga neural network, dahil maraming mga mukha ang maaaring iba-iba ang liwanag, ang ilan ay wala sa focus. Gayunpaman, kung ang larawan ay kinunan nang may sapat na resolution at kalidad (hindi bababa sa 75 pixels bawat parisukat na sumasakop sa mukha), magagawang makita at makilala ito ng Vision.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ang kakaiba ng mga larawan sa pag-uulat at mga larawan mula sa mga surveillance camera ay madalas na malabo ang mga tao dahil wala sila sa focus o gumagalaw sa sandaling iyon:

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Gayundin, ang intensity ng pag-iilaw ay maaaring mag-iba nang malaki sa bawat larawan. Ito rin ay madalas na nagiging hadlang; maraming mga algorithm ang nahihirapang wastong iproseso ang mga larawang masyadong madilim at masyadong magaan, bukod pa sa tumpak na pagtutugma ng mga ito. Ipaalala ko sa iyo na para makamit ang resultang ito kailangan mong i-configure ang mga threshold sa isang partikular na paraan; hindi pa available sa publiko ang feature na ito. Ginagamit namin ang parehong neural network para sa lahat ng kliyente; mayroon itong mga limitasyon na angkop para sa karamihan ng mga praktikal na gawain.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Inilunsad namin kamakailan ang isang bagong bersyon ng modelo na kumikilala sa mga mukha ng Asyano na may mataas na katumpakan. Dati itong isang malaking problema, na tinawag pa nga na "machine learning" (o "neural network") na rasismo. Kinikilala ng mga European at American neural network ang mga mukha ng Caucasian, ngunit sa mga mukha ng Mongoloid at Negroid ay mas malala ang sitwasyon. Marahil, sa Tsina ang sitwasyon ay eksaktong kabaligtaran. Lahat ito ay tungkol sa pagsasanay sa mga set ng data na nagpapakita ng mga nangingibabaw na uri ng mga tao sa isang partikular na bansa. Gayunpaman, ang sitwasyon ay nagbabago; ngayon ang problemang ito ay hindi masyadong talamak. Walang problema ang paningin sa mga taong may iba't ibang lahi.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Ang pagkilala sa mukha ay isa lamang sa maraming aplikasyon ng aming teknolohiya; Maaaring sanayin ang paningin upang makilala ang anuman. Halimbawa, ang mga plaka ng lisensya, kabilang ang sa mga kundisyong mahirap para sa mga algorithm: sa matalim na anggulo, marumi at mahirap basahin ang mga plaka ng lisensya.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

2. Mga praktikal na kaso ng paggamit

2.1. Pisikal na kontrol sa pag-access: kapag ginamit ng dalawang tao ang parehong pass

Sa tulong ng Vision, maaari kang magpatupad ng mga sistema para sa pagtatala ng pagdating at pag-alis ng mga empleyado. Ang tradisyunal na sistema batay sa mga electronic pass ay may halatang kawalan, halimbawa, maaari mong ipasa ang dalawang tao gamit ang isang badge. Kung ang access control system (ACS) ay pupunan ng Vision, ito ay tapat na magtatala kung sino ang dumating/umalis at kung kailan.

2.2. Pagsubaybay sa oras

Ang kaso ng paggamit ng Vision na ito ay malapit na nauugnay sa nauna. Kung pupunan mo ang sistema ng pag-access ng aming serbisyo sa pagkilala sa mukha, hindi lamang nito matutukoy ang mga paglabag sa kontrol sa pag-access, kundi pati na rin irehistro ang aktwal na presensya ng mga empleyado sa gusali o pasilidad. Sa madaling salita, tutulungan ka ng Vision na matapat na isaalang-alang kung sino ang pumasok sa trabaho at umalis sa anong oras, at kung sino ang lubusang lumaktaw sa trabaho, kahit na ang kanyang mga kasamahan ay nagtakpan para sa kanya sa harap ng kanyang mga superyor.

2.3. Video Analytics: Pagsubaybay at Seguridad ng mga Tao

Sa pamamagitan ng pagsubaybay sa mga tao gamit ang Vision, maaari mong tumpak na masuri ang tunay na trapiko ng mga shopping area, istasyon ng tren, mga daanan, kalye at marami pang ibang pampublikong lugar. Ang aming pagsubaybay ay maaari ding maging malaking tulong sa pagkontrol sa pag-access, halimbawa, sa isang bodega o iba pang mahalagang lugar ng opisina. At siyempre, ang pagsubaybay sa mga tao at mukha ay nakakatulong sa paglutas ng mga problema sa seguridad. Nahuling may nagnanakaw sa iyong tindahan? Idagdag ang kanyang PersonID, na ibinalik ng Vision, sa blacklist ng iyong video analytics software, at sa susunod na pagkakataon ay agad na aalertuhan ng system ang seguridad kung lilitaw muli ang ganitong uri.

2.4. Sa kalakalan

Interesado sa pagkilala ng queue ang mga retail at iba't ibang serbisyong negosyo. Sa tulong ng Vision, maaari mong makilala na ito ay hindi isang random na karamihan ng tao, ngunit isang pila, at matukoy ang haba nito. At pagkatapos ay ipinapaalam ng system sa mga kinauukulan ang tungkol sa isang pila para malaman nila ang sitwasyon: maaaring may pagdagsa ng mga bisita at kailangang tawagan ang mga karagdagang manggagawa, o may nagpapabaya sa kanilang mga tungkulin sa trabaho.

Ang isa pang kawili-wiling gawain ay ang paghiwalayin ang mga empleyado ng kumpanya sa bulwagan mula sa mga bisita. Karaniwan, ang sistema ay sinanay upang paghiwalayin ang mga bagay na may suot na partikular na damit (dress code) o may ilang natatanging katangian (branded scarf, badge sa dibdib, at iba pa). Nakakatulong ito upang mas tumpak na masuri ang pagdalo (upang ang mga empleyado ay hindi "mapalaki" ang mga istatistika ng mga tao sa bulwagan sa pamamagitan lamang ng kanilang presensya).

Gamit ang pagkilala sa mukha, maaari mo ring suriin ang iyong madla: kung ano ang katapatan ng mga bisita, iyon ay, kung gaano karaming mga tao ang bumalik sa iyong pagtatatag at kung gaano kadalas. Kalkulahin kung gaano karaming mga natatanging bisita ang pumupunta sa iyo bawat buwan. Upang ma-optimize ang mga gastos sa pang-akit at pagpapanatili, maaari mo ring malaman ang pagbabago sa trapiko depende sa araw ng linggo at maging sa oras ng araw.

Ang mga franchisor at mga kumpanya ng chain ay maaaring mag-order ng isang pagtatasa batay sa mga larawan ng kalidad ng pagba-brand ng iba't ibang mga retail outlet: ang pagkakaroon ng mga logo, mga palatandaan, mga poster, mga banner, at iba pa.

2.5. Sa pamamagitan ng transportasyon

Ang isa pang halimbawa ng pagtiyak ng seguridad gamit ang video analytics ay ang pagtukoy ng mga inabandunang item sa mga bulwagan ng mga paliparan o istasyon ng tren. Maaaring sanayin ang paningin upang makilala ang mga bagay ng daan-daang klase: mga piraso ng muwebles, bag, maleta, payong, iba't ibang uri ng damit, bote, at iba pa. Kung ang iyong video analytics system ay nakakita ng isang bagay na walang may-ari at nakilala ito gamit ang Vision, nagpapadala ito ng signal sa serbisyo ng seguridad. Ang isang katulad na gawain ay nauugnay sa awtomatikong pag-detect ng mga hindi pangkaraniwang sitwasyon sa mga pampublikong lugar: may nakararamdam ng karamdaman, o may naninigarilyo sa maling lugar, o nahulog ang isang tao sa riles, at iba pa - lahat ng mga pattern na ito ay maaaring makilala ng mga video analytics system sa pamamagitan ng Vision API.

2.6. Daloy ng dokumento

Ang isa pang kawili-wiling aplikasyon sa hinaharap ng Vision na kasalukuyang ginagawa namin ay ang pagkilala sa dokumento at ang kanilang awtomatikong pag-parse sa mga database. Sa halip na manu-manong ipasok (o mas masahol pa, ipasok) ang walang katapusang serye, numero, petsa ng isyu, numero ng account, detalye ng bangko, petsa at lugar ng kapanganakan at marami pang iba pang pormal na data, maaari mong i-scan ang mga dokumento at awtomatikong ipadala ang mga ito sa isang secure na channel sa pamamagitan ng API sa cloud, kung saan makikilala ng system ang mga dokumentong ito sa mabilisang paraan, i-parse ang mga ito at magbabalik ng tugon na may data sa kinakailangang format para sa awtomatikong pagpasok sa database. Ngayon alam na ng Vision kung paano i-classify ang mga dokumento (kabilang ang PDF) - nakikilala sa pagitan ng mga pasaporte, SNILS, TIN, mga sertipiko ng kapanganakan, mga sertipiko ng kasal at iba pa.

Siyempre, hindi kayang hawakan ng neural network ang lahat ng mga sitwasyong ito sa labas ng kahon. Sa bawat kaso, ang isang bagong modelo ay binuo para sa isang partikular na customer, maraming mga kadahilanan, mga nuances at mga kinakailangan ang isinasaalang-alang, ang mga set ng data ay pinili, at ang mga pag-ulit ng pagsasanay, pagsubok, at pagsasaayos ay isinasagawa.

3. scheme ng pagpapatakbo ng API

Ang "gate ng pasukan" ng Vision para sa mga user ay ang REST API. Maaari itong makatanggap ng mga larawan, video file at broadcast mula sa mga network camera (RTSP stream) bilang input.

Upang magamit ang Vision, kailangan mo magparehistro sa serbisyo ng Mail.ru Cloud Solutions at tumanggap ng mga token ng pag-access (client_id + client_secret). Isinasagawa ang pagpapatotoo ng user gamit ang OAuth protocol. Ang pinagmumulan ng data sa mga katawan ng mga kahilingan sa POST ay ipinapadala sa API. At bilang tugon, natatanggap ng kliyente mula sa API ang isang resulta ng pagkilala sa format na JSON, at ang tugon ay nakabalangkas: naglalaman ito ng impormasyon tungkol sa mga nahanap na bagay at kanilang mga coordinate.

Sa isang balbas, sa madilim na baso at sa profile: mahirap na mga sitwasyon para sa computer vision

Halimbawang sagot

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Ang sagot ay naglalaman ng isang kawili-wiling parameter na awesomeness - ito ang kondisyon na "cool" ng isang mukha sa isang larawan, sa tulong nito ay pinili namin ang pinakamahusay na shot ng isang mukha mula sa pagkakasunud-sunod. Nagsanay kami ng neural network para mahulaan ang posibilidad na magugustuhan ang isang larawan sa mga social network. Kung mas mahusay ang kalidad ng larawan at mas nakangiti ang mukha, mas malaki ang kasindak-sindak.

Gumagamit ang API Vision ng konseptong tinatawag na space. Ito ay isang tool para sa paglikha ng iba't ibang hanay ng mga mukha. Ang mga halimbawa ng mga puwang ay mga black and white na listahan, mga listahan ng mga bisita, empleyado, kliyente, atbp. Para sa bawat token sa Vision, maaari kang lumikha ng hanggang 10 puwang, ang bawat espasyo ay maaaring magkaroon ng hanggang 50 libong PersonID, iyon ay, hanggang 500 libo bawat token. Bukod dito, ang bilang ng mga token sa bawat account ay hindi limitado.

Ngayon ang API ay sumusuporta sa mga sumusunod na paraan ng pagtuklas at pagkilala:

  • Kilalanin/Itakda - pagtuklas at pagkilala ng mga mukha. Awtomatikong nagtatalaga ng PersonID sa bawat natatanging tao, ibinabalik ang PersonID at mga coordinate ng mga natagpuang tao.
  • Tanggalin - pagtanggal ng isang partikular na PersonID mula sa database ng tao.
  • Truncate - nililinis ang buong espasyo mula sa PersonID, kapaki-pakinabang kung ginamit ito bilang isang espasyo sa pagsubok at kailangan mong i-reset ang database para sa produksyon.
  • Detect - pagtuklas ng mga bagay, eksena, plaka ng lisensya, landmark, pila, atbp. Ibinabalik ang klase ng mga nahanap na bagay at ang kanilang mga coordinate
  • Detect para sa mga dokumento - nakita ang mga tiyak na uri ng mga dokumento ng Russian Federation (nakikilala ang pasaporte, SNILS, numero ng pagkakakilanlan ng buwis, atbp.).

Malapit na rin naming tapusin ang mga pamamaraan para sa OCR, pagtukoy ng kasarian, edad at emosyon, pati na rin ang paglutas ng mga problema sa merchandising, iyon ay, para sa awtomatikong pagkontrol sa pagpapakita ng mga kalakal sa mga tindahan. Makakakita ka ng kumpletong dokumentasyon ng API dito: https://mcs.mail.ru/help/vision-api

4. Konklusyon

Ngayon, sa pamamagitan ng pampublikong API, maa-access mo ang pagkilala sa mukha sa mga larawan at video; sinusuportahan ang pagkakakilanlan ng iba't ibang bagay, plaka ng lisensya, landmark, dokumento at buong eksena. Mga sitwasyon ng aplikasyon - ang dagat. Halika, subukan ang aming serbisyo, itakda ito sa mga pinaka nakakalito na gawain. Ang unang 5000 na transaksyon ay libre. Marahil ito ang magiging "nawawalang sangkap" para sa iyong mga proyekto.

Maaari mong agad na ma-access ang API sa pagrehistro at koneksyon. paningin. Lahat ng mga gumagamit ng Habra ay tumatanggap ng code na pang-promosyon para sa mga karagdagang transaksyon. Mangyaring isulat sa akin ang email address na ginamit mo upang irehistro ang iyong account!

Pinagmulan: www.habr.com

Magdagdag ng komento