Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

TehnoloÄ£ijas un modeļi mÅ«su nākotnes datorredzes sistēmai tika radÄ«ti un pilnveidoti pakāpeniski un dažādos mÅ«su uzņēmuma projektos - Mail, Cloud, Search. Tie nogatavojās kā labs siers vai konjaks. Kādu dienu sapratām, ka mÅ«su neironu tÄ«kli uzrāda izcilus rezultātus atpazÄ«Å”anā, un nolēmām tos apvienot vienā b2b produktā ā€“ Vision ā€“ ko tagad lietojam paÅ”i un piedāvājam izmantot arÄ« jums.

Å odien mÅ«su datorredzes tehnoloÄ£ija Mail.Ru Cloud Solutions platformā veiksmÄ«gi darbojas un risina ļoti sarežģītas praktiskas problēmas. Tas ir balstÄ«ts uz vairākiem neironu tÄ«kliem, kas ir apmācÄ«ti mÅ«su datu kopās un specializējas lietiŔķo problēmu risināŔanā. Visi pakalpojumi darbojas mÅ«su serveru iekārtās. Savās lietojumprogrammās varat integrēt publisko Vision API, caur kuru ir pieejamas visas pakalpojuma iespējas. API ir ātra ā€” pateicoties servera GPU, vidējais reakcijas laiks mÅ«su tÄ«klā ir 100 ms.

Dodieties uz kaķi, tur ir detalizēts stāsts un daudzi Vīzijas darba piemēri.

Pakalpojuma piemērs, kurā mēs paÅ”i izmantojam minētās sejas atpazÄ«Å”anas tehnoloÄ£ijas, ir Pasākumi. Viena no tā sastāvdaļām ir Vision foto stendi, kurus uzstādām dažādās konferencēs. Pieejot pie Ŕāda foto stenda, nofotografējiet ar iebÅ«vēto kameru un ievadiet savu e-pastu, sistēma fotogrāfiju masÄ«vā nekavējoties atradÄ«s tās, kurās jÅ«s iemūžinājuÅ”i konferences darbinieki, un, ja vēlaties, atrastās fotogrāfijas nosÅ«tÄ«s jums pa e-pastu. Un mēs nerunājam par iestudētiem portreta kadriem ā€” Vision jÅ«s atpazÄ«st pat apmeklētāju pūļa fonā. Protams, netiek atpazÄ«ti paÅ”i foto stendi, tie ir tikai planÅ”etdatori skaistos stendos, kas vienkārÅ”i fotografē viesus ar iebÅ«vētajām kamerām un pārraida informāciju uz serveriem, kur notiek visa atpazÄ«Å”anas maÄ£ija. Un mēs ne reizi vien esam redzējuÅ”i, cik pārsteidzoÅ”a ir tehnoloÄ£iju efektivitāte pat attēlu atpazÄ«Å”anas speciālistu vidÅ«. Tālāk mēs runāsim par dažiem piemēriem.

1. Mūsu sejas atpazīŔanas modelis

1.1. Neironu tīkls un apstrādes ātrums

AtpazÄ«Å”anai mēs izmantojam neironu tÄ«kla modeļa ResNet 101 modifikāciju.Average Pooling beigās tiek aizstāts ar pilnÄ«bā savienotu slāni, lÄ«dzÄ«gi kā tas tiek darÄ«ts ArcFace. Tomēr vektora attēlojumu izmērs ir 128, nevis 512. MÅ«su apmācÄ«bu komplektā ir aptuveni 10 miljoni 273 593 cilvēku fotogrāfiju.

Modelis darbojas ļoti ātri, pateicoties rÅ«pÄ«gi atlasÄ«tai servera konfigurācijas arhitektÅ«rai un GPU skaitļoÅ”anai. Atbildes saņemÅ”ana no API mÅ«su iekŔējos tÄ«klos aizņem no 100 ms ā€” tas ietver sejas noteikÅ”anu (sejas noteikÅ”anu fotoattēlā), personas ID atpazÄ«Å”anu un atgrieÅ”anu API atbildē. Pie lieliem ienākoÅ”o datu apjomiem ā€“ fotogrāfijām un video ā€“ datu pārsÅ«tÄ«Å”ana uz servisu un atbildes saņemÅ”ana prasÄ«s daudz vairāk laika.

1.2. Modeļa efektivitātes novērtÄ“Å”ana

Bet neironu tÄ«klu efektivitātes noteikÅ”ana ir ļoti neskaidrs uzdevums. Viņu darba kvalitāte ir atkarÄ«ga no tā, kādām datu kopām modeļi tika apmācÄ«ti un vai tie ir optimizēti darbam ar konkrētiem datiem.

Sākām novērtēt sava modeļa precizitāti ar populāro LFW verifikācijas testu, taču tas ir pārāk mazs un vienkārÅ”s. Pēc 99,8% precizitātes sasniegÅ”anas tas vairs nav lietderÄ«gi. AtpazÄ«Å”anas modeļu vērtÄ“Å”anai ir labs konkurss - Megaface, kurā mēs pakāpeniski sasniedzām 82% 1. Megaface tests sastāv no miljons fotogrāfijām - traucējoÅ”iem faktoriem -, un modelei jāspēj labi atŔķirt vairākus tÅ«kstoÅ”us slavenÄ«bu fotogrāfiju no Facescrub. datu kopa no traucējoÅ”iem lÄ«dzekļiem. Tomēr, iztÄ«rot Megaface testu no kļūdām, mēs atklājām, ka ar notÄ«rÄ«to versiju mēs sasniedzam 98% precizitāti 1. rangā (slavenÄ«bu fotoattēli parasti ir diezgan specifiski). Tāpēc viņi izveidoja atseviŔķu identifikācijas testu, lÄ«dzÄ«gu Megaface, bet ar ā€œparastuā€ cilvēku fotogrāfijām. Pēc tam mēs uzlabojām datu kopu atpazÄ«Å”anas precizitāti un devāmies tālu uz priekÅ”u. Turklāt mēs izmantojam klasterizācijas kvalitātes testu, kas sastāv no vairākiem tÅ«kstoÅ”iem fotoattēlu; tas simulē sejas marÄ·Ä“Å”anu lietotāja mākonÄ«. Å ajā gadÄ«jumā kopas ir lÄ«dzÄ«gu indivÄ«du grupas, viena grupa katrai atpazÄ«stamai personai. Mēs pārbaudÄ«jām darba kvalitāti reālajās grupās (patiesa).

Protams, atpazÄ«Å”anas kļūdas rodas ar jebkuru modeli. Bet Ŕādas situācijas bieži tiek atrisinātas, precÄ«zi noregulējot sliekŔņus konkrētiem apstākļiem (visām konferencēm mēs izmantojam vienādus sliekŔņus, bet, piemēram, piekļuves kontroles sistēmām mums ir stipri jāpalielina sliekŔņi, lai bÅ«tu mazāk viltus pozitÄ«vu rezultātu). Lielāko daļu konferences apmeklētāju pareizi atpazina mÅ«su Vision fotokabÄ«nes. Dažreiz kāds skatÄ«jās uz apgriezto priekÅ”skatÄ«jumu un teica: "JÅ«su sistēma kļūdÄ«jās, tas nebiju es." Tad atvērām fotogrāfiju pilnÄ«bā, un izrādÄ«jās, ka fotogrāfijā tieŔām ir Å”is apmeklētājs, tikai mēs nefotografējām viņu, bet kādu citu, cilvēks vienkārÅ”i gadÄ«jās fonā izplÅ«duma zonā. Turklāt neironu tÄ«kls bieži vien pareizi atpazÄ«st pat tad, ja daļa sejas nav redzama vai cilvēks stāv profilā vai pat pa pusei pagriezies. Sistēma var atpazÄ«t cilvēku pat tad, ja seja atrodas optisko kropļojumu zonā, piemēram, fotografējot ar platleņķa objektÄ«vu.

1.3. Pārbaudes piemēri sarežģītās situācijās

Tālāk ir sniegti piemēri, kā darbojas mÅ«su neironu tÄ«kls. Ievadē tiek iesniegtas fotogrāfijas, kuras viņai jāmarķē, izmantojot PersonID - unikālu personas identifikatoru. Ja diviem vai vairākiem attēliem ir vienāds ID, tad saskaņā ar modeļiem Å”ajos fotoattēlos ir attēlota viena un tā pati persona.

Uzreiz atzÄ«mēsim, ka testÄ“Å”anas laikā mums ir pieejami dažādi parametri un modeļa sliekŔņi, kurus varam konfigurēt, lai sasniegtu konkrētu rezultātu. Publiskā API ir optimizēta maksimālai precizitātei parastajos gadÄ«jumos.

Sāksim ar visvienkārŔāko lietu, ar priekŔējo seju atpazÄ«Å”anu.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Nu, tas bija pārāk viegli. Sarežģīsim uzdevumu, pievienosim bārdu un sauju gadu.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Daži teiks, ka arī tas nebija pārāk grūti, jo abos gadījumos ir redzama visa seja, un algoritmam ir pieejama daudz informācijas par seju. Labi, pārvērtīsim Tomu Hārdiju profilā. Šī problēma ir daudz sarežģītāka, un mēs veltījām daudz pūļu, lai to veiksmīgi atrisinātu, vienlaikus saglabājot zemu kļūdu līmeni: izvēlējāmies apmācības komplektu, pārdomājām neironu tīkla arhitektūru, noslīpējām zudumu funkcijas un uzlabojām pirmapstrādi. no fotogrāfijām.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Uzliksim viņam galvassegu:

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Starp citu, Å”is ir Ä«paÅ”i sarežģītas situācijas piemērs, jo seja ir stipri aizsegta, un apakŔējā fotoattēlā ir arÄ« dziļa ēna, kas slēpj acis. Reālajā dzÄ«vē cilvēki ļoti bieži maina savu izskatu ar tumÅ”o briļļu palÄ«dzÄ«bu. DarÄ«sim to paÅ”u ar Tomu.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Labi, mēģināsim iemest dažādu vecumu fotogrāfijas, un Å”oreiz eksperimentēsim ar citu aktieri. Ņemsim daudz sarežģītāku piemēru, kur ar vecumu saistÄ«tas izmaiņas ir Ä«paÅ”i izteiktas. Situācija nav tāla, tā notiek diezgan bieži, ja jums ir jāsalÄ«dzina pasē esoŔā fotogrāfija ar uzrādÄ«tāja seju. Galu galā pirmā fotogrāfija tiek pievienota pasei, kad Ä«paÅ”niekam ir 20 gadi, un lÄ«dz 45 gadu vecumam cilvēks var ievērojami mainÄ«ties:

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Vai, jÅ«suprāt, galvenais speciālists neiespējamajās misijās lÄ«dz ar vecumu nav Ä«paÅ”i mainÄ«jies? Domāju, ka pat daži cilvēki apvienotu augŔējo un apakŔējo bildi, puika pa Å”iem gadiem ir tik ļoti mainÄ«jies.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Neironu tīkli daudz biežāk saskaras ar izmaiņām izskatā. Piemēram, dažreiz sievietes ar kosmētikas palīdzību var ievērojami mainīt savu tēlu:

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Tagad sarežģīsim uzdevumu vēl vairāk: pieņemsim, ka dažādās fotogrāfijās ir nosegtas dažādas sejas daļas. Šādos gadÄ«jumos algoritms nevar salÄ«dzināt veselus paraugus. Tomēr Vision labi risina Ŕādas situācijas.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Starp citu, fotogrāfijā var bÅ«t daudz seju, piemēram, kopējā zāles fotogrāfijā var ietilpt vairāk nekā 100 cilvēku. Å Ä« ir sarežģīta situācija neironu tÄ«kliem, jo ā€‹ā€‹daudzas sejas var tikt izgaismotas atŔķirÄ«gi, dažas no fokusa. Taču, ja fotogrāfija ir uzņemta ar pietiekamu izŔķirtspēju un kvalitāti (vismaz 75 pikseļi uz kvadrātu, kas nosedz seju), Vision spēs to noteikt un atpazÄ«t.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Reportāžas fotogrāfiju un novēroÅ”anas kameru attēlu Ä«patnÄ«ba ir tāda, ka cilvēki bieži ir izplÅ«duÅ”i, jo tajā brÄ«dÄ« bija nefokusēti vai kustējās:

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

ArÄ« apgaismojuma intensitāte var ievērojami atŔķirties atkarÄ«bā no attēla. ArÄ« tas bieži kļūst par klupÅ”anas akmeni; daudziem algoritmiem ir lielas grÅ«tÄ«bas pareizi apstrādāt pārāk tumÅ”us un pārāk gaiÅ”us attēlus, nemaz nerunājot par to precÄ«zu saskaņoÅ”anu. AtgādināŔu, ka, lai sasniegtu Å”o rezultātu, ir nepiecieÅ”ams noteiktā veidā konfigurēt sliekŔņus, Ŕī funkcija vēl nav publiski pieejama. Mēs izmantojam vienu un to paÅ”u neironu tÄ«klu visiem klientiem, tam ir sliekŔņi, kas ir piemēroti lielākajai daļai praktisko uzdevumu.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Mēs nesen izlaidām jaunu modeļa versiju, kas ar augstu precizitāti atpazÄ«st Āzijas sejas. Agrāk tā bija liela problēma, ko pat sauca par "maŔīnmācÄ«bu" (vai "neironu tÄ«klu") rasismu. Eiropas un Amerikas neironu tÄ«kli labi atpazina kaukāzieÅ”u sejas, bet ar mongoloÄ«du un negroÄ«du sejām situācija bija daudz sliktāka. Iespējams, Ķīnā situācija bija tieÅ”i pretēja. Tas viss attiecas uz apmācÄ«bu datu kopām, kas atspoguļo dominējoÅ”os cilvēku tipus konkrētā valstÄ«. Tomēr situācija mainās, Å”odien Ŕī problēma nav tik aktuāla. VÄ«zijai nav problēmu ar dažādu rasu cilvēkiem.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Sejas atpazÄ«Å”ana ir tikai viens no daudzajiem mÅ«su tehnoloÄ£ijas lietojumiem; redzi var apmācÄ«t atpazÄ«t jebko. Piemēram, numura zÄ«mes, arÄ« algoritmiem sarežģītos apstākļos: asos leņķos, netÄ«ras un grÅ«ti nolasāmas numura zÄ«mes.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

2. Praktiski lietoŔanas gadījumi

2.1. Fiziskā piekļuves kontrole: ja divi cilvēki izmanto vienu caurlaidi

Ar Vision palÄ«dzÄ«bu var ieviest sistēmas darbinieku ieraÅ”anās un aizieÅ”anas fiksÄ“Å”anai. Tradicionālajai sistēmai, kuras pamatā ir elektroniskās caurlaides, ir acÄ«mredzami trÅ«kumi, piemēram, ar vienu žetonu var izlaist divus cilvēkus. Ja piekļuves kontroles sistēma (ACS) tiks papildināta ar Vision, tā godÄ«gi fiksēs, kurÅ” un kad ieradās/aizgāja.

2.2. Laika izsekoŔana

Å is Vision lietoÅ”anas gadÄ«jums ir cieÅ”i saistÄ«ts ar iepriekŔējo. Ja papildināsiet piekļuves sistēmu ar mÅ«su sejas atpazÄ«Å”anas servisu, tā varēs ne tikai konstatēt piekļuves kontroles pārkāpumus, bet arÄ« reÄ£istrēt darbinieku faktisko atraÅ”anos ēkā vai objektā. Citiem vārdiem sakot, Vision palÄ«dzēs jums godÄ«gi ņemt vērā, kurÅ” atnācis uz darbu un kurā laikā aizgājis, un kurÅ” vispār izlaidis darbu, pat ja kolēģi viņu sedza priekÅ”nieku priekŔā.

2.3. Video analÄ«ze: cilvēku izsekoÅ”ana un droŔība

Izsekojot cilvēkus, izmantojot Vision, jÅ«s varat precÄ«zi novērtēt reālo satiksmi iepirkÅ”anās zonās, dzelzceļa stacijās, pārejās, ielās un daudzās citās sabiedriskās vietās. MÅ«su izsekoÅ”ana var arÄ« ļoti palÄ«dzēt kontrolēt piekļuvi, piemēram, noliktavai vai citām svarÄ«gām biroja telpām. Un, protams, cilvēku un seju izsekoÅ”ana palÄ«dz atrisināt droŔības problēmas. Vai esat pieķēris kādu, kas zog no jÅ«su veikala? Pievienojiet viņa PersonID, kuru atdeva Vision, savas video analÄ«zes programmatÅ«ras melnajam sarakstam, un nākamreiz sistēma nekavējoties brÄ«dinās droŔības dienestu, ja Å”is tips atkal parādās.

2.4. Tirdzniecībā

MazumtirdzniecÄ«ba un dažādi pakalpojumu uzņēmumi ir ieinteresēti rindu atpazÄ«Å”anā. Ar Vision palÄ«dzÄ«bu jÅ«s varat atpazÄ«t, ka tas nav nejauÅ”s cilvēku pÅ«lis, bet gan rinda, un noteikt tās garumu. Un tad sistēma informē atbildÄ«gos par rindu, lai viņi izdomā situāciju: vai nu ir apmeklētāju pieplÅ«dums un jāsauc papildus strādnieki, vai arÄ« kāds slinko darba pienākumus.

Interesants uzdevums ir arÄ« uzņēmuma darbinieku atdalÄ«Å”ana zālē no apmeklētājiem. Parasti sistēma ir apmācÄ«ta atdalÄ«t objektus, kas valkā noteiktu apģērbu (apģērba kods) vai ar kādu atŔķirÄ«gu iezÄ«mi (firmas Å”alle, nozÄ«mÄ«te uz krÅ«tÄ«m utt.). Tas palÄ«dz precÄ«zāk novērtēt apmeklētÄ«bu (lai darbinieki ar savu klātbÅ«tni vien ā€œneuzpÅ«stā€ zālē esoÅ”o cilvēku statistiku).

Izmantojot sejas atpazÄ«Å”anu, varat arÄ« novērtēt savu auditoriju: kāda ir apmeklētāju lojalitāte, tas ir, cik cilvēku un ar kādu biežumu atgriežas jÅ«su iestādē. Aprēķiniet, cik unikālo apmeklētāju mēnesÄ« ierodas pie jums. Lai optimizētu piesaistes un saglabāŔanas izmaksas, varat uzzināt arÄ« satiksmes izmaiņas atkarÄ«bā no nedēļas dienas un pat diennakts laika.

FranŔīzes devēji un ķēdes uzņēmumi var pasÅ«tÄ«t novērtējumu, pamatojoties uz fotogrāfijām par dažādu mazumtirdzniecÄ«bas vietu zÄ«molu kvalitāti: logotipu, izkārtņu, plakātu, reklāmkarogu utt.

2.5. Ar transportu

Vēl viens droŔības nodroÅ”ināŔanas piemērs, izmantojot video analÄ«zi, ir pamestu priekÅ”metu identificÄ“Å”ana lidostu vai dzelzceļa staciju zālēs. Redzi var apmācÄ«t atpazÄ«t simtiem klaÅ”u objektus: mēbeles, somas, koferus, lietussargus, dažāda veida apģērbus, pudeles utt. Ja jÅ«su video analÄ«zes sistēma nosaka objektu bez Ä«paÅ”nieka un atpazÄ«st to, izmantojot Vision, tā nosÅ«ta signālu droŔības dienestam. LÄ«dzÄ«gs uzdevums ir saistÄ«ts ar automātisku neparastu situāciju noteikÅ”anu sabiedriskās vietās: kādam ir slikti, kāds smēķē nepareizā vietā, vai cilvēks nokrÄ«t uz sliedēm un tā tālāk - visus Å”os modeļus var atpazÄ«t video analÄ«tikas sistēmas. izmantojot Vision API.

2.6. Dokumentu plūsma

Vēl viens interesants nākotnes Vision pielietojums, ko mēs Å”obrÄ«d izstrādājam, ir dokumentu atpazÄ«Å”ana un to automātiska parsÄ“Å”ana datu bāzēs. Tā vietā, lai manuāli ievadÄ«tu (vai vēl ļaunāk, ievadÄ«tu) bezgalÄ«gas sērijas, numurus, izdoÅ”anas datumus, konta numurus, bankas datus, dzimÅ”anas datumus un vietas un daudzus citus formalizētus datus, varat skenēt dokumentus un automātiski nosÅ«tÄ«t tos pa droÅ”u kanālu, izmantojot API uz mākoni, kur sistēma Å”os dokumentus atpazÄ«s lidojuma laikā, parsēs un atgriezÄ«s atbildi ar datiem vajadzÄ«gajā formātā automātiskai ievadÄ«Å”anai datu bāzē. Å odien Vision jau zina, kā klasificēt dokumentus (ieskaitot PDF) - izŔķir pases, SNILS, TIN, dzimÅ”anas apliecÄ«bas, laulÄ«bas apliecÄ«bas un citus.

Protams, neironu tÄ«kls nevar tikt galā ar visām Ŕīm situācijām. Katrā gadÄ«jumā konkrētam klientam tiek veidots jauns modelis, tiek ņemti vērā daudzi faktori, nianses un prasÄ«bas, tiek atlasÄ«tas datu kopas, tiek veiktas apmācÄ«bas, testÄ“Å”anas un konfigurācijas iterācijas.

3. API darbības shēma

Vision ā€œieejas vārtiā€ lietotājiem ir REST API. Tas var saņemt fotoattēlus, video failus un pārraides no tÄ«kla kamerām (RTSP straumes) kā ievadi.

Lai izmantotu Vision, jums ir nepiecieÅ”ams reÄ£istrēties pakalpojumā Mail.ru Cloud Solutions un saņemiet piekļuves pilnvaras (client_id + client_secret). Lietotāja autentifikācija tiek veikta, izmantojot OAuth protokolu. Avota dati POST pieprasÄ«jumu korpusos tiek nosÅ«tÄ«ti uz API. Un atbildē klients no API saņem atpazÄ«Å”anas rezultātu JSON formātā, un atbilde ir strukturēta: tajā ir informācija par atrastajiem objektiem un to koordinātām.

Ar bārdu, tumŔām brillēm un profilā: sarežģītas situācijas datorredzei

Atbildes paraugs

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Atbildē ir iekļauts interesants awesomeness parametrs - tas ir nosacÄ«ts sejas ā€œvēsumsā€ fotoattēlā, ar tā palÄ«dzÄ«bu mēs no secÄ«bas atlasām labāko sejas kadru. Mēs apmācÄ«jām neironu tÄ«klu, lai prognozētu iespējamÄ«bu, ka fotoattēlam sociālajos tÄ«klos patiks patÄ«k. Jo labāka ir fotoattēla kvalitāte un smaidÄ«gāka seja, jo lielāka ir satriecÄ«ba.

API Vision izmanto koncepciju, ko sauc par telpu. Å is ir rÄ«ks dažādu seju kopu izveidoÅ”anai. Vietu piemēri ir melnie un baltie saraksti, apmeklētāju, darbinieku, klientu saraksti utt. Katrai Vision marÄ·ierim var izveidot lÄ«dz 10 laukumiem, katrā laukā var bÅ«t lÄ«dz 50 tÅ«kstoÅ”iem PersonID, tas ir, lÄ«dz 500 tÅ«kstoÅ”iem par marÄ·ieri. Turklāt marÄ·ieru skaits vienā kontā nav ierobežots.

Mūsdienās API atbalsta Ŕādas noteikŔanas un atpazīŔanas metodes:

  • AtpazÄ«t/IestatÄ«t - seju noteikÅ”ana un atpazÄ«Å”ana. Katrai unikālajai personai automātiski pieŔķir PersonID, atgriež atrasto personu PersonID un koordinātas.
  • Dzēst - konkrēta PersonID dzÄ“Å”ana no personu datu bāzes.
  • SaÄ«sināt - notÄ«ra visu vietu no PersonID, kas ir noderÄ«gi, ja tā tika izmantota kā testa vieta un jums ir jāatiestata datu bāze ražoÅ”anai.
  • Detect - objektu, ainu, numura zÄ«mju, orientieru, rindu uc noteikÅ”ana. Atgriež atrasto objektu klasi un to koordinātas
  • Noteikt dokumentiem - nosaka konkrētus Krievijas Federācijas dokumentu veidus (atŔķir pasi, SNILS, nodokļu identifikācijas numuru utt.).

Tāpat drÄ«zumā beigsim darbu pie OCR metodēm, dzimuma, vecuma un emociju noteikÅ”anas, kā arÄ« merčendainga problēmu risināŔanas, tas ir, preču izlikÅ”anas automātiskai kontrolei veikalos. Pilnu API dokumentāciju varat atrast Å”eit: https://mcs.mail.ru/help/vision-api

4. Secinājums

Tagad, izmantojot publisko API, jÅ«s varat piekļūt sejas atpazÄ«Å”anai fotoattēlos un videoklipos; tiek atbalstÄ«ta dažādu objektu, numura zÄ«mju, orientieru, dokumentu un visu ainu identificÄ“Å”ana. Pielietojuma scenāriji - jÅ«ra. Nāciet, pārbaudiet mÅ«su pakalpojumu, uzstādiet tai sarežģītākos uzdevumus. Pirmie 5000 darÄ«jumi ir bez maksas. VarbÅ«t tā bÅ«s jÅ«su projektu "trÅ«kstoŔā sastāvdaļa".

Pēc reÄ£istrācijas un savienojuma izveides varat nekavējoties piekļūt API. VÄ«zija. Visi Habra lietotāji saņem reklāmas kodu papildu darÄ«jumiem. LÅ«dzu, uzrakstiet man e-pasta adresi, kuru izmantojāt sava konta reÄ£istrÄ“Å”anai!

Avots: www.habr.com

Pievieno komentāru