Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Technologien a Modeller fir eis zukünfteg Computer Visioun System goufen erstallt a verbessert graduell a verschiddene Projete vun eiser Firma - an Mail, Cloud, Sich. Si reife wéi gudde Kéis oder Cognac. Enges Daags hu mir gemierkt datt eis neural Netzwierker exzellent Resultater an der Unerkennung weisen, a mir hu beschloss se an een eenzegt b2b Produkt ze kombinéieren - Vision - wat mir elo selwer benotzen an Iech ubidden.

Haut ass eis Computervisiounstechnologie op der Mail.Ru Cloud Solutions Plattform erfollegräich funktionnéiert a léist ganz komplex praktesch Problemer. Et baséiert op enger Zuel vun neuralen Netzwierker, déi op eise Datesets trainéiert sinn a spezialiséiert sinn fir ugewandte Probleemer ze léisen. All Servicer lafen op eise Server Ariichtungen. Dir kënnt d'ëffentlech Vision API an Är Uwendungen integréieren, duerch déi all d'Fäegkeete vum Service verfügbar sinn. D'API ass séier - dank Server GPUs ass déi duerchschnëttlech Äntwertzäit bannent eisem Netzwierk 100 ms.

Gitt op d'Kaz, et gëtt eng detailléiert Geschicht a vill Beispiller vu Vision senger Aarbecht.

Als Beispill vun engem Service an deem mir selwer déi genannte Gesiichtserkennungstechnologien benotzen, kënne mir zitéieren Manifestatiounen. Ee vu senge Komponenten ass Vision Fotostänn, déi mir op verschiddene Konferenzen installéieren. Wann Dir un esou e Fotostand kënnt, maacht eng Foto mat der agebauter Kamera a gitt Är E-Mail, de System fënnt direkt ënnert der ganzer Rei Fotoen déi an deenen Dir vun de Personalfotografen vun der Konferenz gefaange sidd, an, wann Dir wëllt, schéckt Iech déi fonnt Fotoen per E-Mail. A mir schwätzen net iwwer inszenéiert Porträtschëss - Vision erkennt Iech och am ganzen Hannergrond an enger Mass vu Besucher. Natierlech sinn et net d'Fotostänn selwer déi unerkannt ginn, dat si just Pëllen a schéine Stänn, déi einfach Fotoe vu Gäscht mat hiren agebaute Kameraen maachen an Informatioun un d'Server vermëttelen, wou all d'Erkennungsmagie geschitt. A mir hu méi wéi eemol gesinn wéi iwwerraschend d'Effizienz vun der Technologie och ënnert Bilderkennungsspezialisten ass. Drënner wäerte mir iwwer e puer Beispiller schwätzen.

1. Eis Gesiichtserkennungsmodell

1.1. Neural Netzwierk a Veraarbechtungsgeschwindegkeet

Fir d'Unerkennung benotze mir eng Ännerung vum neuralen Netzwierkmodell ResNet 101. Duerchschnëtt Pooling um Enn gëtt duerch eng komplett verbonne Schicht ersat, ähnlech wéi et an ArcFace gemaach gëtt. Allerdéngs ass d'Gréisst vun de Vecteure Representatioune 128, net 512. Eis Trainingsset enthält ongeféier 10 Millioune Fotoen vun 273 Leit.

De Modell leeft ganz séier dank enger suergfälteg ausgewielter Serverkonfiguratiounsarchitektur a GPU Rechenzäit. Et dauert vun 100 ms fir eng Äntwert vun der API op eisen internen Netzwierker ze kréien - dëst beinhalt d'Gesiichtserkennung (e Gesiicht op enger Foto z'entdecken), d'PersonID z'erkennen an zréckzeginn an der API Äntwert. Mat grousse Volumen vun erakommen Donnéeën - Fotoen a Videoen - et wäert vill méi Zäit huelen d'Donnéeën op de Service ze Transfert an eng Äntwert ze kréien.

1.2. Bewäertung vun der Efficacitéit vum Modell

Awer d'Effizienz vun neuralen Netzwierker ze bestëmmen ass eng ganz zweedeiteg Aufgab. D'Qualitéit vun hirer Aarbecht hänkt dovun of wéi eng Datesets d'Modeller trainéiert hunn an ob se optimiséiert goufen fir mat spezifeschen Donnéeën ze schaffen.

Mir hunn ugefaang d'Genauegkeet vun eisem Modell mam populäre LFW Verifizéierungstest ze evaluéieren, awer et ass ze kleng an einfach. Nodeems Dir 99,8% Genauegkeet erreecht hutt, ass et net méi nëtzlech. Et gëtt eng gutt Konkurrenz fir d'Unerkennungsmodeller ze evaluéieren - Megaface, op där mir lues a lues op 82% Plaz 1 erreecht hunn. De Megaface Test besteet aus enger Millioun Fotoen - Distractoren - an de Modell soll e puer dausend Fotoe vu Promi aus dem Facescrub gutt ënnerscheeden Dataset vun Distraktoren. Wéi och ëmmer, nodeems mir de Megaface Test vu Feeler geläscht hunn, hu mir festgestallt datt mir mat der geläscht Versioun eng Genauegkeet vun 98% Rank 1 erreechen (Fotoe vu Promi sinn allgemeng ganz spezifesch). Dofir hunn se e separaten Identifikatiounstest erstallt, ähnlech wéi Megaface, awer mat Fotoe vu "gewéinleche" Leit. Dunn hu mir d'Unerkennungsgenauegkeet op eise Datesätz verbessert a wäit virgaang. Zousätzlech benotze mir e Clustering Qualitéitstest deen aus e puer dausend Fotoen besteet; et simuléiert Gesiicht Tagging an der Wollek vum Benotzer. An dësem Fall sinn Cluster Gruppe vun ähnlechen Individuen, eng Grupp fir all erkennbar Persoun. Mir iwwerpréift d'Qualitéit vun der Aarbecht op real Gruppen (richteg).

Natierlech geschéien Unerkennungsfehler mat all Modell. Awer esou Situatioune ginn dacks geléist andeems d'Schwelle fir spezifesch Konditioune feinjustéiert ginn (fir all Konferenze benotze mir déiselwecht Schwellen, awer zum Beispill fir Zougangskontrollsystemer musse mir d'Schwelle staark erhéijen, sou datt et manner falsch Positiver gëtt). Déi grouss Majoritéit vun de Konferenzbesucher goufe korrekt vun eise Vision Fotostänn erkannt. Heiansdo géif iergendeen op déi gekierzt Virschau kucken a soen: "Äre System huet e Feeler gemaach, et war net ech." Dunn hu mir d'Foto ganz opgemaach, an et huet sech erausgestallt datt et wierklech dee Besucher op der Foto war, just mir hunn hien net fotograféiert, mee een aneren, déi Persoun war just am Hannergrond an der Blurzone. Ausserdeem erkennt den neuralen Netzwierk dacks richteg, och wann en Deel vum Gesiicht net ze gesinn ass, oder d'Persoun am Profil steet, oder souguer hallef gedréint ass. De System kann eng Persoun erkennen, och wann d'Gesiicht am Beräich vun der optescher Verzerrung ass, zum Beispill, beim Schéissen mat enger Wäitwénkellens.

1.3. Beispiller vun Testen a schwieregen Situatiounen

Drënner sinn Beispiller vu wéi eisen neurale Netzwierk funktionnéiert. Fotoe ginn op den Input presentéiert, dee se mat PersonID muss markéieren - en eenzegaartegen Identifizéierer vun enger Persoun. Wann zwee oder méi Biller déi selwecht ID hunn, dann, no de Modeller, weisen dës Fotoen déi selwecht Persoun.

Loosst eis direkt bemierken datt mir beim Testen Zougang zu verschiddene Parameteren a Modellschwellen hunn, déi mir kënne konfiguréieren fir e bestëmmt Resultat z'erreechen. Déi ëffentlech API ass optimiséiert fir maximal Genauegkeet op gemeinsame Fäll.

Loosst eis mat der einfachster Saach ufänken, mat Gesiichtserkennung virun.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Gutt, dat war ze einfach. Loosst eis d'Aufgab komplizéiere, e Baart addéieren an eng Handvoll Joer.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

E puer wäerten soen datt dëst och net ze schwéier war, well a béide Fäll ass dat ganzt Gesiicht sichtbar, a vill Informatioun iwwer d'Gesiicht ass dem Algorithmus verfügbar. Okay, loosst eis den Tom Hardy a Profil maachen. Dëse Problem ass vill méi komplex, a mir hunn vill Efforte verbruecht fir et erfollegräich ze léisen wärend e nidderegen Fehlerquote behalen: mir hunn e Trainingsset ausgewielt, duerch d'Architektur vum neurale Netzwierk geduecht, d'Verloschtfunktiounen ofgeschnidden an d'Virveraarbechtung verbessert. vu Fotoen.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Loosst eis e Kappbekleedung op hien setzen:

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Iwwregens ass dëst e Beispill vun enger besonnesch schwiereger Situatioun, well d'Gesiicht staark verstoppt ass, an op der ënneschter Foto ass och en déiwe Schiet d'Aen verstoppt. Am richtege Liewen änneren d'Leit ganz dacks hir Erscheinung mat der Hëllef vun donkelen Brëller. Loosst eis datselwecht mam Tom maachen.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Okay, loosst eis probéieren Fotoen aus verschiddenen Alter ze geheien, an dës Kéier experimentéiere mir mat engem anere Schauspiller. Loosst d'e vill méi komplex Beispill huelen, wou Alter-Zesummenhang Ännerungen besonnesch ausgeschwat sinn. D'Situatioun ass net wäit ewech, et geschitt zimlech dacks wann Dir d'Foto am Pass mam Gesiicht vum Träger vergläiche musst. No all, gëtt déi éischt Foto un e Pass bäigefüügt wann de Besëtzer 20 Joer al ass, an am Alter vu 45 kann eng Persoun vill änneren:

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Denkt Dir datt den Haaptspezialist op onméigleche Missiounen net vill mam Alter geännert huet? Ech mengen, datt och e puer Leit déi erop an ënnen Fotoen kombinéieren géif, de Jong huet sou vill geännert iwwer d'Joren.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Neural Netzwierker begéinen Ännerungen am Erscheinungsbild vill méi dacks. Zum Beispill, heiansdo Fraen kënnen hir Bild mat der Hëllef vu Kosmetik staark änneren:

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Loosst eis d'Aufgab nach méi komplizéiere: ugeholl datt verschidden Deeler vum Gesiicht a verschiddene Fotoen bedeckt sinn. An esou Fäll kann den Algorithmus net ganz Echantillon vergläichen. Wéi och ëmmer, Vision geréiert Situatiounen wéi dës gutt.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Iwwregens, et kënne vill Gesiichter op enger Foto sinn, zum Beispill kënne méi wéi 100 Leit an eng allgemeng Foto vun enger Hal passen. Dëst ass eng schwiereg Situatioun fir neural Netzwierker, well vill Gesiichter kënnen anescht beliicht ginn, e puer aus dem Fokus. Wéi och ëmmer, wann d'Foto mat genuch Opléisung a Qualitéit gemaach gëtt (op d'mannst 75 Pixel pro Quadrat deen d'Gesiicht ofdeckt), wäert Vision et fäeg sinn ze erkennen an ze erkennen.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

D'Besonderheet vu Reportagefotoen a Biller vun Iwwerwaachungskameraen ass datt d'Leit dacks verschwonn sinn, well se aus dem Fokus waren oder sech dee Moment bewegt hunn:

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Och d'Beliichtungsintensitéit ka vu Bild zu Bild immens variéieren. Och dëst gëtt dacks e Stoussblock, vill Algorithmen hu grouss Schwieregkeeten, Biller déi ze däischter an ze hell sinn, fir net ze schwätzen, se genee ze passen. Loosst mech Iech drun erënneren datt fir dëst Resultat z'erreechen musst Dir d'Schwellen op eng gewësse Manéier konfiguréieren; dës Feature ass nach net ëffentlech verfügbar. Mir benotzen datselwecht neuralt Netzwierk fir all Clienten; et huet Schwellen déi gëeegent sinn fir déi meescht praktesch Aufgaben.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Mir hunn viru kuerzem eng nei Versioun vum Modell ausgerullt, deen asiatesch Gesiichter mat héijer Genauegkeet erkennt. Dëst war fréier e grousse Problem, dee souguer "Maschinn Léieren" (oder "neural Netzwierk") Rassismus genannt gouf. Europäesch an amerikanesch neural Netzwierker erkannt Kaukasesch Gesiichter gutt, awer mat Mongoloid an Negroid Gesiichter war d'Situatioun vill méi schlëmm. Wahrscheinlech, a China war d'Situatioun genee de Géigendeel. Et geet alles ëm Trainingsdatesets déi déi dominant Aarte vu Leit an engem bestëmmte Land reflektéieren. Wéi och ëmmer, d'Situatioun ännert sech, haut ass dëse Problem net sou akut. Visioun huet kee Problem mat Leit vu verschiddene Rennen.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Gesiichtserkennung ass just eng vun de ville Applikatioune vun eiser Technologie; Visioun kann trainéiert ginn fir alles ze erkennen. Zum Beispill, Lizenz Placke, dorënner an Konditiounen schwéier fir Algorithmen: bei schaarfen Wénkel, dreckeg a schwéier Nummer Placke ze liesen.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

2. Praktesch Benotzungsfäll

2.1. Kierperlech Zougang Kontroll: wann zwee Leit déi selwecht Pass benotzen

Mat der Hëllef vu Vision kënnt Dir Systemer implementéieren fir d'Arrivée an d'Depart vun de Mataarbechter opzehuelen. D'traditionell System baséiert op elektronesch Päss huet offensichtlech Nodeeler, zum Beispill, Dir kënnt zwee Leit mat engem Badge Passe. Wann den Zougangskontrollsystem (ACS) mat Vision ergänzt gëtt, wäert et éierlech notéieren wien koum / lénks a wéini.

2.2. Zäit Tracking

Dëse Vision Benotzungsfall ass enk mat der viregter verbonnen. Wann Dir den Zougankssystem mat eisem Gesiichtserkennungsservice ergänzt, wäert et fäeg sinn net nëmmen Zougangskontrollverletzungen z'entdecken, awer och déi aktuell Präsenz vu Mataarbechter am Gebai oder an der Ariichtung ze registréieren. An anere Wierder, Vision hëlleft Iech éierlech Rechnung ze droen, wien zu wéi enger Zäit op d'Aarbecht komm a fortgaang ass, a wien d'Aarbecht ganz iwwerspréngt huet, och wa seng Kollegen him viru senge Superieuren ofgedeckt hunn.

2.3. Video Analytics: Leit Tracking a Sécherheet

Andeems Dir Leit mat Vision verfollegt, kënnt Dir den realen Traffic vun Akafsberäicher, Gare, Passagen, Stroossen a villen aneren ëffentleche Plazen präzis bewäerten. Eis Tracking kann och eng grouss Hëllef sinn fir den Zougang ze kontrolléieren, zum Beispill zu engem Lager oder aner wichteg Bürosraim. An natierlech, Leit a Gesiichter verfollegen hëlleft Sécherheetsproblemer ze léisen. Huet een gefaangen deen aus Ärem Geschäft geklaut huet? Füügt seng PersonID, déi vu Vision zréckkoum, op d'Schwaarzlëscht vun Ärer Videoanalytiksoftware derbäi, an d'nächst Kéier wäert de System direkt d'Sécherheet alarméieren wann dës Zort erëm erscheint.

2.4. Am Handel

Retail a verschidde Déngschtleeschtungsbetriber interesséieren sech un der Schlaangerkennung. Mat der Hëllef vu Vision kënnt Dir erkennen datt dëst net eng zoufälleg Mass vu Leit ass, awer eng Schlaang, a seng Längt bestëmmen. An dann informéiert de System déi Verantwortlech iwwer eng Schlaang, fir datt se d'Situatioun erausfanne kënnen: Entweder gëtt et en Zoufloss vu Visiteuren an zousätzlech Aarbechter musse geruff ginn, oder iergendeen schlëmmt seng Aarbecht.

Eng aner interessant Aufgab ass d'Firma Mataarbechter an der Hal vun de Besucher ze trennen. Typesch gëtt de System trainéiert fir Objeten ze trennen, déi bestëmmte Kleeder droen (Kleedungscode) oder mat enger ënnerscheedender Feature (Markenschal, Badge op der Këscht, a sou weider). Dëst hëlleft der Präsenz méi präzis ze bewäerten (sou datt d'Mataarbechter d'Statistike vun de Leit an der Hal net duerch hir blo Präsenz "opblasen").

Mat Gesiichtserkennung kënnt Dir och Äert Publikum evaluéieren: wat ass d'Loyalitéit vun de Besucher, dat ass, wéi vill Leit zréck an Är Etablissement a mat wéi enger Frequenz. Berechent wéivill eenzegaarteg Besucher pro Mount bei Iech kommen. Fir d'Käschte vun der Attraktioun an der Retentioun ze optimiséieren, kënnt Dir och d'Verännerung vum Traffic ofhängeg vum Dag vun der Woch a souguer der Zäit vum Dag erausfannen.

Franchiseure a Kettenfirmen kënnen eng Bewäertung op Basis vu Fotoe vun der Qualitéit vum Branding vu verschiddene Geschäfter bestellen: d'Präsenz vu Logoen, Schëlder, Plakater, Banneren, asw.

2.5. Mam Transport

En anert Beispill fir d'Sécherheet mat Videoanalytik ze garantéieren ass d'Identifikatioun vun verloossenen Artikelen an de Säll vu Fluchhäfen oder Gare. Visioun kann trainéiert ginn fir Objete vun Honnerte vu Klassen z'erkennen: Miwwelstécker, Poschen, Koffer, Prabbelien, verschidden Aarte vu Kleeder, Fläschen, asw. Wann Äre Videoanalysesystem e Besëtzerlos Objet erkennt an et mat Vision erkennt, schéckt et e Signal un de Sécherheetsservice. Eng ähnlech Aufgab ass mat der automatescher Erkennung vun ongewéinleche Situatiounen op ëffentleche Plazen assoziéiert: een fillt sech krank, oder een fëmmt op der falscher Plaz, oder eng Persoun fällt op d'Schinne, a sou weider - all dës Mustere kënnen duerch Videoanalytiksystemer erkannt ginn duerch d'Vision API.

2.6. Dokument Flux

Eng aner interessant zukünfteg Applikatioun vu Vision déi mir am Moment entwéckelen ass Dokumenterkennung an hir automatesch Parsing an Datenbanken. Amplaz manuell anzeginn (oder méi schlëmm, anzeginn) endlos Serien, Zuelen, Datumen vun der Ausgab, Kontonummeren, Bankdetailer, Datumen a Gebuertsplazen a vill aner formaliséiert Donnéeën, kënnt Dir Dokumenter scannen an se automatesch iwwer e séchere Kanal iwwer de API op d'Wollek, wou de System dës Dokumenter op der Flucht erkennt, se parséiert an eng Äntwert mat Daten am erfuerderleche Format fir automatesch Entrée an d'Datebank zréckginn. Haut Vision weess schonn wéi Dokumenter ze klassifizéieren (och PDF) - ënnerscheet tëscht Päss, SNILS, TIN, Gebuertsschäiner, Bestietnes Certificaten an anerer.

Natierlech ass den neurale Netzwierk net fäeg all dës Situatiounen aus der Këscht ze handhaben. An all Fall gëtt en neie Modell fir e spezifesche Client gebaut, vill Faktoren, Nuancen an Ufuerderunge ginn berücksichtegt, Datesets ginn ausgewielt an Iteratiounen vun Training, Tester a Konfiguratioun ginn duerchgefouert.

3. API Operatioun Schema

Vision "Entrée Gate" fir Benotzer ass de REST API. Et kann Fotoen, Videodateien a Sendungen aus Netzwierkkameraen (RTSP Streams) als Input kréien.

Fir Vision ze benotzen, braucht Dir opzemaachen am Mail.ru Cloud Solutions Service a kritt Zougang Tokens (client_id + client_secret). D'Benotzer Authentifikatioun gëtt mam OAuth Protokoll duerchgefouert. D'Quelldaten an de Kierper vu POST Ufroe ginn un d'API geschéckt. An als Äntwert kritt de Client vun der API en Unerkennungsresultat am JSON-Format, an d'Äntwert ass strukturéiert: et enthält Informatioun iwwer déi fonnt Objeten an hir Koordinaten.

Mat engem Baart, donkel Brëll an am Profil: schwéier Situatiounen fir Computer Visioun

Prouf Äntwert

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

D'Äntwert enthält en interessant Parameter Awesomeness - dat ass déi bedingt "Coolness" vun engem Gesiicht an enger Foto, mat senger Hëllef wielt mir dee beschten Gesiichtsbild aus der Sequenz. Mir hunn en neuralt Netzwierk trainéiert fir d'Wahrscheinlechkeet virauszesoen datt eng Foto op sozialen Netzwierker gefall ass. Wat d'Qualitéit vun der Foto besser ass an d'Gesiicht méi lächelt, wat d'Awesomeness méi grouss ass.

API Vision benotzt e Konzept genannt Raum. Dëst ass en Tool fir verschidde Sätz vu Gesiichter ze kreéieren. Beispiller vu Plazen sinn schwaarz a wäiss Lëschten, Lëschte vu Besucher, Mataarbechter, Clienten, etc.. Fir all Token an der Vision kënnt Dir bis zu 10 Plazen erstellen, all Raum ka bis zu 50 Tausend PersonIDen hunn, dat heescht bis zu 500 Tausend. pro Token. Ausserdeem ass d'Zuel vun Tokens pro Kont net limitéiert.

Haut ënnerstëtzt d'API déi folgend Detektiouns- an Unerkennungsmethoden:

  • Erkennen / Set - Detektioun an Unerkennung vu Gesiichter. Gitt automatesch eng PersonID un all eenzegaarteg Persoun zou, gëtt d'PersonID zréck a Koordinate vun de fonnte Persounen.
  • Läschen - eng spezifesch PersonID aus der Persoun Datebank läschen.
  • Truncate - läscht de ganze Raum vu PersonID, nëtzlech wann et als Testraum benotzt gouf an Dir musst d'Datebank fir d'Produktioun zrécksetzen.
  • Detectéieren - Detektioun vun Objeten, Szenen, Nummerplacken, Landmarken, Schlaangen, asw.
  • Entdeckt fir Dokumenter - entdeckt spezifesch Zorte vun Dokumenter vun der russescher Federatioun (ënnerscheet Pass, SNILS, Steier Identifikatioun Zuel, etc.).

Mir wäerten och geschwënn Aarbecht op Methoden fir OCR fäerdeg ginn, Geschlecht, Alter an Emotiounen ze bestëmmen, wéi och Merchandising Problemer léisen, dat ass, fir automatesch Kontroll vun der Affichage vun Wueren am Buttek. Dir kënnt komplett API Dokumentatioun hei fannen: https://mcs.mail.ru/help/vision-api

4. Konklusioun

Elo, duerch déi ëffentlech API, kënnt Dir Zougang zu Gesiichtserkennung a Fotoen a Videoen kréien; Identifikatioun vu verschiddenen Objeten, Nummerplacken, Landmarken, Dokumenter a ganz Szenen gëtt ënnerstëtzt. Applikatioun Szenarie - d'Mier. Kommt, test eise Service, set et déi schwieregst Aufgaben. Déi éischt 5000 Transaktioune si gratis. Vläicht ass et de "fehlend Zutat" fir Är Projeten.

Dir kënnt direkt op d'API op Umeldung a Verbindung kommen. Visioun. All Habra Benotzer kréien e Promotiounscode fir zousätzlech Transaktiounen. Schreift mir w.e.g. d'E-Mailadress déi Dir benotzt hutt fir Äre Kont ze registréieren!

Source: will.com

Setzt e Commentaire