Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Teknoloji ak modèl pou sistèm vizyon òdinatè lavni nou an te kreye ak amelyore piti piti ak nan diferan pwojè nan konpayi nou an - nan Mail, Cloud, Search. Yo matirite tankou bon fwomaj oswa konyak. Yon jou nou reyalize ke rezo neral nou yo montre rezilta ekselan nan rekonesans, epi nou deside konbine yo nan yon sèl pwodwi b2b - Vizyon - ke nou kounye a sèvi ak tèt nou epi ofri ou itilize.

Jodi a, teknoloji vizyon òdinatè nou an sou platfòm Mail.Ru Cloud Solutions la ap travay avèk siksè epi rezoud pwoblèm pratik trè konplèks. Li baze sou yon kantite rezo neral ki resevwa fòmasyon sou seri done nou yo epi ki espesyalize nan rezoud pwoblèm aplike. Tout sèvis yo kouri sou enstalasyon sèvè nou yo. Ou ka entegre API Vision piblik la nan aplikasyon w yo, kote tout kapasite sèvis la disponib. API a rapid - gras ak sèvè GPU, tan an mwayèn repons nan rezo nou an se 100 ms.

Ale nan chat la, gen yon istwa detaye ak anpil egzanp nan travay Vizyon an.

Yon egzanp yon sèvis nan ki nou menm sèvi ak mansyone teknoloji rekonesans vizaj yo se Evènman. Youn nan eleman li yo se Vision foto kanpe, ke nou enstale nan plizyè konferans. Si w ap pwoche bò kote yon kanpe foto konsa, pran yon foto ak kamera entegre a epi antre imel ou a, sistèm lan pral imedyatman jwenn nan pami etalaj foto sa yo kote w te kaptire pa anplwaye fotogwaf konferans lan, epi, si w vle, pral voye foto yo jwenn ba ou pa imèl. Epi nou pa ap pale de foto pòtrè sèn-Vision rekonèt ou menm nan background nan anpil nan yon foul moun nan vizitè. Natirèlman, se pa kanpe foto tèt yo ki rekonèt, sa yo se jis tablèt nan bèl kanpe ki tou senpleman pran foto nan envite ak kamera bati-an yo ak transmèt enfòmasyon nan serveurs yo, kote tout majik rekonesans la rive. Epi nou te wè plis pase yon fwa ki jan efikasite teknoloji a etone menm nan mitan espesyalis rekonesans imaj. Anba a nou pral pale sou kèk egzanp.

1. Modèl rekonesans figi nou an

1.1. Rezo neral ak vitès pwosesis

Pou rekonesans, nou itilize yon modifikasyon nan modèl rezo neral ResNet 101. Mwayèn Pooling nan fen ranplase pa yon kouch konplètman konekte, menm jan ak jan li fè nan ArcFace. Sepandan, gwosè reprezantasyon vektè yo se 128, pa 512. Seri fòmasyon nou an genyen anviwon 10 milyon foto 273 593 moun.

Modèl la kouri trè vit gras a yon achitekti konfigirasyon sèvè ak anpil atansyon chwazi ak GPU informatique. Li pran 100 ms pou resevwa yon repons nan men API sou rezo entèn nou yo - sa enkli deteksyon figi (detekte yon figi nan yon foto), rekonèt ak retounen PersonID nan repons API a. Avèk gwo kantite done k ap rantre - foto ak videyo - li pral pran pi plis tan pou transfere done yo nan sèvis la epi resevwa yon repons.

1.2. Evalye efikasite nan modèl la

Men, detèmine efikasite nan rezo neral se yon travay trè Limit. Bon jan kalite travay yo depann sou ki seri done modèl yo te resevwa fòmasyon epi si yo te optimize pou travay ak done espesifik.

Nou te kòmanse evalye presizyon nan modèl nou an ak popilè tès verifikasyon LFW la, men li twò piti ak senp. Apre yo rive nan 99,8% presizyon, li pa itil ankò. Gen yon bon konpetisyon pou evalye modèl rekonesans - Megaface, sou ki nou piti piti rive nan 82% ran 1. Tès la Megaface konsiste de yon milyon foto - distrè - ak modèl la ta dwe kapab byen distenge plizyè mil foto nan selebrite soti nan Facescrub la. done ki soti nan distrè yo. Sepandan, apre tès Megaface nan erè, nou te jwenn ke ak vèsyon an otorize nou reyalize yon presizyon nan 98% ran 1 (foto nan selebrite yo jeneralman byen espesifik). Se poutèt sa, yo te kreye yon tès idantifikasyon separe, menm jan ak Megaface, men ak foto moun "òdinè". Lè sa a, nou amelyore presizyon nan rekonesans sou ansanm done nou yo ak ale byen lwen pi devan. Anplis de sa, nou itilize yon tès kalite gwoupman ki gen plizyè milye foto; li simulation tagging figi nan nwaj itilizatè a. Nan ka sa a, grap yo se gwoup moun ki sanble, yon gwoup pou chak moun rekonèt. Nou tcheke kalite travay sou gwoup reyèl (vre).

Natirèlman, erè rekonesans rive ak nenpòt modèl. Men, sitiyasyon sa yo souvan rezoud lè yo byen ajiste papòt yo pou kondisyon espesifik (pou tout konferans nou itilize menm papòt yo, men, pou egzanp, pou sistèm kontwòl aksè nou dwe ogmante papòt yo anpil pou ke gen mwens fo pozitif). Gwo majorite vizitè konferans yo te rekonèt kòrèkteman pa kabin foto Vision nou yo. Pafwa yon moun ta gade aperçu koupe a epi di, "Sistèm ou a te fè yon erè, se pa mwen." Lè sa a, nou louvri foto a nan antye, epi li te tounen soti ke te reyèlman te gen vizitè sa a nan foto a, sèlman nou pa t 'foto l', men yon lòt moun, moun nan jis rive nan background nan nan zòn nan flou. Anplis, rezo neral la souvan rekonèt kòrèkteman menm lè yon pati nan figi a pa vizib, oswa moun nan kanpe nan pwofil, oswa menm mwatye vire. Sistèm nan ka rekonèt yon moun menm si figi a se nan zòn nan nan distòsyon optik, di, lè tire ak yon lantiy gran ang.

1.3. Egzanp tès nan sitiyasyon difisil

Anba a gen kèk egzanp sou fason rezo neral nou an ap travay. Foto yo soumèt nan opinyon an, ke li dwe make lè l sèvi avèk PersonID - yon idantifyan inik nan yon moun. Si de oswa plis imaj gen menm idantite a, lè sa a, dapre modèl yo, foto sa yo dekri menm moun nan.

Se pou nou imedyatman sonje ke lè tès la, nou gen aksè a divès paramèt ak papòt modèl ke nou ka konfigirasyon reyalize yon rezilta patikilye. API piblik la optimize pou maksimòm presizyon sou ka komen yo.

Ann kòmanse ak bagay ki pi senp la, ak rekonesans figi devan.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Oke, sa te twò fasil. Ann konplike travay la, ajoute yon bab ak yon ti ponyen ane.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Gen kèk ki pral di ke sa a tou pa te twò difisil, paske nan tou de ka figi a tout antye se vizib, ak anpil enfòmasyon sou figi a disponib nan algorithm la. Oke, ann tounen Tom Hardy nan pwofil. Pwoblèm sa a se pi plis konplèks, epi nou te depanse anpil efò pou rezoud li avèk siksè pandan w ap kenbe yon pousantaj erè ki ba: nou chwazi yon seri fòmasyon, te panse nan achitekti rezo neral la, amelyore fonksyon pèt yo ak amelyore pre-pwosesis la. nan foto.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Ann mete yon headdress sou li:

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

By wout la, sa a se yon egzanp nan yon sitiyasyon patikilyèman difisil, depi figi a se lou fènwa, ak nan foto anba a gen tou yon lonbraj gwo twou san fon kache je yo. Nan lavi reyèl, moun trè souvan chanje aparans yo avèk èd nan linèt nwa. Ann fè menm jan ak Tom.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Oke, ann eseye jete foto ki soti nan diferan laj, epi fwa sa a nou pral fè eksperyans ak yon aktè diferan. Ann pran yon egzanp ki pi konplèks, kote chanjman ki gen rapò ak laj yo espesyalman pwononse. Sitiyasyon an se pa twò lwen, li rive byen souvan lè ou bezwen konpare foto a nan paspò a ak figi moun nan. Apre yo tout, premye foto a ajoute nan yon paspò lè pwopriyetè a gen 20 ane fin vye granmoun, ak nan laj 45 an yon moun ka chanje anpil:

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

ou panse ke espesyalis prensipal la sou misyon enposib pa te chanje anpil ak laj? Mwen panse ke menm kèk moun ta konbine foto yo anwo ak anba, ti gason an te chanje anpil sou ane yo.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Rezo neral rankontre chanjman nan aparans pi souvan. Pou egzanp, pafwa fanm ka chanje anpil imaj yo avèk èd nan pwodui kosmetik:

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Koulye a, ann konplike travay la menm plis: sipoze diferan pati nan figi a kouvri nan foto diferan. Nan ka sa yo, algorithm la pa ka konpare tout echantiyon yo. Sepandan, Vision okipe sitiyasyon tankou sa a byen.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

By wout la, ka gen anpil figi nan yon foto; pou egzanp, plis pase 100 moun ka anfòm nan yon foto jeneral nan yon sal. Sa a se yon sitiyasyon difisil pou rezo neral, depi anpil figi ka limen yon fason diferan, kèk soti nan konsantre. Sepandan, si foto a pran ak ase rezolisyon ak bon jan kalite (omwen 75 piksèl pou chak kare ki kouvri figi a), Vision ap kapab detekte ak rekonèt li.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Singularité nan foto repòtaj ak imaj ki soti nan kamera siveyans se ke moun yo souvan twoub paske yo te soti nan konsantre oswa yo te deplase nan moman sa a:

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Epitou, entansite ekleraj la ka varye anpil de imaj an imaj. Sa a, tou, souvan vin tounen yon blokaj; anpil algoritm gen gwo difikilte pou kòrèkteman trete imaj ki twò nwa ak twò limyè, nou pa mansyone avèk presizyon matche yo. Kite m raple ou ke pou reyalize rezilta sa a ou bezwen konfigirasyon papòt yo nan yon sèten fason; karakteristik sa a poko disponib piblikman. Nou itilize menm rezo neral la pou tout kliyan; li gen papòt ki apwopriye pou pifò travay pratik.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Nou dènyèman te woule soti yon nouvo vèsyon nan modèl la ki rekonèt figi Azyatik ak presizyon segondè. Sa a te konn gen yon gwo pwoblèm, ki te menm rele "machin aprann" (oswa "neral rezo") rasis. Rezo neral Ewopeyen yo ak Ameriken yo rekonèt figi Caucasyen byen, men ak figi Mongoloid ak Negroid sitiyasyon an te pi mal anpil. Pwobableman, nan peyi Lachin sitiyasyon an te egzakteman opoze an. Se tout sou seri done fòmasyon ki reflete kalite dominan moun nan yon peyi an patikilye. Sepandan, sitiyasyon an ap chanje, jodi a pwoblèm sa a pa tèlman grav. Vizyon pa gen pwoblèm ak moun ki gen diferan ras.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Rekonesans vizaj se jis youn nan anpil aplikasyon teknoloji nou an; Vizyon ka resevwa fòmasyon pou rekonèt nenpòt bagay. Pou egzanp, plak machin, ki gen ladan nan kondisyon difisil pou algoritm: nan ang byen file, sal ak difisil li plak machin.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

2. ka itilize pratik

2.1. Kontwòl aksè fizik: lè de moun sèvi ak menm pas la

Avèk èd nan Vision, ou ka aplike sistèm pou anrejistre arive ak depa anplwaye yo. Sistèm tradisyonèl ki baze sou pas elektwonik gen dezavantaj evidan, pou egzanp, ou ka pase de moun lè l sèvi avèk yon sèl badj. Si sistèm kontwòl aksè a (ACS) konplete ak Vision, li pral anrejistre onètman ki moun ki te vini/kite ak ki lè.

2.2. Suivi tan

Ka itilizasyon Vizyon sa a gen rapò ak youn anvan an. Si ou konplete sistèm aksè a ak sèvis rekonesans feminen nou an, li pral kapab non sèlman detekte vyolasyon kontwòl aksè, men tou, anrejistre prezans aktyèl anplwaye nan bilding lan oswa etablisman an. Nan lòt mo, Vision ap ede ou onètman pran an konsiderasyon ki moun ki te vin travay epi ki te kite nan ki lè, ak ki moun ki sote travay tout ansanm, menm si kòlèg li yo kouvri pou li devan siperyè li yo.

2.3. Videyo Analytics: Moun Suivi ak Sekirite

Lè w swiv moun k ap itilize Vision, ou ka evalye avèk presizyon trafik reyèl nan zòn komèsyal yo, estasyon tren, pasaj, lari ak anpil lòt kote piblik. Suivi nou an kapab tou yon gwo èd nan kontwole aksè, pou egzanp, nan yon depo oswa lòt lokal biwo enpòtan. Ak nan kou, swiv moun ak figi ede rezoud pwoblèm sekirite. Kenbe yon moun vòlè nan magazen ou a? Ajoute PersonID li, ki te retounen pa Vision, nan lis nwa a nan lojisyèl analiz videyo ou a, ak pwochen fwa sistèm lan pral imedyatman avèti sekirite a si kalite sa a parèt ankò.

2.4. Nan komès

Biznis Yo Vann an Detay ak divès kalite sèvis yo enterese nan rekonesans keu. Avèk èd nan Vision, ou ka rekonèt ke sa a se pa yon foul moun o aza nan moun, men yon keu, epi detèmine longè li yo. Apre sa, sistèm nan enfòme moun ki an chaj yo sou yon keu pou yo ka kalkile sitiyasyon an: swa gen yon foul vizitè ak travayè adisyonèl yo bezwen rele, oswa yon moun ap slacking nan devwa travay yo.

Yon lòt travay enteresan se separe anplwaye konpayi yo nan sal la soti nan vizitè yo. Tipikman, sistèm nan fòme pou separe objè ki mete sèten rad (kòd abiman) oswa ak kèk karakteristik diferan (echap mak, badj sou pwatrin lan, ak sou sa). Sa a ede evalye prezans yo pi byen (pou anplwaye yo pa "gonfle" estatistik moun ki nan sal la pa sèlman prezans yo).

Sèvi ak rekonesans feminen, ou ka evalye tou odyans ou a: ki sa ki lwayote vizitè yo, se sa ki, konbyen moun ki retounen nan etablisman ou a ak ki frekans. Kalkile konbyen vizitè inik ki vin jwenn ou pa mwa. Pou optimize depans pou atraksyon ak retansyon, ou ka jwenn tou chanjman nan trafik depann de jou nan semèn nan e menm lè nan jounen an.

Franchisè ak konpayi chèn yo ka bay lòd pou yon evalyasyon ki baze sou foto bon jan kalite a nan mak nan divès kalite plòg Yo Vann an Detay: prezans nan logo, siy, afich, banyèr, ak sou sa.

2.5. Pa transpò

Yon lòt egzanp pou asire sekirite lè l sèvi avèk analiz videyo se idantifye atik abandone nan koulwa yo nan ayewopò oswa estasyon tren. Vizyon ka antrene pou rekonèt objè nan plizyè santèn klas: moso mèb, sache, valiz, parapli, divès kalite rad, boutèy, elatriye. Si sistèm analiz videyo ou a detekte yon objè san pwopriyetè epi li rekonèt li lè l sèvi avèk Vision, li voye yon siyal bay sèvis sekirite a. Yon travay menm jan an asosye ak deteksyon otomatik sitiyasyon etranj nan plas piblik: yon moun santi l malad, oswa yon moun fimen nan move kote, oswa yon moun tonbe sou ray yo, ak sou sa - tout modèl sa yo ka rekonèt pa sistèm analiz videyo. atravè Vision API.

2.6. Dokiman koule

Yon lòt aplikasyon enteresan nan lavni nan Vision ke nou ap devlope kounye a se rekonesans dokiman ak analiz otomatik yo nan baz done. Olye pou w antre manyèlman (oswa pi mal, antre) seri kontinuèl, nimewo, dat emisyon, nimewo kont, detay labank, dat ak kote nesans ak anpil lòt done ofisyèlman, ou ka eskane dokiman epi voye yo otomatikman sou yon kanal ki an sekirite atravè la. API nan nwaj la, kote sistèm lan pral rekonèt dokiman sa yo sou vole, analize yo epi retounen yon repons ak done nan fòma obligatwa pou antre otomatik nan baz done a. Jodi a Vision deja konnen ki jan yo klase dokiman (ki gen ladan PDF) - fè distenksyon ant paspò, SNILS, TIN, batistè, sètifika maryaj ak lòt moun.

Natirèlman, rezo neral la pa kapab jere tout sitiyasyon sa yo soti nan bwat la. Nan chak ka, yo bati yon nouvo modèl pou yon kliyan espesifik, anpil faktè, nuans ak kondisyon yo pran an kont, seri done yo chwazi, ak iterasyon fòmasyon, tès, ak konfigirasyon yo te pote soti.

3. API operasyon konplo

"Pòtay antre" Vizyon pou itilizatè yo se API REST la. Li ka resevwa foto, fichye videyo ak emisyon nan kamera rezo a (rivyè RTSP) kòm opinyon.

Pou itilize Vision, ou bezwen enskri nan sèvis Mail.ru Cloud Solutions epi resevwa siy aksè (client_id + client_secret). Otantifikasyon itilizatè fèt lè l sèvi avèk pwotokòl OAuth la. Done sous yo nan kò demann POST yo voye bay API a. Ak nan repons, kliyan an resevwa nan men API a yon rezilta rekonesans nan fòma JSON, epi repons lan estriktire: li gen enfòmasyon sou objè yo jwenn ak kowòdone yo.

Avèk yon bab, linèt nwa ak nan pwofil: sitiyasyon difisil pou vizyon òdinatè

Egzanp repons

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Repons lan gen yon paramèt enteresan - sa a se "frechè" kondisyonèl nan yon figi nan yon foto, ak èd li nou chwazi pi bon piki a nan yon figi nan sekans lan. Nou fòme yon rezo neral pou predi chans pou yon foto ap renmen sou rezo sosyal yo. Plis bon jan kalite a nan foto a ak plis souri figi a, se pi gwo a awesomeness.

API Vision itilize yon konsèp ki rele espas. Sa a se yon zouti pou kreye diferan seri figi. Egzanp espas yo se lis nwa ak blan, lis vizitè, anplwaye, kliyan, elatriye. Pou chak siy nan Vision, ou ka kreye jiska 10 espas, chak espas ka gen jiska 50 mil PersonIDs, sa vle di jiska 500 mil. pou chak siy. Anplis, kantite marqueur pou chak kont pa limite.

Jodi a API a sipòte metòd deteksyon ak rekonesans sa yo:

  • Rekonèt / Mete - deteksyon ak rekonesans figi yo. Otomatikman bay yon PersonID pou chak moun inik, retounen PersonID la ak kowòdone moun yo jwenn yo.
  • Efase - efase yon PersonID espesifik nan baz done moun.
  • Truncate - efase tout espas ki soti nan PersonID, itil si li te itilize kòm yon espas tès epi ou bezwen Reyajiste baz done a pou pwodiksyon an.
  • Detekte - deteksyon objè, sèn, plak machin yo, landmarks, ke moun kap kriye, elatriye. Retounen klas objè yo jwenn ak kowòdone yo.
  • Detekte pou dokiman - detekte espesifik kalite dokiman nan Federasyon Larisi la (distenge paspò, SNILS, nimewo idantifikasyon taks, elatriye).

Nou pral byento tou fini travay sou metòd pou OCR, detèmine sèks, laj ak emosyon, osi byen ke rezoud pwoblèm merchandising, se sa ki, pou kontwole otomatikman ekspozisyon an nan machandiz nan magazen yo. Ou ka jwenn dokiman API konplè isit la: https://mcs.mail.ru/help/vision-api

4. Konklizyon

Koulye a, atravè API piblik la, ou ka jwenn aksè nan rekonesans feminen nan foto ak videyo; idantifikasyon divès objè, plak machin, repa, dokiman ak sèn antye sipòte. Senaryo aplikasyon - lanmè a. Vini non, teste sèvis nou an, mete li travay ki pi difisil. Premye 5000 tranzaksyon yo gratis. Petèt li pral "engredyan ki manke a" pou pwojè ou yo.

Ou ka jwenn aksè nan API a imedyatman lè w enskri ak koneksyon. Vizyon. Tout itilizatè Habra resevwa yon kòd pwomosyon pou plis tranzaksyon. Tanpri ekri m adrès imel ou te itilize pou anrejistre kont ou a!

Sous: www.habr.com

Add nouvo kòmantè