Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Téknologi sareng modél pikeun sistem visi komputer kahareup urang diciptakeun sareng ningkat laun-laun sareng dina proyék-proyék anu béda-béda perusahaan kami - dina Mail, Cloud, Search. Aranjeunna matured kawas kéju alus atawa cognac. Hiji dinten urang sadar yén jaringan saraf kami nunjukkeun hasil anu saé dina pangakuan, sareng kami mutuskeun pikeun ngahijikeun kana produk b2b tunggal - Visi - anu ayeuna urang anggo sareng nawiskeun anjeun dianggo.

Kiwari, téknologi visi komputer urang dina platform Mail.Ru Cloud Solutions parantos suksés damel sareng ngarengsekeun masalah praktis anu rumit pisan. Éta dumasar kana sababaraha jaringan saraf anu dilatih dina set data urang sareng ngahususkeun dina ngarengsekeun masalah anu diterapkeun. Sadaya jasa dijalankeun dina fasilitas server kami. Anjeun tiasa ngahijikeun API Visi umum kana aplikasi anjeun, dimana sadaya kamampuan jasa sayogi. API gancang - hatur nuhun kana server GPU, rata-rata waktos réspon dina jaringan kami nyaéta 100 mdet.

Pindah ka ucing, aya carita lengkep sareng seueur conto karya Visi.

Salaku conto jasa dimana urang sorangan ngagunakeun téknologi pangenal wajah anu disebatkeun, urang tiasa nyebatkeun kajadian. Salah sahiji komponénna nyaéta lapak poto Visi, anu kami pasang dina sababaraha konferensi. Upami anjeun ngadeukeutan tempat poto sapertos kitu, cokot poto nganggo kaméra anu diwangun sareng lebetkeun email anjeun, sistem bakal langsung mendakan diantara sakumpulan poto anu anjeun candak ku fotografer staf konferensi, sareng, upami hoyong, bakal ngirim poto kapanggih ka anjeun ku email. Sareng urang henteu nyarioskeun gambar potret anu dipentaskeun — Visi ngakuan anjeun bahkan di latar tukang dina riungan anu datang. Tangtosna, éta sanés poto nangtung sorangan anu diakui, ieu ngan ukur tablet dina lapak anu indah anu ngan saukur nyandak poto tamu kalayan kaméra anu diwangun sareng ngirimkeun inpormasi ka server, dimana sadaya sihir pangakuan kajantenan. Sarta kami geus katempo leuwih ti sakali kumaha héran éféktivitas téhnologi malah diantara spesialis pangakuan gambar. Di handap ieu urang bakal ngobrol ngeunaan sababaraha conto.

1. Modél Pangenal Beungeut Urang

1.1. jaringan neural jeung speed processing

Pikeun pangakuan, kami nganggo modifikasi model jaringan neural ResNet 101. Rata Pooling dina tungtungna diganti ku lapisan disambungkeun pinuh, sarupa jeung kumaha eta dilakukeun dina ArcFace. Tapi, ukuran répréséntasi vektor nyaéta 128, sanés 512. Set latihan kami ngandung kira-kira 10 juta poto tina 273 jalma.

Modél jalan gancang pisan berkat arsitéktur konfigurasi server anu dipilih sacara saksama sareng komputasi GPU. Butuh waktu ti 100 mdet pikeun nampa respon ti API dina jaringan internal urang - ieu ngawengku deteksi beungeut (ngadeteksi beungeut dina poto), recognizing jeung balik PersonID dina respon API. Kalayan volume data anu ageung - poto sareng pidéo - peryogi langkung seueur waktos pikeun nransfer data kana jasa sareng nampi réspon.

1.2. Assessing efektivitas model

Tapi nangtukeun efisiensi jaringan saraf mangrupikeun tugas anu ambigu pisan. Kualitas karyana gumantung kana set data naon model anu dilatih sareng naha aranjeunna dioptimalkeun pikeun damel sareng data khusus.

Urang mimitian evaluate katepatan model urang jeung populér test verifikasi LFW, tapi teuing leutik tur basajan. Saatos ngahontal akurasi 99,8%, éta henteu kapaké deui. Aya kompetisi anu saé pikeun ngaevaluasi modél pangakuan - Megaface, dimana urang laun-laun ngahontal 82% rengking 1. Tes Megaface diwangun ku sajuta foto - distraktor - sareng modélna kedah tiasa ngabédakeun sababaraha rébu foto selebriti ti Facescrub. set data tina distraktor. Sanajan kitu, sanggeus diberesihan test Megaface kasalahan, urang manggihan yén kalawan versi diberesihan urang ngahontal akurasi 98% rank 1 (poto selebriti umumna rada husus). Ku alatan éta, maranéhanana dijieun test idéntifikasi misah, sarupa jeung Megaface, tapi jeung poto jalma "biasa". Teras kami ningkatkeun katepatan pangenalan dina set data urang sareng langkung jauh. Salaku tambahan, kami nganggo uji kualitas clustering anu diwangun ku sababaraha rébu poto; eta simulates raray tagging dina awan pamaké. Dina hal ieu, klaster mangrupakeun grup individu sarupa, hiji grup pikeun tiap jalma recognizable. Urang pariksa kualitas karya dina grup nyata (leres).

Tangtu, kasalahan pangakuan lumangsung kalawan model nanaon. Tapi kaayaan sapertos kitu sering direngsekeun ku fine-tuning ambang pikeun kaayaan husus (pikeun sakabéh konferensi kami nganggo ambang anu sarua, tapi, contona, pikeun sistem kontrol aksés urang kudu greatly ningkatkeun bangbarung ku kituna aya kirang positip palsu). Seuseueurna sémah konperénsi diakui leres ku stan poto Visi kami. Kadang aya anu ningali kana sawangan anu dipotong sareng nyarios, "Sistem anjeun ngalakukeun kasalahan, sanés kuring." Teras we muka poto dina entirety na, sarta tétéla yén aya bener datang ieu dina poto, ngan urang teu photographing anjeunna, tapi batur, jalma nu ngan lumangsung dina latar tukang dina zone blur. Leuwih ti éta, jaringan neural mindeng bener ngakuan sanajan bagian tina beungeutna teu katempo, atawa jalma nu nangtung dina profil, atawa malah satengah ngancik. Sistim nu bisa mikawanoh hiji jalma sanajan beungeutna aya di wewengkon distorsi optik, sebutkeun, nalika shooting kalawan lénsa sudut lega.

1.3. Conto tés dina kaayaan susah

Di handap ieu conto kumaha jaringan saraf urang jalan. Poto dikintunkeun kana input, anu anjeunna kedah labél nganggo PersonID - identifier unik hiji jalma. Upami dua atanapi langkung gambar gaduh ID anu sami, teras, dumasar kana modél, poto ieu ngagambarkeun jalma anu sami.

Hayu urang langsung perhatikeun yén nalika nguji, urang ngagaduhan aksés kana sababaraha parameter sareng ambang modél anu tiasa urang konfigurasi pikeun ngahontal hasil anu tangtu. API umum dioptimalkeun pikeun akurasi maksimum dina kasus umum.

Hayu urang mimitian ku hal pangbasajanna, ku pangenal raray hareup-nyanghareup.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Nya, éta gampang teuing. Hayu urang ngahesekeun tugas, tambahkeun janggot jeung sakeupeul taun.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Sababaraha bakal disebutkeun yen ieu ogé teu hese teuing, sabab dina dua kasus sakabeh raray katingali, sarta loba informasi ngeunaan raray sadia pikeun algoritma nu. Oké, hayu urang ngarobah Tom Hardy kana profil. Masalah ieu langkung rumit, sareng urang nyéépkeun seueur usaha pikeun suksés ngabéréskeunana bari ngajaga tingkat kasalahan anu rendah: kami milih set latihan, panginten ngalangkungan arsitéktur jaringan saraf, ngasah fungsi leungitna sareng ningkatkeun pra-processing. tina poto.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Hayu urang nempatkeun headdress dina anjeunna:

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Ngomong-ngomong, ieu mangrupikeun conto kaayaan anu sesah, sabab rarayna kabur, sareng dina poto handap aya ogé kalangkang jero anu nyumputkeun panon. Dina kahirupan nyata, jalma sering pisan ngarobah penampilan maranéhanana kalayan bantuan kacamata poék. Hayu urang sami sareng Tom.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Oké, hayu urang coba ngalungkeun poto ti umur béda, sarta kali ieu urang bakal ékspérimén kalawan aktor béda. Hayu urang nyandak conto anu langkung kompleks, dimana parobihan anu aya hubunganana sareng umur khusus diucapkeun. Kaayaan éta henteu jauh-jauh; éta sering lumangsung nalika anjeun kedah ngabandingkeun poto dina paspor sareng wajah anu mawa. Barina ogé, poto munggaran ditambahkeun kana paspor nalika nu boga umur 20 taun, sarta dina yuswa 45 jalma bisa robah greatly:

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Saur anjeun yén spesialis utama dina misi mustahil teu robah teuing kalawan umur? Jigana éta malah sababaraha urang bakal ngagabungkeun poto luhur jeung handap, budak geus robah jadi loba leuwih taun.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Jaringan saraf ngalaman parobahan dina penampilan langkung sering. Contona, sakapeung awéwé bisa greatly ngarobah gambar maranéhanana kalayan bantuan kosmétik:

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Ayeuna hayu urang ngahesekeun tugas malah leuwih: anggap bagian béda tina raray katutupan ku poto béda. Dina kasus kawas, algoritma teu bisa ngabandingkeun sakabéh sampel. Sanajan kitu, Visi handles kaayaan kawas ieu ogé.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Ku jalan kitu, tiasa seueur rupa dina poto; contona, langkung ti 100 urang tiasa pas dina poto umum aula. Ieu kaayaan hésé pikeun jaringan saraf, sabab loba rupa bisa cahayana béda, sababaraha kaluar fokus. Nanging, upami poto dicandak kalayan résolusi sareng kualitas anu cekap (sahenteuna 75 piksel per pasagi nutupan raray), Vision bakal tiasa ngadeteksi sareng mikawanoh éta.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Keistimewaan poto reportase sareng gambar tina kaméra panjagaan nyaéta jalma-jalma sering kabur kusabab teu fokus atanapi nuju gerak dina waktos éta:

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Ogé, inténsitas cahaya tiasa bénten pisan tina gambar ka gambar. Ieu, ogé, sering janten halangan; seueur algoritma anu sesah pisan pikeun ngolah gambar anu poék teuing sareng terang teuing, teu kedah cocog sareng akurat. Hayu atuh ngingetkeun yén pikeun ngahontal hasil ieu anjeun kudu ngonpigurasikeun ambang dina cara nu tangtu; fitur ieu teu acan sadia pikeun umum. Kami nganggo jaringan saraf anu sami pikeun sadaya klien; éta ngagaduhan ambang anu cocog pikeun kalolobaan tugas praktis.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Kami nembe ngaluncurkeun versi énggal tina modél anu ngakuan rupa Asia kalayan akurasi anu luhur. Ieu kungsi jadi masalah badag, nu ieu malah disebut "mesin learning" (atawa "jaringan saraf") rasisme. jaringan neural Éropa sarta Amérika dipikawanoh raray Kaukasia ogé, tapi kalawan Mongoloid na Negroid nyanghareupan kaayaan éta loba goréng. Panginten, di Cina kaayaan éta sabalikna. Éta sadayana ngeunaan set data latihan anu ngagambarkeun jinis jalma anu dominan di hiji nagara. Sanajan kitu, kaayaan geus robah, kiwari masalah ieu teu jadi akut. Visi teu boga masalah jeung jalma béda ras.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Pangenal raray mangrupikeun salah sahiji tina seueur aplikasi téknologi urang; Visi tiasa dilatih pikeun mikawanoh naon waé. Contona, pelat lisénsi, kaasup dina kaayaan hésé pikeun algoritma: di sudut seukeut, kotor jeung hésé maca pelat lisénsi.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

2. Kasus pamakéan praktis

2.1. Kontrol aksés fisik: nalika dua jalma nganggo pass anu sami

Kalayan bantosan Visi, anjeun tiasa nerapkeun sistem pikeun ngarékam kadatangan sareng miang karyawan. Sistem tradisional dumasar kana pas éléktronik gaduh kalemahan anu jelas, contona, anjeun tiasa ngalangkungan dua jalma nganggo hiji lencana. Lamun sistem kontrol aksés (ACS) ieu supplemented kalawan Visi, éta bakal jujur ​​ngarekam saha sumping / ditinggalkeun jeung iraha.

2.2. Nyukcruk waktos

Kasus panggunaan Visi ieu raket patalina sareng anu sateuacana. Upami anjeun nambihan sistem aksés sareng jasa pangenal raray urang, éta bakal tiasa henteu ngan ukur ngadeteksi palanggaran kontrol aksés, tapi ogé ngadaptarkeun ayana saleresna karyawan di gedong atanapi fasilitas. Kalayan kecap séjén, Visi baris mantuan anjeun jujur ​​tumut kana akun anu sumping ka dianggo na ditinggalkeun dina naon waktos, sarta anu skipped karya sakabehna, sanajan kolega na katutupan pikeun anjeunna di hareup atasan na.

2.3. Video Analytics: Nyukcruk Jalma jeung Kaamanan

Ku nyukcruk jalma nganggo Visi, anjeun tiasa sacara akurat ngira-ngira lalu lintas nyata daérah balanja, stasion karéta, jalan-jalan, jalan sareng seueur tempat umum anu sanés. Nyukcruk kami ogé tiasa janten bantosan anu saé pikeun ngatur aksés, contona, ka gudang atanapi tempat kantor penting sanés. Sareng tangtosna, nyukcruk jalma sareng wajah ngabantosan ngarengsekeun masalah kaamanan. Bray batur maok ti toko anjeun? Tambihkeun PersonID na, anu dipulangkeun ku Visi, kana daptar hideung parangkat lunak analitik video anjeun, sareng waktos salajengna sistem bakal langsung waspada kaamanan upami jinis ieu muncul deui.

2.4. Dina dagang

Ritel sarta sagala rupa usaha jasa museurkeun antrian pangakuan. Kalayan bantosan Visi, anjeun tiasa ngakuan yén ieu sanés riungan jalma anu acak, tapi antrian, sareng nangtukeun panjangna. Teras sistemna nginpokeun ka anu tanggung jawab ngeunaan antrian ambéh aranjeunna tiasa terang kaayaan: boh aya panyaluran sémah sareng pagawé tambahan kedah ditelepon, atanapi aya anu slacking dina tugas padamelan na.

Tugas sejen metot nyaéta pikeun misahkeun karyawan pausahaan di aula ti datang. Ilaharna, sistem dilatih pikeun misahkeun objék maké baju tangtu (kode pakéan) atawa mibanda sababaraha fitur has (sél branded, badge dina dada, jeung saterusna). Ieu mantuan pikeun leuwih akurat assess kahadiran (supaya karyawan teu "inflate" statistik jalma di aula ku ayana ngan maranéhanana).

Ngagunakeun pangakuan raray, anjeun ogé tiasa evaluate panongton anjeun: naon kasatiaan datang, nyaeta, sabaraha urang balik deui ka ngadegna anjeun sarta naon frékuénsi. Etang sabaraha datang unik datang ka anjeun per bulan. Pikeun ngaoptimalkeun biaya atraksi sareng ingetan, anjeun ogé tiasa mendakan parobihan lalu lintas gumantung kana dinten dina saminggu bahkan waktos sapoe.

Franchisors jeung pausahaan ranté bisa mesen hiji assessment poto kualitas branding rupa toko ritel: ayana logos, tanda, poster, spanduk, jeung saterusna.

2.5. Ku angkot

Conto sanés pikeun mastikeun kaamanan nganggo analitik video nyaéta ngidentipikasi barang-barang anu ditinggalkeun di aula bandara atanapi stasion karéta. Visi bisa dilatih pikeun mikawanoh objék tina ratusan kelas: potongan jati, tas, koper, payung, rupa-rupa pakean, botol, jeung saterusna. Upami sistem analitik pidéo anjeun ngadeteksi obyék anu henteu gaduh sareng ngakuan éta nganggo Visi, éta ngirim sinyal ka layanan kaamanan. Tugas anu sami aya hubunganana sareng deteksi otomatis kaayaan anu teu biasa di tempat umum: aya anu karasa gering, atanapi aya anu ngaroko di tempat anu salah, atanapi jalma ragrag dina rel, sareng saterasna - sadaya pola ieu tiasa dikenal ku sistem analitik video. ngaliwatan Vision API.

2.6. Aliran dokumén

Aplikasi masa depan anu pikaresepeun pikeun Visi anu ayeuna urang kembangkeun nyaéta pangakuan dokumén sareng parsing otomatis kana database. Gantina nuliskeun sacara manual (atawa goréng, ngasupkeun) runtuyan sajajalan, nomer, tanggal kaluaran, nomer rekening, wincik bank, tanggal jeung tempat kalahiran sarta loba data formal lianna, Anjeun bisa nyeken dokumén jeung otomatis ngirimkeunana ngaliwatan saluran aman via API ka awan, dimana sistem bakal ngakuan dokumén ieu dina laleur nu, parse aranjeunna sarta balik respon kalayan data dina format diperlukeun pikeun asupna otomatis kana database. Dinten Visi geus nyaho kumaha carana mengklasifikasikan dokumén (kaasup PDF) - distinguishes antara paspor, SNILS, TIN, akte kalahiran, akte nikah jeung sajabana.

Tangtosna, jaringan saraf henteu tiasa nanganan sadaya kaayaan ieu di luar kotak. Dina unggal kasus, modél anyar diwangun pikeun palanggan anu khusus, seueur faktor, nuansa sareng syarat anu dipertimbangkeun, set data dipilih, sareng iterations latihan, uji sareng konfigurasi dilaksanakeun.

3. skéma operasi API

"Gerbang lawang" Visi pikeun pangguna nyaéta REST API. Éta tiasa nampi poto, file video sareng siaran tina kaméra jaringan (aliran RTSP) salaku input.

Pikeun ngagunakeun Visi, anjeun peryogi ngadaptarkeun dina jasa Mail.ru Cloud Solutions sareng nampi token aksés (client_id + client_secret). Auténtikasi pamaké dipigawé maké protokol OAuth. Sumber data dina awak requests POST dikirim ka API. Sarta dina respon, klien nu narima ti API hasil pangakuan dina format JSON, sarta respon ieu terstruktur: ngandung émbaran ngeunaan objék kapanggih jeung koordinat maranéhna.

Kalayan janggot, kacamata poék sareng dina profil: kaayaan sesah pikeun visi komputer

Sampel jawaban

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Jawabanna ngandung kahéngkéran parameter anu pikaresepeun - ieu mangrupikeun "kesejukan" kondisional tina raray dina poto, kalayan bantosanana kami milih shot anu pangsaéna tina raray tina sekuen. Kami ngalatih jaringan saraf pikeun ngaduga kamungkinan yén poto bakal resep dina jaringan sosial. Langkung saé kualitas poto sareng langkung seuri raray, langkung ageung kahéngkéran.

API Visi ngagunakeun konsép anu disebut spasi. Ieu mangrupikeun alat pikeun nyiptakeun set rupa-rupa rupa. Conto rohangan nyaéta daptar hideung sareng bodas, daptar sémah, karyawan, klien, jsb. Pikeun unggal token dina Visi, anjeun tiasa nyiptakeun dugi ka 10 rohangan, unggal rohangan tiasa gaduh dugi ka 50 rébu PersonID, nyaéta, dugi ka 500 rébu. per token. Leuwih ti éta, jumlah token per akun henteu diwatesan.

Kiwari, API ngadukung metode deteksi sareng pangakuan ieu:

  • Ngenalkeun / Setel - deteksi sareng pangakuan rupa. Otomatis masihan PersonID ka unggal jalma anu unik, mulihkeun PersonID sareng koordinat jalma anu kapendak.
  • Hapus - mupus hiji PersonID husus tina database jalma.
  • Truncate - mupus sadaya rohangan tina PersonID, mangpaat upami dianggo salaku rohangan tés sareng anjeun kedah ngareset database pikeun produksi.
  • Deteksi - deteksi objék, pamandangan, pelat lisénsi, landmark, antrian, jsb. Ngabalikeun kelas objék anu kapendak sareng koordinatna
  • Deteksi pikeun dokumén - ngadeteksi jenis husus tina dokumén Féderasi Rusia (ngabedakeun paspor, SNILS, nomer idéntifikasi pajeg, jsb).

Urang ogé geura-giru rengse pagawean dina métode pikeun OCR, nangtukeun jenis kelamin, umur jeung émosi, kitu ogé ngarengsekeun masalah dagang, nyaeta, pikeun otomatis ngadalikeun tampilan barang di toko. Anjeun tiasa mendakan dokuméntasi API lengkep di dieu: https://mcs.mail.ru/help/vision-api

4. Kacindekan

Ayeuna, ngalangkungan API umum, anjeun tiasa ngaksés pangakuan raray dina poto sareng pidéo; idéntifikasi rupa-rupa objék, plat lisénsi, landmark, dokumén sareng sadayana pamandangan dirojong. Skenario aplikasi - laut. Hayu, uji jasa kami, setel tugas anu paling hese. 5000 transaksi munggaran gratis. Panginten éta bakal janten "bahan anu leungit" pikeun proyék anjeun.

Anjeun tiasa langsung ngaksés API nalika pendaptaran sareng sambungan. tetempoan. Sadaya pangguna Habra nampi kode promosi pikeun transaksi tambahan. Punten nyerat ka kuring alamat email anu anjeun pake pikeun ngadaptar akun anjeun!

sumber: www.habr.com

Tambahkeun komentar