Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Kelajakdagi kompyuterni ko'rish tizimi uchun texnologiyalar va modellar kompaniyamizning turli loyihalarida - Mail, Cloud, Search-da yaratildi va takomillashtirildi. Ular yaxshi pishloq yoki konyak kabi pishgan. Bir kuni biz neyron tarmoqlarimiz tanib olishda ajoyib natijalarni ko‘rsatayotganini angladik va biz ularni yagona b2b mahsulotiga - Visionga birlashtirishga qaror qildik, uni hozir o‘zimiz ishlatamiz va sizga foydalanishni taklif qilamiz.

Bugungi kunda Mail.Ru Cloud Solutions platformasida bizning kompyuter ko'rish texnologiyamiz muvaffaqiyatli ishlamoqda va juda murakkab amaliy muammolarni hal qilmoqda. U bizning ma'lumotlar to'plamimizda o'qitilgan va amaliy muammolarni hal qilishga ixtisoslashgan bir qator neyron tarmoqlarga asoslangan. Barcha xizmatlar bizning server qurilmalarimizda ishlaydi. Siz umumiy Vision API-ni ilovalaringizga integratsiya qilishingiz mumkin, bu orqali xizmatning barcha imkoniyatlari mavjud. API tezkor - server GPUlari tufayli bizning tarmog'imizdagi o'rtacha javob vaqti 100 ms ni tashkil qiladi.

Mushukga boring, batafsil hikoya va Vision ishining ko'plab misollari bor.

Biz o'zimiz aytib o'tilgan yuzni aniqlash texnologiyalaridan foydalanadigan xizmatga misol bo'la oladi Tadbirlar. Uning tarkibiy qismlaridan biri Vision foto stendlari bo‘lib, biz ularni turli anjumanlarda o‘rnatamiz. Agar siz bunday fotostendga yaqinlashsangiz, o'rnatilgan kamera bilan suratga oling va elektron pochtangizni kiriting, tizim darhol konferentsiya fotograflari tomonidan olingan fotosuratlar qatorini topadi va agar xohlasangiz, topilgan fotosuratlarni sizga elektron pochta orqali yuboradi. Va biz sahnalashtirilgan portret kadrlar haqida gapirmayapmiz - Vision sizni hatto orqa fonda ham tashrif buyuruvchilar olomonida taniydi. Albatta, fotosuratlar stendlari emas, balki bu shunchaki chiroyli stendlardagi planshetlar bo'lib, ular o'rnatilgan kameralari bilan mehmonlarni suratga olishadi va ma'lumotlarni serverlarga uzatadilar, bu erda tanib olish sehrlari sodir bo'ladi. Va biz bir necha marta texnologiyaning samaradorligi tasvirni aniqlash bo'yicha mutaxassislar orasida ham hayratlanarli ekanligini ko'rganmiz. Quyida biz ba'zi misollar haqida gapiramiz.

1. Yuzni tanish modelimiz

1.1. Neyron tarmoq va ishlov berish tezligi

Tanib olish uchun biz ResNet 101 neyron tarmog'i modelining modifikatsiyasidan foydalanamiz.Oxirgi o'rtacha birlashtirish ArcFace-da bajarilganiga o'xshash to'liq bog'langan qatlam bilan almashtiriladi. Biroq, vektor tasvirlarining o'lchami 128 emas, balki 512. Bizning o'quv to'plamimizda 10 273 kishining 593 millionga yaqin fotosuratlari mavjud.

Model diqqat bilan tanlangan server konfiguratsiyasi arxitekturasi va GPU hisoblashlari tufayli juda tez ishlaydi. Bizning ichki tarmoqlarimizda APIdan javob olish uchun 100 ms dan vaqt ketadi - bunga yuzni aniqlash (fotosuratdagi yuzni aniqlash), API javobida PersonIDni tanib olish va qaytarish kiradi. Katta hajmdagi kiruvchi ma'lumotlar - fotosuratlar va videolar bilan ma'lumotlarni xizmatga o'tkazish va javob olish uchun ko'proq vaqt kerak bo'ladi.

1.2. Modelning samaradorligini baholash

Ammo neyron tarmoqlarning samaradorligini aniqlash juda noaniq vazifadir. Ularning ish sifati modellar qaysi ma'lumotlar to'plamlari bo'yicha o'qitilganiga va ular muayyan ma'lumotlar bilan ishlash uchun optimallashtirilganligiga bog'liq.

Biz modelimizning aniqligini mashhur LFW tekshirish testi bilan baholashni boshladik, ammo u juda kichik va oddiy. 99,8% aniqlikka erishgandan so'ng, u endi foydali emas. Tanib olish modellarini baholash uchun yaxshi raqobat bor - Megaface, biz asta-sekin 82% 1-o'ringa erishdik. Megaface testi millionlab fotosuratlardan - chalg'ituvchilardan iborat va model Facescrub-dan mashhur kishilarning bir necha ming fotosuratlarini yaxshi ajrata olishi kerak. chalg'ituvchilardan olingan ma'lumotlar to'plami. Biroq, Megaface testidagi xatolarni bartaraf etib, biz tozalangan versiyada 98% 1-darajali aniqlikka erishganimizni aniqladik (mashhurlarning fotosuratlari odatda juda aniq). Shuning uchun ular Megaface-ga o'xshash, ammo "oddiy" odamlarning fotosuratlari bilan alohida identifikatsiya testini yaratdilar. Keyin biz ma'lumotlar to'plamlarimizda tanib olish aniqligini yaxshiladik va ancha oldinga bordik. Bundan tashqari, biz bir necha ming fotosuratdan iborat klaster sifati testidan foydalanamiz; u foydalanuvchining bulutida yuz teglarini taqlid qiladi. Bunday holda, klasterlar o'xshash shaxslar guruhlari bo'lib, har bir taniqli shaxs uchun bitta guruh. Biz haqiqiy guruhlar bo'yicha ish sifatini tekshirdik (to'g'ri).

Albatta, tanib olish xatolar har qanday model bilan sodir bo'ladi. Ammo bunday vaziyatlar ko'pincha aniq shartlar uchun chegaralarni aniq sozlash orqali hal qilinadi (barcha konferentsiyalar uchun biz bir xil chegaralardan foydalanamiz, lekin, masalan, kirishni boshqarish tizimlari uchun biz chegaralarni sezilarli darajada oshirishimiz kerak, shunda noto'g'ri pozitivlar kamroq bo'ladi). Konferentsiyaga tashrif buyurganlarning aksariyati bizning Vision fotostendlarimiz tomonidan to'g'ri tanildi. Ba'zida kimdir kesilgan oldindan ko'rishga qarab: "Sizning tizimingiz xato qildi, bu men emasman", deb aytadi. Keyin biz fotosuratni to'liq ochdik va ma'lum bo'ldiki, fotosuratda haqiqatan ham bu tashrifchi bor edi, faqat biz uni suratga olayotganimiz yo'q, lekin boshqa birov, bu odam shunchaki xiralashgan zonada fonda bo'lgan. Bundan tashqari, neyron tarmoq ko'pincha yuzning bir qismi ko'rinmasa yoki odam profilda turganda yoki hatto yarim burilishda ham to'g'ri taniydi. Tizim odamni yuzi optik buzilish zonasida bo'lsa ham, masalan, keng burchakli ob'ektiv bilan suratga olishda taniy oladi.

1.3. Qiyin vaziyatlarda sinov namunalari

Quyida bizning neyron tarmog'imiz qanday ishlashiga misollar keltirilgan. Rasmlar kirishga yuboriladi, u shaxsning noyob identifikatori - PersonID yordamida belgilanishi kerak. Agar ikki yoki undan ortiq rasm bir xil identifikatorga ega bo'lsa, modellarga ko'ra, bu fotosuratlar bir xil odamni tasvirlaydi.

Darhol shuni ta'kidlaymizki, sinov paytida biz ma'lum bir natijaga erishish uchun sozlashimiz mumkin bo'lgan turli parametrlar va model chegaralariga kirishimiz mumkin. Ommaviy API umumiy holatlarda maksimal aniqlik uchun optimallashtirilgan.

Keling, eng oddiy narsadan, yuzni tanib olishdan boshlaylik.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Xo'sh, bu juda oson edi. Keling, vazifani murakkablashtiramiz, soqol va bir necha yil qo'shamiz.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Ba'zilar aytadiki, bu ham unchalik qiyin emas edi, chunki ikkala holatda ham butun yuz ko'rinadi va algoritm uchun yuz haqida juda ko'p ma'lumotlar mavjud. Mayli, Tom Hardini profilga aylantiraylik. Bu muammo ancha murakkab va biz xatolik darajasi past bo'lgan holda uni muvaffaqiyatli hal qilish uchun ko'p kuch sarfladik: biz o'quv to'plamini tanladik, neyron tarmoq arxitekturasini o'ylab topdik, yo'qotish funktsiyalarini aniqladik va dastlabki ishlov berishni yaxshiladik. fotosuratlar.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Keling, unga bosh kiyim kiyaylik:

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Aytgancha, bu juda qiyin vaziyatga misol, chunki yuz juda xiralashgan va pastki fotosuratda ko'zlarni yashiradigan chuqur soya ham mavjud. Haqiqiy hayotda odamlar ko'pincha qora ko'zoynak yordamida tashqi ko'rinishini o'zgartiradilar. Keling, Tom bilan ham xuddi shunday qilaylik.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Mayli, keling, turli yoshdagi suratlarni joylashga harakat qilaylik va bu safar boshqa aktyor bilan tajriba o'tkazamiz. Yoshga bog'liq o'zgarishlar ayniqsa aniq bo'lgan ancha murakkab misolni olaylik. Vaziyat uzoqqa cho'zilmaydi, bu ko'pincha pasportdagi fotosuratni egasining yuzi bilan solishtirish kerak bo'lganda paydo bo'ladi. Axir, birinchi fotosurat egasi 20 yoshga to'lganda pasportga qo'shiladi va 45 yoshga kelib odam juda o'zgarishi mumkin:

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Sizningcha, imkonsiz missiyalar bo'yicha asosiy mutaxassis yosh bilan deyarli o'zgarmaganmi? O'ylaymanki, hatto bir nechta odam yuqori va pastki fotosuratlarni birlashtiradi, bola yillar davomida juda o'zgargan.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Neyron tarmoqlar tashqi ko'rinishdagi o'zgarishlarga tez-tez duch keladi. Masalan, ba'zida ayollar kosmetika yordamida o'z qiyofasini sezilarli darajada o'zgartirishi mumkin:

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Keling, vazifani yanada murakkablashtiramiz: deylik, yuzning turli qismlari turli fotosuratlarda qoplangan. Bunday hollarda algoritm butun namunalarni solishtira olmaydi. Biroq, Vision bu kabi vaziyatlarni yaxshi hal qiladi.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Aytgancha, fotosuratda juda ko'p yuzlar bo'lishi mumkin, masalan, zalning umumiy fotosuratiga 100 dan ortiq odam sig'ishi mumkin. Bu neyron tarmoqlar uchun qiyin vaziyat, chunki ko'p yuzlar boshqacha yoritilishi mumkin, ba'zilari esa diqqat markazida emas. Biroq, agar surat yetarli darajada aniqlik va sifatda olingan bo‘lsa (yuzni qoplagan kvadrat uchun kamida 75 piksel), Vision uni aniqlay oladi va taniy oladi.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Reportaj fotosuratlari va kuzatuv kameralari tasvirlarining o'ziga xos xususiyati shundaki, odamlar ko'pincha loyqa bo'lib qoladilar, chunki ular o'sha paytda diqqat markazida bo'lmagan yoki harakatlanayotgan edi:

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Bundan tashqari, yorug'lik intensivligi tasvirdan tasvirga juda katta farq qilishi mumkin. Bu ham ko'pincha qoqilish to'sig'iga aylanadi; ko'pgina algoritmlar juda qorong'i va juda yorug' tasvirlarni to'g'ri qayta ishlashda, ularga to'g'ri mos kelish haqida gapirmasa ham, katta qiyinchiliklarga duch kelishadi. Shuni eslatib o'tamanki, ushbu natijaga erishish uchun siz chegaralarni ma'lum bir tarzda sozlashingiz kerak, bu xususiyat hali ommaga ochiq emas. Biz barcha mijozlar uchun bir xil neyron tarmoqdan foydalanamiz; uning ko'pgina amaliy vazifalar uchun mos bo'lgan chegaralari mavjud.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Yaqinda biz Osiyo yuzlarini yuqori aniqlik bilan taniydigan modelning yangi versiyasini chiqardik. Ilgari bu katta muammo bo'lib, hatto "mashinalarni o'rganish" (yoki "neyron tarmoq") irqchilik deb ham atalgan. Evropa va Amerika neyron tarmoqlari Kavkaz yuzlarini yaxshi tanigan, ammo Mongoloid va Negroid yuzlari bilan vaziyat ancha yomon edi. Ehtimol, Xitoyda vaziyat aksincha edi. Bu ma'lum bir mamlakatdagi odamlarning ustun turlarini aks ettiruvchi ma'lumotlar to'plamini o'qitish bilan bog'liq. Biroq, vaziyat o'zgarmoqda, bugungi kunda bu muammo unchalik keskin emas. Vizyon turli irqdagi odamlar bilan hech qanday muammoga duch kelmaydi.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Yuzni tanib olish - bu bizning texnologiyamizning ko'plab ilovalaridan biri; Vizyonni har qanday narsani tan olishga o'rgatish mumkin. Masalan, avtomobil raqamlari, shu jumladan algoritmlar uchun qiyin sharoitlarda: o'tkir burchaklarda, iflos va o'qish qiyin bo'lgan raqamlar.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

2. Amaliy foydalanish holatlari

2.1. Jismoniy kirishni boshqarish: ikki kishi bir xil talondan foydalanganda

Vision yordamida siz xodimlarning kelishi va ketishini qayd qilish tizimlarini joriy qilishingiz mumkin. Elektron o'tishlarga asoslangan an'anaviy tizimning aniq kamchiliklari bor, masalan, bitta nishon yordamida ikki kishidan o'tishingiz mumkin. Agar kirishni boshqarish tizimi (ACS) Vision bilan to'ldirilgan bo'lsa, u kim kelgan/ketgan va qachon ro'yxatdan o'tadi.

2.2. Vaqtni kuzatish

Ushbu Vision foydalanish holati oldingi holat bilan chambarchas bog'liq. Agar siz kirish tizimini bizning yuzni aniqlash xizmatimiz bilan to'ldirsangiz, u nafaqat kirishni boshqarishning buzilishini aniqlashi, balki bino yoki ob'ektda xodimlarning haqiqiy mavjudligini ham qayd etishi mumkin bo'ladi. Boshqacha qilib aytadigan bo'lsak, Vision sizga kim ishga kelib, qaysi vaqtda ketganini va hamkasblari uni boshliqlar oldida qoplagan bo'lsa ham, ishni umuman o'tkazib yuborganini halol hisobga olishga yordam beradi.

2.3. Video tahlili: odamlarni kuzatish va xavfsizlik

Vision yordamida odamlarni kuzatib borish orqali siz xarid qilish joylari, temir yo‘l vokzallari, o‘tish joylari, ko‘chalar va boshqa ko‘plab jamoat joylarining haqiqiy harakatini aniq baholashingiz mumkin. Bizning kuzatuvimiz, masalan, omborga yoki boshqa muhim ofis binolariga kirishni nazorat qilishda ham katta yordam berishi mumkin. Va, albatta, odamlar va yuzlarni kuzatish xavfsizlik muammolarini hal qilishga yordam beradi. Sizning do'koningizdan o'g'irlik qilayotgan odamni qo'lga oldingizmi? Uning Vision tomonidan qaytarilgan PersonID ni video tahliliy dasturiy taʼminotingiz qora roʻyxatiga qoʻshing va keyingi safar ushbu tur yana paydo boʻlsa, tizim darhol xavfsizlikni ogohlantiradi.

2.4. Savdoda

Chakana savdo va turli xizmat ko'rsatish korxonalari navbatni aniqlashdan manfaatdor. Vision yordamida siz bu tasodifiy olomon emas, balki navbat ekanligini tan olishingiz va uning uzunligini aniqlashingiz mumkin. Va keyin tizim mas'ullarga navbat haqida xabar beradi, shunda ular vaziyatni aniqlay olishadi: yo tashrif buyuruvchilar oqimi bor va qo'shimcha ishchilarni chaqirish kerak, yoki kimdir o'z vazifalarini sekinlashtirmoqda.

Yana bir qiziqarli vazifa - zaldagi kompaniya xodimlarini tashrif buyuruvchilardan ajratish. Odatda, tizim ma'lum bir kiyim kiygan (kiyinish kodi) yoki qandaydir o'ziga xos xususiyatga ega (markali sharf, ko'krak nishoni va boshqalar) ob'ektlarni ajratish uchun o'rgatiladi. Bu davomatni aniqroq baholashga yordam beradi (xodimlar zaldagi odamlarning statistik ma'lumotlarini ularning mavjudligi bilan "shishib ketmasligi" uchun).

Yuzni tanishdan foydalanib, siz o'z auditoriyangizni ham baholashingiz mumkin: tashrif buyuruvchilarning sadoqati nima, ya'ni sizning muassasangizga qancha odam qaytib keladi va qaysi chastotada. Oyiga qancha noyob tashrif buyuruvchilar kelishini hisoblang. Jozibadorlik va ushlab turish xarajatlarini optimallashtirish uchun siz haftaning kuniga va hatto kunning vaqtiga qarab trafikning o'zgarishini ham bilib olishingiz mumkin.

Franchayzerlar va zanjirli kompaniyalar turli chakana savdo nuqtalarining brendlash sifatini fotosuratlarni baholashga buyurtma berishlari mumkin: logotiplar, belgilar, plakatlar, bannerlar va boshqalar mavjudligi.

2.5. Transport orqali

Videotahlil yordamida xavfsizlikni ta'minlashning yana bir misoli aeroportlar yoki temir yo'l vokzallari zallarida tashlab ketilgan narsalarni aniqlashdir. Vizyonni yuzlab toifadagi narsalarni tanib olishga o'rgatish mumkin: mebel qismlari, sumkalar, chamadonlar, soyabonlar, har xil turdagi kiyimlar, shishalar va boshqalar. Agar sizning video tahlil tizimingiz egasiz obyektni aniqlasa va uni Vision yordamida tanisa, u xavfsizlik xizmatiga signal yuboradi. Shunga o'xshash vazifa jamoat joylarida noodatiy vaziyatlarni avtomatik aniqlash bilan bog'liq: kimdir o'zini yomon his qiladi yoki kimdir noto'g'ri joyda chekadi, yoki odam relslarga yiqiladi va hokazo - bularning barchasini video tahlil tizimlari tanib olishi mumkin. Vision API orqali.

2.6. Hujjatlar oqimi

Biz hozirda ishlab chiqayotgan yana bir qiziqarli kelajakdagi Vision ilovasi - bu hujjatlarni aniqlash va ularni ma'lumotlar bazalariga avtomatik tahlil qilish. Cheksiz seriyalarni, raqamlarni, chiqarilgan sanalarni, hisob raqamlarini, bank rekvizitlarini, tug'ilgan sanalari va joylarini va boshqa ko'plab rasmiylashtirilgan ma'lumotlarni qo'lda kiritish (yoki undan ham yomoni, kiritish) o'rniga siz hujjatlarni skanerlashingiz va ularni avtomatik ravishda xavfsiz kanal orqali yuborishingiz mumkin. API bulutga, bu erda tizim ushbu hujjatlarni tezda taniydi, ularni tahlil qiladi va ma'lumotlar bazasiga avtomatik kiritish uchun kerakli formatdagi ma'lumotlar bilan javob qaytaradi. Bugungi kunda Vision allaqachon hujjatlarni (shu jumladan PDF) qanday tasniflashni biladi - pasportlar, SNILS, TIN, tug'ilganlik haqidagi guvohnomalar, nikoh guvohnomalari va boshqalarni ajratib turadi.

Albatta, neyron tarmoq bu vaziyatlarning barchasini qutidan tashqarida hal qila olmaydi. Har bir holatda ma'lum bir mijoz uchun yangi model quriladi, ko'plab omillar, nuanslar va talablar hisobga olinadi, ma'lumotlar to'plamlari tanlanadi va o'qitish, sinovdan o'tkazish va konfiguratsiyani takrorlash amalga oshiriladi.

3. API ishlash sxemasi

Visionning foydalanuvchilar uchun “kirish eshigi” REST API hisoblanadi. U kirish sifatida tarmoq kameralaridan (RTSP oqimlari) fotosuratlar, video fayllar va eshittirishlarni qabul qilishi mumkin.

Vision-dan foydalanish uchun sizga kerak ro'yxatdan Mail.ru Cloud Solutions xizmatida va kirish tokenlarini qabul qiling (client_id + client_secret). Foydalanuvchi autentifikatsiyasi OAuth protokoli yordamida amalga oshiriladi. POST so'rovlari jismlaridagi manba ma'lumotlari API ga yuboriladi. Va bunga javoban mijoz API dan JSON formatidagi tanib olish natijasini oladi va javob tuzilgan: u topilgan ob'ektlar va ularning koordinatalari haqidagi ma'lumotlarni o'z ichiga oladi.

Soqol, qora ko'zoynak va profilda: kompyuterni ko'rish uchun qiyin vaziyatlar

Javob namunasi

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Javob qiziqarli parametrni o'z ichiga oladi hayratlanarli - bu fotosuratdagi yuzning shartli "sovuqligi", uning yordami bilan biz ketma-ketlikdan yuzning eng yaxshi suratini tanlaymiz. Biz neyron tarmoqni ijtimoiy tarmoqlarda suratning yoqilishi ehtimolini bashorat qilish uchun o'rgatganmiz. Surat sifati qanchalik yaxshi bo'lsa va yuz tabassumli bo'lsa, shunchalik ajoyib bo'ladi.

API Vision bo'shliq deb ataladigan kontseptsiyadan foydalanadi. Bu turli xil yuzlar to'plamini yaratish uchun vositadir. Bo'shliqlarga misol sifatida oq va qora ro'yxatlar, tashrif buyuruvchilar, xodimlar, mijozlar va boshqalar ro'yxatini keltirish mumkin. Vision-da har bir token uchun siz 10 tagacha bo'sh joy yaratishingiz mumkin, har bir bo'sh joy 50 mingtagacha PersonID-ga ega bo'lishi mumkin, ya'ni 500 minggacha. token uchun. Bundan tashqari, har bir hisob uchun tokenlar soni cheklanmagan.

Bugungi kunda API quyidagi aniqlash va tanib olish usullarini qo'llab-quvvatlaydi:

  • Recognize/Set - yuzlarni aniqlash va tanib olish. Har bir noyob shaxsga avtomatik ravishda shaxs identifikatorini tayinlaydi, topilgan shaxslarning shaxs identifikatori va koordinatalarini qaytaradi.
  • O'chirish - ma'lum bir PersonIDni shaxs ma'lumotlar bazasidan o'chirish.
  • Kesish - PersonID-dan butun bo'sh joyni tozalaydi, agar u sinov maydoni sifatida ishlatilgan bo'lsa va ishlab chiqarish uchun ma'lumotlar bazasini qayta o'rnatishingiz kerak bo'lsa foydali bo'ladi.
  • Aniqlash - ob'ektlar, sahnalar, davlat raqamlari, diqqatga sazovor joylar, navbatlar va boshqalarni aniqlash. Topilgan ob'ektlar sinfini va ularning koordinatalarini qaytaradi
  • Hujjatlarni aniqlash - Rossiya Federatsiyasi hujjatlarining muayyan turlarini aniqlaydi (pasport, SNILS, soliq identifikatsiya raqami va boshqalarni ajratib turadi).

Shuningdek, biz tez orada OCR usullari, jins, yosh va his-tuyg'ularni aniqlash, shuningdek, merchandaysing muammolarini hal qilish, ya'ni do'konlarda tovarlarning namoyishini avtomatik boshqarish bo'yicha ishlarni yakunlaymiz. Toʻliq API hujjatlarini bu yerda topishingiz mumkin: https://mcs.mail.ru/help/vision-api

4. Xulosa

Endi ommaviy API orqali siz fotosuratlar va videolarda yuzni tanishdan foydalanishingiz mumkin; turli ob'ektlar, davlat raqamlari, diqqatga sazovor joylar, hujjatlar va butun sahnalarni aniqlash qo'llab-quvvatlanadi. Qo'llash stsenariylari - dengiz. Keling, xizmatimizni sinab ko'ring, unga eng qiyin vazifalarni qo'ying. Birinchi 5000 tranzaksiya bepul. Ehtimol, bu sizning loyihalaringiz uchun "etishmayotgan ingredient" bo'ladi.

Roʻyxatdan oʻtish va ulanishdan soʻng darhol APIga kirishingiz mumkin. ko'rish qobiliyati. Barcha Habra foydalanuvchilari qo'shimcha tranzaksiyalar uchun reklama kodini oladi. Iltimos, menga hisobingizni ro'yxatdan o'tkazishda foydalangan elektron pochta manzilingizni yozing!

Manba: www.habr.com

a Izoh qo'shish