Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Gələcək kompüter görmə sistemimiz üçün texnologiyalar və modellər tədricən və şirkətimizin müxtəlif layihələrində - Mail, Bulud, Axtarışda yaradılmış və təkmilləşdirilmişdir. Onlar yaxşı pendir və ya konyak kimi yetişdilər. Bir gün biz neyron şəbəkələrimizin tanınmada əla nəticələr göstərdiyini anladıq və biz onları indi özümüz istifadə etdiyimiz və sizə istifadə etməyi təklif etdiyimiz vahid b2b məhsulunda - Visionda birləşdirməyə qərar verdik.

Bu gün Mail.Ru Cloud Solutions platformasında kompüter görmə texnologiyamız uğurla işləyir və çox mürəkkəb praktiki problemləri həll edir. O, məlumat dəstlərimizdə təlim keçmiş və tətbiqi problemlərin həllində ixtisaslaşmış bir sıra neyron şəbəkələrə əsaslanır. Bütün xidmətlər server imkanlarımızda işləyir. Siz ictimai Vision API-ni tətbiqlərinizə inteqrasiya edə bilərsiniz, bunun vasitəsilə xidmətin bütün imkanları mövcuddur. API sürətlidir - server GPU-ları sayəsində şəbəkəmiz daxilində orta cavab müddəti 100 ms-dir.

Pişiyin yanına gedin, ətraflı hekayə və Vision işinin bir çox nümunəsi var.

Adı çəkilən üz tanıma texnologiyalarından özümüzün istifadə etdiyimiz xidmətə misaldır Hadisələr. Onun komponentlərindən biri də müxtəlif konfranslarda quraşdırdığımız Vision foto stendləridir. Belə bir fotostendə yaxınlaşsanız, quraşdırılmış kamera ilə şəkil çəkdirin və e-poçtunuzu daxil edin, sistem dərhal konfransın əməkdaşları tərəfindən çəkilmiş fotoşəkillər arasından tapacaq və istəsəniz, tapılan fotoşəkilləri sizə e-poçt vasitəsilə göndərəcək. Və biz səhnələşdirilmiş portret çəkilişlərindən danışmırıq - Vision sizi ziyarətçilərin çoxluğunda belə arxa planda tanıyır. Əlbəttə ki, foto stendlərin özləri tanınmır, bunlar sadəcə gözəl stendlərdəki planşetlərdir ki, onlar sadəcə quraşdırılmış kameraları ilə qonaqların şəkillərini çəkirlər və bütün tanınma sehrinin baş verdiyi serverlərə məlumat ötürürlər. Texnologiyanın effektivliyinin hətta təsvirin tanınması mütəxəssisləri arasında nə qədər təəccüblü olduğunu dəfələrlə görmüşük. Aşağıda bəzi nümunələr haqqında danışacağıq.

1. Üz tanıma modelimiz

1.1. Neyron şəbəkəsi və emal sürəti

Tanınma üçün biz ResNet 101 neyroşəbəkə modelinin modifikasiyasından istifadə edirik.Sonunda Average Pooling ArcFace-də necə edildiyinə bənzər tam bağlı təbəqə ilə əvəz olunur. Bununla belə, vektor təsvirlərinin ölçüsü 128 deyil, 512-dir. Bizim təlim dəstimizdə 10 nəfərin təxminən 273 milyon fotoşəkili var.

Diqqətlə seçilmiş server konfiqurasiya arxitekturası və GPU hesablaması sayəsində model çox tez işləyir. Daxili şəbəkələrimizdə API-dən cavab almaq üçün 100 ms vaxt tələb olunur - bura üz aşkarlanması (şəkildə üzün aşkarlanması), API cavabında PersonID-nin tanınması və qaytarılması daxildir. Böyük həcmdə daxil olan məlumatlarla - fotoşəkillər və videolar - məlumatları xidmətə ötürmək və cavab almaq üçün daha çox vaxt lazımdır.

1.2. Modelin effektivliyinin qiymətləndirilməsi

Lakin neyron şəbəkələrinin səmərəliliyinin müəyyən edilməsi çox qeyri-müəyyən bir işdir. Onların işinin keyfiyyəti modellərin hansı məlumat dəstləri üzərində öyrədildiyindən və onların xüsusi verilənlərlə işləmək üçün optimallaşdırılıb-optimallaşdırılmamasından asılıdır.

Biz məşhur LFW yoxlama testi ilə modelimizin düzgünlüyünü qiymətləndirməyə başladıq, lakin bu, çox kiçik və sadədir. 99,8% dəqiqliyə çatdıqdan sonra artıq faydalı deyil. Tanınma modellərini qiymətləndirmək üçün yaxşı bir rəqabət var - Megaface, biz tədricən 82% dərəcəyə çatdıq 1. Megaface testi bir milyon fotoşəkildən ibarətdir - yayındırıcılar - və model Facescrub-dan məşhurların bir neçə min fotoşəkilini yaxşı ayırmağı bacarmalıdır. distractorlardan verilənlər toplusu. Bununla birlikdə, Megaface testində səhvləri aradan qaldıraraq, təmizlənmiş versiya ilə 98% 1-ci dərəcə dəqiqliyinə nail olduğumuzu gördük (məşhurların fotoşəkilləri ümumiyyətlə olduqca spesifikdir). Buna görə də, Megaface-ə bənzər, lakin "adi" insanların fotoşəkilləri ilə ayrıca bir şəxsiyyət testi yaratdılar. Sonra məlumat dəstlərimizdə tanınma dəqiqliyini yaxşılaşdırdıq və çox irəli getdik. Bundan əlavə, biz bir neçə min fotoşəkildən ibarət klaster keyfiyyət testindən istifadə edirik; o, istifadəçinin buludunda üz işarələnməsini simulyasiya edir. Bu halda, klasterlər oxşar şəxslərdən ibarət qruplardır, hər tanınan şəxs üçün bir qrup. Real qruplar üzrə işin keyfiyyətini yoxladıq (doğru).

Təbii ki, tanınma xətaları istənilən modeldə olur. Lakin bu cür hallar çox vaxt konkret şərtlər üçün hədləri dəqiq tənzimləməklə həll olunur (bütün konfranslar üçün biz eyni hədlərdən istifadə edirik, lakin, məsələn, girişə nəzarət sistemləri üçün hədləri xeyli artırmalıyıq ki, yalançı pozitivlər daha az olsun). Konfrans ziyarətçilərinin böyük əksəriyyəti Vision foto stendlərimiz tərəfindən düzgün şəkildə tanındı. Bəzən kimsə kəsilmiş ön görünüşə baxıb deyirdi: “Sisteminiz səhv etdi, mən deyildim”. Sonra biz fotonu bütövlükdə açdıq və məlum oldu ki, həqiqətən də fotoda bu ziyarətçi var, sadəcə biz onun şəklini çəkmirdik, başqası, sadəcə olaraq bulanıq zonada arxa planda olan şəxs olub. Üstəlik, neyroşəbəkə çox vaxt üzün bir hissəsi görünmədikdə və ya insan profildə dayandıqda və ya hətta yarı dönük olduqda belə düzgün tanıyır. Sistem, məsələn, geniş bucaqlı obyektivlə çəkiliş zamanı üz optik təhrif zonasında olsa belə, insanı tanıya bilir.

1.3. Çətin vəziyyətlərdə sınaq nümunələri

Aşağıda neyron şəbəkəmizin necə işlədiyinə dair nümunələr verilmişdir. Şəkillər girişə təqdim olunur, o, şəxsi şəxsiyyət identifikatorundan istifadə edərək etiketləməlidir. Əgər iki və ya daha çox təsvir eyni şəxsiyyət vəsiqəsinə malikdirsə, o zaman modellərə görə, bu fotoşəkillər eyni şəxsi təsvir edir.

Dərhal qeyd edək ki, sınaqdan keçirərkən müəyyən bir nəticə əldə etmək üçün konfiqurasiya edə biləcəyimiz müxtəlif parametrlərə və model hədlərinə çıxışımız var. İctimai API ümumi hallarda maksimum dəqiqlik üçün optimallaşdırılıb.

Ən sadə şeydən başlayaq, üzün üzünü tanıma.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Bu çox asan idi. Tapşırığı çətinləşdirək, saqqal və bir neçə il əlavə edək.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Bəziləri deyəcəklər ki, bu da çox çətin deyildi, çünki hər iki halda bütün üz görünür və alqoritmdə üz haqqında çoxlu məlumatlar mövcuddur. Tamam, gəlin Tom Hardini profilə çevirək. Bu problem daha mürəkkəbdir və biz aşağı səhv nisbətini qoruyaraq, onu uğurla həll etmək üçün çox səy sərf etdik: biz təlim dəstini seçdik, neyron şəbəkənin arxitekturasını nəzərdən keçirdik, itki funksiyalarını yaxşılaşdırdıq və ilkin emalları təkmilləşdirdik. fotoşəkillərdən ibarətdir.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Gəlin ona baş örtüyü taxaq:

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Yeri gəlmişkən, bu, xüsusilə çətin vəziyyətin bir nümunəsidir, çünki üz çox qaranlıqdır və alt fotoşəkildə gözləri gizlədən dərin bir kölgə də var. Real həyatda insanlar tez-tez tünd eynəklərin köməyi ilə görünüşlərini dəyişirlər. Gəlin eyni şeyi Tom ilə edək.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Yaxşı, gəlin müxtəlif yaşlarda olan fotoşəkilləri yerləşdirməyə çalışaq və bu dəfə fərqli aktyorla sınaq keçirəcəyik. Yaşla bağlı dəyişikliklərin xüsusilə nəzərə çarpdığı daha mürəkkəb bir nümunə götürək. Vəziyyət heç də çətin deyil, pasportdakı fotoşəkili daşıyıcının üzü ilə müqayisə etmək lazım olduqda olduqca tez-tez baş verir. Axı, sahibinin 20 yaşı olanda ilk fotoşəkil pasporta əlavə olunur və 45 yaşına qədər bir insan çox dəyişə bilər:

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Sizcə, qeyri-mümkün missiyalar üzrə əsas mütəxəssis yaşla çox dəyişməyib? Düşünürəm ki, hətta bir neçə nəfər üst və alt fotoşəkilləri birləşdirərdi, bu illər ərzində oğlan çox dəyişdi.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Neyron şəbəkələri daha tez-tez görünüş dəyişiklikləri ilə qarşılaşır. Məsələn, bəzən qadınlar kosmetik vasitələrin köməyi ilə imiclərini çox dəyişə bilərlər:

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

İndi tapşırığı daha da çətinləşdirək: fərz edək ki, üzün müxtəlif hissələri müxtəlif fotoşəkillərdə örtülmüşdür. Belə hallarda alqoritm bütün nümunələri müqayisə edə bilməz. Bununla belə, Vision bu kimi vəziyyətləri yaxşı idarə edir.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Yeri gəlmişkən, bir fotoşəkildə çoxlu üz ola bilər, məsələn, zalın ümumi fotoşəkilinə 100-dən çox insan sığa bilər. Bu, neyron şəbəkələri üçün çətin bir vəziyyətdir, çünki bir çox üzlər fərqli şəkildə işıqlandırıla bilər, bəziləri isə diqqətdən kənarda qalır. Bununla belə, əgər foto kifayət qədər dəqiqlik və keyfiyyətlə çəkilərsə (üzü əhatə edən kvadrat başına ən azı 75 piksel), Vision onu aşkarlaya və tanıya biləcək.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Reportaj fotoşəkillərinin və müşahidə kameralarından alınan görüntülərin özəlliyi ondan ibarətdir ki, insanlar diqqətdən kənarda olduqları və ya həmin anda hərəkət etdikləri üçün tez-tez bulanıq olurlar:

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Həmçinin, işıqlandırma intensivliyi görüntüdən görüntüyə çox dəyişə bilər. Bu da tez-tez büdrəmə blokuna çevrilir; bir çox alqoritmlər çox qaranlıq və çox işıqlı şəkilləri düzgün emal etməkdə böyük çətinlik çəkirlər, onlara dəqiq uyğunlaşmaqdan bəhs etmirlər. Nəzərinizə çatdırım ki, bu nəticəyə nail olmaq üçün hədləri müəyyən bir şəkildə konfiqurasiya etməlisiniz, bu xüsusiyyət hələ ictimaiyyətə açıq deyil. Biz bütün müştərilər üçün eyni neyroşəbəkədən istifadə edirik, onun ən praktik tapşırıqlar üçün uyğun hədləri var.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Biz bu yaxınlarda Asiya üzlərini yüksək dəqiqliklə tanıyan modelin yeni versiyasını təqdim etdik. Bu, hətta “maşın öyrənməsi” (və ya “neyron şəbəkəsi”) irqçilik adlanan böyük problem idi. Avropa və Amerika neyron şəbəkələri Qafqaz üzlərini yaxşı tanıyırdı, lakin monqoloid və neqroid üzlərlə vəziyyət daha pis idi. Yəqin ki, Çində vəziyyət tam əksi idi. Söhbət konkret ölkədə dominant insan tiplərini əks etdirən təlim məlumat dəstləri ilə bağlıdır. Ancaq vəziyyət dəyişir, bu gün bu problem o qədər də kəskin deyil. Fərqli irqlərdən olan insanlarla görmə problemi yoxdur.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Üzün tanınması texnologiyamızın çoxsaylı tətbiqlərindən yalnız biridir; Görmə hər şeyi tanımaq üçün öyrədilə bilər. Məsələn, avtomobil nömrələri, o cümlədən alqoritmlər üçün çətin şərtlərdə: kəskin bucaqlarda, çirkli və oxunması çətin olan nömrə nişanları.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

2. Praktik istifadə halları

2.1. Fiziki giriş nəzarəti: iki nəfər eyni keçiddən istifadə etdikdə

Vision-un köməyi ilə siz işçilərin gəliş-gedişini qeyd etmək üçün sistemləri tətbiq edə bilərsiniz. Elektron keçidlərə əsaslanan ənənəvi sistemin aşkar çatışmazlıqları var, məsələn, bir nişandan istifadə edərək iki nəfəri keçə bilərsiniz. Girişə nəzarət sistemi (ACS) Vision ilə tamamlanarsa, o, kimin gəldiyini/çıxdığını və nə vaxt getdiyini vicdanla qeyd edəcəkdir.

2.2. Vaxt izləmə

Bu Vision istifadə nümunəsi əvvəlki ilə sıx bağlıdır. Əgər siz giriş sistemini üz tanıma xidmətimizlə tamamlasanız, o, nəinki girişə nəzarət pozuntularını aşkarlaya, həm də bina və ya obyektdə işçilərin faktiki mövcudluğunu qeyd edə biləcək. Başqa sözlə, Vision sizə kimin işə gəlib nə vaxt getdiyini və kimin işdən tamamilə qaçdığını, hətta həmkarları onun rəhbərlərinin qarşısında ört-basdır etsələr də, dürüstcə nəzərə almağa kömək edəcək.

2.3. Video Analitika: İnsanların İzlənməsi və Təhlükəsizliyi

Vision istifadə edərək insanları izləməklə siz alış-veriş sahələrinin, qatar stansiyalarının, keçidlərin, küçələrin və bir çox digər ictimai yerlərin real trafikini dəqiq qiymətləndirə bilərsiniz. Bizim izləməmiz həmçinin, məsələn, anbara və ya digər mühüm ofis binalarına girişə nəzarətdə böyük kömək ola bilər. Və təbii ki, insanları və üzləri izləmək təhlükəsizlik problemlərini həll etməyə kömək edir. Mağazanızdan oğurluq edən birini tutdunuz? Onun Vision tərəfindən qaytarılmış Şəxsi identifikatorunu video analitik proqramınızın qara siyahısına əlavə edin və növbəti dəfə bu növ yenidən görünsə, sistem dərhal təhlükəsizliyi xəbərdar edəcək.

2.4. Ticarətdə

Pərakəndə satış və müxtəlif xidmət müəssisələri növbənin tanınmasında maraqlıdır. Vision-un köməyi ilə siz bunun təsadüfi insan izdihamı deyil, növbə olduğunu anlaya və onun uzunluğunu müəyyən edə bilərsiniz. Və sonra sistem məsul şəxslərə növbə barədə məlumat verir ki, onlar vəziyyəti başa düşə bilsinlər: ya ziyarətçi axını var və əlavə işçilər çağırılmalıdır, ya da kimsə iş vəzifələrini ləngidir.

Digər maraqlı iş isə zalda olan şirkət işçilərini ziyarətçilərdən ayırmaqdır. Tipik olaraq, sistem müəyyən paltar geyən (paltar kodu) və ya bəzi fərqləndirici xüsusiyyətə (markalı şərf, döş nişanı və s.) malik olan obyektləri ayırmaq üçün öyrədilir. Bu, davamiyyəti daha dəqiq qiymətləndirməyə kömək edir (işçilər zaldakı insanların statistikasını sadəcə onların iştirakı ilə "şişirməsinlər").

Üz tanımadan istifadə edərək, siz həmçinin auditoriyanızı qiymətləndirə bilərsiniz: ziyarətçilərin sədaqəti nədir, yəni müəssisənizə nə qədər adam qayıdır və hansı tezliklə. Ayda sizə nə qədər unikal ziyarətçi gəldiyini hesablayın. Cazibə və saxlama xərclərini optimallaşdırmaq üçün həftənin günündən və hətta günün vaxtından asılı olaraq trafikin dəyişməsini də öyrənə bilərsiniz.

Françayzerlər və zəncir şirkətləri müxtəlif pərakəndə satış məntəqələrinin brendinq keyfiyyətinin fotoşəkilləri əsasında qiymətləndirmə sifariş edə bilərlər: loqoların, işarələrin, plakatların, bannerlərin və s.

2.5. Nəqliyyatla

Video analitikadan istifadə edərək təhlükəsizliyin təmin edilməsinin başqa bir nümunəsi hava limanlarının və ya qatar stansiyalarının salonlarında tərk edilmiş əşyaların müəyyən edilməsidir. Görmə qabiliyyəti yüzlərlə sinif obyektləri tanımaq üçün öyrədilə bilər: mebel parçaları, çantalar, çamadanlar, çətirlər, müxtəlif növ geyimlər, butulkalar və s. Video analitika sisteminiz sahibsiz obyekt aşkar edərsə və onu Vision istifadə edərək tanıyarsa, o, təhlükəsizlik xidmətinə siqnal göndərir. Oxşar tapşırıq ictimai yerlərdə qeyri-adi halların avtomatik aşkarlanması ilə bağlıdır: kimsə özünü pis hiss edir, yaxud kimsə yanlış yerdə siqaret çəkir, yaxud insan relslərə yıxılır və s. - bütün bu nümunələri video analitik sistemlər tanıya bilər Vision API vasitəsilə.

2.6. Sənəd axını

Hazırda inkişaf etdirdiyimiz digər maraqlı gələcək Vision tətbiqi sənədlərin tanınması və onların verilənlər bazalarında avtomatik təhlilidir. Sonsuz seriyaları, nömrələri, buraxılış tarixlərini, hesab nömrələrini, bank rekvizitlərini, doğum tarixlərini və yerlərini və bir çox digər rəsmiləşdirilmiş məlumatları əl ilə daxil etmək (və ya daha pisi, daxil etmək) əvəzinə, siz sənədləri skan edə və avtomatik olaraq təhlükəsiz kanal vasitəsilə göndərə bilərsiniz. Sistem bu sənədləri tez tanıyacaq, onları təhlil edəcək və verilənlər bazasına avtomatik daxil olmaq üçün tələb olunan formatda məlumatla cavab qaytaracaq bulud üçün API. Bu gün Vision artıq sənədləri (PDF daxil olmaqla) necə təsnif etməyi bilir - pasportlar, SNILS, VÖEN, doğum haqqında şəhadətnamələr, nikah şəhadətnamələri və başqaları arasında fərq qoyur.

Təbii ki, neyron şəbəkəsi bütün bu vəziyyətləri qutudan kənarda idarə edə bilmir. Hər bir halda konkret müştəri üçün yeni model qurulur, bir çox amillər, nüanslar və tələblər nəzərə alınır, məlumat dəstləri seçilir, təlim, sınaq və konfiqurasiyanın təkrarlanması həyata keçirilir.

3. API əməliyyat sxemi

Vision-un istifadəçilər üçün “giriş qapısı” REST API-dir. O, giriş kimi şəbəkə kameralarından (RTSP axınları) fotoşəkilləri, video faylları və yayımları qəbul edə bilər.

Vision istifadə etmək üçün sizə lazımdır qeydiyyatdan Mail.ru Cloud Solutions xidmətində və giriş nişanlarını qəbul edin (client_id + client_secret). İstifadəçinin autentifikasiyası OAuth protokolundan istifadə etməklə həyata keçirilir. POST sorğularının orqanlarındakı mənbə məlumatları API-yə göndərilir. Və cavab olaraq, müştəri API-dən JSON formatında tanınma nəticəsini alır və cavab strukturlaşdırılır: tapılan obyektlər və onların koordinatları haqqında məlumat ehtiva edir.

Saqqallı, qaranlıq eynəklərdə və profildə: kompüter görmə üçün çətin vəziyyətlər

Cavab nümunəsi

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Cavabda maraqlı bir heyrətamiz parametr var - bu, fotoşəkildəki üzün şərti "sərinliyi" dir, onun köməyi ilə ardıcıllıqdan üzün ən yaxşı şəklini seçirik. Bir fotoşəkilin sosial şəbəkələrdə bəyənilmə ehtimalını proqnozlaşdırmaq üçün neyron şəbəkəsini öyrətdik. Fotonun keyfiyyəti nə qədər yaxşı olarsa və üz nə qədər gülümsəyirsə, bir o qədər möhtəşəmlik olar.

API Vision boşluq adlı konsepsiyadan istifadə edir. Bu, müxtəlif üz dəstləri yaratmaq üçün bir vasitədir. Boşluqlara misal olaraq qara və ağ siyahılar, ziyarətçilərin, işçilərin, müştərilərin və s. siyahıları göstərmək olar. Vision-da hər bir işarə üçün siz 10-a qədər boşluq yarada bilərsiniz, hər bir məkanda 50 minə qədər Şəxsiyyət ID-si ola bilər, yəni 500 minə qədər token başına. Üstəlik, hesab başına tokenlərin sayı məhdud deyil.

Bu gün API aşağıdakı aşkarlama və tanınma üsullarını dəstəkləyir:

  • Recognize/Set - üzlərin aşkarlanması və tanınması. Avtomatik olaraq hər bir unikal şəxsə Şəxsiyyət identifikatoru təyin edir, Şəxs ID-sini və tapılan şəxslərin koordinatlarını qaytarır.
  • Sil - müəyyən bir Şəxsiyyət ID-sinin şəxs verilənlər bazasından silinməsi.
  • Kəsmək - bütün məkanı PersonID-dən təmizləyir, əgər o, sınaq sahəsi kimi istifadə olunubsa və istehsal üçün verilənlər bazasını sıfırlamalısınızsa faydalıdır.
  • Detect - obyektlərin, səhnələrin, nömrə nişanlarının, nişanların, növbələrin və s. aşkarlanması. Tapılan obyektlərin sinfini və onların koordinatlarını qaytarır
  • Sənədlər üçün aşkar edin - Rusiya Federasiyasının xüsusi sənədləri növlərini aşkar edir (pasport, SNILS, vergi identifikasiya nömrəsi və s. fərqləndirir).

Biz həmçinin tezliklə OCR metodları, cinsi, yaşı və emosiyaların müəyyən edilməsi, eləcə də merçendayzinq problemlərinin həlli, yəni mağazalarda malların nümayişinə avtomatik nəzarət üçün işləri başa çatdıracağıq. Tam API sənədlərini burada tapa bilərsiniz: https://mcs.mail.ru/help/vision-api

4. Nəticə

İndi ictimai API vasitəsilə siz foto və videolarda sifətin tanınmasına daxil ola bilərsiniz, müxtəlif obyektlərin, nömrə nişanlarının, nişanların, sənədlərin və bütün səhnələrin identifikasiyası dəstəklənir. Tətbiq ssenariləri - dəniz. Gəlin, xidmətimizi sınaqdan keçirin, ona ən çətin tapşırıqları təyin edin. İlk 5000 əməliyyat pulsuzdur. Bəlkə də bu, layihələriniz üçün “itkin tərkib hissəsi” olacaq.

Qeydiyyatdan və əlaqədən dərhal sonra API-yə daxil ola bilərsiniz. Vision. Bütün Habra istifadəçiləri əlavə əməliyyatlar üçün promosyon kodu alırlar. Zəhmət olmasa hesabınızı qeydiyyatdan keçirmək üçün istifadə etdiyiniz e-poçt ünvanını mənə yazın!

Mənbə: www.habr.com

Добавить комментарий