Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Бидний ирээдүйн компьютерийн харааны системд зориулсан технологи, загваруудыг манай компанийн янз бүрийн төслүүдэд - Мэйл, Клоуд, Хайлт зэрэгт аажмаар боловсруулж, сайжруулсан. Тэд сайн бяслаг эсвэл коньяк шиг боловсорч гүйцсэн. Нэгэн өдөр бид мэдрэлийн сүлжээнүүд маань танигдахад маш сайн үр дүн үзүүлдгийг ойлгож, тэдгээрийг нэг b2b бүтээгдэхүүн болох Vision болгон нэгтгэхээр шийдсэн бөгөөд одоо бид өөрсдөө ашиглаж, танд ашиглахыг санал болгож байна.

Өнөөдөр манай Mail.Ru Cloud Solutions платформ дээрх компьютерийн харааны технологи амжилттай ажиллаж, маш нарийн төвөгтэй практик асуудлыг шийдэж байна. Энэ нь бидний өгөгдлийн багц дээр бэлтгэгдсэн, хэрэглээний асуудлуудыг шийдвэрлэх чиглэлээр мэргэшсэн хэд хэдэн мэдрэлийн сүлжээн дээр суурилдаг. Бүх үйлчилгээ манай серверийн байгууламж дээр ажилладаг. Та нийтийн Vision API-г өөрийн аппликешнүүдэд нэгтгэх боломжтой бөгөөд үүгээр дамжуулан үйлчилгээний бүх боломжуудыг ашиглах боломжтой болно. API нь хурдан байдаг - серверийн GPU-ийн ачаар манай сүлжээн дэх хариу өгөх дундаж хугацаа 100 мс байна.

Муур руу яв, тэнд Vision-ийн ажлын дэлгэрэнгүй түүх, олон жишээ бий.

Дээр дурдсан нүүр царай таних технологийг бид өөрсдөө ашигладаг үйлчилгээний жишээ юм үйл явдал. Үүний нэг бүрэлдэхүүн хэсэг нь Vision гэрэл зургийн тавиур бөгөөд бид янз бүрийн хурал дээр суурилуулдаг. Хэрэв та ийм гэрэл зургийн тавиур дээр ойртож, суурилуулсан камераар зураг авч, цахим шуудангаа оруулна уу, систем нь хурлын үеэр гэрэл зурагчдын авсан зургуудыг нэн даруй олох бөгөөд хэрэв хүсвэл олсон гэрэл зургуудаа танд имэйлээр илгээх болно. Мөн бид тайзны хөрөг зураг авалтын тухай яриагүй - Vision таныг олон тооны зочдын дунд ч гэсэн таньдаг. Мэдээжийн хэрэг, гэрэл зургийн тавиурууд нь өөрөө танигддаггүй, эдгээр нь зүгээр л суурилуулсан камераараа зочдын зургийг авч, серверт мэдээлэл дамжуулах, таних бүх ид шид нь тохиолддог үзэсгэлэнтэй стенд бүхий таблетууд юм. Технологийн үр нөлөө нь зураг таних мэргэжилтнүүдийн дунд хүртэл ямар гайхалтай болохыг бид нэг бус удаа харсан. Доор бид зарим жишээнүүдийн талаар ярих болно.

1. Манай нүүр царай таних загвар

1.1. Мэдрэлийн сүлжээ ба боловсруулалтын хурд

Танихын тулд бид ResNet 101 мэдрэлийн сүлжээний загварын өөрчлөлтийг ашигладаг.Төгсгөлд нь дундаж Pooling нь ArcFace дээр хийгдсэнтэй адил бүрэн холбогдсон давхаргаар солигддог. Гэхдээ вектор дүрслэлийн хэмжээ нь 128 биш 512. Манай сургалтын багцад 10 хүний ​​273 сая орчим зураг багтсан байна.

Анхааралтай сонгосон серверийн тохиргооны архитектур болон GPU тооцооллын ачаар загвар нь маш хурдан ажилладаг. Манай дотоод сүлжээн дэх API-аас хариу хүлээн авахад 100 мс-ээс багагүй хугацаа шаардагдана - үүнд царай илрүүлэх (зураг дээрх царайг илрүүлэх), API хариулт дахь PersonID-г таних, буцаах зэрэг орно. Ирж буй их хэмжээний өгөгдөл - гэрэл зураг, видео - мэдээллийг үйлчилгээ рүү шилжүүлэх, хариу хүлээн авахад илүү их цаг хугацаа шаардагдана.

1.2. Загварын үр нөлөөг үнэлэх

Гэхдээ мэдрэлийн сүлжээний үр ашгийг тодорхойлох нь маш хоёрдмол утгатай ажил юм. Тэдний ажлын чанар нь загваруудыг ямар өгөгдлийн багц дээр сургасан, тодорхой өгөгдөлтэй ажиллахад оновчтой болгосон эсэхээс хамаарна.

Бид загварынхаа үнэн зөвийг алдартай LFW баталгаажуулалтын тестээр үнэлж эхэлсэн боловч энэ нь хэтэрхий жижиг бөгөөд энгийн юм. 99,8% нарийвчлалтай болсны дараа энэ нь ашиггүй болсон. Таних загваруудыг үнэлэх сайн өрсөлдөөн байдаг - Megaface, бид аажмаар 82% -ийн зэрэглэл 1-д хүрсэн. Megaface тест нь сая сая гэрэл зураг - сатааруулагчаас бүрддэг бөгөөд загвар өмсөгч нь Facescrub-аас хэдэн мянган алдартнуудын зургийг сайн ялгаж чаддаг байх ёстой. анхаарал сарниулагчдын мэдээллийн багц. Гэсэн хэдий ч, Megaface тестийн алдааг арилгасны дараа бид 98% -ийн нарийвчлалтай 1-р зэрэглэлд хүрсэн болохыг олж мэдэв (алдартай хүмүүсийн зураг ерөнхийдөө тодорхой байдаг). Тиймээс тэд Megaface-тэй төстэй боловч "энгийн" хүмүүсийн гэрэл зураг бүхий тусдаа таних тест хийсэн. Дараа нь бид өгөгдлийн багц дээрээ таних нарийвчлалыг сайжруулж, хол урагшиллаа. Нэмж дурдахад бид хэдэн мянган зурагнаас бүрдэх кластерын чанарын тестийг ашигладаг; Энэ нь хэрэглэгчийн үүлэн доторх нүүрний тэмдэглэгээг дуурайлган хийдэг. Энэ тохиолдолд кластерууд нь ижил төстэй хүмүүсийн бүлгүүд бөгөөд танигдах боломжтой хүн бүрт нэг бүлэг байдаг. Бид бодит бүлгүүдийн ажлын чанарыг шалгасан (үнэн).

Мэдээжийн хэрэг, ямар ч загварт таних алдаа гардаг. Гэхдээ ийм нөхцөл байдал нь ихэвчлэн тодорхой нөхцлийн босго оноог нарийн тааруулах замаар шийдэгддэг (бүх хурлын хувьд бид ижил босго ашигладаг, гэхдээ жишээлбэл, хандалтын хяналтын системүүдийн хувьд бид босгыг их хэмжээгээр нэмэгдүүлэх шаардлагатай бөгөөд ингэснээр худал эерэг үр дүн бага байх болно). Чуулганы зочдын дийлэнх хувийг манай Vision гэрэл зургийн лангуунууд зөвөөр хүлээн зөвшөөрсөн. Заримдаа хэн нэгэн тайрсан урьдчилан харахыг хараад "Таны систем алдаа гаргасан, энэ нь би биш байсан" гэж хэлдэг. Дараа нь бид зургийг бүхэлд нь нээсэн бөгөөд энэ зураг дээр үнэхээр зочин байсан, зөвхөн бид түүний зургийг аваагүй, харин өөр хэн нэгэн, тэр хүн зүгээр л бүдэгрэх бүсэд арын дэвсгэр дээр байсан байна. Нэмж дурдахад мэдрэлийн сүлжээ нь нүүрний нэг хэсэг нь харагдахгүй, эсвэл профайл дээр зогсож байгаа эсвэл бүр хагас эргэсэн үед ч зөв таних болно. Энэ систем нь өргөн өнцгийн линзээр зураг авах үед нүүр нь оптик гажуудалтай байсан ч хүнийг таньж чаддаг.

1.3. Хэцүү нөхцөл байдалд туршилт хийх жишээ

Манай мэдрэлийн сүлжээ хэрхэн ажилладаг тухай жишээг доор харуулав. Зургуудыг оруулгад илгээсэн бөгөөд тэр үүнийг тухайн хүний ​​өвөрмөц танигч болох PersonID ашиглан шошголох ёстой. Хэрэв хоёр ба түүнээс дээш зураг ижил ID-тай бол загваруудын дагуу эдгээр зурагнууд ижил хүнийг дүрсэлсэн болно.

Туршилт хийхдээ бид тодорхой үр дүнд хүрэхийн тулд тохируулж болох янз бүрийн параметрүүд болон загварын босгонуудад хандах боломжтой гэдгийг нэн даруй тэмдэглэе. Нийтийн API нь нийтлэг тохиолдлуудад хамгийн их нарийвчлалтай байхаар оновчтой болсон.

Хамгийн энгийн зүйл болох нүүр царай танихаас эхэлцгээе.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

За, энэ хэтэрхий амархан байсан. Даалгавраа хүндрүүлж, сахал, хэдэн жил нэмье.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Зарим нь энэ нь бас тийм ч хэцүү биш байсан гэж хэлэх болно, учир нь энэ хоёр тохиолдолд нүүр бүхэлдээ харагдах бөгөөд нүүрний талаар маш их мэдээлэл алгоритмд байдаг. За, Том Хардиг профайл болгоцгооё. Энэ асуудал нь илүү төвөгтэй бөгөөд алдаа багатай байхын зэрэгцээ үүнийг амжилттай шийдвэрлэхийн тулд бид маш их хүчин чармайлт гаргасан: сургалтын багцыг сонгож, мэдрэлийн сүлжээний архитектурыг бодож, алдагдлын функцийг сайжруулж, урьдчилсан боловсруулалтыг сайжруулсан. гэрэл зургийн.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Түүнд толгойн хувцас өмсгөе:

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Дашрамд хэлэхэд энэ нь маш хэцүү нөхцөл байдлын жишээ юм, учир нь нүүр нь маш их бүрхэгдсэн байдаг бөгөөд доод зурган дээр нүдийг нуусан гүн сүүдэр байдаг. Бодит амьдрал дээр хүмүүс ихэвчлэн хар нүдний шилний тусламжтайгаар гадаад төрхөө өөрчилдөг. Томтой ижил зүйлийг хийцгээе.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

За, янз бүрийн насны зургуудыг оруулахыг хичээцгээе, энэ удаад бид өөр жүжигчинтэй туршилт хийх болно. Настай холбоотой өөрчлөлтүүд ялангуяа тод илэрдэг илүү төвөгтэй жишээг авч үзье. Нөхцөл байдал тийм ч хэцүү биш бөгөөд энэ нь паспорт дээрх зургийг эзэмшигчийн нүүр царайтай харьцуулах шаардлагатай үед ихэвчлэн тохиолддог. Эцсийн эцэст, анхны гэрэл зургийг эзэмшигч нь 20 настай байхад паспорт дээр нэмдэг бөгөөд 45 нас хүрэхэд хүн маш их өөрчлөгдөж болно.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Боломжгүй даалгаварын гол мэргэжилтэн нас ахих тусам өөрчлөгдөөгүй гэж та бодож байна уу? Хэдхэн хүн ч гэсэн дээд доод зургийг нь нийлүүлнэ гэж бодож байна, хүү олон жилийн туршид маш их өөрчлөгдсөн.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Мэдрэлийн сүлжээ нь гадаад төрх байдлын өөрчлөлттэй илүү их тулгардаг. Жишээлбэл, заримдаа эмэгтэйчүүд гоо сайхны бүтээгдэхүүний тусламжтайгаар дүр төрхөө эрс өөрчилж чаддаг.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Одоо даалгавраа улам хүндрүүлье: нүүрний янз бүрийн хэсгүүдийг өөр өөр гэрэл зургаар бүрхсэн гэж бодъё. Ийм тохиолдолд алгоритм нь дээжийг бүхэлд нь харьцуулж чадахгүй. Гэсэн хэдий ч Vision ийм нөхцөл байдлыг сайн зохицуулдаг.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Дашрамд хэлэхэд, гэрэл зурагт маш олон царай байж болно, жишээлбэл, танхимын ерөнхий зурагт 100 гаруй хүн багтах боломжтой. Энэ нь мэдрэлийн сүлжээнүүдийн хувьд хэцүү нөхцөл байдал юм, учир нь олон нүүрийг өөр өөрөөр гэрэлтүүлж, зарим нь фокусгүй байдаг. Гэсэн хэдий ч хэрэв зургийг хангалттай нарийвчлалтай, чанартай (нүүрийг бүрхсэн квадрат тутамд 75 пикселээс багагүй) авсан бол Vision үүнийг илрүүлж, таних боломжтой болно.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Сурвалжлагч гэрэл зураг болон хяналтын камерын зургийн онцлог нь тухайн үед хүмүүс анхаарал төвлөрөхөө больсон эсвэл хөдөлж байсан тул бүдгэрч байдаг.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Мөн гэрэлтүүлгийн эрч хүч нь зураг бүрээс ихээхэн ялгаатай байж болно. Энэ нь ихэвчлэн бүдэрч унадаг тул олон алгоритмууд хэтэрхий харанхуй, хэт цайвар зургийг зөв боловсруулахад маш их бэрхшээлтэй тулгардаг. Энэ үр дүнд хүрэхийн тулд та босгыг тодорхой байдлаар тохируулах хэрэгтэй гэдгийг сануулъя, энэ функц нь хараахан нийтэд нээлттэй биш байна. Бид бүх үйлчлүүлэгчдэд ижил мэдрэлийн сүлжээг ашигладаг бөгөөд энэ нь ихэнх практик ажлуудад тохиромжтой босготой байдаг.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Бид саяхан Азийн царайг өндөр нарийвчлалтайгаар таньдаг загварын шинэ хувилбарыг гаргасан. Энэ нь өмнө нь "машин сурах" (эсвэл "мэдрэлийн сүлжээ") арьс өнгөөр ​​ялгаварлах үзэл гэж нэрлэгддэг том асуудал байсан. Европ, Америкийн мэдрэлийн сүлжээнүүд Кавказын царайг сайн таньдаг байсан бол Монголоид болон Негроид царайны хувьд байдал улам дордов. Хятадад байдал яг эсрэгээрээ байсан байх. Энэ нь тухайн улс орны давамгайлсан хүмүүсийн төрлийг тусгасан сургалтын мэдээллийн багцтай холбоотой юм. Гэсэн хэдий ч нөхцөл байдал өөрчлөгдөж, өнөөдөр энэ асуудал тийм ч хурц биш байна. Алсын хараа нь янз бүрийн үндэстний хүмүүст ямар ч асуудалгүй.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Нүүр царай таних нь манай технологийн олон хэрэглээнүүдийн зөвхөн нэг нь бөгөөд алсын харааг ямар ч зүйлийг танихад сургаж болно. Жишээлбэл, автомашины дугаарууд, үүнд алгоритм хийхэд хэцүү нөхцөлд: хурц өнцөгт, бохир, уншихад хэцүү машины дугаар.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

2. Практик хэрэглээний тохиолдол

2.1. Физик хандалтын хяналт: хоёр хүн нэг тасалбар ашиглах үед

Vision-ийн тусламжтайгаар та ажилчдын ирэх, явахыг бүртгэх системийг хэрэгжүүлэх боломжтой. Цахим үнэмлэх дээр суурилсан уламжлалт систем нь тодорхой сул талуудтай, жишээлбэл, нэг тэмдгийг ашиглан хоёр хүнийг дамжуулж болно. Хэрэв хандалтын хяналтын систем (ACS) нь Vision-ээр хангагдсан бол хэн хэзээ ирсэн/явсан зэргийг үнэн зөвөөр бүртгэх болно.

2.2. Цаг хянах

Энэхүү Vision хэрэглээний тохиолдол нь өмнөхтэй нягт холбоотой. Хэрэв та нэвтрэх системийг манай царай таних үйлчилгээгээр нэмэгдүүлбэл энэ нь зөвхөн нэвтрэх хяналтын зөрчлийг илрүүлэхээс гадна барилга, байгууламжид ажилчдын бодит байдлыг бүртгэх боломжтой болно. Өөрөөр хэлбэл, хамтран ажиллагсад нь дарга нарынх нь өмнө нөмөр нөөлөг хийсэн ч хэн ажилдаа ирж, хэдэн цагт гарсан, хэн ажлаа тас тасалсан зэргийг үнэн зөвөөр тооцоход Vision туслах болно.

2.3. Видео аналитик: Хүмүүсийг хянах ба аюулгүй байдал

Vision ашиглан хүмүүсийг ажигласнаар та худалдааны бүс, галт тэрэгний буудал, гарц, гудамж болон бусад олон нийтийн газруудын бодит хөдөлгөөнийг үнэн зөв үнэлэх боломжтой. Манай хяналт нь агуулах эсвэл бусад чухал оффисын байр руу нэвтрэх эрхийг хянахад маш их тус болно. Мэдээжийн хэрэг, хүмүүс болон нүүр царайг хянах нь аюулгүй байдлын асуудлыг шийдвэрлэхэд тусалдаг. Танай дэлгүүрээс хулгай хийж байгаад баригдсан уу? Vision-ээс буцаасан түүний PersonID-г өөрийн видео шинжилгээний программ хангамжийн хар жагсаалтад нэмээрэй, дараагийн удаад ийм төрөл дахин гарч ирвэл систем аюулгүй байдлын талаар шууд анхааруулах болно.

2.4. Худалдаа

Жижиглэн худалдаа, үйлчилгээний төрөл бүрийн бизнесүүд дараалал таних сонирхолтой байдаг. Vision-ийн тусламжтайгаар та энэ нь санамсаргүй олон тооны хүмүүс биш, харин дараалал гэдгийг хүлээн зөвшөөрч, уртыг нь тодорхойлж чадна. Дараа нь систем нь хариуцагчдад дарааллын талаар мэдээлдэг бөгөөд ингэснээр тэд нөхцөл байдлыг олж мэдэх боломжтой: зочдын урсгал нэмэгдэж, нэмэлт ажилчдыг дуудах шаардлагатай байна, эсвэл хэн нэгэн ажил үүргээ умартаж байна.

Өөр нэг сонирхолтой ажил бол танхимд байгаа компанийн ажилчдыг зочдоос салгах явдал юм. Ерөнхийдөө систем нь тодорхой хувцас өмссөн (хувцаслалтын код) эсвэл өвөрмөц шинж чанартай (брэндийн ороолт, цээжин дээрх тэмдэг гэх мэт) объектуудыг салгахад сургадаг. Энэ нь ирцийг илүү нарийвчлалтай үнэлэхэд тусалдаг (ингэснээр ажилчид танхимд байгаа хүмүүсийн статистикийг зөвхөн тэдний дэргэд "хөөрөхгүй" байх болно).

Нүүр царай таних аргыг ашигласнаар та үзэгчдээ үнэлж болно: зочдын үнэнч байдал ямар байдаг, өөрөөр хэлбэл танай байгууллагад хэдэн хүн буцаж ирдэг, ямар давтамжтай байдаг. Сард хэдэн өвөрмөц зочин ирэхийг тооцоол. Таталцлыг татах, хадгалах зардлыг оновчтой болгохын тулд та долоо хоногийн өдөр, тэр ч байтугай өдрийн цагаас хамаарч замын хөдөлгөөний өөрчлөлтийг олж мэдэх боломжтой.

Франчайзер болон сүлжээний компаниуд янз бүрийн худалдааны цэгүүдийн брендийн чанарын гэрэл зураг дээр үндэслэн үнэлгээг захиалж болно: лого, тэмдэг, зурагт хуудас, баннер гэх мэт.

2.5. Тээврээр

Видео аналитик ашиглан аюулгүй байдлыг хангах өөр нэг жишээ бол нисэх онгоцны буудал эсвэл галт тэрэгний буудлын танхимд орхигдсон зүйлсийг тодорхойлох явдал юм. Тавилга, цүнх, чемодан, шүхэр, янз бүрийн хувцас, шил гэх мэт олон зуун ангиллын объектуудыг танихад алсын харааг сургаж болно. Хэрэв таны видео аналитик систем эзэнгүй объектыг илрүүлж, Vision ашиглан танивал хамгаалалтын үйлчилгээнд дохио илгээдэг. Үүнтэй төстэй ажил нь олон нийтийн газар дахь ер бусын нөхцөл байдлыг автоматаар илрүүлэхтэй холбоотой: хэн нэгэн өвчтэй байх, хэн нэгэн буруу газар тамхи татах, эсвэл хүн төмөр зам дээр унах гэх мэт - эдгээр бүх хэв маягийг видео шинжилгээний системээр таних боломжтой. Vision API-ээр дамжуулан.

2.6. Баримт бичгийн урсгал

Бидний одоо хөгжүүлж байгаа Vision-ийн өөр нэг сонирхолтой ирээдүйн хэрэглээ бол баримтыг таних, тэдгээрийг мэдээллийн санд автоматаар задлан шинжлэх явдал юм. Төгсгөлгүй цуврал, дугаар, гаргасан огноо, дансны дугаар, банкны дэлгэрэнгүй мэдээлэл, төрсөн он, сар, өдөр, газар болон бусад олон албан ёсны мэдээллийг гараар оруулахын оронд (эсвэл бүр муугаар бодоход) та баримт бичгийг сканнердаж, автоматаар аюулгүй сувгаар илгээх боломжтой. API нь клоуд руу шилжих бөгөөд систем нь эдгээр баримт бичгүүдийг шууд таньж, задлан шинжилж, мэдээллийн санд автоматаар оруулахын тулд шаардлагатай форматтай өгөгдөлтэй хариу илгээнэ. Өнөөдөр Vision нь баримт бичгийг (PDF-г оруулаад) хэрхэн ангилахаа аль хэдийн мэддэг болсон - паспорт, SNILS, TIN, төрсний гэрчилгээ, гэрлэлтийн гэрчилгээ болон бусад зүйлийг ялгаж чаддаг.

Мэдээжийн хэрэг, мэдрэлийн сүлжээ нь эдгээр бүх нөхцөл байдлыг хайрцагнаас гаргаж чадахгүй. Тухайн тохиолдол бүрт тодорхой хэрэглэгчдэд зориулж шинэ загвар бүтээж, олон хүчин зүйл, нюанс, шаардлагыг харгалзан үзэж, өгөгдлийн багцыг сонгож, сургалт, туршилт, тохируулгын давталтуудыг хийдэг.

3. API үйлдлийн схем

Vision-ийн хэрэглэгчдэд зориулсан "орох хаалга" нь REST API юм. Энэ нь сүлжээний камераас (RTSP урсгал) зураг, видео файл, нэвтрүүлгийг оролт болгон хүлээн авах боломжтой.

Vision-г ашиглахын тулд танд хэрэгтэй бүртгүүлэх Mail.ru Cloud Solutions үйлчилгээнд нэвтрэх ба хандалтын жетон хүлээн авах (client_id + client_secret). Хэрэглэгчийн баталгаажуулалтыг OAuth протокол ашиглан гүйцэтгэдэг. POST хүсэлтийн бие дэх эх өгөгдлийг API руу илгээдэг. Үүний хариуд үйлчлүүлэгч API-аас JSON форматаар таних үр дүнг хүлээн авдаг бөгөөд хариулт нь бүтэцтэй: олсон объектууд болон тэдгээрийн координатуудын талаархи мэдээллийг агуулдаг.

Сахалтай, хар шилтэй, профайлтай: компьютерийн хараанд хэцүү нөхцөл байдал

Жишээ хариулт

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Хариулт нь гайхалтай гайхалтай параметрийг агуулдаг - энэ бол зураг дээрх нүүрний нөхцөлт "сэрүүн байдал" бөгөөд түүний тусламжтайгаар бид нүүрний хамгийн сайн зургийг дарааллаар нь сонгодог. Бид нийгмийн сүлжээнд зураг таалагдах магадлалыг урьдчилан таамаглах мэдрэлийн сүлжээг сургасан. Зургийн чанар сайн, царай нь илүү инээмсэглэх тусам гайхалтай байх болно.

API Vision нь орон зай хэмээх ойлголтыг ашигладаг. Энэ бол янз бүрийн нүүр царай үүсгэх хэрэгсэл юм. Орон зайн жишээ нь хар ба цагаан жагсаалт, зочин, ажилчид, үйлчлүүлэгчдийн жагсаалт гэх мэт. Vision дээр токен тус бүрд 10 хүртэлх зай үүсгэх боломжтой, орон зай бүр 50 мянга хүртэлх PersonID, өөрөөр хэлбэл 500 мянга хүртэлх зайтай байж болно. жетон бүрт. Түүнээс гадна, нэг дансанд ногдох токенуудын тоо хязгаарлагдахгүй.

Өнөөдөр API нь дараах илрүүлэх, таних аргуудыг дэмждэг:

  • Таних/Тохируулах - царайг илрүүлэх, таних. Өвөрмөц хүн бүрт автоматаар PersonID оноож, PersonID болон олдсон хүмүүсийн координатыг буцаана.
  • Устгах - тодорхой PersonID-г хүний ​​мэдээллийн сангаас устгах.
  • Таслах - PersonID-ээс бүх орон зайг цэвэрлэнэ, хэрэв үүнийг туршилтын орон зай болгон ашигласан бол өгөгдлийн санг дахин тохируулах шаардлагатай.
  • Илрүүлэх - объект, үзэгдэл, машины дугаар, тэмдэглэгээ, дараалал гэх мэтийг илрүүлэх. Олдсон объектын анги, тэдгээрийн координатыг буцаана.
  • Баримт бичгийг илрүүлэх - ОХУ-ын тодорхой төрлийн баримт бичгийг илрүүлдэг (паспорт, SNILS, татварын дугаар гэх мэтийг ялгадаг).

Мөн бид удахгүй OCR хийх арга, хүйс, нас, сэтгэл хөдлөлийг тодорхойлох, худалдааны асуудлыг шийдвэрлэх, өөрөөр хэлбэл дэлгүүрт барааг харуулахыг автоматаар хянах ажлыг дуусгах болно. Та бүрэн API баримт бичгийг эндээс олж болно: https://mcs.mail.ru/help/vision-api

4. Дүгнэлт

Одоо олон нийтэд зориулсан API-ээр дамжуулан та гэрэл зураг, видео бичлэгийн нүүр царайг таних боломжтой; төрөл бүрийн объект, машины дугаар, тэмдэглэгээ, баримт бичиг, бүх дүр зургийг таних боломжтой. Хэрэглээний хувилбарууд - тэнгис. Ирээд манай үйлчилгээг туршиж үзээд хамгийн төвөгтэй даалгавруудыг тавь. Эхний 5000 гүйлгээ үнэгүй. Магадгүй энэ нь таны төслүүдийн "дутагдалтай найрлага" байх болно.

Та бүртгүүлж, холболт хийснээр API-д шууд хандах боломжтой. Алсын хараа. Хабрагийн бүх хэрэглэгчид нэмэлт гүйлгээ хийх урамшууллын код хүлээн авдаг. Бүртгэлээ бүртгүүлэхэд ашигласан имэйл хаягаа надад бичнэ үү!

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх