Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Crëwyd a gwellwyd technolegau a modelau ar gyfer ein system gweledigaeth gyfrifiadurol yn y dyfodol yn raddol ac mewn gwahanol brosiectau o'n cwmni - yn Mail, Cloud, Search. Roedden nhw'n aeddfedu fel caws da neu cognac. Un diwrnod sylweddolon ni fod ein rhwydweithiau niwral yn dangos canlyniadau rhagorol mewn cydnabyddiaeth, a phenderfynon ni eu cyfuno i greu un cynnyrch b2b - Vision - rydyn ni nawr yn ei ddefnyddio ein hunain ac yn cynnig i chi ei ddefnyddio.

Heddiw, mae ein technoleg gweledigaeth gyfrifiadurol ar lwyfan Mail.Ru Cloud Solutions yn gweithio'n llwyddiannus ac yn datrys problemau ymarferol cymhleth iawn. Mae'n seiliedig ar nifer o rwydweithiau niwral sydd wedi'u hyfforddi ar ein setiau data ac sy'n arbenigo mewn datrys problemau cymhwysol. Mae pob gwasanaeth yn rhedeg ar ein cyfleusterau gweinydd. Gallwch integreiddio'r API Vision cyhoeddus i'ch cymwysiadau, y mae holl alluoedd y gwasanaeth ar gael trwyddynt. Mae'r API yn gyflym - diolch i GPUs gweinydd, yr amser ymateb cyfartalog o fewn ein rhwydwaith yw 100 ms.

Ewch at y gath, mae stori fanwl a llawer o enghreifftiau o waith Vision.

Fel enghraifft o wasanaeth yr ydym ni ein hunain yn defnyddio'r technolegau adnabod wynebau y soniwyd amdanynt, gallwn ddyfynnu Digwyddiadau. Un o'i gydrannau yw stondinau lluniau Vision, yr ydym yn eu gosod mewn gwahanol gynadleddau. Os byddwch chi'n agosáu at stondin ffotograffau o'r fath, tynnwch lun gyda'r camera adeiledig a rhowch eich e-bost, bydd y system yn dod o hyd ar unwaith ymhlith yr amrywiaeth o ffotograffau y rhai y cawsoch eich dal gan ffotograffwyr staff y gynhadledd, ac, os dymunir, yn anfon y ffotograffau a ddarganfuwyd atoch trwy e-bost. Ac nid ydym yn sôn am luniau portread fesul cam - mae Vision yn eich adnabod hyd yn oed yn yr union gefndir mewn torf o ymwelwyr. Wrth gwrs, nid y standiau lluniau eu hunain sy'n cael eu cydnabod, dim ond tabledi mewn standiau hardd yw'r rhain sy'n tynnu lluniau o westeion gyda'u camerâu adeiledig ac yn trosglwyddo gwybodaeth i'r gweinyddwyr, lle mae'r holl hud adnabyddiaeth yn digwydd. Ac rydym wedi gweld fwy nag unwaith pa mor syndod yw effeithiolrwydd y dechnoleg hyd yn oed ymhlith arbenigwyr adnabod delweddau. Isod byddwn yn siarad am rai enghreifftiau.

1. Ein model Cydnabod Wyneb

1.1. Rhwydwaith nerfol a chyflymder prosesu

Ar gyfer cydnabyddiaeth, rydym yn defnyddio addasiad o'r model rhwydwaith niwral ResNet 101 yn cael ei ddisodli ar y diwedd gan haen gwbl gysylltiedig, yn debyg i'r ffordd y mae'n cael ei wneud yn ArcFace. Fodd bynnag, maint y cynrychioliadau fector yw 128, nid 512. Mae ein set hyfforddi yn cynnwys tua 10 miliwn o luniau o 273 o bobl.

Mae'r model yn rhedeg yn gyflym iawn diolch i bensaernïaeth cyfluniad gweinydd a ddewiswyd yn ofalus a chyfrifiadura GPU. Mae'n cymryd o 100 ms i dderbyn ymateb gan yr API ar ein rhwydweithiau mewnol - mae hyn yn cynnwys canfod wynebau (canfod wyneb mewn llun), adnabod a dychwelyd PersonID yn yr ymateb API. Gyda llawer iawn o ddata yn dod i mewn - lluniau a fideos - bydd yn cymryd llawer mwy o amser i drosglwyddo'r data i'r gwasanaeth ac i dderbyn ymateb.

1.2. Asesu effeithiolrwydd y model

Ond mae pennu effeithlonrwydd rhwydweithiau niwral yn dasg amwys iawn. Mae ansawdd eu gwaith yn dibynnu ar ba setiau data yr hyfforddwyd y modelau arnynt ac a gawsant eu hoptimeiddio ar gyfer gweithio gyda data penodol.

Dechreuon ni werthuso cywirdeb ein model gyda'r prawf dilysu LFW poblogaidd, ond mae'n rhy fach ac yn syml. Ar ôl cyrraedd cywirdeb 99,8%, nid yw bellach yn ddefnyddiol. Mae cystadleuaeth dda ar gyfer gwerthuso modelau cydnabyddiaeth - Megaface, y gwnaethom gyrraedd gradd 82% yn raddol arno 1. Mae prawf Megaface yn cynnwys miliwn o ffotograffau - gwrthdynwyr - a dylai'r model allu gwahaniaethu'n dda â miloedd o ffotograffau o enwogion o'r Facescrub set ddata gan wrthdynwyr. Fodd bynnag, ar ôl clirio prawf gwallau Megaface, canfuom gyda'r fersiwn wedi'i chlirio ein bod yn cyflawni cywirdeb o 98% rheng 1 (mae lluniau o enwogion yn eithaf penodol ar y cyfan). Felly, fe wnaethon nhw greu prawf adnabod ar wahân, yn debyg i Megaface, ond gyda ffotograffau o bobl “gyffredin”. Yna fe wnaethom wella cywirdeb cydnabyddiaeth ar ein setiau data ac aethom ymhell ymlaen. Yn ogystal, rydym yn defnyddio prawf ansawdd clystyru sy'n cynnwys sawl mil o luniau; mae'n efelychu marciau wyneb yng nghwmwl y defnyddiwr. Yn yr achos hwn, mae clystyrau yn grwpiau o unigolion tebyg, un grŵp ar gyfer pob person adnabyddadwy. Gwnaethom wirio ansawdd y gwaith ar grwpiau go iawn (gwir).

Wrth gwrs, mae gwallau cydnabod yn digwydd gydag unrhyw fodel. Ond mae sefyllfaoedd o'r fath yn aml yn cael eu datrys trwy fireinio'r trothwyon ar gyfer amodau penodol (ar gyfer pob cynhadledd rydym yn defnyddio'r un trothwyon, ond, er enghraifft, ar gyfer systemau rheoli mynediad mae'n rhaid i ni gynyddu'r trothwyon yn fawr fel bod llai o bethau positif ffug). Cafodd mwyafrif helaeth yr ymwelwyr â’r gynhadledd eu cydnabod yn gywir gan ein bythau lluniau Vision. Weithiau byddai rhywun yn edrych ar y rhagolwg tocio ac yn dweud, “Gwnaeth eich system gamgymeriad, nid fi oedd e.” Yna fe agoron ni'r llun yn ei gyfanrwydd, a daeth i'r amlwg bod yr ymwelydd hwn yn y llun mewn gwirionedd, dim ond nid oeddem yn tynnu ei lun, ond roedd rhywun arall, y person yn digwydd bod yn y cefndir yn y parth aneglur. Ar ben hynny, mae'r rhwydwaith niwral yn aml yn cydnabod yn gywir hyd yn oed pan nad yw rhan o'r wyneb yn weladwy, neu pan fo'r person yn sefyll mewn proffil, neu hyd yn oed wedi hanner troi. Gall y system adnabod person hyd yn oed os yw'r wyneb yn yr ardal o ystumio optegol, dyweder, wrth saethu gyda lens ongl lydan.

1.3. Enghreifftiau o brofi mewn sefyllfaoedd anodd

Isod mae enghreifftiau o sut mae ein rhwydwaith niwral yn gweithio. Cyflwynir lluniau i'r mewnbwn, y mae'n rhaid iddi ei labelu gan ddefnyddio PersonID - dynodwr unigryw person. Os oes gan ddwy ddelwedd neu fwy yr un ID, yna, yn ôl y modelau, mae'r lluniau hyn yn darlunio'r un person.

Gadewch inni nodi ar unwaith, wrth brofi, fod gennym fynediad i baramedrau amrywiol a throthwyon model y gallwn eu ffurfweddu i gyflawni canlyniad penodol. Mae'r API cyhoeddus wedi'i optimeiddio ar gyfer y cywirdeb mwyaf posibl ar achosion cyffredin.

Gadewch i ni ddechrau gyda'r peth symlaf, gyda chydnabyddiaeth wyneb blaen-wyneb.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Wel, roedd hynny'n rhy hawdd. Gadewch i ni gymhlethu'r dasg, ychwanegu barf a llond llaw o flynyddoedd.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Bydd rhai yn dweud nad oedd hyn hefyd yn rhy anodd, oherwydd yn y ddau achos mae'r wyneb cyfan yn weladwy, ac mae llawer o wybodaeth am yr wyneb ar gael i'r algorithm. Iawn, gadewch i ni droi Tom Hardy yn broffil. Mae'r broblem hon yn llawer mwy cymhleth, a threuliasom lawer o ymdrech i'w datrys yn llwyddiannus tra'n cynnal cyfradd gwallau isel: fe wnaethom ddewis set hyfforddi, meddwl trwy bensaernïaeth y rhwydwaith niwral, mireinio'r swyddogaethau colled a gwella'r rhag-brosesu. o ffotograffau.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Gadewch i ni roi penwisg arno:

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Gyda llaw, mae hon yn enghraifft o sefyllfa arbennig o anodd, gan fod yr wyneb wedi'i guddio'n fawr, ac yn y llun gwaelod mae cysgod dwfn hefyd yn cuddio'r llygaid. Mewn bywyd go iawn, mae pobl yn aml yn newid eu hymddangosiad gyda chymorth sbectol tywyll. Gadewch i ni wneud yr un peth gyda Tom.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Iawn, gadewch i ni geisio taflu lluniau o wahanol oedrannau, a'r tro hwn byddwn yn arbrofi gydag actor gwahanol. Gadewch i ni gymryd enghraifft llawer mwy cymhleth, lle mae newidiadau sy'n gysylltiedig ag oedran yn arbennig o amlwg. Nid yw'r sefyllfa'n bell; mae'n digwydd yn eithaf aml pan fydd angen i chi gymharu'r llun yn y pasbort ag wyneb y cludwr. Wedi'r cyfan, mae'r llun cyntaf yn cael ei ychwanegu at basbort pan fydd y perchennog yn 20 oed, ac erbyn 45 oed gall person newid yn fawr:

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Ydych chi'n meddwl nad yw'r prif arbenigwr ar deithiau amhosibl wedi newid llawer gydag oedran? Rwy'n meddwl y byddai hyd yn oed ychydig o bobl yn cyfuno'r lluniau uchaf a gwaelod, mae'r bachgen wedi newid cymaint dros y blynyddoedd.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Mae rhwydweithiau niwral yn dod ar draws newidiadau mewn ymddangosiad yn llawer amlach. Er enghraifft, weithiau gall menywod newid eu delwedd yn fawr gyda chymorth colur:

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Nawr, gadewch i ni gymhlethu'r dasg hyd yn oed yn fwy: mae'n debyg bod gwahanol rannau o'r wyneb wedi'u gorchuddio â gwahanol ffotograffau. Mewn achosion o'r fath, ni all yr algorithm gymharu samplau cyfan. Fodd bynnag, mae Vision yn delio â sefyllfaoedd fel hyn yn dda.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Gyda llaw, gall fod llawer o wynebau mewn ffotograff; er enghraifft, gall mwy na 100 o bobl ffitio mewn ffotograff cyffredinol o neuadd. Mae hon yn sefyllfa anodd i rwydweithiau niwral, oherwydd gall llawer o wynebau gael eu goleuo'n wahanol, rhai allan o ffocws. Fodd bynnag, os cymerir y llun gyda datrysiad ac ansawdd digonol (o leiaf 75 picsel y sgwâr yn gorchuddio'r wyneb), bydd Vision yn gallu ei ganfod a'i adnabod.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Hynodrwydd ffotograffau adrodd a delweddau o gamerâu gwyliadwriaeth yw bod pobl yn aml yn aneglur oherwydd eu bod allan o ffocws neu eu bod yn symud ar yr adeg honno:

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Hefyd, gall dwyster y goleuo amrywio'n fawr o ddelwedd i ddelwedd. Mae hyn, hefyd, yn aml yn dod yn faen tramgwydd; mae llawer o algorithmau'n cael anhawster mawr i brosesu delweddau sy'n rhy dywyll ac yn rhy ysgafn yn gywir, heb sôn am eu paru'n gywir. Gadewch imi eich atgoffa bod angen i chi ffurfweddu'r trothwyon mewn ffordd benodol er mwyn cyflawni'r canlyniad hwn; nid yw'r nodwedd hon ar gael yn gyhoeddus eto. Rydym yn defnyddio'r un rhwydwaith niwral ar gyfer pob cleient; mae ganddo drothwyon sy'n addas ar gyfer y rhan fwyaf o dasgau ymarferol.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Yn ddiweddar, fe wnaethom gyflwyno fersiwn newydd o'r model sy'n cydnabod wynebau Asiaidd gyda chywirdeb uchel. Arferai hyn fod yn broblem fawr, a elwid hyd yn oed yn hiliaeth “dysgu peirianyddol” (neu “rwydwaith nerfol”). Roedd rhwydweithiau niwral Ewropeaidd ac Americanaidd yn cydnabod wynebau Cawcasws yn dda, ond gyda wynebau Mongoloid a Negroid roedd y sefyllfa'n waeth o lawer. Yn ôl pob tebyg, yn Tsieina roedd y sefyllfa'n union i'r gwrthwyneb. Mae'n ymwneud â setiau data hyfforddi sy'n adlewyrchu'r prif fathau o bobl mewn gwlad benodol. Fodd bynnag, mae’r sefyllfa’n newid; heddiw nid yw’r broblem hon mor ddifrifol. Nid oes gan weledigaeth unrhyw broblem gyda phobl o wahanol hil.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Dim ond un o nifer o gymwysiadau ein technoleg yw adnabod wynebau; gellir hyfforddi Vision i adnabod unrhyw beth. Er enghraifft, platiau trwydded, gan gynnwys mewn amodau anodd ar gyfer algorithmau: ar onglau miniog, yn fudr ac yn anodd ei ddarllen platiau trwydded.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

2. Achosion defnydd ymarferol

2.1. Rheoli mynediad corfforol: pan fydd dau berson yn defnyddio'r un tocyn

Gyda chymorth Vision, gallwch weithredu systemau ar gyfer cofnodi dyfodiad ac ymadawiad gweithwyr. Mae gan y system draddodiadol sy'n seiliedig ar docynnau electronig anfanteision amlwg, er enghraifft, gallwch chi basio dau berson gan ddefnyddio un bathodyn. Os caiff y system rheoli mynediad (ACS) ei hategu gan Vision, bydd yn cofnodi'n onest pwy ddaeth/gadawodd a phryd.

2.2. Olrhain amser

Mae cysylltiad agos rhwng yr achos defnydd Gweledigaeth hwn a'r un blaenorol. Os byddwch yn ategu'r system mynediad gyda'n gwasanaeth adnabod wynebau, bydd yn gallu nid yn unig i ganfod troseddau rheoli mynediad, ond hefyd i gofrestru presenoldeb gwirioneddol gweithwyr yn yr adeilad neu'r cyfleuster. Mewn geiriau eraill, bydd Vision yn eich helpu i gymryd i ystyriaeth yn onest pwy ddaeth i'r gwaith ac a adawodd ar ba amser, a phwy hepgorodd y gwaith yn gyfan gwbl, hyd yn oed pe bai ei gydweithwyr yn gorchuddio ar ei gyfer o flaen ei uwch swyddogion.

2.3. Dadansoddeg Fideo: Olrhain Pobl a Diogelwch

Trwy olrhain pobl gan ddefnyddio Vision, gallwch asesu traffig gwirioneddol ardaloedd siopa, gorsafoedd trên, tramwyfeydd, strydoedd a llawer o fannau cyhoeddus eraill yn gywir. Gall ein tracio hefyd fod o gymorth mawr wrth reoli mynediad, er enghraifft, i warws neu adeiladau swyddfa pwysig eraill. Ac wrth gwrs, mae olrhain pobl ac wynebau yn helpu i ddatrys problemau diogelwch. Wedi dal rhywun yn dwyn o'ch siop? Ychwanegwch ei PersonID, a ddychwelwyd gan Vision, at restr ddu eich meddalwedd dadansoddi fideo, a'r tro nesaf bydd y system yn rhybuddio'r diogelwch ar unwaith os bydd y math hwn yn ymddangos eto.

2.4. Mewn masnach

Mae gan fusnesau manwerthu a gwasanaethau amrywiol ddiddordeb mewn adnabod ciw. Gyda chymorth Vision, gallwch gydnabod nad tyrfa o bobl ar hap yw hwn, ond ciw, a phenderfynu ar ei hyd. Ac yna mae'r system yn hysbysu'r rhai sy'n gyfrifol am giw fel y gallant ddarganfod y sefyllfa: naill ai mae mewnlifiad o ymwelwyr ac mae angen galw gweithwyr ychwanegol, neu mae rhywun yn llacio ar eu dyletswyddau swydd.

Tasg ddiddorol arall yw gwahanu gweithwyr cwmni yn y neuadd oddi wrth ymwelwyr. Yn nodweddiadol, mae'r system wedi'i hyfforddi i wahanu gwrthrychau sy'n gwisgo dillad penodol (cod gwisg) neu gyda rhyw nodwedd nodedig (sgarff brand, bathodyn ar y frest, ac ati). Mae hyn yn helpu i asesu presenoldeb yn fwy cywir (fel nad yw gweithwyr yn “chwyddo” ystadegau pobl yn y neuadd gan eu presenoldeb yn unig).

Gan ddefnyddio adnabyddiaeth wyneb, gallwch hefyd werthuso'ch cynulleidfa: beth yw teyrngarwch ymwelwyr, hynny yw, faint o bobl sy'n dychwelyd i'ch sefydliad a pha mor aml. Cyfrifwch faint o ymwelwyr unigryw sy'n dod atoch chi bob mis. Er mwyn gwneud y gorau o gostau denu a chadw, gallwch hefyd ddarganfod y newid mewn traffig yn dibynnu ar ddiwrnod yr wythnos a hyd yn oed amser y dydd.

Gall masnachfreintiau a chwmnïau cadwyn archebu asesiad yn seiliedig ar ffotograffau o ansawdd brandio gwahanol siopau manwerthu: presenoldeb logos, arwyddion, posteri, baneri, ac ati.

2.5. Ar drafnidiaeth

Enghraifft arall o sicrhau diogelwch trwy ddefnyddio dadansoddeg fideo yw nodi eitemau wedi'u gadael yn neuaddau meysydd awyr neu orsafoedd trên. Gellir hyfforddi gweledigaeth i adnabod gwrthrychau cannoedd o ddosbarthiadau: darnau o ddodrefn, bagiau, cesys dillad, ymbarelau, gwahanol fathau o ddillad, poteli, ac ati. Os yw eich system dadansoddeg fideo yn canfod gwrthrych heb berchennog ac yn ei adnabod gan ddefnyddio Vision, mae'n anfon signal i'r gwasanaeth diogelwch. Mae tasg debyg yn gysylltiedig â chanfod sefyllfaoedd anarferol yn awtomatig mewn mannau cyhoeddus: mae rhywun yn teimlo'n sâl, neu mae rhywun yn ysmygu yn y lle anghywir, neu mae person yn cwympo ar y cledrau, ac yn y blaen - gellir adnabod yr holl batrymau hyn gan systemau dadansoddi fideo trwy'r API Vision.

2.6. Llif dogfen

Cymhwysiad diddorol arall o Vision yn y dyfodol yr ydym yn ei ddatblygu ar hyn o bryd yw adnabod dogfennau a'u dosrannu'n awtomatig i gronfeydd data. Yn lle mynd i mewn â llaw (neu waeth, mynd i mewn) cyfresi diddiwedd, rhifau, dyddiadau cyhoeddi, rhifau cyfrif, manylion banc, dyddiadau a mannau geni a llawer o ddata ffurfiol arall, gallwch sganio dogfennau a'u hanfon yn awtomatig dros sianel ddiogel trwy'r API i'r cwmwl, lle bydd y system yn adnabod y dogfennau hyn ar y hedfan, yn eu dosrannu ac yn dychwelyd ymateb gyda data yn y fformat gofynnol ar gyfer mynediad awtomatig i'r gronfa ddata. Heddiw mae Vision eisoes yn gwybod sut i ddosbarthu dogfennau (gan gynnwys PDF) - yn gwahaniaethu rhwng pasbortau, SNILS, TIN, tystysgrifau geni, tystysgrifau priodas ac eraill.

Wrth gwrs, nid yw'r rhwydwaith niwral yn gallu delio â'r holl sefyllfaoedd hyn allan o'r bocs. Ym mhob achos, mae model newydd yn cael ei adeiladu ar gyfer cwsmer penodol, mae llawer o ffactorau, naws a gofynion yn cael eu hystyried, mae setiau data yn cael eu dewis, ac mae iteriadau o hyfforddiant, profi a chyfluniad yn cael eu cynnal.

3. cynllun gweithredu API

“giât mynediad” Vision i ddefnyddwyr yw’r API REST. Gall dderbyn lluniau, ffeiliau fideo a darllediadau o gamerâu rhwydwaith (ffrydiau RTSP) fel mewnbwn.

I ddefnyddio Vision, mae angen cofrestru yn y gwasanaeth Mail.ru Cloud Solutions a derbyn tocynnau mynediad (client_id + client_secret). Cyflawnir dilysu defnyddwyr gan ddefnyddio'r protocol OAuth. Anfonir y data ffynhonnell yng nghyrff ceisiadau POST i'r API. Ac mewn ymateb, mae'r cleient yn derbyn canlyniad cydnabyddiaeth gan yr API ar ffurf JSON, ac mae'r ymateb wedi'i strwythuro: mae'n cynnwys gwybodaeth am y gwrthrychau a ddarganfuwyd a'u cyfesurynnau.

Gyda barf, sbectol dywyll ac mewn proffil: sefyllfaoedd anodd ar gyfer gweledigaeth gyfrifiadurol

Ateb sampl

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Mae'r ateb yn cynnwys rhyfeddod paramedr diddorol - dyma "oerni" amodol wyneb mewn llun, gyda'i help rydyn ni'n dewis yr ergyd orau o wyneb o'r dilyniant. Fe wnaethom hyfforddi rhwydwaith niwral i ragweld y tebygolrwydd y bydd llun yn cael ei hoffi ar rwydweithiau cymdeithasol. Y gorau yw ansawdd y llun a'r mwyaf gwenu ar yr wyneb, y mwyaf yw'r syfrdanol.

Mae API Vision yn defnyddio cysyniad o'r enw gofod. Offeryn yw hwn ar gyfer creu gwahanol setiau o wynebau. Enghreifftiau o ofodau yw rhestrau du a gwyn, rhestrau o ymwelwyr, gweithwyr, cleientiaid, ac ati. Ar gyfer pob tocyn yn Vision, gallwch greu hyd at 10 lle, gall pob gofod gael hyd at 50 mil o PersonIDs, hynny yw, hyd at 500 mil fesul tocyn. Ar ben hynny, nid yw nifer y tocynnau fesul cyfrif yn gyfyngedig.

Heddiw mae'r API yn cefnogi'r dulliau canfod ac adnabod canlynol:

  • Adnabod/Gosod - canfod ac adnabod wynebau. Yn aseinio PersonID yn awtomatig i bob person unigryw, yn dychwelyd PersonID a chyfesurynnau'r personau a ddarganfuwyd.
  • Dileu - dileu PersonID penodol o'r gronfa ddata personau.
  • Truncate - yn clirio'r gofod cyfan o PersonID, yn ddefnyddiol pe bai'n cael ei ddefnyddio fel gofod prawf a bod angen i chi ailosod y gronfa ddata ar gyfer cynhyrchu.
  • Canfod - canfod gwrthrychau, golygfeydd, platiau trwydded, tirnodau, ciwiau, ac ati. Yn dychwelyd y dosbarth o wrthrychau a ddarganfuwyd a'u cyfesurynnau
  • Canfod am ddogfennau - yn canfod mathau penodol o ddogfennau Ffederasiwn Rwsia (yn gwahaniaethu pasbort, SNILS, rhif adnabod treth, ac ati).

Cyn bo hir byddwn hefyd yn gorffen gwaith ar ddulliau ar gyfer OCR, pennu rhyw, oedran ac emosiynau, yn ogystal â datrys problemau marchnata, hynny yw, ar gyfer rheoli arddangos nwyddau mewn siopau yn awtomatig. Gallwch ddod o hyd i ddogfennaeth API gyflawn yma: https://mcs.mail.ru/help/vision-api

4. Casgliad

Nawr, trwy'r API cyhoeddus, gallwch gyrchu adnabyddiaeth wyneb mewn lluniau a fideos; cefnogir adnabod amrywiol wrthrychau, platiau trwydded, tirnodau, dogfennau a golygfeydd cyfan. Senarios cais - y môr. Dewch i brofi ein gwasanaeth, gosodwch y tasgau mwyaf dyrys. Mae'r 5000 o drafodion cyntaf yn rhad ac am ddim. Efallai mai hwn fydd y “cynhwysyn coll” ar gyfer eich prosiectau.

Gallwch gyrchu'r API ar unwaith wrth gofrestru a chysylltu. Gweledigaeth. Mae holl ddefnyddwyr Habra yn derbyn cod hyrwyddo ar gyfer trafodion ychwanegol. Ysgrifennwch ataf y cyfeiriad e-bost a ddefnyddiwyd gennych i gofrestru eich cyfrif!

Ffynhonnell: hab.com

Ychwanegu sylw