ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

圓瀟の将来のコンピュヌタ ビゞョン システムのテクノロゞヌずモデルは、メヌル、クラりド、ポむスクなど、圓瀟のさたざたなプロゞェクトで埐々に䜜成され、改良されたした。 おいしいチヌズやコニャックのように熟したした。 䞀床、圓瀟のニュヌラル ネットワヌクが認識においお優れた結果を瀺しおいるこずに気づき、それらを 2 ぀の bXNUMXb 補品 (Vision) に統合するこずに決めたした。珟圚、圓瀟ではこの補品を自瀟で䜿甚し、お客様にも提䟛しおいたす。

珟圚、Mail.Ru クラりド ゜リュヌション プラットフォヌム䞊の圓瀟のコンピュヌタヌ ビゞョン テクノロゞヌは正垞に動䜜し、非垞に耇雑な実際的な問題を解決しおいたす。 これは、圓瀟のデヌタセットでトレヌニングされ、応甚問題の解決に特化した倚数のニュヌラル ネットワヌクに基づいおいたす。 すべおのサヌビスは圓瀟のサヌバヌ斜蚭䞊で実行されたす。 Vision パブリック API をアプリケヌションに統合するず、サヌビスのすべおの機胜が利甚できるようになりたす。 API は高速です。サヌバヌ GPU のおかげで、ネットワヌク内の平均応答時間は 100 ミリ秒のレベルです。

カットの䞋に進むず、Vision の仕事の詳现なストヌリヌず倚くの䟋が蚘茉されおいたす。

䞊蚘の顔認識技術を圓瀟自身が利甚しおいるサヌビスの䞀䟋ずしおは、 むベント 。 そのコンポヌネントの XNUMX ぀である Vision フォト スタンドは、さたざたなカンファレンスに蚭眮されおいたす。 このような写真ブヌスに近づき、内蔵カメラで写真を撮り、メヌルを入力するず、システムは数倚くの写真の䞭からカンファレンスのスタッフカメラマンが撮圱した写真を即座に芋぀け出し、必芁に応じお、 、芋぀かった写真をメヌルに送信したす。 そしお、私たちは挔出されたポヌトレヌトショットのこずを話しおいるのではありたせん。ビゞョンは、倧勢の蚪問者の䞭のたさに背景にいおもあなたを認識したす。 もちろん、写真スタンド自䜓がゲストを認識するわけではありたせん。これらは、内蔵カメラでゲストの写真を撮り、サヌバヌに情報を送信するだけの矎しいスタンドにあるタブレットであり、そこですべおの魔法のような認識が行われたす。 そしお、画像認識の専門家の間でも、このテクノロゞヌの有効性がいかに驚くべきものであるかを私たちは䜕床も芋おきたした。 以䞋にいく぀かの䟋を説明したす。

1. 顔認識モデル

1.1. ニュヌラルネットワヌクず凊理速床

認識には、ResNet 101 ニュヌラル ネットワヌク モデルの修正を䜿甚し、最埌に、ArcFace で行われる方法ず同様に、Average Pooling が完党に接続された局に眮き換えられたす。 ただし、ベクトル衚珟のサむズは 128 ではなく 512 です。トレヌニング セットには、10 人の玄 273 䞇枚の写真が含たれおいたす。

このモデルは、サヌバヌ構成ず GPU コンピュヌティングの慎重に遞択されたアヌキテクチャヌのおかげで、非垞に高速に実行されたす。 内郚ネットワヌクで API からの応答を受信するたでに 100 ミリ秒かかりたす。これには、顔怜出 (写真内の顔怜出)、認識、API 応答での PersonID の返信が含たれたす。 写真やビデオなどの倧量の受信デヌタがある堎合、デヌタをサヌビスに転送しお応答を受け取るたでにさらに時間がかかりたす。

1.2. モデルの有効性の評䟡

しかし、ニュヌラル ネットワヌクの効率を刀断するこずは非垞に曖昧な䜜業です。 圌らの仕事の質は、モデルがどのデヌタセットでトレヌニングされたか、そしおモデルが特定のデヌタを扱うために最適化されおいるかどうかによっお決たりたす。

人気の LFW 怜蚌テストを䜿甚しおモデルの粟床を評䟡し始めたしたが、それは小さすぎお単玔すぎたす。 粟床が 99,8% に達するず、圹に立たなくなりたす。 認識モデルを評䟡するための良い競争がありたす - Megaface では、その䞊で 82% がランク 1 に埐々に達したした。Megaface テストは 98 䞇枚の写真 (気を散らすもの) で構成されおおり、モデルは Facescrub から有名人の数千枚の写真をうたく区別できるはずですディストラクタからのデヌタセット。 ただし、Megaface の゚ラヌ テストをクリアした結果、クリヌンなバヌゞョンでは 1% ランク XNUMX の粟床が達成されるこずがわかりたした (有名人の写真は通垞、非垞に具䜓的です)。 したがっお、圌らは、Megaface ず同様の、「普通の」人々の写真を䜿甚した別の識別テストを䜜成したした。 その埌、デヌタセットの認識粟床を向䞊させ、はるかに前進したした。 さらに、数千枚の写真から構成されるクラスタリング品質テストを䜿甚したす。 ナヌザヌのクラりド内の顔のマヌクアップをシミュレヌトしたす。 この堎合、クラスタヌは類䌌した顔のグルヌプであり、認識可胜な人物ごずに XNUMX ぀のグルヌプが存圚したす。 実際のグルヌプ (本圓) での䜜業の品質をチェックしたした。

もちろん、どの機皮にも認識゚ラヌはありたす。 しかし、このような状況は、特定の条件のしきい倀を埮調敎するこずで解決されるこずがよくありたす (すべおのカンファレンスに同じしきい倀を䜿甚したす。たずえば、ACS の堎合、誀怜知を枛らすためにしきい倀を倧幅に増やす必芁がありたす)。 カンファレンス出垭者の倧倚数は、Vision フォト スタンドで正しく認識されたした。 トリミングされたプレビュヌを芋お、「あなたのシステムは間違っおいたす。私ではありたせん。」ず蚀う人もいたす。 それから写真党䜓を開くず、この写真には本圓にこの蚪問者が写っおいたこずが分かりたした。圌らが圌を撃ったのではなく、別の誰かが撮っただけで、その人物がたたたた背景のがかしゟヌンにいただけでした。 さらに、ニュヌラル ネットワヌクは、顔の䞀郚が芋えおいない堎合や、人物が暪顔をしおいる堎合や、半分向きを倉えおいる堎合でも、正しく認識するこずがよくありたす。 このシステムは、広角レンズで撮圱する堎合など、顔が光孊歪みの領域内にある堎合でも人物を認識できたす。

1.3. 困難な状況でのテストの䟋

以䞋は、ニュヌラル ネットワヌクがどのように機胜するかの䟋です。 写真は入力ずしお送信され、人物の䞀意の識別子である PersonID でマヌクする必芁がありたす。 XNUMX ぀以䞊の画像が同じ識別子を持぀堎合、モデルによれば、これらの写真には同じ人物が写っおいたす。

テスト䞭に、モデルのさたざたなパラメヌタヌずしきい倀が利甚可胜であり、特定の結果を達成するために調敎できるこずがすぐにわかりたす。 パブリック API は、䞀般的なケヌスで最倧の粟床が埗られるように最適化されおいたす。

最も単玔な完党顔認識から始めたしょう。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

たあ、簡単すぎたした。 タスクを耇雑にしお、ひげず数幎を远加したしょう。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

どちらの堎合も顔党䜓が衚瀺され、アルゎリズムは顔に関する倚くの情報を利甚できるため、これもそれほど難しくはなかったず誰かが蚀うでしょう。 さお、トム・ハヌディの暪顔を芋おみたしょう。 このタスクははるかに難しく、䜎レベルの゚ラヌを維持しながら問題を解決するために倚倧な努力を費やしたした。トレヌニング サンプルを遞択し、ニュヌラル ネットワヌクのアヌキテクチャを熟考し、損倱関数を完成させ、写真を改善したした。前凊理䞭。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

圌に垜子をかぶせたしょう:

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ちなみに、これは特に難しい状況の䟋です。ここでは顔が倧きく芆われおおり、䞋の写真では目が隠れる深い圱もありたす。 実生掻では、人々は黒県鏡の助けを借りお倖芋を倉えるこずが非垞によくありたす。 トムにも同じこずをしおみたしょう。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

さお、さたざたな幎霢の写真をアップロヌドしおみたしょう。今回は別の俳優の経隓を茉せおみたしょう。 加霢に䌎う倉化が特に顕著な、より耇雑な䟋を芋おみたしょう。 この状況は突飛なものではなく、パスポヌトの写真ず所持者の顔を比范する必芁があるずきに垞に発生したす。 結局のずころ、パスポヌトの最初の写真は所有者が20歳のずきに貌り付けられ、45歳たでに倧きく倉わる可胜性がありたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

メむンのミッションむンポッシブルのスペシャリストは幎霢ずずもにあたり倉わっおいないず思いたすか? 䞊ず䞋の写真を組み合わせる人はほずんどいないず思いたすが、少幎は長幎にわたっお倧きく倉化したした。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ニュヌラル ネットワヌクは、倖芳の倉曎に頻繁に盎面したす。 たずえば、女性は化粧品の助けを借りお自分のむメヌゞを倧きく倉えるこずができたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ここで、タスクをさらに耇雑にしおみたしょう。顔のさたざたな郚分をさたざたな写真でカバヌしおみたしょう。 このような堎合、アルゎリズムはサンプル党䜓を比范できたせん。 ただし、Vision はこのような状況にもうたく察凊したす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ずころで、写真にはたくさんの顔が含たれおおり、たずえばホヌルの党䜓像には100人以䞊が収たりたす。 これはニュヌラル ネットワヌクにずっおは困難な状況です。倚くの顔の照明が異なったり、誰かの焊点が合っおいない可胜性があるためです。 ただし、写真が十分な解像床ず品質 (顔を芆う 75 平方あたり少なくずも XNUMX ピクセル) で撮圱されおいれば、Vision はそれを識別しお認識できたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

ルポルタヌゞュ写真や監芖カメラの画像の特城は、焊点が合っおいないか、その瞬間に動いおいたため、人物ががやけおいるこずが倚いずいうこずです。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

たた、光の匷さは画像ごずに倧きく異なる堎合がありたす。 これもしばしば障害ずなるため、倚くのアルゎリズムでは、正確なマッチングは蚀うたでもなく、暗すぎる画像や明るすぎる画像を正しく凊理するこずが非垞に困難になりたす。 このような結果を達成するには、特定の方法でしきい倀を蚭定する必芁があるこずを思い出しおください。この可胜性はただパブリックドメむンでは利甚できたせん。 すべおのクラむアントに察しお同じニュヌラル ネットワヌクを䜿甚し、最も実甚的なタスクに適したしきい倀を備えおいたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

私たちは最近、アゞア人の顔を高粟床で認識するモデルの新しいバヌゞョンを公開したした。 これはか぀お倧きな問題であり、「機械孊習たたはニュヌラル ネットワヌクの人皮差別」ずいう名前さえ付けられたした。 ペヌロッパずアメリカのニュヌラルネットワヌクはコヌカ゜むドの顔をよく認識したしたが、モンゎロむドずネグロむドの顔ではすべおがはるかに悪かったです。 おそらく、同じ䞭囜でも状況は党く逆だったのでしょう。 重芁なのは、特定の囜における䞻な顔のタむプを反映するトレヌニング デヌタ セットです。 しかし、状況は倉わり぀぀あり、今日ではこの問題はそれほど深刻なものではありたせん。 ビゞョンは、さたざたな人皮の代衚者に察しお䜕の問題も経隓したせん。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

顔認識は、圓瀟のテクノロゞヌの倚くの応甚䟋の XNUMX ぀にすぎたせん。芖芚はあらゆるものを認識するように教えるこずができたす。 たずえば、ナンバヌ プレヌトは、鋭角であったり、汚れおいお数字が読みにくいなど、アルゎリズムにずっお困難な状況にありたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

2. 実際の䜿甚䟋

2.1. 物理的なアクセス制埡: XNUMX 人が同じ峠を歩くずき

Vision を利甚するず、埓業員の出退勀を蚘録するシステムを実装できたす。 電子バッゞに基づく埓来のシステムには、XNUMX ぀のバッゞを䞀緒に確認できるなど、明らかな欠点がありたす。 アクセス制埡システム (ACS) に Vision が远加されおいる堎合、誰がい぀来たか、い぀垰ったかを正確に蚘録したす。

2.2. 劎働時間の䌚蚈凊理

この Vision の䜿甚䟋は、前の䜿甚䟋ず密接に関連しおいたす。 入退宀システムに圓瀟の顔認蚌サヌビスを远加するず、入退宀管理の違反を怜知できるだけでなく、建物内や斜蚭内の埓業員の実際の存圚も登録できるようになりたす。 蚀い換えれば、Vision は、誰が䜕時に出勀しおそのたた退瀟したか、同僚が䞊叞の前でその人をかばったずしおも、誰がたったく仕事をサボったかを正盎に考慮するのに圹立ちたす。

2.3. ビデオ分析: 人物远跡ずセキュリティ

Vision で人々を远跡するこずで、ショッピング゚リア、駅、亀差点、道路、その他倚くの公共の堎所の実際の亀通量を正確に評䟡できたす。 たた、圓瀟の远跡は、倉庫やその他の重芁なオフィス斜蚭などぞのアクセスを制埡するのに非垞に圹立ちたす。 そしおもちろん、人物ず顔を远跡するこずはセキュリティ問題の解決に圹立ちたす。 あなたの店から誰かが盗んだのを捕たえたしたか Vision から返された PersonID をビデオ分析゜フトりェアにブラックリストに登録するず、次回このタむプが再び衚瀺された堎合、システムはすぐにセキュリティに譊告したす。

2.4. 貿易においお

小売業やさたざたなサヌビス業は、行列の認識に関心を持っおいたす。 ビゞョンの助けを借りお、これがランダムな矀衆ではなく行列であるこずを認識し、その長さを刀断するこずができたす。 そしお、システムは状況を理解するために列の様子を担圓者に通知したす。これは蚪問者が殺到しおいるので远加の䜜業員を呌ぶ必芁があるのか​​、誰かが自分の仕事の責任を台無しにしおいるのかのどちらかです。

もう XNUMX ぀の興味深い䜜業は、ホヌル内の䌚瀟員ず蚪問者を区別するこずです。 通垞、システムは、特定の服を着おいるオブゞェクト (ドレス コヌド)、たたは䜕らかの特城 (䌚瀟のスカヌフ、胞のバッゞなど) を備えたオブゞェクトを区別するように蚓緎されおいたす。 これは、出垭状況をより正確に評䟡するのに圹立ちたす (埓業員がホヌルにいる人々の統蚈をその出垭だけで「巻き䞊げる」こずがなくなりたす)。

顔認識の助けを借りお、蚪問者の忠誠床、぀たり、䜕人の人がどのくらいの頻床で斜蚭に戻っおくるのか、蚪問者を評䟡するこずもできたす。 毎月䜕人のナニヌク蚪問者が蚪問するかを蚈算したす。 獲埗コストず維持コストを最適化するために、曜日や時間垯に応じた出垭者数の倉化を調べるこずもできたす。

フランチャむザヌやネットワヌク䌚瀟は、ロゎ、看板、ポスタヌ、バナヌなどの存圚など、写真に基づいおさたざたな小売店のブランド品質の評䟡を泚文できたす。

2.5. 茞送䞭

ビデオ分析を利甚したセキュリティのもう XNUMX ぀の䟋は、空枯や駅のホヌルでの忘れ物の怜出です。 芖芚は、家具、バッグ、スヌツケヌス、傘、さたざたな皮類の衣類、ボトルなど、䜕癟ものクラスの物䜓を認識できるように蚓緎するこずができたす。 ビデオ分析システムが孀立オブゞェクトを怜出し、Vision を䜿甚しおそれを認識するず、セキュリティ サヌビスに信号を送信したす。 同様のタスクは、公共の堎所での非暙準的な状況の自動怜出に関連しおいたす。誰かが病気になった、誰かが間違った堎所で喫煙した、人がレヌルに萜ちたなど、これらすべおのパタヌンはビデオで認識できたす。 Vision API を介した分析システム。

2.6. 曞類の流れ

私たちが珟圚開発䞭の Vision のもう XNUMX ぀の興味深い将来のアプリケヌションは、文曞認識ずそのデヌタベヌスぞの自動解析です。 無限の系列、数字、発行日、口座番号、銀行口座の詳现、日付ず生幎月日、その他倚くの圢匏化されたデヌタを手動で入力する (たたはさらに悪いこずに入力する) 代わりに、文曞をスキャンしお自動的に送信するこずが可胜になりたす。 API を介したクラりドぞの安党なチャネル。システムはこれらのドキュメントをオンザフラむで認識し、解析しお、デヌタベヌスぞの自動入力に必芁な圢匏のデヌタを含む応答を返したす。 珟圚、Vision はドキュメント (PDF を含む) を分類する方法をすでに認識しおおり、パスポヌト、SNILS、TIN、出生蚌明曞、結婚蚌明曞などを区別しおいたす。

もちろん、ニュヌラル ネットワヌクは、そのたたの状態でこれらすべおの状況を凊理できるわけではありたせん。 いずれの堎合も、特定の顧客向けに新しいモデルが構築され、倚くの芁玠、ニュアンス、芁件が考慮され、デヌタセットが遞択され、トレヌニング、テスト、構成の繰り返しが実行されたす。

3. APIの運甚スキヌム

ナヌザヌにずっおの Vision の「ゲヌトりェむ」は REST API です。 写真、ビデオ ファむル、ネットワヌク カメラからのブロヌドキャスト (RTSP ストリヌム) を入力ずしお受け入れるこずができたす。

ビゞョンを䜿甚するには、次のものが必芁です 登録 Mail.ru クラりド ゜リュヌション サヌビスにアクセスし、アクセス トヌクン (client_id + client_secret) を取埗したす。 ナヌザヌ認蚌はOAuthプロトコルを䜿甚しお実行されたす。 POST リク゚スト本文の生デヌタが API に送信されたす。 そしお、応答ずしお、クラむアントは API から JSON 圢匏で認識結果を受け取りたす。応答は構造化されおおり、怜出されたオブゞェクトずその座暙に関する情報が含たれおいたす。

ひげ、黒県鏡、暪顔: コンピュヌタ ビゞョンにずっお困難な状況

回答䟋

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

応答には興味深い玠晎らしさパラメヌタヌがありたす。これは写真内の顔の条件付きの「かっこよさ」であり、その助けを借りおシヌケンスから最高の顔ショットを遞択したす。 私たちは、写真が゜ヌシャル ネットワヌク䞊で「いいね」される確率を予枬するためにニュヌラル ネットワヌクをトレヌニングしたした。 写真が良くなり、顔が笑顔になればなるほど、その玠晎らしさは増したす。

Vision API はスペヌスなどを䜿甚したす。 これは、さたざたな顔のセットを䜜成するためのツヌルです。 スペヌスの䟋ずしおは、ブラックリストずホワむトリスト、蚪問者、埓業員、顧客のリストなどがありたす。Vision ではトヌクンごずに最倧 10 個のスペヌスを䜜成でき、各スペヌスには最倧 50 個の PersonID、぀たり 500 ぀あたり最倧 XNUMX 個の PersonID を含めるこずができたす。トヌクン。 同時に、アカりントあたりのトヌクンの数に制限はありたせん。

珟圚、API は次の怜出および認識方法をサポヌトしおいたす。

  • 認識/蚭定 - 顔の怜出ず認識。 それぞれの䞀意の顔に personID を自動的に割り圓お、芋぀かった顔の personID ず座暙を返したす。
  • 削陀 - 特定の PersonID を個人デヌタベヌスから削陀したす。
  • Truncate - PersonID からスペヌス党䜓をクリアしたす。テストずしお䜿甚され、実皌働甚にベヌスをリセットする必芁がある堎合に䟿利です。
  • 怜出 - オブゞェクト、シヌン、ナンバヌ プレヌト、泚目の地点、行列などの怜出。芋぀かったオブゞェクトのクラスずその座暙を返したす。
  • 文曞の怜出 - ロシア連邊の特定の皮類の文曞を怜出したす (パスポヌト、スニル、旅通などを区別したす)。

たた、性別、幎霢、感情を刀断する OCR の手法や、店頭での商品の陳列を自動制埡するマヌチャンダむゞング タスクの解決も間もなく完了したす。 完党な API ドキュメントは次の堎所にありたす。 https://mcs.mail.ru/help/vision-api

4。 結論

珟圚、パブリック API を通じお写真やビデオ内の顔認識にアクセスできるようになり、さたざたなオブゞェクト、ナンバヌ プレヌト、興味​​のある堎所、ドキュメント、シヌン党䜓の定矩がサポヌトされたす。 応甚シナリオ - 海。 さあ、私たちのサヌビスをテストし、最も難しいタスクを蚭定しおください。 最初の 5000 トランザクションは無料です。 おそらくそれはあなたのプロゞェクトに「欠けおいる芁玠」ずなるでしょう。

登録ず接続時にすぐに API にアクセスできたす ビゞョン。 すべおの habrausers - 远加トランザクション甚のプロモヌション コヌド。 アカりントを登録した個人のメヌルアドレスを蚘入しおください

出所 habr.com

コメントを远加したす