ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

تم إنشاء وتحسين التقنيات والنماذج لنظام رؤية الكمبيوتر المستقبلي الخاص بنا تدريجيًا وفي مشاريع مختلفة لشركتنا - في البريد والسحابة والبحث. لقد نضجوا مثل الجبن الجيد أو الكونياك. في أحد الأيام، أدركنا أن شبكاتنا العصبية تظهر نتائج ممتازة في التعرف عليها، وقررنا دمجها في منتج واحد بين الشركات - Vision - والذي نستخدمه الآن بأنفسنا ونعرض عليك استخدامه.

اليوم، تعمل تقنية رؤية الكمبيوتر الخاصة بنا على منصة Mail.Ru Cloud Solutions بنجاح وتحل المشكلات العملية المعقدة للغاية. يعتمد على عدد من الشبكات العصبية التي تم تدريبها على مجموعات البيانات الخاصة بنا والمتخصصة في حل المشكلات التطبيقية. جميع الخدمات تعمل على مرافق الخادم لدينا. يمكنك دمج Vision API العامة في تطبيقاتك والتي من خلالها تتوفر كافة إمكانيات الخدمة. واجهة برمجة التطبيقات سريعة - بفضل وحدات معالجة الرسومات الخاصة بالخادم، يبلغ متوسط ​​وقت الاستجابة داخل شبكتنا 100 مللي ثانية.

اذهب إلى القطة، هناك قصة مفصلة وأمثلة كثيرة لعمل فيجن.

كمثال على الخدمة التي نستخدم فيها بأنفسنا تقنيات التعرف على الوجه المذكورة، يمكننا الاستشهاد الفعاليات. أحد مكوناتها هو حامل الصور Vision الذي نقوم بتركيبه في المؤتمرات المختلفة. إذا اقتربت من حامل الصور هذا، والتقط صورة بالكاميرا المدمجة وأدخل بريدك الإلكتروني، فسيجد النظام على الفور من بين مجموعة الصور تلك التي التقطها مصورو المؤتمر، وإذا رغبت في ذلك، سوف نرسل لك الصور التي تم العثور عليها عن طريق البريد الإلكتروني. ونحن لا نتحدث عن لقطات شخصية تم تنظيمها، حيث تتعرف عليك Vision حتى في الخلفية نفسها وسط حشد من الزوار. بالطبع، ليست حاملات الصور هي التي يتم التعرف عليها، فهي مجرد أجهزة لوحية في حوامل جميلة تلتقط ببساطة صورًا للضيوف باستخدام كاميراتها المدمجة وتنقل المعلومات إلى الخوادم، حيث يحدث كل سحر التعرف. وقد رأينا أكثر من مرة مدى مفاجأة فعالية هذه التقنية حتى بين المتخصصين في التعرف على الصور. أدناه سنتحدث عن بعض الأمثلة.

1. نموذج التعرف على الوجوه الخاص بنا

1.1. الشبكة العصبية وسرعة المعالجة

للتعرف على البيانات، نستخدم تعديلًا لنموذج الشبكة العصبية ResNet 101. يتم استبدال متوسط ​​التجميع في النهاية بطبقة متصلة بالكامل، على غرار الطريقة التي يتم بها ذلك في ArcFace. ومع ذلك، فإن حجم تمثيلات المتجهات هو 128، وليس 512. تحتوي مجموعة التدريب الخاصة بنا على حوالي 10 ملايين صورة لـ 273 شخصًا.

يعمل النموذج بسرعة كبيرة بفضل بنية تكوين الخادم المختارة بعناية وحوسبة وحدة معالجة الرسومات. يستغرق الأمر من 100 مللي ثانية لتلقي استجابة من واجهة برمجة التطبيقات (API) على شبكاتنا الداخلية - وهذا يشمل اكتشاف الوجه (اكتشاف وجه في صورة)، والتعرف على هوية الشخص وإعادتها في استجابة واجهة برمجة التطبيقات (API). مع وجود كميات كبيرة من البيانات الواردة - الصور ومقاطع الفيديو - سيستغرق نقل البيانات إلى الخدمة وتلقي الرد وقتًا أطول بكثير.

1.2. تقييم فعالية النموذج

لكن تحديد كفاءة الشبكات العصبية مهمة غامضة للغاية. تعتمد جودة عملهم على مجموعات البيانات التي تم تدريب النماذج عليها وما إذا كان قد تم تحسينها للعمل مع بيانات محددة.

لقد بدأنا في تقييم دقة نموذجنا من خلال اختبار التحقق من LFW الشهير، لكنه صغير جدًا وبسيط. وبعد الوصول إلى دقة 99,8%، لم يعد مفيدًا. هناك منافسة جيدة لتقييم نماذج التعرف - Megaface، حيث وصلنا تدريجيًا إلى المرتبة الأولى بنسبة 82%. يتكون اختبار Megaface من مليون صورة - مشتتات للانتباه - ويجب أن يكون النموذج قادرًا على التمييز جيدًا بين عدة آلاف من صور المشاهير من Facescrub مجموعة البيانات من المشتتات. ومع ذلك، بعد مسح الأخطاء في اختبار Megaface، وجدنا أنه من خلال النسخة التي تم مسحها، نحقق دقة تصل إلى 1% من المرتبة الأولى (صور المشاهير محددة تمامًا بشكل عام). لذلك، قاموا بإنشاء اختبار تعريف منفصل، على غرار Megaface، ولكن مع صور لأشخاص "عاديين". ثم قمنا بتحسين دقة التعرف على مجموعات البيانات الخاصة بنا وتقدمنا ​​كثيرًا. بالإضافة إلى ذلك، نستخدم اختبار جودة التجميع الذي يتكون من عدة آلاف من الصور؛ فهو يحاكي وضع علامات على الوجه في سحابة المستخدم. في هذه الحالة، المجموعات هي مجموعات من الأفراد المتشابهين، مجموعة واحدة لكل شخص يمكن التعرف عليه. لقد فحصنا جودة العمل على مجموعات حقيقية (صحيح).

وبطبيعة الحال، تحدث أخطاء التعرف مع أي نموذج. ولكن غالبًا ما يتم حل مثل هذه المواقف عن طريق ضبط العتبات لظروف معينة (بالنسبة لجميع المؤتمرات نستخدم نفس العتبات، ولكن، على سبيل المثال، بالنسبة لأنظمة التحكم في الوصول، يتعين علينا زيادة العتبات بشكل كبير بحيث يكون هناك عدد أقل من النتائج الإيجابية الخاطئة). تم التعرف على الغالبية العظمى من زوار المؤتمر بشكل صحيح من خلال أكشاك التصوير الخاصة بنا. في بعض الأحيان قد ينظر شخص ما إلى المعاينة التي تم اقتصاصها ويقول: "لقد ارتكب نظامك خطأً، ولم يكن أنا". ثم فتحنا الصورة بأكملها، واتضح أن هذا الزائر كان موجودًا بالفعل في الصورة، لكننا لم نكن نصوره، بل شخصًا آخر، الشخص الذي صادف وجوده في الخلفية في منطقة التمويه. علاوة على ذلك، غالبًا ما تتعرف الشبكة العصبية بشكل صحيح حتى عندما يكون جزء من الوجه غير مرئي، أو عندما يكون الشخص واقفًا بشكل جانبي، أو حتى نصف منعطف. ويمكن للنظام التعرف على الشخص حتى لو كان وجهه في منطقة التشوه البصري، على سبيل المثال، عند التصوير باستخدام عدسة واسعة الزاوية.

1.3. أمثلة على الاختبارات في المواقف الصعبة

فيما يلي أمثلة لكيفية عمل شبكتنا العصبية. يتم إرسال الصور إلى الإدخال، والتي يجب عليها تصنيفها باستخدام معرف الشخص - وهو معرف فريد للشخص. إذا كانت هناك صورتان أو أكثر لها نفس المعرف، فوفقاً للنماذج، فإن هذه الصور تصور نفس الشخص.

دعونا نلاحظ على الفور أنه عند الاختبار، لدينا إمكانية الوصول إلى العديد من المعلمات وعتبات النماذج التي يمكننا تكوينها لتحقيق نتيجة معينة. تم تحسين واجهة برمجة التطبيقات العامة لتحقيق أقصى قدر من الدقة في الحالات الشائعة.

لنبدأ بأبسط شيء، وهو التعرف على الوجه الأمامي.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

حسناً، كان ذلك سهلاً للغاية. دعونا نعقد المهمة ونضيف لحية وحفنة من السنوات.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

سيقول البعض أن هذا لم يكن صعبًا للغاية، لأنه في كلتا الحالتين يكون الوجه بأكمله مرئيًا، وتتوفر الكثير من المعلومات حول الوجه للخوارزمية. حسنًا، لنحوّل توم هاردي إلى ملف شخصي. هذه المشكلة أكثر تعقيدًا، وقد بذلنا الكثير من الجهد لحلها بنجاح مع الحفاظ على معدل خطأ منخفض: لقد اخترنا مجموعة تدريب، وفكرنا في بنية الشبكة العصبية، وصقلنا وظائف الخسارة، وقمنا بتحسين المعالجة المسبقة من الصور.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

دعونا نضع غطاء الرأس عليه:

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

بالمناسبة، هذا مثال على موقف صعب بشكل خاص، حيث أن الوجه محجوب بشدة، وفي الصورة السفلية يوجد أيضًا ظل عميق يخفي العينين. في الحياة الواقعية، غالبًا ما يغير الأشخاص مظهرهم بمساعدة النظارات الداكنة. دعونا نفعل الشيء نفسه مع توم.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

حسنًا، دعونا نحاول إرسال صور من أعمار مختلفة، وهذه المرة سنقوم بتجربة ممثل مختلف. لنأخذ مثالا أكثر تعقيدا، حيث تكون التغييرات المرتبطة بالعمر واضحة بشكل خاص. الوضع ليس بعيد المنال، فهو يحدث في كثير من الأحيان عندما تحتاج إلى مقارنة الصورة الموجودة في جواز السفر بوجه حامله. بعد كل شيء، تتم إضافة الصورة الأولى إلى جواز السفر عندما يبلغ عمر المالك 20 عامًا، وبحلول سن 45 عامًا يمكن للشخص أن يتغير بشكل كبير:

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

هل تعتقد أن المتخصص الرئيسي في المهام المستحيلة لم يتغير كثيرًا مع تقدم العمر؟ أعتقد أنه حتى عدد قليل من الناس قد يجمعون بين الصورتين العلوية والسفلية، فقد تغير الصبي كثيرًا على مر السنين.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

تواجه الشبكات العصبية تغيرات في المظهر في كثير من الأحيان. على سبيل المثال، في بعض الأحيان يمكن للنساء تغيير صورتهن بشكل كبير بمساعدة مستحضرات التجميل:

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

الآن دعونا نعقد المهمة أكثر: لنفترض أن أجزاء مختلفة من الوجه مغطاة بصور مختلفة. في مثل هذه الحالات، لا يمكن للخوارزمية مقارنة العينات بأكملها. ومع ذلك، تتعامل Vision مع مثل هذه المواقف بشكل جيد.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

بالمناسبة، يمكن أن يكون هناك الكثير من الوجوه في الصورة، على سبيل المثال، يمكن أن تحتوي الصورة العامة للقاعة على أكثر من 100 شخص. يعد هذا موقفًا صعبًا بالنسبة للشبكات العصبية، حيث يمكن إضاءة العديد من الوجوه بشكل مختلف، وبعضها خارج نطاق التركيز. ومع ذلك، إذا تم التقاط الصورة بدقة وجودة كافية (75 بكسل على الأقل لكل مربع يغطي الوجه)، فستكون الرؤية قادرة على اكتشافها والتعرف عليها.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

خصوصية الصور الصحفية والصور الملتقطة من كاميرات المراقبة هي أن الأشخاص غالبًا ما يكونون غير واضحين لأنهم كانوا خارج نطاق التركيز أو كانوا يتحركون في تلك اللحظة:

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

بالإضافة إلى ذلك، يمكن أن تختلف شدة الإضاءة بشكل كبير من صورة إلى أخرى. وهذا أيضًا غالبًا ما يصبح حجر عثرة؛ حيث تواجه العديد من الخوارزميات صعوبة كبيرة في معالجة الصور المظلمة جدًا والخفيفة جدًا بشكل صحيح، ناهيك عن مطابقتها بدقة. اسمحوا لي أن أذكرك أنه لتحقيق هذه النتيجة، يتعين عليك تكوين الحدود بطريقة معينة؛ فهذه الميزة ليست متاحة للعامة بعد. نحن نستخدم نفس الشبكة العصبية لجميع العملاء، ولها حدود مناسبة لمعظم المهام العملية.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

لقد طرحنا مؤخرًا إصدارًا جديدًا من النموذج الذي يتعرف على الوجوه الآسيوية بدقة عالية. كانت هذه مشكلة كبيرة، والتي كانت تسمى حتى عنصرية "التعلم الآلي" (أو "الشبكة العصبية"). تعرفت الشبكات العصبية الأوروبية والأمريكية على الوجوه القوقازية جيدًا، ولكن مع الوجوه المنغولية والزنجية، كان الوضع أسوأ بكثير. ربما كان الوضع في الصين عكس ذلك تمامًا. الأمر كله يتعلق بمجموعات بيانات التدريب التي تعكس الأنواع السائدة من الأشخاص في بلد معين. ومع ذلك، فإن الوضع يتغير، واليوم هذه المشكلة ليست حادة جدا. الرؤية ليس لديها مشكلة مع الناس من أعراق مختلفة.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

يعد التعرف على الوجه مجرد أحد التطبيقات العديدة لتقنيتنا، حيث يمكن تدريب الرؤية على التعرف على أي شيء. على سبيل المثال، لوحات الترخيص، بما في ذلك في الظروف الصعبة بالنسبة للخوارزميات: في زوايا حادة، لوحات الترخيص متسخة ويصعب قراءتها.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

2. حالات الاستخدام العملي

2.1. التحكم في الوصول الفعلي: عندما يستخدم شخصان نفس المرور

بمساعدة Vision، يمكنك تنفيذ أنظمة لتسجيل وصول ومغادرة الموظفين. النظام التقليدي الذي يعتمد على التمريرات الإلكترونية له عيوب واضحة، على سبيل المثال، يمكنك تمرير شخصين باستخدام شارة واحدة. إذا تم استكمال نظام التحكم في الوصول (ACS) بنظام Vision، فسوف يسجل بأمانة من جاء/غادر ومتى.

2.2. تتبع الوقت

ترتبط حالة استخدام الرؤية هذه ارتباطًا وثيقًا بالحالة السابقة. إذا قمت بتكملة نظام الوصول بخدمة التعرف على الوجه الخاصة بنا، فلن تتمكن فقط من اكتشاف انتهاكات التحكم في الوصول، ولكن أيضًا تسجيل التواجد الفعلي للموظفين في المبنى أو المنشأة. بمعنى آخر، ستساعدك Vision على الأخذ في الاعتبار بصدق من جاء إلى العمل وغادر في أي وقت، ومن تغيب عن العمل تمامًا، حتى لو قام زملاؤه بتغطيته أمام رؤسائه.

2.3. تحليلات الفيديو: تتبع الأشخاص والأمن

من خلال تتبع الأشخاص باستخدام Vision، يمكنك تقييم حركة المرور الحقيقية لمناطق التسوق ومحطات القطار والممرات والشوارع والعديد من الأماكن العامة الأخرى بدقة. يمكن أن يكون تتبعنا أيضًا مفيدًا جدًا في التحكم في الوصول، على سبيل المثال، إلى مستودع أو مباني مكتبية مهمة أخرى. وبالطبع فإن تتبع الأشخاص والوجوه يساعد في حل المشكلات الأمنية. هل قبضت على شخص يسرق من متجرك؟ أضف معرف الشخص الخاص به، والذي أعادته Vision، إلى القائمة السوداء لبرنامج تحليلات الفيديو الخاص بك، وفي المرة القادمة سيقوم النظام بتنبيه الأمن على الفور إذا ظهر هذا النوع مرة أخرى.

2.4. في التجارة

تهتم شركات البيع بالتجزئة والخدمات المختلفة بالتعرف على قائمة الانتظار. بمساعدة Vision، يمكنك التعرف على أن هذا ليس حشدًا عشوائيًا من الأشخاص، ولكنه قائمة انتظار، وتحديد طولها. وبعد ذلك يقوم النظام بإبلاغ المسؤولين عن قائمة الانتظار حتى يتمكنوا من معرفة الموقف: إما أن هناك تدفقًا للزوار ويجب استدعاء عمال إضافيين، أو أن شخصًا ما يتباطأ في أداء واجباته الوظيفية.

مهمة أخرى مثيرة للاهتمام هي فصل موظفي الشركة في القاعة عن الزوار. عادةً، يتم تدريب النظام على فصل الأشياء التي ترتدي ملابس معينة (قواعد اللباس) أو ذات سمات مميزة (وشاح يحمل علامة تجارية، وشارة على الصدر، وما إلى ذلك). وهذا يساعد على تقييم الحضور بشكل أكثر دقة (بحيث لا يقوم الموظفون "بتضخيم" إحصائيات الأشخاص في القاعة بمجرد وجودهم).

باستخدام التعرف على الوجه، يمكنك أيضًا تقييم جمهورك: ما هو ولاء الزوار، أي عدد الأشخاص الذين يعودون إلى مؤسستك وبأي وتيرة. احسب عدد الزوار الفريدين الذين يأتون إليك شهريًا. لتحسين تكاليف الجذب والاحتفاظ، يمكنك أيضًا معرفة التغير في حركة المرور اعتمادًا على يوم الأسبوع وحتى الوقت من اليوم.

يمكن لأصحاب الامتياز وشركات السلسلة طلب تقييم بناءً على صور لجودة العلامات التجارية لمنافذ البيع بالتجزئة المختلفة: وجود الشعارات واللافتات والملصقات واللافتات وما إلى ذلك.

2.5. عن طريق النقل

مثال آخر لضمان الأمن باستخدام تحليلات الفيديو هو تحديد العناصر المهجورة في قاعات المطارات أو محطات القطار. يمكن تدريب الرؤية على التعرف على الأشياء من مئات الفئات: قطع الأثاث، والحقائب، وحقائب السفر، والمظلات، وأنواع مختلفة من الملابس، والزجاجات، وما إلى ذلك. إذا اكتشف نظام تحليلات الفيديو الخاص بك كائنًا لا مالك له وتعرف عليه باستخدام Vision، فإنه يرسل إشارة إلى خدمة الأمان. ترتبط مهمة مماثلة بالكشف التلقائي عن المواقف غير العادية في الأماكن العامة: يشعر شخص ما بالمرض، أو يدخن شخص ما في المكان الخطأ، أو يسقط شخص على القضبان، وما إلى ذلك - يمكن التعرف على كل هذه الأنماط من خلال أنظمة تحليل الفيديو من خلال Vision API.

2.6. تدفق ثيقة

هناك تطبيق مستقبلي آخر مثير للاهتمام لبرنامج Vision والذي نقوم بتطويره حاليًا وهو التعرف على المستندات وتحليلها تلقائيًا في قواعد البيانات. بدلاً من إدخال (أو ما هو أسوأ من ذلك، إدخال) سلاسل وأرقام وتواريخ الإصدار وأرقام الحسابات والتفاصيل المصرفية وتواريخ وأماكن الميلاد والعديد من البيانات الرسمية الأخرى يدويًا، يمكنك مسح المستندات ضوئيًا وإرسالها تلقائيًا عبر قناة آمنة عبر واجهة برمجة التطبيقات (API) إلى السحابة، حيث يتعرف النظام على هذه المستندات بسرعة، ويقوم بتحليلها وإرجاع استجابة بالبيانات بالتنسيق المطلوب للدخول التلقائي إلى قاعدة البيانات. اليوم، تعرف Vision بالفعل كيفية تصنيف المستندات (بما في ذلك PDF) - فهي تميز بين جوازات السفر وSNILS وTIN وشهادات الميلاد وشهادات الزواج وغيرها.

بالطبع، الشبكة العصبية غير قادرة على التعامل مع كل هذه المواقف خارج الصندوق. في كل حالة، يتم إنشاء نموذج جديد لعميل معين، مع أخذ العديد من العوامل والفروق الدقيقة والمتطلبات في الاعتبار، ويتم اختيار مجموعات البيانات، ويتم تنفيذ تكرارات التدريب والاختبار والتكوين.

3. مخطط تشغيل API

"بوابة الدخول" الخاصة بـ Vision للمستخدمين هي REST API. يمكنه استقبال الصور وملفات الفيديو والبث من كاميرات الشبكة (تدفقات RTSP) كمدخل.

لاستخدام الرؤية، تحتاج تسجيل في خدمة Mail.ru Cloud Solutions واستلام رموز الوصول (client_id + client_secret). يتم إجراء مصادقة المستخدم باستخدام بروتوكول OAuth. يتم إرسال البيانات المصدر في نصوص طلبات POST إلى واجهة برمجة التطبيقات (API). وردًا على ذلك، يتلقى العميل من واجهة برمجة التطبيقات (API) نتيجة التعرف بتنسيق JSON، وتكون الاستجابة منظمة: فهي تحتوي على معلومات حول الكائنات التي تم العثور عليها وإحداثياتها.

ذو اللحية والنظارات الداكنة والملف الشخصي: المواقف الصعبة للرؤية الحاسوبية

عينة إجابة

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

تحتوي الإجابة على معلمة مثيرة للاهتمام الذهول - وهذا هو "الروعة" الشرطية للوجه في الصورة، وبمساعدتها نختار أفضل لقطة للوجه من التسلسل. لقد قمنا بتدريب شبكة عصبية للتنبؤ باحتمالية الإعجاب بالصورة على الشبكات الاجتماعية. كلما كانت جودة الصورة أفضل وكلما زاد الابتسامة على الوجه، زادت الروعة.

تستخدم API Vision مفهومًا يسمى المساحة. هذه أداة لإنشاء مجموعات مختلفة من الوجوه. من أمثلة المسافات القوائم بالأبيض والأسود، وقوائم الزوار والموظفين والعملاء وما إلى ذلك. لكل رمز مميز في Vision، يمكنك إنشاء ما يصل إلى 10 مسافات، يمكن أن تحتوي كل مساحة على ما يصل إلى 50 ألف معرف شخصي، أي ما يصل إلى 500 ألف لكل رمز. علاوة على ذلك، فإن عدد الرموز المميزة لكل حساب ليس محدودًا.

تدعم واجهة برمجة التطبيقات اليوم طرق الكشف والتعرف التالية:

  • التعرف/التعيين - اكتشاف الوجوه والتعرف عليها. يقوم تلقائيًا بتعيين معرف الشخص لكل شخص فريد، وإرجاع معرف الشخص وإحداثيات الأشخاص الذين تم العثور عليهم.
  • حذف - حذف معرف شخص محدد من قاعدة بيانات الأشخاص.
  • اقتطاع - يمسح المساحة بالكامل من PersonID، وهو مفيد إذا تم استخدامه كمساحة اختبار وتحتاج إلى إعادة تعيين قاعدة البيانات للإنتاج.
  • كشف - اكتشاف الكائنات والمشاهد ولوحات الترخيص والمعالم وقوائم الانتظار وما إلى ذلك. إرجاع فئة الكائنات التي تم العثور عليها وإحداثياتها
  • كشف المستندات - يكتشف أنواعًا محددة من مستندات الاتحاد الروسي (يميز جواز السفر، SNILS، رقم التعريف الضريبي، وما إلى ذلك).

كما سننتهي قريبًا من العمل على أساليب التعرف الضوئي على الحروف، وتحديد الجنس والعمر والعواطف، بالإضافة إلى حل مشكلات الترويج، أي التحكم تلقائيًا في عرض البضائع في المتاجر. يمكنك العثور على وثائق API الكاملة هنا: https://mcs.mail.ru/help/vision-api

4. الخلاصة

الآن، من خلال واجهة برمجة التطبيقات العامة، يمكنك الوصول إلى التعرف على الوجه في الصور ومقاطع الفيديو، كما يتم دعم التعرف على الكائنات المختلفة ولوحات الترخيص والمعالم والمستندات والمشاهد بأكملها. سيناريوهات التطبيق - البحر. تعال واختبر خدمتنا، وحدد لها المهام الأكثر صعوبة. أول 5000 معاملة مجانية. ربما سيكون هذا هو "العنصر المفقود" لمشاريعك.

يمكنك الوصول فورًا إلى واجهة برمجة التطبيقات (API) عند التسجيل والاتصال. الرؤية. يحصل جميع مستخدمي هبرة على رمز ترويجي للمعاملات الإضافية. من فضلك اكتب لي عنوان البريد الإلكتروني الذي استخدمته لتسجيل حسابك!

المصدر: www.habr.com

إضافة تعليق