Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Τεχνολογίες και μοντέλα για το μελλοντικό μας σύστημα υπολογιστικής όρασης δημιουργήθηκαν και βελτιώθηκαν σταδιακά και σε διαφορετικά έργα της εταιρείας μας - σε Mail, Cloud, Search. Ωρίμασαν σαν καλό τυρί ή κονιάκ. Μια μέρα συνειδητοποιήσαμε ότι τα νευρωνικά μας δίκτυα δείχνουν εξαιρετικά αποτελέσματα στην αναγνώριση και αποφασίσαμε να τα συνδυάσουμε σε ένα ενιαίο προϊόν b2b - το Vision - το οποίο τώρα χρησιμοποιούμε μόνοι μας και σας προσφέρουμε να χρησιμοποιήσετε.

Σήμερα, η τεχνολογία υπολογιστικής όρασης στην πλατφόρμα Mail.Ru Cloud Solutions λειτουργεί με επιτυχία και επιλύει πολύ περίπλοκα πρακτικά προβλήματα. Βασίζεται σε μια σειρά από νευρωνικά δίκτυα που εκπαιδεύονται στα σύνολα δεδομένων μας και ειδικεύονται στην επίλυση εφαρμοζόμενων προβλημάτων. Όλες οι υπηρεσίες εκτελούνται στις εγκαταστάσεις του διακομιστή μας. Μπορείτε να ενσωματώσετε το δημόσιο API Vision στις εφαρμογές σας, μέσω του οποίου είναι διαθέσιμες όλες οι δυνατότητες της υπηρεσίας. Το API είναι γρήγορο - χάρη στις GPU των διακομιστών, ο μέσος χρόνος απόκρισης στο δίκτυό μας είναι 100 ms.

Πηγαίνετε στη γάτα, υπάρχει μια λεπτομερής ιστορία και πολλά παραδείγματα της δουλειάς του Vision.

Ένα παράδειγμα υπηρεσίας στην οποία εμείς οι ίδιοι χρησιμοποιούμε τις αναφερόμενες τεχνολογίες αναγνώρισης προσώπου είναι Εκδηλώσεις. Ένα από τα εξαρτήματά του είναι τα φωτογραφικά stand Vision, τα οποία τοποθετούμε σε διάφορα συνέδρια. Εάν πλησιάσετε ένα τέτοιο φωτογραφικό stand, τραβήξετε μια φωτογραφία με την ενσωματωμένη κάμερα και εισάγετε το email σας, το σύστημα θα βρει αμέσως ανάμεσα στη σειρά φωτογραφιών εκείνες στις οποίες σας απαθανάτισαν οι φωτογράφοι του προσωπικού του συνεδρίου και, εάν το επιθυμείτε, θα σας στείλει τις φωτογραφίες που βρέθηκαν μέσω email. Και δεν μιλάμε για σκηνοθετημένες λήψεις πορτρέτου—Το Vision σας αναγνωρίζει ακόμη και στο βάθος μέσα σε ένα πλήθος επισκεπτών. Φυσικά, δεν αναγνωρίζονται οι ίδιες οι φωτογραφικές βάσεις, αυτές είναι απλώς ταμπλέτες σε όμορφα περίπτερα που απλώς φωτογραφίζουν τους επισκέπτες με τις ενσωματωμένες κάμερές τους και μεταδίδουν πληροφορίες στους διακομιστές, όπου συμβαίνει όλη η μαγεία της αναγνώρισης. Και έχουμε δει πολλές φορές πόσο εκπληκτική είναι η αποτελεσματικότητα της τεχνολογίας ακόμη και μεταξύ των ειδικών στην αναγνώριση εικόνας. Παρακάτω θα μιλήσουμε για μερικά παραδείγματα.

1. Το μοντέλο μας για την αναγνώριση προσώπου

1.1. Νευρωνικό δίκτυο και ταχύτητα επεξεργασίας

Για αναγνώριση, χρησιμοποιούμε μια τροποποίηση του μοντέλου νευρωνικού δικτύου ResNet 101. Η μέση συγκέντρωση στο τέλος αντικαθίσταται από ένα πλήρως συνδεδεμένο επίπεδο, παρόμοιο με το πώς γίνεται στο ArcFace. Ωστόσο, το μέγεθος των διανυσματικών αναπαραστάσεων είναι 128, όχι 512. Το εκπαιδευτικό μας σετ περιέχει περίπου 10 εκατομμύρια φωτογραφίες 273 ατόμων.

Το μοντέλο εκτελείται πολύ γρήγορα χάρη σε μια προσεκτικά επιλεγμένη αρχιτεκτονική διαμόρφωσης διακομιστή και υπολογιστές GPU. Χρειάζονται από 100 ms για να λάβετε μια απάντηση από το API στα εσωτερικά μας δίκτυα - αυτό περιλαμβάνει ανίχνευση προσώπου (ανίχνευση προσώπου σε μια φωτογραφία), αναγνώριση και επιστροφή PersonaID στην απόκριση API. Με μεγάλους όγκους εισερχόμενων δεδομένων - φωτογραφιών και βίντεο - θα χρειαστεί πολύ περισσότερος χρόνος για τη μεταφορά των δεδομένων στην υπηρεσία και για τη λήψη απάντησης.

1.2. Αξιολόγηση της αποτελεσματικότητας του μοντέλου

Αλλά ο προσδιορισμός της αποτελεσματικότητας των νευρωνικών δικτύων είναι ένα πολύ διφορούμενο έργο. Η ποιότητα της εργασίας τους εξαρτάται από τα σύνολα δεδομένων στα οποία εκπαιδεύτηκαν τα μοντέλα και από το εάν ήταν βελτιστοποιημένα για εργασία με συγκεκριμένα δεδομένα.

Αρχίσαμε να αξιολογούμε την ακρίβεια του μοντέλου μας με το δημοφιλές τεστ επαλήθευσης LFW, αλλά είναι πολύ μικρό και απλό. Αφού φτάσει στο 99,8% της ακρίβειας, δεν είναι πλέον χρήσιμο. Υπάρχει ένας καλός ανταγωνισμός για την αξιολόγηση μοντέλων αναγνώρισης - το Megaface, στο οποίο φτάσαμε σταδιακά στο 82% στην κατάταξη 1. Το τεστ Megaface αποτελείται από ένα εκατομμύριο φωτογραφίες - αποσπών την προσοχή - και το μοντέλο θα πρέπει να μπορεί να διακρίνει καλά αρκετές χιλιάδες φωτογραφίες διασημοτήτων από το Facescrub σύνολο δεδομένων από παράγοντες που αποσπούν την προσοχή. Ωστόσο, έχοντας καθαρίσει το τεστ Megaface από σφάλματα, διαπιστώσαμε ότι με την εκκαθαρισμένη έκδοση πετυχαίνουμε ακρίβεια 98% κατάταξη 1 (οι φωτογραφίες των διασημοτήτων είναι γενικά αρκετά συγκεκριμένες). Ως εκ τούτου, δημιούργησαν ένα ξεχωριστό τεστ αναγνώρισης, παρόμοιο με το Megaface, αλλά με φωτογραφίες «απλών» ανθρώπων. Στη συνέχεια, βελτιώσαμε την ακρίβεια αναγνώρισης στα σύνολα δεδομένων μας και προχωρήσαμε πολύ. Επιπλέον, χρησιμοποιούμε μια δοκιμή ποιότητας ομαδοποίησης που αποτελείται από πολλές χιλιάδες φωτογραφίες. προσομοιώνει την προσθήκη ετικετών προσώπου στο cloud του χρήστη. Σε αυτήν την περίπτωση, οι ομάδες είναι ομάδες όμοιων ατόμων, μία ομάδα για κάθε αναγνωρίσιμο άτομο. Ελέγξαμε την ποιότητα της εργασίας σε πραγματικές ομάδες (αλήθεια).

Φυσικά, σφάλματα αναγνώρισης συμβαίνουν με οποιοδήποτε μοντέλο. Ωστόσο, τέτοιες καταστάσεις συχνά επιλύονται με λεπτομέρεια των ορίων για συγκεκριμένες συνθήκες (για όλα τα συνέδρια χρησιμοποιούμε τα ίδια κατώφλια, αλλά, για παράδειγμα, για συστήματα ελέγχου πρόσβασης πρέπει να αυξήσουμε κατά πολύ τα όρια, ώστε να υπάρχουν λιγότερα ψευδώς θετικά). Η συντριπτική πλειοψηφία των επισκεπτών του συνεδρίου αναγνωρίστηκε σωστά από τους φωτογραφικούς θαλάμους Vision. Μερικές φορές κάποιος κοιτούσε την περικομμένη προεπισκόπηση και έλεγε: "Το σύστημά σας έκανε λάθος, δεν ήμουν εγώ". Στη συνέχεια ανοίξαμε ολόκληρη τη φωτογραφία και αποδείχθηκε ότι υπήρχε πραγματικά αυτός ο επισκέπτης στη φωτογραφία, μόνο που δεν τον φωτογραφίζαμε εμείς, αλλά κάποιος άλλος, το άτομο απλώς έτυχε να βρίσκεται στο παρασκήνιο στη ζώνη θαμπώματος. Επιπλέον, το νευρωνικό δίκτυο συχνά αναγνωρίζει σωστά ακόμη και όταν μέρος του προσώπου δεν είναι ορατό, ή το άτομο στέκεται σε προφίλ ή ακόμα και μισογυρισμένο. Το σύστημα μπορεί να αναγνωρίσει ένα άτομο ακόμα κι αν το πρόσωπο βρίσκεται στην περιοχή της οπτικής παραμόρφωσης, ας πούμε, κατά τη λήψη με ευρυγώνιο φακό.

1.3. Παραδείγματα δοκιμών σε δύσκολες καταστάσεις

Ακολουθούν παραδείγματα για το πώς λειτουργεί το νευρωνικό μας δίκτυο. Οι φωτογραφίες υποβάλλονται στην είσοδο, την οποία πρέπει να επισημάνει χρησιμοποιώντας το PersonID - ένα μοναδικό αναγνωριστικό ενός ατόμου. Εάν δύο ή περισσότερες εικόνες έχουν την ίδια ταυτότητα, τότε, σύμφωνα με τα μοντέλα, αυτές οι φωτογραφίες απεικονίζουν το ίδιο άτομο.

Ας σημειώσουμε αμέσως ότι κατά τη δοκιμή, έχουμε πρόσβαση σε διάφορες παραμέτρους και όρια μοντέλου που μπορούμε να διαμορφώσουμε για να επιτύχουμε ένα συγκεκριμένο αποτέλεσμα. Το δημόσιο API είναι βελτιστοποιημένο για μέγιστη ακρίβεια σε κοινές περιπτώσεις.

Ας ξεκινήσουμε με το πιο απλό πράγμα, με την αναγνώριση προσώπου μπροστά.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Λοιπόν, ήταν πολύ εύκολο. Ας περιπλέκουμε το έργο, ας προσθέσουμε ένα μούσι και μια χούφτα χρόνια.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Κάποιοι θα πουν ότι αυτό δεν ήταν επίσης πολύ δύσκολο, επειδή και στις δύο περιπτώσεις είναι ορατό ολόκληρο το πρόσωπο και πολλές πληροφορίες για το πρόσωπο είναι διαθέσιμες στον αλγόριθμο. Εντάξει, ας μετατρέψουμε τον Τομ Χάρντι σε προφίλ. Αυτό το πρόβλημα είναι πολύ πιο περίπλοκο και δαπανήσαμε πολλή προσπάθεια για να το λύσουμε επιτυχώς διατηρώντας ένα χαμηλό ποσοστό σφαλμάτων: επιλέξαμε ένα σύνολο εκπαίδευσης, σκεφτήκαμε την αρχιτεκτονική του νευρωνικού δικτύου, βελτιώσαμε τις λειτουργίες απώλειας και βελτιώσαμε την προεπεξεργασία των φωτογραφιών.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Ας του βάλουμε μια κόμμωση:

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Παρεμπιπτόντως, αυτό είναι ένα παράδειγμα μιας ιδιαίτερα δύσκολης κατάστασης, καθώς το πρόσωπο είναι πολύ σκοτεινό και στην κάτω φωτογραφία υπάρχει επίσης μια βαθιά σκιά που κρύβει τα μάτια. Στην πραγματική ζωή, οι άνθρωποι αλλάζουν πολύ συχνά την εμφάνισή τους με τη βοήθεια σκούρων γυαλιών. Ας κάνουμε το ίδιο με τον Τομ.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Εντάξει, ας προσπαθήσουμε να ρίξουμε φωτογραφίες από διαφορετικές ηλικίες και αυτή τη φορά θα πειραματιστούμε με διαφορετικό ηθοποιό. Ας πάρουμε ένα πολύ πιο περίπλοκο παράδειγμα, όπου οι αλλαγές που σχετίζονται με την ηλικία είναι ιδιαίτερα έντονες. Η κατάσταση δεν είναι τραβηγμένη· συμβαίνει αρκετά συχνά όταν πρέπει να συγκρίνετε τη φωτογραφία στο διαβατήριο με το πρόσωπο του κομιστή. Εξάλλου, η πρώτη φωτογραφία προστίθεται σε ένα διαβατήριο όταν ο ιδιοκτήτης είναι 20 ετών και μέχρι την ηλικία των 45 ετών ένα άτομο μπορεί να αλλάξει πολύ:

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Πιστεύετε ότι ο κύριος ειδικός σε αδύνατες αποστολές δεν έχει αλλάξει πολύ με την ηλικία; Νομίζω ότι ακόμη και λίγοι άνθρωποι θα συνδύαζαν τις πάνω και τις κάτω φωτογραφίες, το αγόρι έχει αλλάξει τόσο πολύ με τα χρόνια.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Τα νευρωνικά δίκτυα αντιμετωπίζουν αλλαγές στην εμφάνιση πολύ πιο συχνά. Για παράδειγμα, μερικές φορές οι γυναίκες μπορούν να αλλάξουν πολύ την εικόνα τους με τη βοήθεια καλλυντικών:

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Τώρα ας περιπλέκουμε ακόμη περισσότερο την εργασία: ας υποθέσουμε ότι διαφορετικά μέρη του προσώπου καλύπτονται σε διαφορετικές φωτογραφίες. Σε τέτοιες περιπτώσεις, ο αλγόριθμος δεν μπορεί να συγκρίνει ολόκληρα δείγματα. Ωστόσο, το Vision χειρίζεται καλά καταστάσεις όπως αυτή.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Παρεμπιπτόντως, μπορεί να υπάρχουν πολλά πρόσωπα σε μια φωτογραφία· για παράδειγμα, περισσότερα από 100 άτομα μπορούν να χωρέσουν σε μια γενική φωτογραφία μιας αίθουσας. Αυτή είναι μια δύσκολη κατάσταση για τα νευρωνικά δίκτυα, καθώς πολλά πρόσωπα μπορούν να φωτιστούν διαφορετικά, μερικά εκτός εστίασης. Ωστόσο, εάν η φωτογραφία τραβηχτεί με επαρκή ανάλυση και ποιότητα (τουλάχιστον 75 pixel ανά τετράγωνο που καλύπτει το πρόσωπο), η Vision θα μπορεί να την εντοπίσει και να την αναγνωρίσει.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Η ιδιαιτερότητα των φωτογραφιών ρεπορτάζ και των εικόνων από κάμερες παρακολούθησης είναι ότι οι άνθρωποι συχνά θολώνουν επειδή ήταν εκτός εστίασης ή κινούνταν εκείνη τη στιγμή:

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Επίσης, η ένταση φωτισμού μπορεί να διαφέρει πολύ από εικόνα σε εικόνα. Αυτό, επίσης, συχνά γίνεται εμπόδιο· πολλοί αλγόριθμοι έχουν μεγάλη δυσκολία να επεξεργαστούν σωστά τις εικόνες που είναι πολύ σκοτεινές και πολύ ανοιχτόχρωμες, για να μην αναφέρουμε ότι ταιριάζουν με ακρίβεια. Επιτρέψτε μου να σας υπενθυμίσω ότι για να επιτύχετε αυτό το αποτέλεσμα πρέπει να διαμορφώσετε τα όρια με συγκεκριμένο τρόπο· αυτή η δυνατότητα δεν είναι ακόμη δημόσια διαθέσιμη. Χρησιμοποιούμε το ίδιο νευρωνικό δίκτυο για όλους τους πελάτες· έχει κατώφλια που είναι κατάλληλα για τις περισσότερες πρακτικές εργασίες.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Πρόσφατα παρουσιάσαμε μια νέα έκδοση του μοντέλου που αναγνωρίζει ασιατικά πρόσωπα με υψηλή ακρίβεια. Αυτό ήταν ένα μεγάλο πρόβλημα, που ονομαζόταν ακόμη και «μηχανική μάθηση» (ή «νευρωνικό δίκτυο») ρατσισμός. Τα ευρωπαϊκά και αμερικανικά νευρωνικά δίκτυα αναγνώρισαν καλά τα πρόσωπα του Καυκάσου, αλλά με τα πρόσωπα των Μογγολοειδών και Νεγροειδών η κατάσταση ήταν πολύ χειρότερη. Πιθανώς, στην Κίνα η κατάσταση ήταν ακριβώς το αντίθετο. Είναι όλα σχετικά με σύνολα δεδομένων εκπαίδευσης που αντικατοπτρίζουν τους κυρίαρχους τύπους ανθρώπων σε μια συγκεκριμένη χώρα. Ωστόσο, η κατάσταση αλλάζει· σήμερα αυτό το πρόβλημα δεν είναι τόσο οξύ. Η όραση δεν έχει πρόβλημα με ανθρώπους διαφορετικών φυλών.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Η αναγνώριση προσώπου είναι μόνο μία από τις πολλές εφαρμογές της τεχνολογίας μας· το Vision μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει οτιδήποτε. Για παράδειγμα, πινακίδες κυκλοφορίας, συμπεριλαμβανομένων και σε συνθήκες δύσκολες για αλγόριθμους: σε έντονες γωνίες, βρώμικες και δυσανάγνωστες πινακίδες κυκλοφορίας.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

2. Θήκες πρακτικής χρήσης

2.1. Έλεγχος φυσικής πρόσβασης: όταν δύο άτομα χρησιμοποιούν το ίδιο πάσο

Με τη βοήθεια του Vision, μπορείτε να εφαρμόσετε συστήματα για την καταγραφή της άφιξης και της αναχώρησης των εργαζομένων. Το παραδοσιακό σύστημα που βασίζεται σε ηλεκτρονικά πάσο έχει προφανή μειονεκτήματα, για παράδειγμα, μπορείτε να περάσετε δύο άτομα χρησιμοποιώντας ένα σήμα. Εάν το σύστημα ελέγχου πρόσβασης (ACS) συμπληρωθεί με Vision, θα καταγράφει με ειλικρίνεια ποιος ήρθε/έφυγε και πότε.

2.2. Παρακολούθηση χρόνου

Αυτή η περίπτωση χρήσης Vision σχετίζεται στενά με την προηγούμενη. Εάν συμπληρώσετε το σύστημα πρόσβασης με την υπηρεσία μας αναγνώρισης προσώπου, θα μπορεί όχι μόνο να εντοπίσει παραβιάσεις του ελέγχου πρόσβασης, αλλά και να καταγράψει την πραγματική παρουσία εργαζομένων στο κτίριο ή την εγκατάσταση. Με άλλα λόγια, το Vision θα σας βοηθήσει να λάβετε ειλικρινά υπόψη σας ποιος ήρθε στη δουλειά και έφυγε ποια ώρα και ποιος παρέλειψε εντελώς τη δουλειά, ακόμα κι αν οι συνάδελφοί του τον κάλυπταν μπροστά στους ανωτέρους του.

2.3. Αναλύσεις βίντεο: Παρακολούθηση ατόμων και ασφάλεια

Παρακολουθώντας άτομα χρησιμοποιώντας το Vision, μπορείτε να αξιολογήσετε με ακρίβεια την πραγματική κίνηση σε εμπορικές περιοχές, σιδηροδρομικούς σταθμούς, περάσματα, δρόμους και πολλούς άλλους δημόσιους χώρους. Η παρακολούθηση μας μπορεί επίσης να βοηθήσει πολύ στον έλεγχο της πρόσβασης, για παράδειγμα, σε μια αποθήκη ή σε άλλους σημαντικούς χώρους γραφείων. Και φυσικά, η παρακολούθηση ατόμων και προσώπων βοηθά στην επίλυση προβλημάτων ασφάλειας. Έπιασες κάποιον να κλέβει από το κατάστημά σου; Προσθέστε το PersonID του, το οποίο επιστράφηκε από τη Vision, στη μαύρη λίστα του λογισμικού ανάλυσης βίντεο και την επόμενη φορά το σύστημα θα ειδοποιήσει αμέσως την ασφάλεια εάν αυτός ο τύπος εμφανιστεί ξανά.

2.4. Στο εμπόριο

Λιανική και διάφορες επιχειρήσεις παροχής υπηρεσιών ενδιαφέρονται για την αναγνώριση ουρών. Με τη βοήθεια του Vision, μπορείτε να αναγνωρίσετε ότι αυτό δεν είναι ένα τυχαίο πλήθος ανθρώπων, αλλά μια ουρά και να καθορίσετε το μήκος του. Και μετά το σύστημα ενημερώνει τους αρμόδιους για μια ουρά για να καταλάβουν την κατάσταση: είτε υπάρχει εισροή επισκεπτών και πρέπει να κληθούν επιπλέον εργαζόμενοι, είτε κάποιος χαλαρώνει τα καθήκοντά του.

Ένα άλλο ενδιαφέρον καθήκον είναι να διαχωρίσετε τους υπαλλήλους της εταιρείας στην αίθουσα από τους επισκέπτες. Συνήθως, το σύστημα εκπαιδεύεται να διαχωρίζει αντικείμενα που φορούν συγκεκριμένα ρούχα (κώδικας ενδυμασίας) ή με κάποιο διακριτικό χαρακτηριστικό (επώνυμο κασκόλ, σήμα στο στήθος κ.λπ.). Αυτό βοηθά στην ακριβέστερη αξιολόγηση της προσέλευσης (έτσι ώστε οι εργαζόμενοι να μην «φουσκώνουν» τα στατιστικά στοιχεία των ανθρώπων στην αίθουσα με την απλή παρουσία τους).

Χρησιμοποιώντας την αναγνώριση προσώπου, μπορείτε επίσης να αξιολογήσετε το κοινό σας: ποια είναι η πίστη των επισκεπτών, δηλαδή πόσα άτομα επιστρέφουν στο κατάστημά σας και με ποια συχνότητα. Υπολογίστε πόσοι μοναδικοί επισκέπτες έρχονται σε εσάς ανά μήνα. Για να βελτιστοποιήσετε το κόστος έλξης και διατήρησης, μπορείτε επίσης να μάθετε την αλλαγή στην κίνηση ανάλογα με την ημέρα της εβδομάδας και ακόμη και την ώρα της ημέρας.

Οι δικαιοπάροχοι και οι εταιρείες αλυσίδων μπορούν να παραγγείλουν αξιολόγηση βάσει φωτογραφιών της ποιότητας της επωνυμίας διαφόρων καταστημάτων λιανικής: παρουσία λογότυπων, πινακίδων, αφισών, πανό κ.λπ.

2.5. Με μεταφορά

Ένα άλλο παράδειγμα διασφάλισης ασφάλειας με χρήση ανάλυσης βίντεο είναι ο εντοπισμός εγκαταλελειμμένων αντικειμένων στις αίθουσες των αεροδρομίων ή των σιδηροδρομικών σταθμών. Η όραση μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει αντικείμενα εκατοντάδων κατηγοριών: έπιπλα, τσάντες, βαλίτσες, ομπρέλες, διάφορα είδη ρούχων, μπουκάλια κ.λπ. Εάν το σύστημα ανάλυσης βίντεο που διαθέτετε εντοπίσει ένα αντικείμενο χωρίς ιδιοκτήτη και το αναγνωρίσει χρησιμοποιώντας το Vision, στέλνει ένα σήμα στην υπηρεσία ασφαλείας. Μια παρόμοια εργασία σχετίζεται με την αυτόματη ανίχνευση ασυνήθιστων καταστάσεων σε δημόσιους χώρους: κάποιος αισθάνεται άρρωστος, ή κάποιος καπνίζει σε λάθος μέρος, ή ένα άτομο πέφτει στις ράγες και ούτω καθεξής - όλα αυτά τα μοτίβα μπορούν να αναγνωριστούν από συστήματα ανάλυσης βίντεο μέσω του Vision API.

2.6. Ροή εγγράφων

Μια άλλη ενδιαφέρουσα μελλοντική εφαρμογή του Vision που αναπτύσσουμε αυτή τη στιγμή είναι η αναγνώριση εγγράφων και η αυτόματη ανάλυση τους σε βάσεις δεδομένων. Αντί να εισάγετε με μη αυτόματο τρόπο (ή χειρότερα, να εισάγετε) ατελείωτες σειρές, αριθμούς, ημερομηνίες έκδοσης, αριθμούς λογαριασμών, τραπεζικά στοιχεία, ημερομηνίες και τόπους γέννησης και πολλά άλλα επίσημα δεδομένα, μπορείτε να σαρώσετε έγγραφα και να τα στείλετε αυτόματα μέσω ενός ασφαλούς καναλιού μέσω του API στο cloud, όπου το σύστημα θα αναγνωρίσει αυτά τα έγγραφα εν κινήσει, θα τα αναλύσει και θα επιστρέψει μια απάντηση με δεδομένα στην απαιτούμενη μορφή για αυτόματη εισαγωγή στη βάση δεδομένων. Σήμερα η Vision ξέρει ήδη πώς να ταξινομεί έγγραφα (συμπεριλαμβανομένου του PDF) - κάνει διάκριση μεταξύ διαβατηρίων, SNILS, TIN, πιστοποιητικών γέννησης, πιστοποιητικών γάμου και άλλων.

Φυσικά, το νευρωνικό δίκτυο δεν είναι σε θέση να χειριστεί όλες αυτές τις καταστάσεις εκτός κουτιού. Σε κάθε περίπτωση, δημιουργείται ένα νέο μοντέλο για έναν συγκεκριμένο πελάτη, λαμβάνονται υπόψη πολλοί παράγοντες, αποχρώσεις και απαιτήσεις, επιλέγονται σύνολα δεδομένων και πραγματοποιούνται επαναλήψεις εκπαίδευσης, δοκιμών και διαμόρφωσης.

3. Σχέδιο λειτουργίας API

Η «πύλη εισόδου» του Vision για τους χρήστες είναι το REST API. Μπορεί να λαμβάνει φωτογραφίες, αρχεία βίντεο και εκπομπές από κάμερες δικτύου (ροές RTSP) ως είσοδο.

Για να χρησιμοποιήσετε το Vision, χρειάζεστε μητρώο στην υπηρεσία Mail.ru Cloud Solutions και λάβετε διακριτικά πρόσβασης (client_id + client_secret). Ο έλεγχος ταυτότητας χρήστη πραγματοποιείται χρησιμοποιώντας το πρωτόκολλο OAuth. Τα δεδομένα πηγής στα σώματα των αιτημάτων POST αποστέλλονται στο API. Και ως απόκριση, ο πελάτης λαμβάνει από το API ένα αποτέλεσμα αναγνώρισης σε μορφή JSON και η απάντηση είναι δομημένη: περιέχει πληροφορίες σχετικά με τα αντικείμενα που βρέθηκαν και τις συντεταγμένες τους.

Με μούσι, σκούρα γυαλιά και στο προφίλ: δύσκολες καταστάσεις για την όραση υπολογιστή

Δείγμα απάντησης

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Η απάντηση περιέχει μια ενδιαφέρουσα παράμετρο φοβία - αυτή είναι η υπό όρους "ψυχραιμία" ενός προσώπου σε μια φωτογραφία, με τη βοήθειά της επιλέγουμε την καλύτερη λήψη ενός προσώπου από τη σειρά. Εκπαιδεύσαμε ένα νευρωνικό δίκτυο για να προβλέψουμε την πιθανότητα να γίνει like σε μια φωτογραφία στα κοινωνικά δίκτυα. Όσο καλύτερη είναι η ποιότητα της φωτογραφίας και όσο πιο χαμογελαστό είναι το πρόσωπο, τόσο μεγαλύτερη είναι η απαισιοδοξία.

Το API Vision χρησιμοποιεί μια έννοια που ονομάζεται χώρος. Αυτό είναι ένα εργαλείο για τη δημιουργία διαφορετικών συνόλων προσώπων. Παραδείγματα διαστημάτων είναι ασπρόμαυρες λίστες, λίστες επισκεπτών, υπαλλήλων, πελατών κ.λπ. Για κάθε διακριτικό στο Vision, μπορείτε να δημιουργήσετε έως και 10 κενά, κάθε χώρος μπορεί να έχει έως και 50 χιλιάδες PersonaIDs, δηλαδή έως και 500 χιλιάδες ανά κουπόνι. Επιπλέον, ο αριθμός των διακριτικών ανά λογαριασμό δεν είναι περιορισμένος.

Σήμερα το API υποστηρίζει τις ακόλουθες μεθόδους ανίχνευσης και αναγνώρισης:

  • Recognize/Set - ανίχνευση και αναγνώριση προσώπων. Εκχωρεί αυτόματα ένα PersonaID σε κάθε μοναδικό άτομο, επιστρέφει το PersonaID και τις συντεταγμένες των προσώπων που βρέθηκαν.
  • Διαγραφή - διαγραφή συγκεκριμένου PersonaID από τη βάση δεδομένων ατόμων.
  • Περικοπή - διαγράφει ολόκληρο τον χώρο από το PersonID, χρήσιμο εάν χρησιμοποιήθηκε ως δοκιμαστικός χώρος και πρέπει να επαναφέρετε τη βάση δεδομένων για παραγωγή.
  • Ανίχνευση - ανίχνευση αντικειμένων, σκηνών, πινακίδων κυκλοφορίας, ορόσημων, ουρών κ.λπ. Επιστρέφει την κλάση των αντικειμένων που βρέθηκαν και τις συντεταγμένες τους
  • Ανίχνευση για έγγραφα - εντοπίζει συγκεκριμένους τύπους εγγράφων της Ρωσικής Ομοσπονδίας (διακρίνει διαβατήριο, SNILS, αριθμό φορολογικού μητρώου κ.λπ.).

Επίσης, σύντομα ολοκληρώνουμε τις εργασίες για μεθόδους OCR, προσδιορισμού φύλου, ηλικίας και συναισθημάτων, καθώς και επίλυσης προβλημάτων merchandising, δηλαδή για τον αυτόματο έλεγχο της εμφάνισης των προϊόντων στα καταστήματα. Μπορείτε να βρείτε την πλήρη τεκμηρίωση του API εδώ: https://mcs.mail.ru/help/vision-api

4. Συμπέρασμα

Τώρα, μέσω του δημόσιου API, μπορείτε να έχετε πρόσβαση στην αναγνώριση προσώπου σε φωτογραφίες και βίντεο· υποστηρίζεται η αναγνώριση διαφόρων αντικειμένων, πινακίδων κυκλοφορίας, ορόσημων, εγγράφων και ολόκληρων σκηνών. Σενάρια εφαρμογής - η θάλασσα. Ελάτε, δοκιμάστε την υπηρεσία μας, ορίστε τις πιο δύσκολες εργασίες. Οι πρώτες 5000 συναλλαγές είναι δωρεάν. Ίσως θα είναι το «συστατικό που λείπει» για τα έργα σας.

Μπορείτε να έχετε άμεση πρόσβαση στο API κατά την εγγραφή και τη σύνδεση. Όραμα. Όλοι οι χρήστες Habra λαμβάνουν έναν κωδικό προσφοράς για πρόσθετες συναλλαγές. Παρακαλώ γράψτε μου τη διεύθυνση email που χρησιμοποιήσατε για την εγγραφή του λογαριασμού σας!

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο