Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους


Ερευνητές της Microsoft δημιούργησαν ένα σύστημα τεχνητής νοημοσύνης ικανό να δημιουργεί λεζάντες εικόνων που, σε πολλές περιπτώσεις, αποδεικνύονται πιο ακριβείς από τις περιγραφές που γίνονται από ανθρώπους. Αυτή η σημαντική ανακάλυψη σηματοδότησε ένα σημαντικό ορόσημο στη δέσμευση της Microsoft να κάνει τα προϊόντα και τις υπηρεσίες της χωρίς αποκλεισμούς και προσβάσιμα σε όλους τους χρήστες.

"Η περιγραφή εικόνας είναι μία από τις κύριες λειτουργίες της όρασης υπολογιστή, η οποία καθιστά δυνατή μια ευρεία γκάμα υπηρεσιών", δήλωσε ο Xuedong Huang (Ξεντεόνγκ Χουάνγκ), Τεχνικός Υπεύθυνος της Microsoft και CTO της Azure AI Cognitive Services στο Ρέντμοντ της Ουάσιγκτον.

Το νέο μοντέλο είναι πλέον διαθέσιμο στους καταναλωτές μέσω του Computer Vision στη διεύθυνση Azure Cognitive Services, που αποτελεί μέρος του Azure AI, και επιτρέπει στους προγραμματιστές να χρησιμοποιούν αυτήν τη δυνατότητα για να βελτιώσουν τη διαθεσιμότητα των υπηρεσιών τους. Περιλαμβάνεται επίσης στην εφαρμογή Seeing AI και θα είναι διαθέσιμο αργότερα φέτος στο Microsoft Word και το Outlook για Windows και Mac, καθώς και στο PowerPoint για Windows, Mac και στον Ιστό.

Η Αυτόματη περιγραφή βοηθά τους χρήστες να έχουν πρόσβαση στο σημαντικό περιεχόμενο οποιασδήποτε εικόνας, είτε πρόκειται για φωτογραφία που επιστρέφεται στα αποτελέσματα αναζήτησης είτε για απεικόνιση για μια παρουσίαση.

«Η χρήση λεζάντες που περιγράφουν το περιεχόμενο εικόνων (το λεγόμενο εναλλακτικό ή εναλλακτικό κείμενο) σε ιστοσελίδες και έγγραφα είναι ιδιαίτερα σημαντική για τυφλούς ή άτομα με προβλήματα όρασης», δήλωσε ο Saqib Sheikh (Σακίκ Σέιχ), Διευθυντής Λογισμικού στο AI Platform Group της Microsoft στο Redmond.

Για παράδειγμα, η ομάδα του χρησιμοποιεί μια βελτιωμένη λειτουργία περιγραφής εικόνας στην εφαρμογή για τυφλούς και άτομα με προβλήματα όρασης. Βλέποντας το AI, το οποίο αναγνωρίζει τι καταγράφει η κάμερα και λέει για αυτό. Η εφαρμογή χρησιμοποιεί δημιουργημένες λεζάντες για να περιγράψει φωτογραφίες, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης.

«Ιδανικά, όλοι θα πρέπει να προσθέτουν εναλλακτικό κείμενο σε όλες τις εικόνες σε έγγραφα, στον Ιστό, στα κοινωνικά δίκτυα, καθώς αυτό επιτρέπει στους τυφλούς να έχουν πρόσβαση στο περιεχόμενο και να συμμετέχουν στη συζήτηση. Αλλά, δυστυχώς, οι άνθρωποι δεν το κάνουν αυτό», λέει ο Σεΐχης. "Ωστόσο, υπάρχουν μερικές εφαρμογές που χρησιμοποιούν τη λειτουργία περιγραφής εικόνας για να προσθέτουν εναλλακτικό κείμενο όταν λείπει."
  
Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους

Ο Liruan Wang, γενικός διευθυντής έρευνας στο Redmond Lab της Microsoft, ηγήθηκε μιας ερευνητικής ομάδας που πέτυχε και ξεπέρασε τα ανθρώπινα αποτελέσματα. Φωτογραφία: Dan DeLong.

Περιγραφή νέων αντικειμένων

«Η περιγραφή εικόνων είναι ένα από τα κύρια καθήκοντα της όρασης υπολογιστή, η οποία απαιτεί ένα σύστημα τεχνητής νοημοσύνης για να κατανοήσει και να περιγράψει το κύριο περιεχόμενο ή τη δράση που παρουσιάζεται στην εικόνα», εξήγησε ο Liruan Wang (Λιχουάν Γουάνγκ), γενικός διευθυντής έρευνας στο εργαστήριο Redmond της Microsoft.

«Πρέπει να καταλάβετε τι συμβαίνει, να καταλάβετε ποιες είναι οι σχέσεις μεταξύ αντικειμένων και πράξεων και στη συνέχεια να τα συνοψίσετε και να τα περιγράψετε όλα σε μια πρόταση σε γλώσσα αναγνώσιμη από τον άνθρωπο», είπε.

Ο Wang ηγήθηκε της ερευνητικής ομάδας, η οποία στη συγκριτική αξιολόγηση ΟΧΙ κεφαλαια (λεζάντες νέου αντικειμένου σε κλίμακα, μια μεγάλης κλίμακας περιγραφή νέων αντικειμένων) πέτυχε ένα αποτέλεσμα συγκρίσιμο με ανθρώπινο και το ξεπέρασε. Αυτή η δοκιμή σάς επιτρέπει να αξιολογήσετε πόσο καλά τα συστήματα τεχνητής νοημοσύνης δημιουργούν περιγραφές απεικονιζόμενων αντικειμένων που δεν περιλαμβάνονται στο σύνολο δεδομένων στο οποίο εκπαιδεύτηκε το μοντέλο.

Συνήθως, τα συστήματα περιγραφής εικόνων εκπαιδεύονται σε σύνολα δεδομένων που περιέχουν εικόνες που συνοδεύονται από μια περιγραφή κειμένου αυτών των εικόνων, δηλαδή σε σύνολα υπογεγραμμένων εικόνων.

«Η δοκιμή nocaps δείχνει πόσο καλά το σύστημα είναι σε θέση να περιγράψει νέα αντικείμενα που δεν βρέθηκαν στα δεδομένα εκπαίδευσης», λέει ο Wang.

Για να λύσει αυτό το πρόβλημα, η ομάδα της Microsoft προεκπαίδευσε ένα μεγάλο μοντέλο AI σε ένα μεγάλο σύνολο δεδομένων που περιέχει εικόνες με ετικέτα λέξης, καθεμία από τις οποίες σχετίζεται με ένα συγκεκριμένο αντικείμενο στην εικόνα.

Τα σύνολα εικόνων με ετικέτες λέξεων αντί για πλήρεις λεζάντες είναι πιο αποτελεσματικά στη δημιουργία, επιτρέποντας στην ομάδα του Wang να τροφοδοτήσει πολλά δεδομένα στο μοντέλο της. Αυτή η προσέγγιση έδωσε στο μοντέλο αυτό που η ομάδα αποκαλεί οπτικό λεξιλόγιο.

Όπως εξήγησε ο Huang, η προεκπαιδευτική προσέγγιση με τη χρήση οπτικού λεξιλογίου είναι παρόμοια με την προετοιμασία των παιδιών για ανάγνωση: πρώτον, χρησιμοποιείται ένα εικονογραφημένο βιβλίο στο οποίο μεμονωμένες λέξεις συνδέονται με εικόνες, για παράδειγμα, κάτω από μια φωτογραφία ενός μήλου γράφεται "μήλο". και κάτω από μια φωτογραφία μιας γάτας είναι η λέξη "γάτα".

«Αυτή η προεκπαίδευση με οπτικό λεξιλόγιο είναι, στην ουσία, η αρχική εκπαίδευση που απαιτείται για την εκπαίδευση του συστήματος. Έτσι προσπαθούμε να αναπτύξουμε ένα είδος κινητικής μνήμης», είπε ο Huang.

Το προεκπαιδευμένο μοντέλο στη συνέχεια τελειοποιείται με ένα σύνολο δεδομένων που περιλαμβάνει εικόνες με ετικέτα. Σε αυτό το στάδιο της εκπαίδευσης, το μοντέλο μαθαίνει να φτιάχνει προτάσεις. Εάν εμφανιστεί μια εικόνα που περιέχει νέα αντικείμενα, το σύστημα AI χρησιμοποιεί το οπτικό λεξικό για να δημιουργήσει ακριβείς περιγραφές.

«Για να δουλέψει με νέα αντικείμενα κατά τη διάρκεια της δοκιμής, το σύστημα ενσωματώνει ό,τι έμαθε κατά την προ-προπόνηση και κατά τη διάρκεια της επακόλουθης βελτίωσης», λέει ο Wang.
Σύμφωνα με τα αποτελέσματα έρευνα, όταν αξιολογήθηκε στις δοκιμές nocaps, το σύστημα AI παρήγαγε πιο ουσιαστικές και ακριβείς περιγραφές από ό,τι οι άνθρωποι για τις ίδιες εικόνες.

Ταχύτερη μετάβαση στο εργασιακό περιβάλλον 

Μεταξύ άλλων, το νέο σύστημα περιγραφής εικόνων είναι δύο φορές καλύτερο από το μοντέλο που χρησιμοποιείται σε προϊόντα και υπηρεσίες της Microsoft από το 2015, σε σύγκριση με ένα άλλο σημείο αναφοράς του κλάδου.

Λαμβάνοντας υπόψη τα οφέλη που θα λάβουν όλοι οι χρήστες προϊόντων και υπηρεσιών της Microsoft από αυτή τη βελτίωση, η Huang επιτάχυνε την ενσωμάτωση του νέου μοντέλου στο περιβάλλον εργασίας του Azure.

«Μεταφέρουμε αυτήν την ανατρεπτική τεχνολογία AI στο Azure ως πλατφόρμα για να εξυπηρετήσουμε ένα ευρύτερο φάσμα πελατών», είπε. «Και αυτό δεν είναι απλώς μια σημαντική ανακάλυψη στην έρευνα. Ο χρόνος που χρειάστηκε για να ενσωματωθεί αυτή η σημαντική ανακάλυψη στο περιβάλλον παραγωγής του Azure ήταν επίσης μια σημαντική ανακάλυψη».

Ο Huang πρόσθεσε ότι η επίτευξη αποτελεσμάτων που μοιάζουν με τον άνθρωπο συνεχίζει μια τάση που έχει ήδη καθιερωθεί στα συστήματα γνωστικής νοημοσύνης της Microsoft.

«Τα τελευταία πέντε χρόνια, έχουμε επιτύχει αποτελέσματα που μοιάζουν με τον άνθρωπο σε πέντε βασικούς τομείς: στην αναγνώριση ομιλίας, στη μηχανική μετάφραση, στην απάντηση σε ερωτήσεις, στη μηχανική ανάγνωση και κατανόηση κειμένου και το 2020, παρά τον COVID-19, στην περιγραφή εικόνας είπε ο Χουάν.

Ανά θέμα

Συγκρίνετε τα αποτελέσματα της περιγραφής των εικόνων που έδωσε το σύστημα πριν και τώρα χρησιμοποιώντας AI

Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους

Φωτογραφία ευγενική προσφορά της Getty Images. Προηγούμενη περιγραφή: Κοντινό πλάνο ενός άνδρα που ετοιμάζει ένα χοτ-ντογκ σε ένα ξύλο κοπής. Νέα περιγραφή: Ένας άντρας φτιάχνει ψωμί.

Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους

Φωτογραφία ευγενική προσφορά της Getty Images. Προηγούμενη περιγραφή: Ένας άντρας κάθεται στο ηλιοβασίλεμα. Νέα περιγραφή: Φωτιά στην παραλία.

Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους

Φωτογραφία ευγενική προσφορά της Getty Images. Προηγούμενη περιγραφή: Ένας άντρας με μπλε πουκάμισο. Νέα περιγραφή: Αρκετοί άνθρωποι φορούν χειρουργικές μάσκες.

Η τελευταία τεχνολογία της Microsoft στο Azure AI περιγράφει εικόνες καθώς και ανθρώπους

Φωτογραφία ευγενική προσφορά της Getty Images. Προηγούμενη περιγραφή: Ένας άνδρας σε ένα σκέιτμπορντ πετά πάνω στον τοίχο. Νέα περιγραφή: Ένας παίκτης του μπέιζμπολ πιάνει μια μπάλα.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο