Η αποστολή της Microsoft είναι να ενδυναμώσει κάθε άτομο και οργανισμό στον πλανήτη για να πετύχει περισσότερα. Η βιομηχανία των μέσων ενημέρωσης είναι ένα εξαιρετικό παράδειγμα για να γίνει πραγματικότητα αυτή η αποστολή. Ζούμε σε μια εποχή όπου δημιουργείται και καταναλώνεται περισσότερο περιεχόμενο, με περισσότερους τρόπους και σε περισσότερες συσκευές. Στο IBC 2019, μοιραστήκαμε τις πιο πρόσφατες καινοτομίες στις οποίες εργαζόμαστε και πώς μπορούν να σας βοηθήσουν να μεταμορφώσετε την εμπειρία σας στα μέσα.
Λεπτομέρειες κάτω από το κόψιμο!
Αυτή η σελίδα είναι ενεργοποιημένη
Το Video Indexer υποστηρίζει πλέον κινούμενα σχέδια και πολύγλωσσο περιεχόμενο
Πέρυσι στο IBC κάναμε το βραβείο μας
Οι τελευταίες μας προσφορές περιλαμβάνουν προεπισκοπήσεις δύο ιδιαίτερα περιζήτητων και διαφοροποιημένων χαρακτηριστικών—αναγνώρισης χαρακτήρων με κινούμενα σχέδια και πολυγλωσσική μεταγραφή ομιλίας—καθώς και αρκετές προσθήκες στα υπάρχοντα μοντέλα που είναι διαθέσιμα σήμερα στο Video Indexer.
Κινούμενη αναγνώριση χαρακτήρων
Το κινούμενο περιεχόμενο είναι ένας από τους πιο δημοφιλείς τύπους περιεχομένου, αλλά τα τυπικά μοντέλα υπολογιστικής όρασης που έχουν σχεδιαστεί για να αναγνωρίζουν ανθρώπινα πρόσωπα δεν λειτουργούν καλά με αυτό, ειδικά εάν το περιεχόμενο περιέχει χαρακτήρες χωρίς ανθρώπινα χαρακτηριστικά προσώπου. Η νέα έκδοση προεπισκόπησης συνδυάζει το Video Indexer με την υπηρεσία Azure Custom Vision της Microsoft, παρέχοντας ένα νέο σύνολο μοντέλων που εντοπίζουν και ομαδοποιούν αυτόματα κινούμενους χαρακτήρες και διευκολύνουν την επισήμανση και την αναγνώρισή τους χρησιμοποιώντας ενσωματωμένα μοντέλα προσαρμοσμένης όρασης.
Τα μοντέλα είναι ενσωματωμένα σε έναν ενιαίο αγωγό, επιτρέποντας σε οποιονδήποτε να χρησιμοποιήσει την υπηρεσία χωρίς καμία γνώση μηχανικής εκμάθησης. Τα αποτελέσματα είναι διαθέσιμα μέσω μιας πύλης Video Indexer χωρίς κώδικα ή μέσω ενός REST API για γρήγορη ενσωμάτωση στις δικές σας εφαρμογές.
Κατασκευάσαμε αυτά τα μοντέλα για να λειτουργούν με κινούμενους χαρακτήρες μαζί με ορισμένους καταναλωτές που παρείχαν πραγματικό περιεχόμενο κινουμένων σχεδίων για εκπαίδευση και δοκιμή. Η αξία της νέας λειτουργικότητας συνοψίστηκε καλά από τον Andy Gutteridge, ανώτερο διευθυντή τεχνολογίας στούντιο και post-production στη Viacom International Media Networks, ο οποίος ήταν ένας από τους παρόχους δεδομένων: «Η προσθήκη ισχυρής ανακάλυψης κινουμένων σχεδίων με τεχνητή νοημοσύνη θα επιτρέψει να βρίσκουμε γρήγορα και αποτελεσματικά μεταδεδομένα χαρακτήρων από το περιεχόμενο της βιβλιοθήκης μας.
Το πιο σημαντικό, θα δώσει στις δημιουργικές μας ομάδες τη δυνατότητα να βρίσκουν άμεσα το περιεχόμενο που χρειάζονται, ελαχιστοποιώντας τον χρόνο που αφιερώνουν στη διαχείριση των μέσων και επιτρέποντάς τους να επικεντρωθούν στη δημιουργικότητα».
Μπορείτε να αρχίσετε να εξοικειωθείτε με την αναγνώριση κινούμενων χαρακτήρων με
Αναγνώριση και μεταγραφή περιεχομένου σε πολλές γλώσσες
Ορισμένοι πόροι μέσων ενημέρωσης, όπως ειδήσεις, χρονικά και συνεντεύξεις, περιέχουν ηχογραφήσεις ανθρώπων που μιλούν διαφορετικές γλώσσες. Οι περισσότερες υπάρχουσες δυνατότητες ομιλίας σε κείμενο απαιτούν εκ των προτέρων καθορισμό της γλώσσας αναγνώρισης ήχου, γεγονός που καθιστά δύσκολη τη μεταγραφή πολύγλωσσων βίντεο.
Η νέα μας δυνατότητα Αυτόματης Αναγνώρισης Προφορικής Γλώσσας για διάφορους τύπους περιεχομένου χρησιμοποιεί τεχνολογία μηχανικής εκμάθησης για τον εντοπισμό γλωσσών που βρίσκονται σε στοιχεία πολυμέσων. Μόλις εντοπιστεί, κάθε τμήμα γλώσσας περνά αυτόματα από μια διαδικασία μεταγραφής στην κατάλληλη γλώσσα και, στη συνέχεια, όλα τα τμήματα συνδυάζονται σε ένα ενιαίο αρχείο μεταγραφής πολλών γλωσσών.
Η μεταγραφή που προκύπτει είναι διαθέσιμη ως μέρος της εξόδου JSON του Video Indexer και ως αρχεία υπότιτλων. Η μεταγραφή εξόδου είναι επίσης ενσωματωμένη στην Αναζήτηση Azure, επιτρέποντάς σας να αναζητάτε αμέσως διαφορετικά τμήματα γλώσσας στα βίντεό σας. Επιπλέον, η πολύγλωσση μεταγραφή είναι διαθέσιμη όταν εργάζεστε με την πύλη Video Indexer, ώστε να μπορείτε να προβάλλετε τη μεταγραφή και τη γλώσσα που προσδιορίζεται με την πάροδο του χρόνου ή να μεταβείτε σε συγκεκριμένα σημεία του βίντεο για κάθε γλώσσα και να δείτε την πολύγλωσση μεταγραφή ως υπότιτλους καθώς αναπαράγεται το βίντεο. Μπορείτε επίσης να μεταφράσετε το κείμενο που λάβατε σε οποιαδήποτε από τις 54 διαθέσιμες γλώσσες μέσω της πύλης και του API.
Μάθετε περισσότερα σχετικά με τη νέα δυνατότητα αναγνώρισης πολυγλωσσικού περιεχομένου και τον τρόπο χρήσης της στο Video Indexer
Πρόσθετα ενημερωμένα και βελτιωμένα μοντέλα
Προσθέτουμε επίσης νέα μοντέλα στο Video Indexer και βελτιώνουμε τα υπάρχοντα, συμπεριλαμβανομένων αυτών που περιγράφονται παρακάτω.
Εξαγωγή οντοτήτων που σχετίζονται με άτομα και μέρη
Επεκτείναμε τις υπάρχουσες δυνατότητες ανακάλυψης επωνυμιών μας για να συμπεριλάβουμε γνωστά ονόματα και τοποθεσίες, όπως ο Πύργος του Άιφελ στο Παρίσι και το Μπιγκ Μπεν στο Λονδίνο. Όταν εμφανίζονται στη μεταγραφή που δημιουργείται ή στην οθόνη με χρήση οπτικής αναγνώρισης χαρακτήρων (OCR), προστίθενται οι σχετικές πληροφορίες. Με αυτήν τη νέα δυνατότητα, μπορείτε να αναζητήσετε όλα τα άτομα, τα μέρη και τις επωνυμίες που εμφανίστηκαν σε ένα βίντεο και να προβάλετε λεπτομέρειες σχετικά με αυτά, συμπεριλαμβανομένων χρονοθυρίδων, περιγραφών και συνδέσμων προς τη μηχανή αναζήτησης Bing για περισσότερες πληροφορίες.
Μοντέλο ανίχνευσης πλαισίου για πρόγραμμα επεξεργασίας
Αυτή η νέα δυνατότητα προσθέτει ένα σύνολο "ετικέτες" στα μεταδεδομένα που συνδέονται με μεμονωμένα καρέ στις λεπτομέρειες JSON για να αντιπροσωπεύουν τον τύπο σύνταξης τους (για παράδειγμα, ευρεία λήψη, μεσαία λήψη, κοντινό πλάνο, ακραίο κοντινό, δύο λήψεις, πολλά άτομα , σε εξωτερικούς χώρους, σε εσωτερικούς χώρους, κ.λπ.). Αυτά τα χαρακτηριστικά τύπου λήψης είναι χρήσιμα κατά την επεξεργασία βίντεο για κλιπ και τρέιλερ ή όταν αναζητάτε ένα συγκεκριμένο στυλ λήψης για καλλιτεχνικούς σκοπούς.
Βελτιωμένη ευθυγράμμιση χαρτογράφησης IPTC
Το μοντέλο ανίχνευσης θέματός μας καθορίζει το θέμα ενός βίντεο με βάση τη μεταγραφή, την οπτική αναγνώριση χαρακτήρων (OCR) και τις ανιχνευμένες διασημότητες, ακόμα κι αν το θέμα δεν προσδιορίζεται ρητά. Αντιστοιχίζουμε αυτά τα ανιχνευμένα θέματα σε τέσσερις περιοχές ταξινόμησης: Wikipedia, Bing, IPTC και IAB. Αυτή η βελτίωση μας επιτρέπει να συμπεριλάβουμε την ταξινόμηση IPTC δεύτερου επιπέδου.
Η αξιοποίηση αυτών των βελτιώσεων είναι τόσο εύκολη όσο η εκ νέου ευρετηρίαση της τρέχουσας βιβλιοθήκης Video Indexer.
Νέα λειτουργικότητα ζωντανής ροής
Στην προεπισκόπηση του Azure Media Services, προσφέρουμε επίσης δύο νέες δυνατότητες για ζωντανή ροή.
Η μεταγραφή σε πραγματικό χρόνο με τεχνητή νοημοσύνη οδηγεί τη ζωντανή ροή στο επόμενο επίπεδο
Χρησιμοποιώντας τις υπηρεσίες Azure Media Services για ζωντανή ροή, μπορείτε πλέον να λαμβάνετε μια ροή εξόδου που περιλαμβάνει ένα κομμάτι κειμένου που δημιουργείται αυτόματα εκτός από περιεχόμενο ήχου και βίντεο. Το κείμενο δημιουργείται χρησιμοποιώντας μεταγραφή ήχου σε πραγματικό χρόνο με βάση την τεχνητή νοημοσύνη. Οι προσαρμοσμένες τεχνικές εφαρμόζονται πριν και μετά τη μετατροπή ομιλίας σε κείμενο για τη βελτίωση των αποτελεσμάτων. Το κομμάτι κειμένου είναι συσκευασμένο σε IMSC1, TTML ή WebVTT, ανάλογα με το αν παρέχεται σε DASH, HLS CMAF ή HLS TS.
Κωδικοποίηση γραμμής σε πραγματικό χρόνο για κανάλια OTT 24/7
Χρησιμοποιώντας τα v3 API μας, μπορείτε να δημιουργήσετε, να διαχειριστείτε και να μεταδώσετε κανάλια OTT (over-the-top) και να χρησιμοποιήσετε όλες τις άλλες λειτουργίες των υπηρεσιών πολυμέσων Azure, όπως ζωντανό βίντεο κατά παραγγελία (VOD, βίντεο κατά παραγγελία), συσκευασία και διαχείριση ψηφιακών δικαιωμάτων ( DRM, διαχείριση ψηφιακών δικαιωμάτων).
Για να δείτε εκδόσεις προεπισκόπησης αυτών των δυνατοτήτων, επισκεφτείτε
Δυνατότητες δημιουργίας νέων πακέτων
Υποστήριξη για κομμάτια ηχητικής περιγραφής
Το περιεχόμενο που μεταδίδεται μέσω καναλιών εκπομπής έχει συχνά ένα ηχητικό κομμάτι με προφορικές εξηγήσεις για το τι συμβαίνει στην οθόνη εκτός από το κανονικό ηχητικό σήμα. Αυτό καθιστά τα προγράμματα πιο προσιτά σε θεατές με προβλήματα όρασης, ειδικά εάν το περιεχόμενο είναι κυρίως οπτικό. Νέος
Εισαγωγή μεταδεδομένων ID3
Για να σηματοδοτήσουν την εισαγωγή διαφημίσεων ή συμβάντων προσαρμοσμένων μεταδεδομένων στο πρόγραμμα αναπαραγωγής του πελάτη, οι ραδιοτηλεοπτικοί φορείς χρησιμοποιούν συχνά μεταδεδομένα με χρονική διάρκεια που είναι ενσωματωμένα στο βίντεο. Εκτός από τις λειτουργίες σηματοδότησης SCTE-35, τώρα υποστηρίζουμε επίσης
Οι συνεργάτες Microsoft Azure επιδεικνύουν λύσεις από άκρο σε άκρο
διεθνής εταιρεία
Πηγή: www.habr.com