Misioni i Microsoft është të fuqizojë çdo person dhe organizatë në planet për të arritur më shumë. Industria e medias është një shembull i shkëlqyer për ta bërë këtë mision realitet. Ne jetojmë në një epokë ku po krijohet dhe konsumohet më shumë përmbajtje, në më shumë mënyra dhe në më shumë pajisje. Në IBC 2019, ne ndamë risitë më të fundit mbi të cilat po punojmë dhe se si ato mund të ndihmojnë në transformimin e përvojës suaj mediatike.
Detaje nën prerje!
Kjo faqe është aktive
Video Indexer tani mbështet animacion dhe përmbajtje shumëgjuhëshe
Vitin e kaluar në IBC ne fituam çmimin tonë
Ofertat tona më të fundit përfshijnë pamje paraprake të dy veçorive shumë të kërkuara dhe të diferencuara—njohja e animuar e karaktereve dhe transkriptimi shumëgjuhësh i të folurit—si dhe disa shtesa në modelet ekzistuese të disponueshme sot në Video Indexer.
Njohja e personazheve të animuar
Përmbajtja e animuar është një nga llojet më të njohura të përmbajtjes, por modelet standarde të vizionit kompjuterik të krijuar për të njohur fytyrat e njeriut nuk funksionojnë mirë me të, veçanërisht nëse përmbajtja përmban karaktere pa tipare të fytyrës njerëzore. Versioni i ri i pamjes paraprake kombinon Video Indexer me shërbimin Azure Custom Vision të Microsoft, duke ofruar një grup të ri modelesh që zbulojnë dhe grupojnë automatikisht personazhet e animuar dhe i bëjnë ata të lehtë për t'u etiketuar dhe njohur duke përdorur modele të integruara të vizionit të personalizuar.
Modelet janë të integruara në një tubacion të vetëm, duke i lejuar këdo që të përdorë shërbimin pa ndonjë njohuri për mësimin e makinerive. Rezultatet janë të disponueshme përmes një portali Video Indexer pa kod ose nëpërmjet një API REST për integrim të shpejtë në aplikacionet tuaja.
Ne ndërtuam këto modele për të punuar me personazhe të animuar së bashku me disa konsumatorë që ofruan përmbajtje reale të animuar për trajnim dhe testim. Vlera e funksionalitetit të ri u përmblodh mirë nga Andy Gutteridge, drejtor i lartë i teknologjisë në studio dhe post-produksionit në Viacom International Media Networks, i cili ishte një nga ofruesit e të dhënave: “Shtimi i zbulimit të fuqishëm të përmbajtjes së animuar me AI do të lejojë ne për të gjetur dhe kataloguar shpejt dhe me efikasitet meta të dhënat e personazheve nga përmbajtja e bibliotekës sonë.
Më e rëndësishmja, do t'u japë ekipeve tona krijuese aftësinë për të gjetur menjëherë përmbajtjen që u nevojitet, duke minimizuar kohën e shpenzuar për menaxhimin e mediave dhe duke i lejuar ata të përqendrohen në kreativitet."
Mund të filloni të njiheni me njohjen e personazheve të animuar me
Identifikimi dhe transkriptimi i përmbajtjes në shumë gjuhë
Disa burime mediatike, si lajmet, kronikat dhe intervistat, përmbajnë regjistrime të njerëzve që flasin gjuhë të ndryshme. Shumica e aftësive ekzistuese të fjalës në tekst kërkojnë që gjuha e njohjes së audios të specifikohet paraprakisht, duke e bërë të vështirë transkriptimin e videove shumëgjuhëshe.
Funksioni ynë i ri i identifikimit automatik të gjuhës së folur për lloje të ndryshme të përmbajtjes përdor teknologjinë e mësimit të makinerive për të identifikuar gjuhët që gjenden në asetet e medias. Pasi të zbulohet, çdo segment gjuhësor kalon automatikisht përmes një procesi transkriptimi në gjuhën e duhur dhe më pas të gjithë segmentet kombinohen në një skedar të vetëm transkriptimi shumë-gjuhësh.
Transkripti që rezulton është i disponueshëm si pjesë e daljes JSON të Indeksuesit të Videove dhe si skedarë titrash. Transkripti i daljes është gjithashtu i integruar me Azure Search, duke ju lejuar të kërkoni menjëherë segmente të ndryshme gjuhësore në videot tuaja. Përveç kësaj, transkriptimi shumëgjuhësh është i disponueshëm kur punoni me portalin Video Indeksuesi, kështu që mund të shikoni transkriptin dhe gjuhën e identifikuar me kalimin e kohës, ose të hidheni në vende të veçanta në video për secilën gjuhë dhe ta shihni transkriptimin shumëgjuhësh si titra ndërsa videoja luhet. Ju gjithashtu mund ta përktheni tekstin e marrë në cilëndo nga 54 gjuhët e disponueshme përmes portalit dhe API-së.
Mësoni më shumë rreth veçorisë së re të njohjes së përmbajtjes shumëgjuhëshe dhe se si përdoret në Indeksuesin e Videove
Modele shtesë të përditësuara dhe të përmirësuara
Ne po shtojmë gjithashtu modele të reja në Indeksuesin e Videove dhe po përmirësojmë ato ekzistuese, duke përfshirë ato të përshkruara më poshtë.
Nxjerrja e entiteteve të lidhura me njerëz dhe vende
Ne kemi zgjeruar aftësitë tona ekzistuese të zbulimit të markave për të përfshirë emra dhe vendndodhje të njohura, të tilla si Kulla Eifel në Paris dhe Big Ben në Londër. Kur ato shfaqen në transkriptin e gjeneruar ose në ekran duke përdorur njohjen optike të karaktereve (OCR), informacioni përkatës shtohet. Me këtë veçori të re, mund të kërkoni për të gjithë njerëzit, vendet dhe markat që u shfaqën në një video dhe të shikoni detaje rreth tyre, duke përfshirë hapësirat kohore, përshkrimet dhe lidhjet me motorin e kërkimit Bing për më shumë informacion.
Modeli i zbulimit të kornizës për redaktuesin
Ky funksion i ri shton një grup "etiketash" në meta të dhënat e bashkangjitura në kornizat individuale në detajet JSON për të përfaqësuar llojin e tyre editorial (për shembull, pamje e gjerë, pamje mesatare, nga afër, nga afër, dy poza, shumë njerëz , jashtë, brenda, etj.). Këto karakteristika të llojit të shkrepjes janë të dobishme kur redaktoni video për klipe dhe rimorkio, ose kur kërkoni një stil specifik të shkrepjes për qëllime artistike.
Përmirësimi i hollësisë së hartës IPTC
Modeli ynë i zbulimit të temës përcakton temën e një videoje bazuar në transkriptimin, njohjen optike të karaktereve (OCR) dhe personazhet e njohur të zbuluar, edhe nëse tema nuk është e specifikuar në mënyrë eksplicite. Ne i hartojmë këto tema të zbuluara në katër fusha klasifikimi: Wikipedia, Bing, IPTC dhe IAB. Ky përmirësim na lejon të përfshijmë klasifikimin IPTC të nivelit të dytë.
Përfitimi nga këto përmirësime është po aq i lehtë sa të riindeksoni bibliotekën tuaj aktuale të Indeksuesit të Videove.
Funksionalitet i ri i transmetimit të drejtpërdrejtë
Në pamjen paraprake të Shërbimeve të Medias Azure, ne po ofrojmë gjithashtu dy veçori të reja për transmetim të drejtpërdrejtë.
Transkriptimi në kohë reale i fuqizuar nga AI e çon transmetimin e drejtpërdrejtë në nivelin tjetër
Duke përdorur Azure Media Services për transmetim të drejtpërdrejtë, tani mund të merrni një transmetim dalës që përfshin një pjesë teksti të gjeneruar automatikisht përveç përmbajtjes audio dhe video. Teksti është krijuar duke përdorur transkriptimin audio në kohë reale bazuar në inteligjencën artificiale. Teknikat e personalizuara aplikohen para dhe pas konvertimit të fjalës në tekst për të përmirësuar rezultatet. Pjesa e tekstit është e paketuar në IMSC1, TTML ose WebVTT, në varësi të faktit nëse ofrohet në DASH, HLS CMAF ose HLS TS.
Kodimi i linjës në kohë reale për kanalet OTT 24/7
Duke përdorur API-të tona v3, ju mund të krijoni, menaxhoni dhe transmetoni kanale OTT (mbi krye) dhe të përdorni të gjitha veçoritë e tjera të Shërbimeve Mediale Azure, të tilla si video live sipas kërkesës (VOD, video sipas kërkesës), paketimin dhe menaxhimin e të drejtave dixhitale ( DRM, menaxhimi i të drejtave dixhitale).
Për të parë versionet paraprake të këtyre veçorive, vizitoni
Aftësitë e reja të gjenerimit të paketave
Mbështetje për pjesët e përshkrimit audio
Përmbajtja e transmetuar përmes kanaleve të transmetimit shpesh ka një pjesë audio me shpjegime verbale të asaj që po ndodh në ekran, përveç sinjalit të rregullt audio. Kjo i bën programet më të aksesueshme për shikuesit me shikim të dëmtuar, veçanërisht nëse përmbajtja është kryesisht vizuale. I ri
Duke futur të dhënat meta ID3
Për të sinjalizuar futjen e reklamave ose ngjarjeve të personalizuara të meta të dhënave te luajtësi i klientit, transmetuesit shpesh përdorin meta të dhëna me kohë të ngulitura në video. Përveç mënyrave të sinjalizimit SCTE-35, ne tani mbështesim gjithashtu
Partnerët e Microsoft Azure demonstrojnë zgjidhje nga fundi në fund
kompani ndërkombëtare
Burimi: www.habr.com