La missió de Microsoft és empoderar cada persona i organització del planeta per aconseguir-ne més. La indústria dels mitjans és un gran exemple de fer realitat aquesta missió. Vivim en una època on es crea i es consumeix més contingut, de més maneres i en més dispositius. A l'IBC 2019, vam compartir les últimes innovacions en què estem treballant i com poden ajudar a transformar la vostra experiència de mitjans.
Detalls sota el tall!
Aquesta pàgina està activada
Video Indexer ara admet animació i contingut multilingüe
L'any passat a IBC vam fer el nostre premi
Les nostres ofertes més recents inclouen visualitzacions prèvies de dues funcions molt buscades i diferenciades (reconeixement de caràcters animats i transcripció de parla multilingüe), així com diverses addicions als models existents disponibles actualment a Video Indexer.
Reconeixement de personatges animats
El contingut animat és un dels tipus de contingut més populars, però els models estàndard de visió per ordinador dissenyats per reconèixer cares humans no funcionen bé amb ell, sobretot si el contingut conté personatges sense trets facials humans. La nova versió de vista prèvia combina Video Indexer amb el servei Azure Custom Vision de Microsoft, oferint un nou conjunt de models que detecten i agrupen automàticament personatges animats i els faciliten etiquetar i reconèixer mitjançant models de visió personalitzats integrats.
Els models s'integren en un únic pipeline, la qual cosa permet que qualsevol persona utilitzi el servei sense cap coneixement d'aprenentatge automàtic. Els resultats estan disponibles a través d'un portal de Video Indexer sense codi o mitjançant una API REST per a una ràpida integració a les vostres pròpies aplicacions.
Hem creat aquests models per treballar amb personatges animats juntament amb alguns consumidors que han proporcionat contingut animat real per a la formació i les proves. El valor de la nova funcionalitat va ser ben resumit per Andy Gutteridge, director sènior de tecnologia d'estudi i postproducció de Viacom International Media Networks, que va ser un dels proveïdors de dades: "L'addició d'un descobriment robust de contingut animat impulsat per IA permetrà per trobar i catalogar de manera ràpida i eficient metadades de caràcters del contingut de la nostra biblioteca.
El més important, donarà als nostres equips creatius la capacitat de trobar instantàniament el contingut que necessiten, minimitzant el temps dedicat a la gestió dels mitjans i permetent-los centrar-se en la creativitat".
Podeu començar a familiaritzar-vos amb el reconeixement de personatges animats
Identificació i transcripció de continguts en múltiples idiomes
Alguns recursos mediàtics, com ara notícies, cròniques i entrevistes, contenen enregistraments de persones que parlen diferents idiomes. La majoria de les capacitats de veu a text existents requereixen que l'idioma de reconeixement d'àudio s'especifiqui per endavant, cosa que dificulta la transcripció de vídeos multilingües.
La nostra nova funció d'identificació automàtica de la llengua parlada per a diversos tipus de contingut utilitza la tecnologia d'aprenentatge automàtic per identificar els idiomes que es troben als recursos multimèdia. Un cop detectat, cada segment d'idioma passa automàticament per un procés de transcripció en l'idioma adequat i, a continuació, tots els segments es combinen en un únic fitxer de transcripció multiidioma.
La transcripció resultant està disponible com a part de la sortida JSON del Video Indexer i com a fitxers de subtítols. La transcripció de sortida també està integrada amb Azure Search, cosa que us permet cercar immediatament diferents segments d'idioma als vostres vídeos. A més, la transcripció multilingüe està disponible quan es treballa amb el portal Video Indexer, de manera que podeu veure la transcripció i l'idioma identificat al llarg del temps, o saltar a llocs específics del vídeo per a cada idioma i veure la transcripció multilingüe com a subtítols mentre es reprodueix el vídeo. També podeu traduir el text rebut a qualsevol dels 54 idiomes disponibles mitjançant el portal i l'API.
Obteniu més informació sobre la nova funció de reconeixement de contingut multilingüe i com s'utilitza a Video Indexer
Models addicionals actualitzats i millorats
També estem afegint nous models a Video Indexer i millorant els existents, inclosos els que es descriuen a continuació.
Extracció d'entitats associades a persones i llocs
Hem ampliat les nostres capacitats de descoberta de marques existents per incloure noms i ubicacions coneguts, com ara la Torre Eiffel a París i el Big Ben a Londres. Quan apareixen a la transcripció generada o a la pantalla mitjançant el reconeixement òptic de caràcters (OCR), s'afegeix la informació rellevant. Amb aquesta nova funció, podeu cercar totes les persones, llocs i marques que van aparèixer en un vídeo i veure'n els detalls, com ara franges horàries, descripcions i enllaços al motor de cerca de Bing per obtenir més informació.
Model de detecció de fotogrames per a l'editor
Aquesta nova funció afegeix un conjunt d'"etiquetes" a les metadades adjuntes a fotogrames individuals als detalls JSON per representar el seu tipus editorial (per exemple, pla gran, pla mitjà, primer pla, primer pla extrem, dos plans, diverses persones). , exterior, interior, etc.). Aquestes característiques del tipus de pla són útils quan s'editen vídeos per a clips i tràilers, o quan es busquen un estil de gravació específic amb finalitats artístiques.
Granularitat de mapatge IPTC millorada
El nostre model de detecció de temes determina el tema d'un vídeo en funció de la transcripció, el reconeixement òptic de caràcters (OCR) i les celebritats detectades, fins i tot si el tema no s'especifica explícitament. Mapem aquests temes detectats a quatre àrees de classificació: Viquipèdia, Bing, IPTC i IAB. Aquesta millora ens permet incloure la classificació IPTC de segon nivell.
Aprofitar aquestes millores és tan fàcil com tornar a indexar la vostra biblioteca de Video Indexer actual.
Nova funcionalitat de transmissió en directe
A la vista prèvia de Azure Media Services, també oferim dues funcions noves per a la transmissió en directe.
La transcripció en temps real impulsada per IA porta la transmissió en directe al següent nivell
Amb Azure Media Services per a la transmissió en directe, ara podeu rebre un flux de sortida que inclogui una pista de text generada automàticament a més de contingut d'àudio i vídeo. El text es crea mitjançant una transcripció d'àudio en temps real basada en intel·ligència artificial. Les tècniques personalitzades s'apliquen abans i després de la conversió de veu a text per millorar els resultats. La pista de text s'empaqueta en IMSC1, TTML o WebVTT, depenent de si es subministra en DASH, HLS CMAF o HLS TS.
Codificació de línia en temps real per a canals OTT 24/7
Mitjançant les nostres API v3, podeu crear, gestionar i emetre canals OTT (over-the-top) i utilitzar totes les altres funcions de Azure Media Services, com ara vídeo en directe sota demanda (VOD, vídeo a demanda), embalatge i gestió de drets digitals ( DRM, gestió de drets digitals).
Per veure versions de vista prèvia d'aquestes funcions, visiteu
Noves capacitats de generació de paquets
Suport per a pistes d'àudiodescripció
El contingut emès per canals de difusió sovint té una pista d'àudio amb explicacions verbals del que està passant a la pantalla, a més del senyal d'àudio habitual. Això fa que els programes siguin més accessibles per als espectadors amb discapacitat visual, especialment si el contingut és principalment visual. Nou
S'estan inserint metadades ID3
Per indicar la inserció d'anuncis o esdeveniments de metadades personalitzats al reproductor del client, les emissores sovint utilitzen metadades cronometrades incrustades al vídeo. A més dels modes de senyalització SCTE-35, ara també admetem
Els socis de Microsoft Azure demostren solucions d'extrem a extrem
empresa internacional
Font: www.habr.com