„Microsoft“ misija – suteikti galimybę kiekvienam planetos žmogui ir organizacijai pasiekti daugiau. Žiniasklaidos pramonė yra puikus pavyzdys, kaip šią misiją paversti realybe. Gyvename laikais, kai kuriama ir suvartojama daugiau turinio, daugiau būdų ir daugiau įrenginių. 2019 m. parodoje IBC pasidalinome naujausiomis naujovėmis, su kuriomis dirbame, ir kaip jos gali padėti pakeisti jūsų žiniasklaidos patirtį.
Detalės po pjūviu!
Šis puslapis yra
Vaizdo įrašų indeksavimo priemonė dabar palaiko animaciją ir daugiakalbį turinį
Praėjusiais metais IBC laimėjome apdovanojimą
Mūsų naujausiuose pasiūlymuose yra dviejų labai geidžiamų ir skirtingų funkcijų – animacinio simbolių atpažinimo ir daugiakalbės kalbos transkripcijos – peržiūros, taip pat keletas dabartinių vaizdo įrašų indeksavimo priemonės modelių papildymų.
Animacinių personažų atpažinimas
Animuotas turinys yra vienas iš populiariausių turinio tipų, tačiau standartiniai kompiuterinio matymo modeliai, skirti atpažinti žmonių veidus, su juo neveikia, ypač jei turinyje yra veikėjų be žmogaus veido bruožų. Naujoji peržiūros versija sujungia „Video Indexer“ su „Microsoft Azure Custom Vision“ paslauga, pateikdama naują modelių rinkinį, kuris automatiškai aptinka ir sugrupuoja animuotus simbolius ir leidžia juos lengvai pažymėti bei atpažinti naudojant integruotus pasirinktinius vaizdo modelius.
Modeliai yra integruoti į vieną vamzdyną, todėl bet kas gali naudotis paslauga be jokių mašininio mokymosi žinių. Rezultatai pasiekiami be kodo Video Indexer portale arba per REST API, kad būtų galima greitai integruoti į savo programas.
Šiuos modelius sukūrėme taip, kad jie veiktų su animuotais personažais, kartu su kai kuriais vartotojais, kurie teikė tikrą animuotą turinį mokymams ir bandymams. Naujų funkcijų vertę gerai apibendrino Andy Gutteridge'as, vyresnysis Viacom International Media Networks studijos technologijų ir postprodukcijos direktorius, kuris buvo vienas iš duomenų tiekėjų: „Pridėjus tvirtą dirbtinio intelekto pagrindu sukurtą animacinį turinį, bus galima atrasti kad galėtume greitai ir efektyviai rasti ir kataloguoti simbolių metaduomenis iš mūsų bibliotekos turinio.
Svarbiausia, kad tai suteiks mūsų kūrybinėms komandoms galimybę akimirksniu rasti reikiamą turinį, sumažins laiką, praleistą tvarkant mediją, ir leis sutelkti dėmesį į kūrybiškumą.
Susipažinti su animacinių personažų atpažinimu galite pradėti nuo
Turinio identifikavimas ir transkripcija keliomis kalbomis
Kai kuriuose žiniasklaidos šaltiniuose, pvz., naujienose, kronikose ir interviu, yra įrašų, kuriuose žmonės kalba skirtingomis kalbomis. Daugeliui esamų kalbos pavertimo tekstu galimybių reikia iš anksto nurodyti garso atpažinimo kalbą, todėl sunku transkribuoti daugiakalbius vaizdo įrašus.
Mūsų naujoji automatinio šnekamosios kalbos identifikavimo funkcija, skirta įvairių tipų turiniui, naudoja mašininio mokymosi technologiją, kad nustatytų medijos išteklius aptinkamas kalbas. Aptiktas kiekvienas kalbos segmentas automatiškai pereina transkripcijos procesą atitinkama kalba, o tada visi segmentai sujungiami į vieną kelių kalbų transkripcijos failą.
Gautas nuorašas pasiekiamas kaip „Video Indexer“ JSON išvesties dalis ir kaip subtitrų failai. Išvesties nuorašas taip pat integruotas su „Azure Search“, todėl vaizdo įrašuose galite iš karto ieškoti skirtingų kalbos segmentų. Be to, dirbant su „Video Indexer“ portalu galima transkribuoti įvairiomis kalbomis, todėl galite peržiūrėti nuorašą ir identifikuotą kalbą laikui bėgant arba pereiti į konkrečias vaizdo įrašo vietas kiekvienai kalbai ir peržiūrėti daugiakalbę transkripciją kaip antraštes, kai vaizdo įrašas leidžiamas. Taip pat galite išversti gautą tekstą į bet kurią iš 54 galimų kalbų per portalą ir API.
Sužinokite daugiau apie naują daugiakalbio turinio atpažinimo funkciją ir kaip ji naudojama vaizdo įrašų indeksavimo priemonėje
Papildomi atnaujinti ir patobulinti modeliai
Taip pat pridedame naujų modelių prie „Video Indexer“ ir tobuliname esamus, įskaitant aprašytus toliau.
Su žmonėmis ir vietomis susijusių objektų ištraukimas
Išplėtėme esamas prekių ženklų atradimo galimybes, įtraukdami gerai žinomus pavadinimus ir vietas, pvz., Eifelio bokštą Paryžiuje ir Big Beną Londone. Kai jie atsiranda sugeneruotame stenogramoje arba ekrane naudojant optinį simbolių atpažinimą (OCR), pridedama atitinkama informacija. Naudodami šią naują funkciją galite ieškoti visų žmonių, vietų ir prekių ženklų, kurie pasirodė vaizdo įraše, ir peržiūrėti išsamią informaciją apie juos, įskaitant laiko tarpus, aprašymus ir nuorodas į Bing paieškos variklį, kad gautumėte daugiau informacijos.
Rėmo aptikimo modelis redaktoriui
Ši nauja funkcija prideda „žymų“ rinkinį prie metaduomenų, pridedamų prie atskirų JSON detalių kadrų, kad atspindėtų jų redakcinį tipą (pavyzdžiui, platus kadras, vidutinis kadras, stambiu planu, ekstremaliai iš arti, du kadrai, keli žmonės , lauke, viduje ir pan.). Šios kadro tipo charakteristikos yra naudingos redaguojant vaizdo įrašus klipams ir anonsams arba ieškant konkretaus kadro stiliaus meniniais tikslais.
Patobulintas IPTC atvaizdavimo detalumas
Mūsų temų aptikimo modelis nustato vaizdo įrašo temą pagal transkripciją, optinį simbolių atpažinimą (OCR) ir aptiktas įžymybes, net jei tema nėra aiškiai nurodyta. Šias aptiktas temas priskiriame keturioms klasifikavimo sritims: Wikipedia, Bing, IPTC ir IAB. Šis patobulinimas leidžia įtraukti antrojo lygio IPTC klasifikaciją.
Pasinaudoti šiais patobulinimais taip pat paprasta, kaip iš naujo indeksuoti dabartinę vaizdo įrašų rodyklės biblioteką.
Nauja tiesioginės transliacijos funkcija
„Azure Media Services“ peržiūroje taip pat siūlome dvi naujas tiesioginio srautinio perdavimo funkcijas.
Dirbtinio intelekto valdoma transkripcija realiuoju laiku perkelia tiesioginę transliaciją į kitą lygį
Naudodami Azure Media Services tiesioginiam srautiniam perdavimui, dabar galite gauti išvesties srautą, kuriame, be garso ir vaizdo turinio, yra automatiškai sugeneruotas teksto takelis. Tekstas sukurtas naudojant garso transkripciją realiuoju laiku, paremtą dirbtiniu intelektu. Pasirinktiniai metodai taikomi prieš ir po kalbos konvertavimo į tekstą, siekiant pagerinti rezultatus. Teksto takelis supakuotas į IMSC1, TTML arba WebVTT, atsižvelgiant į tai, ar jis pateikiamas DASH, HLS CMAF ar HLS TS.
Realaus laiko linijos kodavimas 24/7 OTT kanalams
Naudodami mūsų v3 API galite kurti, valdyti ir transliuoti OTT (over-the-top) kanalus ir naudoti visas kitas Azure Media Services funkcijas, tokias kaip tiesioginis vaizdo įrašas pagal pareikalavimą (VOD, vaizdo įrašas pagal pareikalavimą), pakavimas ir skaitmeninių teisių valdymas ( DRM, skaitmeninių teisių valdymas).
Norėdami pamatyti šių funkcijų peržiūros versijas, apsilankykite
Naujų paketų generavimo galimybės
Garso aprašymo takelių palaikymas
Transliavimo kanalais transliuojamas turinys dažnai turi garso takelį su žodiniais paaiškinimais, kas vyksta ekrane, be įprasto garso signalo. Dėl to programos tampa labiau prieinamos regėjimo negalią turintiems žiūrovams, ypač jei turinys pirmiausia yra vizualinis. Nauja
Įterpiami ID3 metaduomenys
Kad praneštų apie reklamų arba tinkintų metaduomenų įvykių įterpimą kliento grotuvui, transliuotojai dažnai naudoja vaizdo įraše įterptus metaduomenis su laiku. Be SCTE-35 signalizacijos režimų, dabar taip pat palaikome
„Microsoft Azure“ partneriai demonstruoja visapusiškus sprendimus
tarptautinė kompanija
Šaltinis: www.habr.com