De missy fan Microsoft is om elke persoan en organisaasje op 'e planeet te bemachtigjen om mear te berikken. De media-yndustry is in geweldich foarbyld om dizze missy in werklikheid te meitsjen. Wy libje yn in tiidrek dêr't mear ynhâld wurdt makke en konsumearre, op mear manieren en op mear apparaten. By IBC 2019 hawwe wy de lêste ynnovaasjes dield wêr't wy oan wurkje en hoe't se kinne helpe om jo media-ûnderfining te transformearjen.
Details ûnder de besuniging!
Dizze side is oan
Video Indexer stipet no animaasje en meartalige ynhâld
Ferline jier by IBC makken wy ús priiswinnende
Us lêste oanbiedingen omfetsje foarbylden fan twa heul sochte en differinsjearre funksjes - animearre karakterherkenning en meartalige spraaktranskripsje - lykas ek ferskate tafoegings oan 'e besteande modellen dy't hjoeddedei beskikber binne yn Video Indexer.
Animated Character Recognition
Animearre ynhâld is ien fan 'e populêrste soarten ynhâld, mar standert kompjûterfisymodellen ûntworpen om minsklike gesichten te werkennen wurkje der net goed mei, benammen as de ynhâld karakters befettet sûnder minsklike gesichtsfunksjes. De nije foarbyldferzje kombineart Video Indexer mei Microsoft's Azure Custom Vision-tsjinst, en leveret in nije set modellen dy't automatysk animearre karakters detectearje en groepearje en meitsje se maklik te labeljen en te werkennen mei yntegreare oanpaste fisymodellen.
De modellen binne yntegrearre yn ien pipeline, wêrtroch elkenien de tsjinst kin brûke sûnder kennis fan masine-learen. Resultaten binne beskikber fia in net-koade Video Indexer-portaal of fia in REST API foar rappe yntegraasje yn jo eigen applikaasjes.
Wy bouden dizze modellen om te wurkjen mei animearre karakters tegearre mei guon konsuminten dy't echte animearre ynhâld levere foar training en testen. De wearde fan 'e nije funksjonaliteit waard goed gearfette troch Andy Gutteridge, senior direkteur fan studiotechnology en postproduksje by Viacom International Media Networks, dy't ien fan' e gegevensproviders wie: "De tafoeging fan robúste AI-oandreaune ûntdekking fan animearre ynhâld sil tastean ús om fluch en effisjint karaktermetadata út ús bibleteek te finen en te katalogisearjen. ynhâld.
It wichtichste sil it ús kreative teams de mooglikheid jaan om direkt de ynhâld te finen dy't se nedich binne, it minimalisearjen fan tiid bestege oan it behearen fan media en lit se har rjochtsje op kreativiteit.
Jo kinne begjinne yn 'e kunde te kommen mei animearre karakter erkenning mei
Identifikaasje en transkripsje fan ynhâld yn meardere talen
Guon mediaboarnen, lykas nijs, kroniken en ynterviews, befetsje opnames fan minsken dy't ferskate talen prate. De measte besteande spraak-nei-tekst-mooglikheden fereaskje dat de audio-herkenningstaal foarôf oanjûn wurdt, wat it lestich makket om meartalige fideo's te transkribearjen.
Us nije funksje foar automatyske sprutsen taalidentifikaasje foar ferskate soarten ynhâld brûkt technology foar masinelearen om talen te identifisearjen dy't fûn binne yn media-aktiva. Ienkear ûntdutsen giet elk taalsegment automatysk troch in transkripsjeproses yn 'e passende taal, en dan wurde alle segminten kombineare yn ien meartalige transkripsjebestân.
It resultearjende transkript is beskikber as ûnderdiel fan 'e JSON-útfier fan' e Video Indexer en as ûndertitelbestannen. It útfiertranskripsje is ek yntegrearre mei Azure Search, wêrtroch jo daliks kinne sykje nei ferskate taalsegminten yn jo fideo's. Derneist is meartalige transkripsje beskikber as jo wurkje mei it Video Indexer-portaal, sadat jo de transkripsje en identifisearre taal yn 'e rin fan' e tiid kinne besjen, of nei spesifike plakken yn 'e fideo springe foar elke taal en de meartalige transkripsje sjen as ûndertitels as de fideo spielet. Jo kinne de ûntfongen tekst ek oersette yn ien fan 'e 54 beskikbere talen fia it portaal en API.
Learje mear oer de nije funksje foar meartalige ynhâldherkenning en hoe't it wurdt brûkt yn Video Indexer
Oanfoljende bywurke en ferbettere modellen
Wy foegje ek nije modellen ta oan Video Indexer en ferbetterje besteande, ynklusyf de hjirûnder beskreaune.
Extracting entiteiten ferbûn mei minsken en plakken
Wy hawwe ús besteande merkûntdekkingsmooglikheden útwreide om bekende nammen en lokaasjes op te nimmen, lykas de Eiffeltoer yn Parys en Big Ben yn Londen. As se ferskine yn it oanmakke transkripsje of op it skerm mei optyske karakterherkenning (OCR), wurdt de relevante ynformaasje tafoege. Mei dizze nije funksje kinne jo sykje nei alle minsken, plakken en merken dy't yn in fideo ferskynden en details oer har besjen, ynklusyf tiidslots, beskriuwingen en keppelings nei de Bing-sykmasjine foar mear ynformaasje.
Frame detection model foar bewurker
Dizze nije funksje foeget in set "tags" ta oan de metadata taheakke oan yndividuele frames yn 'e JSON-details om har redaksjetype te fertsjintwurdigjen (bygelyks breed skot, medium skot, close-up, ekstreme close-up, twa foto's, meardere minsken , bûten, binnen, ensfh.). Dizze skaaimerken fan skottype binne nuttich by it bewurkjen fan fideo foar klips en trailers, of as jo sykje nei in spesifike skotstyl foar artistike doelen.
Ferbettere IPTC mapping granularity
Us model foar ûnderwerpdeteksje bepaalt it ûnderwerp fan in fideo basearre op transkripsje, optyske karakterherkenning (OCR), en ûntdutsen ferneamden, sels as it ûnderwerp net eksplisyt is oantsjutte. Wy map dizze ûntdutsen ûnderwerpen yn fjouwer klassifikaasjegebieten: Wikipedia, Bing, IPTC en IAB. Dizze ferbettering lit ús IPTC-klassifikaasje op twadde nivo opnimme.
It foardieljen fan dizze ferbetteringen is sa maklik as it opnij yndeksearje fan jo hjoeddeistige Video Indexer-bibleteek.
Nije live streaming funksjonaliteit
Yn it foarbyld fan Azure Media Services biede wy ek twa nije funksjes foar live streaming.
AI-oandreaune real-time transkripsje bringt live streaming nei it folgjende nivo
Mei Azure Media Services foar live streaming kinne jo no in útfierstream ûntfange dy't in automatysk oanmakke tekstspoar omfettet neist audio- en fideo-ynhâld. De tekst is makke mei real-time audio-transkripsje basearre op keunstmjittige yntelliginsje. Oanpaste techniken wurde tapast foar en nei konverzje fan spraak-nei-tekst om resultaten te ferbetterjen. It tekstspoar is ynpakt yn IMSC1, TTML of WebVTT, ôfhinklik fan oft it wurdt levere yn DASH, HLS CMAF of HLS TS.
Real-time line kodearring foar 24/7 OTT-kanalen
Mei ús v3 API's kinne jo OTT (over-the-top) kanalen oanmeitsje, beheare en útstjoere, en alle oare funksjes fan Azure Media Services brûke, lykas live fideo op oanfraach (VOD, fideo op oanfraach), ferpakking en behear fan digitale rjochten ( DRM, digitaal rjochtenbehear).
Om foarbyldferzjes fan dizze funksjes te sjen, besykje
Nije pakket generaasje mooglikheden
Stipe foar tracks foar audiobeskriuwing
Ynhâld útstjoerd oer útstjoerkanalen hat faaks in audiospoar mei mûnlinge útlis fan wat der bart op it skerm neist it reguliere audiosinjaal. Dit makket programma's tagonkliker foar sjoggers mei fisueel beheinde, benammen as de ynhâld foaral fisueel is. Nij
ID3-metadata ynfoegje
Om it ynfoegjen fan advertinsjes of oanpaste metadata-eveneminten oan de spiler fan de klant te sinjalearjen, brûke omroppen faak timed metadata ynbêde yn 'e fideo. Neist SCTE-35-sinjaalmodi stypje wy no ek
Microsoft Azure-partners demonstrearje end-to-end oplossingen
ynternasjonaal bedriuw
Boarne: www.habr.com