Microsoft'un misyonu, gezegendeki her insanı ve kuruluşu daha fazlasını başarmaya teşvik etmektir. Medya endüstrisi bu misyonu gerçeğe dönüştürmenin harika bir örneğidir. Daha fazla içeriğin, daha fazla yöntemle ve daha fazla cihazda üretildiği ve tüketildiği bir çağda yaşıyoruz. IBC 2019'da üzerinde çalıştığımız en son yenilikleri ve bunların medya deneyiminizi dönüştürmenize nasıl yardımcı olabileceğini paylaştık.
Detaylar kesimin altında!
Bu sayfa açık
Video Indexer artık animasyonu ve çok dilli içeriği destekliyor
Geçen yıl IBC'de ödüllü projemizi gerçekleştirdik
En son tekliflerimiz, çok aranan ve farklılaşan iki özelliğin (animasyonlu karakter tanıma ve çok dilli konuşma transkripsiyonunun) önizlemelerinin yanı sıra, bugün Video Indexer'da mevcut olan mevcut modellere yapılan çeşitli eklemeleri içerir.
Animasyonlu Karakter Tanıma
Animasyonlu içerik, en popüler içerik türlerinden biridir, ancak insan yüzlerini tanımak için tasarlanmış standart bilgisayarlı görme modelleri, özellikle içerik insan yüzü özelliklerine sahip olmayan karakterler içeriyorsa, bununla iyi çalışmaz. Yeni önizleme sürümü, Video Indexer'ı Microsoft'un Azure Özel Görüntüleme hizmetiyle birleştirerek animasyonlu karakterleri otomatik olarak algılayan ve gruplandıran ve entegre özel görüntü modelleri kullanarak bunların etiketlenmesini ve tanınmasını kolaylaştıran yeni bir model seti sunar.
Modeller tek bir işlem hattına entegre edilerek herkesin herhangi bir makine öğrenimi bilgisi olmadan hizmeti kullanmasına olanak sağlanır. Sonuçlara, kodsuz bir Video Indexer portalı aracılığıyla veya kendi uygulamalarınıza hızlı entegrasyon için bir REST API aracılığıyla ulaşılabilir.
Bu modelleri, eğitim ve test için gerçek animasyonlu içerik sağlayan bazı tüketicilerle birlikte animasyonlu karakterlerle çalışacak şekilde oluşturduk. Yeni işlevselliğin değeri, veri sağlayıcılardan biri olan Viacom International Media Networks'ün stüdyo teknolojisi ve post prodüksiyondan sorumlu kıdemli yöneticisi Andy Gutteridge tarafından çok iyi özetlendi: "Yapay zeka destekli güçlü animasyonlu içerik keşfinin eklenmesi, Kütüphane içeriğimizden karakter meta verilerini hızlı ve verimli bir şekilde bulmamızı ve kataloglamamızı sağlar.
En önemlisi, yaratıcı ekiplerimize ihtiyaç duydukları içeriği anında bulma olanağı verecek, medyayı yönetmek için harcanan zamanı en aza indirecek ve yaratıcılığa odaklanmalarına olanak tanıyacak."
Animasyonlu karakter tanıma ile tanışmaya başlayabilirsiniz.
İçeriğin birden fazla dilde tanımlanması ve transkripsiyonu
Haberler, kronikler ve röportajlar gibi bazı medya kaynakları farklı dilleri konuşan insanların kayıtlarını içerir. Mevcut konuşmayı metne dönüştürme özelliklerinin çoğu, ses tanıma dilinin önceden belirlenmesini gerektirir, bu da çok dilli videoların yazıya geçirilmesini zorlaştırır.
Çeşitli içerik türleri için yeni Otomatik Konuşma Dili Tanımlama özelliğimiz, medya varlıklarında bulunan dilleri tanımlamak için makine öğrenimi teknolojisini kullanır. Her dil bölümü tespit edildikten sonra otomatik olarak uygun dilde bir transkripsiyon sürecinden geçer ve ardından tüm bölümler tek bir çok dilli transkripsiyon dosyasında birleştirilir.
Ortaya çıkan transkript, Video Indexer'ın JSON çıktısının bir parçası olarak ve altyazı dosyaları olarak mevcuttur. Çıktı transkripti ayrıca Azure Arama ile entegre olduğundan videolarınızda farklı dil segmentlerini anında aramanıza olanak tanır. Ek olarak, Video Indexer portalıyla çalışırken çok dilli transkripsiyon mevcuttur; böylece transkripti ve tanımlanan dili zaman içinde görüntüleyebilir veya her dil için videodaki belirli yerlere atlayabilir ve video oynatılırken çok dilli transkripsiyonu altyazı olarak görebilirsiniz. Ayrıca alınan metni portal ve API aracılığıyla mevcut 54 dilden herhangi birine çevirebilirsiniz.
Yeni çok dilli içerik tanıma özelliği ve bunun Video Indexer'da nasıl kullanıldığı hakkında daha fazla bilgi edinin
Ek güncellenmiş ve geliştirilmiş modeller
Ayrıca Video Indexer'a yeni modeller ekliyoruz ve aşağıda açıklananlar da dahil olmak üzere mevcut modelleri iyileştiriyoruz.
İnsanlar ve yerlerle ilişkili varlıkları çıkarma
Mevcut marka keşif yeteneklerimizi, Paris'teki Eyfel Kulesi ve Londra'daki Big Ben gibi tanınmış isimleri ve yerleri içerecek şekilde genişlettik. Oluşturulan transkriptte veya optik karakter tanıma (OCR) kullanılarak ekranda göründüklerinde ilgili bilgiler eklenir. Bu yeni özellik sayesinde, bir videoda görünen tüm kişileri, yerleri ve markaları arayabilir ve daha fazla bilgi için zaman aralıkları, açıklamalar ve Bing arama motoruna bağlantılar dahil olmak üzere bunlarla ilgili ayrıntıları görüntüleyebilirsiniz.
Editör için çerçeve algılama modeli
Bu yeni özellik, JSON ayrıntılarındaki tek tek karelere iliştirilen meta verilere, düzenleme türlerini (örneğin, geniş çekim, orta çekim, yakın çekim, aşırı yakın çekim, iki çekim, birden fazla kişi) temsil edecek bir dizi "etiket" ekler. , dış mekan, iç mekan vb.). Bu çekim türü özellikleri, klipler ve fragmanlar için video düzenlerken veya sanatsal amaçlar için belirli bir çekim stili ararken kullanışlıdır.
Gelişmiş IPTC haritalama ayrıntı düzeyi
Konu tespit modelimiz, konu açıkça belirtilmemiş olsa bile, bir videonun konusunu transkripsiyona, optik karakter tanımaya (OCR) ve tespit edilen ünlülere göre belirler. Tespit edilen bu konuları dört sınıflandırma alanıyla eşleştiriyoruz: Wikipedia, Bing, IPTC ve IAB. Bu geliştirme, ikinci düzey IPTC sınıflandırmasını dahil etmemizi sağlar.
Bu iyileştirmelerden yararlanmak, mevcut Video Indexer kitaplığınızı yeniden indekslemek kadar kolaydır.
Yeni canlı yayın işlevi
Azure Media Services önizlemesinde canlı akışa yönelik iki yeni özellik de sunuyoruz.
Yapay zeka destekli gerçek zamanlı transkripsiyon, canlı yayını bir sonraki seviyeye taşıyor
Canlı akış için Azure Media Services'ı kullanarak artık ses ve video içeriğinin yanı sıra otomatik olarak oluşturulan bir metin parçasını içeren bir çıktı akışı alabilirsiniz. Metin, yapay zekaya dayalı gerçek zamanlı ses transkripsiyonu kullanılarak oluşturulur. Sonuçları iyileştirmek için konuşmayı metne dönüştürmeden önce ve sonra özel teknikler uygulanır. Metin parçası, DASH, HLS CMAF veya HLS TS olarak sağlanmasına bağlı olarak IMSC1, TTML veya WebVTT olarak paketlenir.
24/7 OTT kanalları için gerçek zamanlı hat kodlama
V3 API'lerimizi kullanarak OTT (over-the-top) kanalları oluşturabilir, yönetebilir ve yayınlayabilir ve isteğe bağlı canlı video (VOD, isteğe bağlı video), paketleme ve dijital haklar yönetimi gibi diğer tüm Azure Medya Hizmetleri özelliklerini kullanabilirsiniz ( DRM, dijital haklar yönetimi).
Bu özelliklerin önizleme sürümlerini görmek için şu adresi ziyaret edin:
Yeni paket oluşturma yetenekleri
Sesli açıklama parçaları desteği
Yayın kanalları üzerinden yayınlanan içerikte, normal ses sinyaline ek olarak genellikle ekranda olup bitenlerin sözlü açıklamalarını içeren bir ses parçası bulunur. Bu, özellikle içerik öncelikli olarak görselse, programları görme engelli izleyiciler için daha erişilebilir hale getirir. Yeni
ID3 meta verilerini ekleme
Reklamların veya özel meta veri olaylarının istemci oynatıcıya eklenmesini bildirmek için yayıncılar genellikle videoya gömülü zamanlanmış meta verileri kullanır. SCTE-35 sinyalizasyon modlarına ek olarak artık aynı zamanda desteği de sağlıyoruz
Microsoft Azure iş ortakları uçtan uca çözümleri gösteriyor
Uluslararası şirket
Kaynak: habr.com