Misi Microsoft adalah memberdayakan setiap orang dan organisasi di dunia untuk mencapai lebih banyak hal. Industri media adalah contoh bagus dalam mewujudkan misi ini. Kita hidup di era di mana lebih banyak konten dibuat dan dikonsumsi, dengan lebih banyak cara, dan di lebih banyak perangkat. Di IBC 2019, kami berbagi inovasi terbaru yang sedang kami kerjakan dan bagaimana inovasi tersebut dapat membantu mengubah pengalaman media Anda.
Detail di bawah potongan!
Halaman ini aktif
Video Indexer sekarang mendukung animasi dan konten multibahasa
Tahun lalu di IBC kami meraih penghargaan
Penawaran terbaru kami mencakup pratinjau dua fitur yang sangat dicari dan berbedaβpengenalan karakter animasi dan transkripsi ucapan multibahasaβserta beberapa tambahan pada model yang sudah ada saat ini di Video Indexer.
Pengenalan Karakter Animasi
Konten animasi adalah salah satu jenis konten yang paling populer, namun model visi komputer standar yang dirancang untuk mengenali wajah manusia tidak berfungsi dengan baik, terutama jika konten tersebut berisi karakter tanpa fitur wajah manusia. Versi pratinjau baru menggabungkan Pengindeks Video dengan layanan Azure Custom Vision dari Microsoft, menghadirkan serangkaian model baru yang secara otomatis mendeteksi dan mengelompokkan karakter animasi dan membuatnya mudah diberi label dan dikenali menggunakan model visi kustom terintegrasi.
Model-model tersebut diintegrasikan ke dalam satu pipeline, sehingga siapa pun dapat menggunakan layanan ini tanpa pengetahuan pembelajaran mesin apa pun. Hasil tersedia melalui portal Pengindeks Video tanpa kode atau melalui REST API untuk integrasi cepat ke dalam aplikasi Anda.
Kami membuat model ini untuk digunakan dengan karakter animasi bersama dengan beberapa konsumen yang menyediakan konten animasi nyata untuk pelatihan dan pengujian. Nilai dari fungsi baru ini disimpulkan dengan baik oleh Andy Gutteridge, direktur senior teknologi studio dan pasca-produksi di Viacom International Media Networks, yang merupakan salah satu penyedia data: βPenambahan penemuan konten animasi bertenaga AI yang kuat akan memungkinkan kami dengan cepat dan efisien menemukan dan membuat katalog metadata karakter dari konten perpustakaan kami.
Yang terpenting, hal ini akan memberikan tim kreatif kami kemampuan untuk segera menemukan konten yang mereka perlukan, meminimalkan waktu yang dihabiskan untuk mengelola media, dan memungkinkan mereka fokus pada kreativitas.β
Anda bisa mulai mengenal pengenalan karakter animasi dengan
Identifikasi dan transkripsi konten dalam berbagai bahasa
Beberapa sumber media, seperti berita, kronik, dan wawancara, berisi rekaman orang-orang yang berbicara dalam berbagai bahasa. Sebagian besar kemampuan ucapan-ke-teks yang ada memerlukan bahasa pengenalan audio yang harus ditentukan terlebih dahulu, sehingga sulit untuk mentranskripsikan video multibahasa.
Fitur Identifikasi Bahasa Lisan Otomatis kami yang baru untuk berbagai jenis konten menggunakan teknologi pembelajaran mesin untuk mengidentifikasi bahasa yang ditemukan di aset media. Setelah terdeteksi, setiap segmen bahasa secara otomatis menjalani proses transkripsi dalam bahasa yang sesuai, dan kemudian semua segmen digabungkan menjadi satu file transkripsi multi-bahasa.
Transkrip yang dihasilkan tersedia sebagai bagian dari output JSON dari Pengindeks Video dan sebagai file subtitle. Transkrip keluaran juga terintegrasi dengan Azure Search, memungkinkan Anda segera mencari segmen bahasa berbeda di video Anda. Selain itu, transkripsi multibahasa tersedia saat bekerja dengan portal Pengindeks Video, sehingga Anda dapat melihat transkrip dan bahasa yang diidentifikasi dari waktu ke waktu, atau melompat ke tempat tertentu dalam video untuk setiap bahasa dan melihat transkripsi multibahasa sebagai teks saat video diputar. Anda juga dapat menerjemahkan teks yang diterima ke dalam salah satu dari 54 bahasa yang tersedia melalui portal dan API.
Pelajari lebih lanjut fitur pengenalan konten multibahasa baru dan cara penggunaannya di Pengindeks Video
Model tambahan yang diperbarui dan ditingkatkan
Kami juga menambahkan model baru ke Pengindeks Video dan menyempurnakan model yang sudah ada, termasuk yang dijelaskan di bawah.
Mengekstraksi entitas yang terkait dengan orang dan tempat
Kami telah memperluas kemampuan penemuan merek yang ada untuk menyertakan nama dan lokasi terkenal, seperti Menara Eiffel di Paris dan Big Ben di London. Ketika mereka muncul di transkrip yang dihasilkan atau di layar menggunakan pengenalan karakter optik (OCR), informasi yang relevan ditambahkan. Dengan fitur baru ini, Anda dapat mencari semua orang, tempat, dan merek yang muncul di video dan melihat detailnya, termasuk slot waktu, deskripsi, dan tautan ke mesin pencari Bing untuk informasi lebih lanjut.
Model deteksi bingkai untuk editor
Fitur baru ini menambahkan sekumpulan "tag" ke metadata yang dilampirkan ke masing-masing bingkai dalam detail JSON untuk mewakili jenis editorialnya (misalnya, foto lebar, foto medium, close-up, close-up ekstrem, dua foto, beberapa orang , di luar ruangan, di dalam ruangan, dll.). Karakteristik jenis pengambilan gambar ini berguna saat mengedit video untuk klip dan cuplikan, atau saat mencari gaya pengambilan gambar tertentu untuk tujuan artistik.
Granularitas pemetaan IPTC yang ditingkatkan
Model deteksi topik kami menentukan topik video berdasarkan transkripsi, pengenalan karakter optik (OCR), dan selebritas yang terdeteksi, meskipun topik tersebut tidak ditentukan secara eksplisit. Kami memetakan topik yang terdeteksi ini ke empat area klasifikasi: Wikipedia, Bing, IPTC, dan IAB. Peningkatan ini memungkinkan kami memasukkan klasifikasi IPTC tingkat kedua.
Memanfaatkan penyempurnaan ini semudah mengindeks ulang pustaka Pengindeks Video Anda saat ini.
Fungsionalitas streaming langsung baru
Dalam pratinjau Azure Media Services, kami juga menawarkan dua fitur baru untuk streaming langsung.
Transkripsi real-time yang didukung AI membawa streaming langsung ke level berikutnya
Dengan menggunakan Azure Media Services untuk streaming langsung, Anda kini dapat menerima aliran keluaran yang menyertakan trek teks yang dibuat secara otomatis selain konten audio dan video. Teks dibuat menggunakan transkripsi audio real-time berdasarkan kecerdasan buatan. Teknik khusus diterapkan sebelum dan sesudah konversi ucapan ke teks untuk meningkatkan hasil. Trek teks dikemas dalam IMSC1, TTML, atau WebVTT, bergantung pada apakah trek tersebut disediakan dalam DASH, HLS CMAF, atau HLS TS.
Pengkodean saluran waktu nyata untuk saluran OTT 24/7
Dengan menggunakan API v3 kami, Anda dapat membuat, mengelola, dan menyiarkan saluran OTT (over-the-top), dan menggunakan semua fitur Azure Media Services lainnya seperti video langsung sesuai permintaan (VOD, video sesuai permintaan), pengemasan, dan manajemen hak digital ( DRM, manajemen hak digital).
Untuk melihat versi pratinjau fitur ini, kunjungi
Kemampuan pembuatan paket baru
Dukungan untuk trek deskripsi audio
Konten yang disiarkan melalui saluran siaran sering kali memiliki trek audio dengan penjelasan verbal tentang apa yang terjadi di layar selain sinyal audio biasa. Hal ini membuat program lebih mudah diakses oleh pemirsa tunanetra, terutama jika konten utamanya adalah visual. Baru
Memasukkan metadata ID3
Untuk menandakan penyisipan iklan atau peristiwa metadata khusus ke pemutar klien, penyiar sering kali menggunakan metadata berwaktu yang tertanam dalam video. Selain mode pensinyalan SCTE-35, kini kami juga mendukung
Mitra Microsoft Azure mendemonstrasikan solusi menyeluruh
perusahaan internasional
Sumber: www.habr.com