Sứ mệnh của Microsoft là trao quyền cho mọi cá nhân và tổ chức trên hành tinh để đạt được nhiều thành tựu hơn. Ngành truyền thông là một ví dụ tuyệt vời về việc biến sứ mệnh này thành hiện thực. Chúng ta đang sống trong thời đại mà ngày càng có nhiều nội dung được tạo ra và tiêu thụ, theo nhiều cách hơn và trên nhiều thiết bị hơn. Tại IBC 2019, chúng tôi đã chia sẻ những cải tiến mới nhất mà chúng tôi đang thực hiện và cách chúng có thể giúp chuyển đổi trải nghiệm truyền thông của bạn.
Chi tiết dưới phần cắt!
Trang này đang bật
Trình lập chỉ mục video hiện hỗ trợ hoạt ảnh và nội dung đa ngôn ngữ
Năm ngoái tại IBC chúng tôi đã giành được giải thưởng
Các dịch vụ mới nhất của chúng tôi bao gồm các bản xem trước của hai tính năng khác biệt và được săn đón nhiều—nhận dạng ký tự hoạt hình và chép lời giọng nói đa ngôn ngữ—cũng như một số bổ sung cho các mô hình hiện có hiện nay trong Video Indexer.
Nhận dạng nhân vật hoạt hình
Nội dung hoạt hình là một trong những loại nội dung phổ biến nhất nhưng các mô hình thị giác máy tính tiêu chuẩn được thiết kế để nhận dạng khuôn mặt con người không hoạt động tốt với nội dung đó, đặc biệt nếu nội dung chứa các nhân vật không có đặc điểm khuôn mặt con người. Phiên bản xem trước mới kết hợp Trình lập chỉ mục video với dịch vụ Azure Custom Vision của Microsoft, cung cấp một bộ mô hình mới tự động phát hiện và nhóm các ký tự hoạt hình, đồng thời giúp chúng dễ dàng gắn nhãn và nhận dạng bằng cách sử dụng các mô hình tầm nhìn tùy chỉnh tích hợp.
Các mô hình được tích hợp vào một quy trình duy nhất, cho phép mọi người sử dụng dịch vụ mà không cần bất kỳ kiến thức nào về máy học. Kết quả có sẵn thông qua cổng Trình lập chỉ mục video không có mã hoặc qua API REST để tích hợp nhanh vào các ứng dụng của riêng bạn.
Chúng tôi đã xây dựng các mô hình này để hoạt động với các nhân vật hoạt hình cùng với một số người tiêu dùng đã cung cấp nội dung hoạt hình thực tế để đào tạo và thử nghiệm. Giá trị của chức năng mới đã được tóm tắt rõ ràng bởi Andy Gutteridge, giám đốc cấp cao về công nghệ studio và hậu kỳ tại Viacom International Media Networks, một trong những nhà cung cấp dữ liệu: “Việc bổ sung tính năng khám phá nội dung hoạt hình mạnh mẽ được hỗ trợ bởi AI sẽ cho phép chúng tôi tìm và lập danh mục siêu dữ liệu ký tự từ nội dung thư viện của chúng tôi một cách nhanh chóng và hiệu quả.
Quan trọng nhất, nó sẽ mang lại cho nhóm sáng tạo của chúng tôi khả năng tìm thấy ngay nội dung họ cần, giảm thiểu thời gian quản lý phương tiện và cho phép họ tập trung vào sáng tạo.”
Bạn có thể bắt đầu làm quen với việc nhận dạng nhân vật hoạt hình bằng
Nhận dạng và phiên âm nội dung bằng nhiều ngôn ngữ
Một số tài nguyên truyền thông, chẳng hạn như tin tức, biên niên sử và các cuộc phỏng vấn, chứa các bản ghi âm của những người nói các ngôn ngữ khác nhau. Hầu hết các khả năng chuyển lời nói thành văn bản hiện có đều yêu cầu ngôn ngữ nhận dạng âm thanh phải được chỉ định trước, gây khó khăn cho việc chuyển ngữ video đa ngôn ngữ.
Tính năng Nhận dạng ngôn ngữ nói tự động mới của chúng tôi dành cho nhiều loại nội dung khác nhau sử dụng công nghệ máy học để xác định các ngôn ngữ có trong nội dung đa phương tiện. Sau khi được phát hiện, mỗi phân đoạn ngôn ngữ sẽ tự động trải qua quá trình phiên âm bằng ngôn ngữ thích hợp và sau đó tất cả các phân đoạn được kết hợp thành một tệp phiên âm đa ngôn ngữ.
Bản ghi kết quả có sẵn dưới dạng một phần đầu ra JSON của Trình lập chỉ mục video và dưới dạng tệp phụ đề. Bản ghi đầu ra cũng được tích hợp với Azure Search, cho phép bạn tìm kiếm ngay các phân đoạn ngôn ngữ khác nhau trong video của mình. Ngoài ra, bản ghi đa ngôn ngữ khả dụng khi làm việc với cổng Video Indexer, vì vậy bạn có thể xem bản ghi và ngôn ngữ được xác định theo thời gian hoặc chuyển đến các vị trí cụ thể trong video cho từng ngôn ngữ và xem bản ghi đa ngôn ngữ dưới dạng phụ đề khi video phát. Bạn cũng có thể dịch văn bản nhận được sang bất kỳ ngôn ngữ nào trong số 54 ngôn ngữ có sẵn thông qua cổng và API.
Tìm hiểu thêm về tính năng nhận dạng nội dung đa ngôn ngữ mới và cách sử dụng tính năng này trong Trình lập chỉ mục video
Các mô hình cập nhật và cải tiến bổ sung
Chúng tôi cũng đang thêm các mô hình mới vào Trình lập chỉ mục video và cải tiến các mô hình hiện có, bao gồm cả các mô hình được mô tả bên dưới.
Trích xuất các thực thể liên quan đến người và địa điểm
Chúng tôi đã mở rộng khả năng khám phá thương hiệu hiện có của mình để bao gồm các tên và địa điểm nổi tiếng, chẳng hạn như Tháp Eiffel ở Paris và Big Ben ở London. Khi chúng xuất hiện trong bản ghi được tạo hoặc trên màn hình bằng cách sử dụng nhận dạng ký tự quang học (OCR), thông tin liên quan sẽ được thêm vào. Với tính năng mới này, bạn có thể tìm kiếm tất cả những người, địa điểm và thương hiệu xuất hiện trong video và xem thông tin chi tiết về họ, bao gồm các khoảng thời gian, mô tả và liên kết tới công cụ tìm kiếm Bing để biết thêm thông tin.
Mô hình phát hiện khung cho trình soạn thảo
Tính năng mới này thêm một bộ "thẻ" vào siêu dữ liệu được gắn vào từng khung hình trong chi tiết JSON để thể hiện loại biên tập của chúng (ví dụ: ảnh rộng, ảnh trung bình, cận cảnh, cực cận cảnh, hai ảnh, nhiều người , ngoài trời, trong nhà, v.v.). Những đặc điểm loại cảnh quay này rất hữu ích khi chỉnh sửa video cho clip và đoạn giới thiệu hoặc khi tìm kiếm một phong cách cảnh quay cụ thể cho mục đích nghệ thuật.
Độ chi tiết ánh xạ IPTC nâng cao
Mô hình phát hiện chủ đề của chúng tôi xác định chủ đề của video dựa trên phiên âm, nhận dạng ký tự quang học (OCR) và những người nổi tiếng được phát hiện, ngay cả khi chủ đề không được chỉ định rõ ràng. Chúng tôi ánh xạ các chủ đề được phát hiện này vào bốn lĩnh vực phân loại: Wikipedia, Bing, IPTC và IAB. Cải tiến này cho phép chúng tôi đưa vào phân loại IPTC cấp hai.
Việc tận dụng những cải tiến này cũng dễ dàng như lập chỉ mục lại thư viện Trình lập chỉ mục video hiện tại của bạn.
Chức năng phát trực tiếp mới
Trong bản xem trước Dịch vụ phương tiện Azure, chúng tôi cũng cung cấp hai tính năng mới để phát trực tiếp.
Phiên âm thời gian thực được hỗ trợ bởi AI đưa tính năng phát trực tiếp lên một tầm cao mới
Bằng cách sử dụng Azure Media Services để phát trực tiếp, giờ đây bạn có thể nhận luồng đầu ra bao gồm đoạn văn bản được tạo tự động bên cạnh nội dung âm thanh và video. Văn bản được tạo bằng cách sử dụng phiên âm âm thanh thời gian thực dựa trên trí tuệ nhân tạo. Các kỹ thuật tùy chỉnh được áp dụng trước và sau khi chuyển đổi giọng nói thành văn bản để cải thiện kết quả. Đoạn văn bản được đóng gói ở dạng IMSC1, TTML hoặc WebVTT, tùy thuộc vào việc nó được cung cấp ở dạng DASH, HLS CMAF hay HLS TS.
Mã hóa dòng thời gian thực cho các kênh OTT 24/7
Bằng cách sử dụng API v3 của chúng tôi, bạn có thể tạo, quản lý và phát các kênh OTT (over-the-top) cũng như sử dụng tất cả các tính năng khác của Azure Media Services như video trực tiếp theo yêu cầu (VOD, video theo yêu cầu), quản lý đóng gói và quyền kỹ thuật số ( DRM, quản lý quyền kỹ thuật số).
Để xem phiên bản xem trước của các tính năng này, hãy truy cập
Khả năng tạo gói mới
Hỗ trợ các bản nhạc mô tả âm thanh
Nội dung phát trên các kênh phát sóng thường có đoạn âm thanh kèm theo lời giải thích bằng lời nói về những gì đang diễn ra trên màn hình bên cạnh tín hiệu âm thanh thông thường. Điều này giúp người xem khiếm thị dễ tiếp cận các chương trình hơn, đặc biệt nếu nội dung chủ yếu là hình ảnh. Mới
Chèn siêu dữ liệu ID3
Để báo hiệu việc chèn quảng cáo hoặc sự kiện siêu dữ liệu tùy chỉnh tới trình phát của khách hàng, các đài truyền hình thường sử dụng siêu dữ liệu theo thời gian được nhúng trong video. Ngoài các chế độ báo hiệu SCTE-35, giờ đây chúng tôi còn hỗ trợ
Các đối tác của Microsoft Azure trình diễn các giải pháp đầu cuối
Công ty quốc tế
Nguồn: www.habr.com