12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo

Sứ mệnh của Microsoft là trao quyền cho mọi cá nhân và tổ chức trên hành tinh để đạt được nhiều thành tựu hơn. Ngành truyền thông là một ví dụ tuyệt vời về việc biến sứ mệnh này thành hiện thực. Chúng ta đang sống trong thời đại mà ngày càng có nhiều nội dung được tạo ra và tiêu thụ, theo nhiều cách hơn và trên nhiều thiết bị hơn. Tại IBC 2019, chúng tôi đã chia sẻ những cải tiến mới nhất mà chúng tôi đang thực hiện và cách chúng có thể giúp chuyển đổi trải nghiệm truyền thông của bạn.
12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo
Chi tiết dưới phần cắt!

Trang này đang bật website của chúng tôi.

Trình lập chỉ mục video hiện hỗ trợ hoạt ảnh và nội dung đa ngôn ngữ

Năm ngoái tại IBC chúng tôi đã giành được giải thưởng Trình lập chỉ mục video dịch vụ truyền thông Azure, và năm nay nó thậm chí còn tốt hơn. Trình lập chỉ mục video tự động trích xuất thông tin và siêu dữ liệu từ các tệp phương tiện, chẳng hạn như lời nói, khuôn mặt, cảm xúc, chủ đề và thương hiệu và bạn không cần phải là chuyên gia về máy học để sử dụng nó.

Các dịch vụ mới nhất của chúng tôi bao gồm các bản xem trước của hai tính năng khác biệt và được săn đón nhiều—nhận dạng ký tự hoạt hình và chép lời giọng nói đa ngôn ngữ—cũng như một số bổ sung cho các mô hình hiện có hiện nay trong Video Indexer.

Nhận dạng nhân vật hoạt hình

12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo
Nội dung hoạt hình là một trong những loại nội dung phổ biến nhất nhưng các mô hình thị giác máy tính tiêu chuẩn được thiết kế để nhận dạng khuôn mặt con người không hoạt động tốt với nội dung đó, đặc biệt nếu nội dung chứa các nhân vật không có đặc điểm khuôn mặt con người. Phiên bản xem trước mới kết hợp Trình lập chỉ mục video với dịch vụ Azure Custom Vision của Microsoft, cung cấp một bộ mô hình mới tự động phát hiện và nhóm các ký tự hoạt hình, đồng thời giúp chúng dễ dàng gắn nhãn và nhận dạng bằng cách sử dụng các mô hình tầm nhìn tùy chỉnh tích hợp.

Các mô hình được tích hợp vào một quy trình duy nhất, cho phép mọi người sử dụng dịch vụ mà không cần bất kỳ kiến ​​thức nào về máy học. Kết quả có sẵn thông qua cổng Trình lập chỉ mục video không có mã hoặc qua API REST để tích hợp nhanh vào các ứng dụng của riêng bạn.

Chúng tôi đã xây dựng các mô hình này để hoạt động với các nhân vật hoạt hình cùng với một số người tiêu dùng đã cung cấp nội dung hoạt hình thực tế để đào tạo và thử nghiệm. Giá trị của chức năng mới đã được tóm tắt rõ ràng bởi Andy Gutteridge, giám đốc cấp cao về công nghệ studio và hậu kỳ tại Viacom International Media Networks, một trong những nhà cung cấp dữ liệu: “Việc bổ sung tính năng khám phá nội dung hoạt hình mạnh mẽ được hỗ trợ bởi AI sẽ cho phép chúng tôi tìm và lập danh mục siêu dữ liệu ký tự từ nội dung thư viện của chúng tôi một cách nhanh chóng và hiệu quả.

Quan trọng nhất, nó sẽ mang lại cho nhóm sáng tạo của chúng tôi khả năng tìm thấy ngay nội dung họ cần, giảm thiểu thời gian quản lý phương tiện và cho phép họ tập trung vào sáng tạo.”

Bạn có thể bắt đầu làm quen với việc nhận dạng nhân vật hoạt hình bằng trang tài liệu.

Nhận dạng và phiên âm nội dung bằng nhiều ngôn ngữ

Một số tài nguyên truyền thông, chẳng hạn như tin tức, biên niên sử và các cuộc phỏng vấn, chứa các bản ghi âm của những người nói các ngôn ngữ khác nhau. Hầu hết các khả năng chuyển lời nói thành văn bản hiện có đều yêu cầu ngôn ngữ nhận dạng âm thanh phải được chỉ định trước, gây khó khăn cho việc chuyển ngữ video đa ngôn ngữ.

Tính năng Nhận dạng ngôn ngữ nói tự động mới của chúng tôi dành cho nhiều loại nội dung khác nhau sử dụng công nghệ máy học để xác định các ngôn ngữ có trong nội dung đa phương tiện. Sau khi được phát hiện, mỗi phân đoạn ngôn ngữ sẽ tự động trải qua quá trình phiên âm bằng ngôn ngữ thích hợp và sau đó tất cả các phân đoạn được kết hợp thành một tệp phiên âm đa ngôn ngữ.

12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo

Bản ghi kết quả có sẵn dưới dạng một phần đầu ra JSON của Trình lập chỉ mục video và dưới dạng tệp phụ đề. Bản ghi đầu ra cũng được tích hợp với Azure Search, cho phép bạn tìm kiếm ngay các phân đoạn ngôn ngữ khác nhau trong video của mình. Ngoài ra, bản ghi đa ngôn ngữ khả dụng khi làm việc với cổng Video Indexer, vì vậy bạn có thể xem bản ghi và ngôn ngữ được xác định theo thời gian hoặc chuyển đến các vị trí cụ thể trong video cho từng ngôn ngữ và xem bản ghi đa ngôn ngữ dưới dạng phụ đề khi video phát. Bạn cũng có thể dịch văn bản nhận được sang bất kỳ ngôn ngữ nào trong số 54 ngôn ngữ có sẵn thông qua cổng và API.

Tìm hiểu thêm về tính năng nhận dạng nội dung đa ngôn ngữ mới và cách sử dụng tính năng này trong Trình lập chỉ mục video đọc tài liệu.

Các mô hình cập nhật và cải tiến bổ sung

Chúng tôi cũng đang thêm các mô hình mới vào Trình lập chỉ mục video và cải tiến các mô hình hiện có, bao gồm cả các mô hình được mô tả bên dưới.

Trích xuất các thực thể liên quan đến người và địa điểm

Chúng tôi đã mở rộng khả năng khám phá thương hiệu hiện có của mình để bao gồm các tên và địa điểm nổi tiếng, chẳng hạn như Tháp Eiffel ở Paris và Big Ben ở London. Khi chúng xuất hiện trong bản ghi được tạo hoặc trên màn hình bằng cách sử dụng nhận dạng ký tự quang học (OCR), thông tin liên quan sẽ được thêm vào. Với tính năng mới này, bạn có thể tìm kiếm tất cả những người, địa điểm và thương hiệu xuất hiện trong video và xem thông tin chi tiết về họ, bao gồm các khoảng thời gian, mô tả và liên kết tới công cụ tìm kiếm Bing để biết thêm thông tin.

12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo

Mô hình phát hiện khung cho trình soạn thảo

Tính năng mới này thêm một bộ "thẻ" vào siêu dữ liệu được gắn vào từng khung hình trong chi tiết JSON để thể hiện loại biên tập của chúng (ví dụ: ảnh rộng, ảnh trung bình, cận cảnh, cực cận cảnh, hai ảnh, nhiều người , ngoài trời, trong nhà, v.v.). Những đặc điểm loại cảnh quay này rất hữu ích khi chỉnh sửa video cho clip và đoạn giới thiệu hoặc khi tìm kiếm một phong cách cảnh quay cụ thể cho mục đích nghệ thuật.

12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo
Tìm hiểu thêm Phát hiện loại khung trong Trình lập chỉ mục video.

Độ chi tiết ánh xạ IPTC nâng cao

Mô hình phát hiện chủ đề của chúng tôi xác định chủ đề của video dựa trên phiên âm, nhận dạng ký tự quang học (OCR) và những người nổi tiếng được phát hiện, ngay cả khi chủ đề không được chỉ định rõ ràng. Chúng tôi ánh xạ các chủ đề được phát hiện này vào bốn lĩnh vực phân loại: Wikipedia, Bing, IPTC và IAB. Cải tiến này cho phép chúng tôi đưa vào phân loại IPTC cấp hai.
Việc tận dụng những cải tiến này cũng dễ dàng như lập chỉ mục lại thư viện Trình lập chỉ mục video hiện tại của bạn.

Chức năng phát trực tiếp mới

Trong bản xem trước Dịch vụ phương tiện Azure, chúng tôi cũng cung cấp hai tính năng mới để phát trực tiếp.

Phiên âm thời gian thực được hỗ trợ bởi AI đưa tính năng phát trực tiếp lên một tầm cao mới

Bằng cách sử dụng Azure Media Services để phát trực tiếp, giờ đây bạn có thể nhận luồng đầu ra bao gồm đoạn văn bản được tạo tự động bên cạnh nội dung âm thanh và video. Văn bản được tạo bằng cách sử dụng phiên âm âm thanh thời gian thực dựa trên trí tuệ nhân tạo. Các kỹ thuật tùy chỉnh được áp dụng trước và sau khi chuyển đổi giọng nói thành văn bản để cải thiện kết quả. Đoạn văn bản được đóng gói ở dạng IMSC1, TTML hoặc WebVTT, tùy thuộc vào việc nó được cung cấp ở dạng DASH, HLS CMAF hay HLS TS.

Mã hóa dòng thời gian thực cho các kênh OTT 24/7

Bằng cách sử dụng API v3 của chúng tôi, bạn có thể tạo, quản lý và phát các kênh OTT (over-the-top) cũng như sử dụng tất cả các tính năng khác của Azure Media Services như video trực tiếp theo yêu cầu (VOD, video theo yêu cầu), quản lý đóng gói và quyền kỹ thuật số ( DRM, quản lý quyền kỹ thuật số).
Để xem phiên bản xem trước của các tính năng này, hãy truy cập Cộng đồng dịch vụ truyền thông Azure.

12 Dịch vụ truyền thông Azure mới với trí tuệ nhân tạo

Khả năng tạo gói mới

Hỗ trợ các bản nhạc mô tả âm thanh

Nội dung phát trên các kênh phát sóng thường có đoạn âm thanh kèm theo lời giải thích bằng lời nói về những gì đang diễn ra trên màn hình bên cạnh tín hiệu âm thanh thông thường. Điều này giúp người xem khiếm thị dễ tiếp cận các chương trình hơn, đặc biệt nếu nội dung chủ yếu là hình ảnh. Mới chức năng mô tả âm thanh cho phép bạn chú thích một trong các bản âm thanh dưới dạng bản nhạc mô tả âm thanh (AD, mô tả âm thanh), cho phép người chơi cung cấp bản nhạc AD cho người xem.

Chèn siêu dữ liệu ID3

Để báo hiệu việc chèn quảng cáo hoặc sự kiện siêu dữ liệu tùy chỉnh tới trình phát của khách hàng, các đài truyền hình thường sử dụng siêu dữ liệu theo thời gian được nhúng trong video. Ngoài các chế độ báo hiệu SCTE-35, giờ đây chúng tôi còn hỗ trợ ID3v2 và các chương trình tùy chỉnh khác, được xác định bởi nhà phát triển ứng dụng để ứng dụng khách sử dụng.

Các đối tác của Microsoft Azure trình diễn các giải pháp đầu cuối

Bitmovin giới thiệu Mã hóa video Bitmovin và Trình phát video Bitmovin cho Microsoft Azure. Giờ đây, khách hàng có thể tận dụng các giải pháp mã hóa và phát này trong Azure và hưởng lợi từ các tính năng nâng cao như mã hóa ba giai đoạn, hỗ trợ codec AV1/VC, phụ đề đa ngôn ngữ và phân tích video tích hợp sẵn cho QoS, quảng cáo và theo dõi video.

thường trực trình diễn Nền tảng quản lý vòng đời người dùng trên Azure. Là nhà cung cấp giải pháp quản lý vòng đời khách hàng và doanh thu hàng đầu, Evergent sử dụng Azure AI để giúp các nhà cung cấp dịch vụ giải trí cao cấp cải thiện khả năng thu hút và giữ chân khách hàng bằng cách tạo ra các gói dịch vụ và ưu đãi được nhắm mục tiêu tại các thời điểm quan trọng trong vòng đời khách hàng.

Haivision sẽ giới thiệu dịch vụ định tuyến phương tiện dựa trên đám mây thông minh của mình, SRT Hub, giúp khách hàng chuyển đổi quy trình công việc từ đầu đến cuối bằng cách sử dụng Cạnh hộp dữ liệu Azure và chuyển đổi quy trình công việc với Hublets từ Avid, Telestream, Wowza, Cinegy và Make.tv.

SES đã phát triển một bộ dịch vụ truyền thông cấp phát sóng trên nền tảng Azure cho các khách hàng sử dụng dịch vụ truyền thông vệ tinh và được quản lý. SES sẽ trình diễn các giải pháp cho các dịch vụ phát được quản lý hoàn toàn, bao gồm phát chính, phát bản địa hóa, khám phá và thay thế quảng cáo cũng như mã hóa đa kênh 24x7 theo thời gian thực chất lượng cao trên Azure.

Đồng bộ hóa từ cung cấp các công cụ đám mây tiện lợi và công nghệ tự động hóa chữ ký trên Azure. Những dịch vụ này sẽ giúp các tổ chức truyền thông dễ dàng hơn trong việc tự động thêm phụ đề, bao gồm cả phụ đề tiếng nước ngoài, vào quy trình làm việc video trực tiếp và ngoại tuyến của họ trên Azure.
Công ty quốc tế Tata Elxsi, một công ty dịch vụ công nghệ, đã tích hợp nền tảng OTT SaaS TEPlay của mình vào Azure Media Services để cung cấp nội dung OTT từ đám mây. Tata Elxsi cũng đã mang giải pháp giám sát chất lượng trải nghiệm (QoE) Falcon Eye của mình cho Microsoft Azure, cung cấp các phân tích và số liệu cho việc ra quyết định.

Truyền thông Verizon đang cung cấp nền tảng phát trực tuyến của mình trên Azure dưới dạng bản phát hành beta. Verizon Media Platform là giải pháp OTT được quản lý cấp doanh nghiệp bao gồm DRM, chèn quảng cáo, phiên cá nhân hóa từng người một, thay thế nội dung động và phân phối video. Việc tích hợp giúp đơn giản hóa quy trình công việc, hỗ trợ và mở rộng quy mô toàn cầu, đồng thời mở khóa một số khả năng độc đáo có trong Azure.

Nguồn: www.habr.com

Thêm một lời nhận xét