Google phát hành dữ liệu và mô hình học máy để phân tách âm thanh

Google được phát hành một cơ sở dữ liệu có chú thích về các âm thanh hỗn hợp tham chiếu có thể được sử dụng trong các hệ thống máy học dùng để tách các âm thanh hỗn hợp tùy ý thành các thành phần riêng lẻ của chúng. Một mô hình học máy sâu chung (TDCN++) cũng đã được xuất bản có thể được sử dụng trong Tensorflow để phân tách âm thanh. Dữ liệu được chuẩn bị dựa trên việc thu thập freesound.org и được phát hành được cấp phép theo CC BY 4.0.

Dự án được trình bày FUSS (Tách âm thanh phổ quát miễn phí) nhằm giải quyết vấn đề tách bất kỳ số lượng âm thanh tùy ý nào, bản chất của âm thanh này chưa được biết trước. Các hệ thống tương tự khác thường bị giới hạn ở nhiệm vụ phân biệt giữa các âm thanh nhất định, chẳng hạn như giọng nói và không phải giọng nói hoặc những người khác nhau đang nói.

Cơ sở dữ liệu chứa khoảng 20 nghìn hỗn hợp. Bộ sản phẩm này cũng bao gồm các phản hồi xung trong phòng được tính toán trước bằng cách sử dụng bộ mô phỏng phòng được xây dựng tùy chỉnh có tính đến phản xạ của tường, vị trí nguồn âm thanh và vị trí micrô.

Nguồn: opennet.ru

Thêm một lời nhận xét