Mã của hệ thống nhận dạng và dịch giọng nói Whisper đã được mở

Dự án OpenAI, nơi phát triển các dự án công cộng trong lĩnh vực trí tuệ nhân tạo, đã công bố những phát triển liên quan đến hệ thống nhận dạng giọng nói Whisper. Người ta khẳng định rằng đối với giọng nói bằng tiếng Anh, hệ thống cung cấp mức độ tin cậy và độ chính xác của khả năng nhận dạng tự động gần giống với khả năng nhận dạng của con người. Mã để triển khai tham chiếu dựa trên khung PyTorch và một tập hợp các mô hình đã được đào tạo, sẵn sàng để sử dụng, đã được mở. Mã được mở theo giấy phép MIT.

Để đào tạo mô hình, 680 nghìn giờ dữ liệu giọng nói đã được sử dụng, được thu thập từ một số bộ sưu tập bao gồm các ngôn ngữ và lĩnh vực chủ đề khác nhau. Khoảng 1/3 dữ liệu giọng nói liên quan đến đào tạo là bằng các ngôn ngữ khác ngoài tiếng Anh. Hệ thống được đề xuất xử lý chính xác các tình huống như phát âm có trọng âm, tiếng ồn xung quanh và sử dụng thuật ngữ kỹ thuật. Ngoài việc chuyển lời nói thành văn bản, hệ thống còn có thể dịch lời nói từ bất kỳ ngôn ngữ nào sang tiếng Anh và phát hiện sự xuất hiện của lời nói trong luồng âm thanh.

Các mô hình được hình thành theo hai cách trình bày: một mô hình cho ngôn ngữ tiếng Anh và một mô hình đa ngôn ngữ, cũng hỗ trợ các ngôn ngữ tiếng Nga, tiếng Ukraina và tiếng Belarus. Lần lượt, mỗi biểu diễn được chia thành 5 tùy chọn, khác nhau về kích thước và số lượng tham số có trong mô hình. Kích thước càng lớn thì độ chính xác và chất lượng nhận dạng càng cao nhưng yêu cầu về kích thước bộ nhớ video GPU càng cao và hiệu suất càng thấp. Ví dụ: tùy chọn tối thiểu bao gồm 39 triệu tham số và yêu cầu bộ nhớ video 1 GB và tùy chọn tối đa bao gồm 1550 triệu tham số và yêu cầu bộ nhớ video 10 GB. Tùy chọn tối thiểu nhanh hơn 32 lần so với tùy chọn tối đa.

Mã của hệ thống nhận dạng và dịch giọng nói Whisper đã được mở

Hệ thống sử dụng kiến ​​trúc mạng nơ-ron Transformer, bao gồm bộ mã hóa và bộ giải mã tương tác với nhau. Âm thanh được chia thành các đoạn dài 30 giây, được chuyển đổi thành biểu đồ phổ log-Mel và gửi đến bộ mã hóa. Đầu ra của bộ mã hóa được gửi đến bộ giải mã, dự đoán cách trình bày văn bản được trộn lẫn với các mã thông báo đặc biệt cho phép, trong một mô hình chung, giải quyết các vấn đề như phát hiện ngôn ngữ, tính toán trình tự thời gian của cách phát âm các cụm từ, phiên âm lời nói trong ngôn ngữ khác nhau và dịch sang tiếng Anh.

Nguồn: opennet.ru

Thêm một lời nhận xét