Kode untuk sistem pengenalan dan terjemahan ucapan Whisper telah dibuka

Proyek OpenAI, yang mengembangkan proyek publik di bidang kecerdasan buatan, telah menerbitkan perkembangan terkait sistem pengenalan suara Whisper. Dikatakan bahwa untuk ucapan dalam bahasa Inggris, sistem ini memberikan tingkat keandalan dan keakuratan pengenalan otomatis yang mendekati pengenalan manusia. Kode untuk implementasi referensi berdasarkan kerangka PyTorch dan serangkaian model terlatih, siap digunakan, telah dibuka. Kode ini terbuka di bawah lisensi MIT.

Untuk melatih model tersebut, digunakan 680 ribu jam data ucapan, yang dikumpulkan dari beberapa koleksi yang mencakup berbagai bahasa dan bidang studi. Sekitar 1/3 dari data ucapan yang terlibat dalam pelatihan menggunakan bahasa selain bahasa Inggris. Sistem yang diusulkan dengan tepat menangani situasi seperti pengucapan beraksen, kebisingan latar belakang, dan penggunaan jargon teknis. Selain menyalin ucapan menjadi teks, sistem juga dapat menerjemahkan ucapan dari bahasa apa pun ke bahasa Inggris dan mendeteksi kemunculan ucapan di aliran audio.

Model dibentuk dalam dua representasi: model untuk bahasa Inggris dan model multibahasa, yang juga mendukung bahasa Rusia, Ukraina, dan Belarusia. Pada gilirannya, setiap representasi dibagi menjadi 5 opsi, berbeda dalam ukuran dan jumlah parameter yang tercakup dalam model. Semakin besar ukurannya, semakin besar keakuratan dan kualitas pengenalannya, tetapi juga semakin tinggi persyaratan untuk ukuran memori video GPU dan semakin rendah kinerjanya. Misalnya, opsi minimum mencakup 39 juta parameter dan memerlukan memori video 1 GB, dan opsi maksimum mencakup 1550 juta parameter dan memerlukan memori video 10 GB. Opsi minimum 32 kali lebih cepat dari opsi maksimum.

Kode untuk sistem pengenalan dan terjemahan ucapan Whisper telah dibuka

Sistem ini menggunakan arsitektur jaringan saraf Transformer, yang mencakup encoder dan decoder yang berinteraksi satu sama lain. Audio dipecah menjadi potongan-potongan berdurasi 30 detik, yang diubah menjadi spektogram log-Mel dan dikirim ke encoder. Output dari encoder dikirim ke decoder, yang memprediksi representasi teks dicampur dengan token khusus yang memungkinkan, dalam satu model umum, untuk memecahkan masalah seperti deteksi bahasa, memperhitungkan kronologi pengucapan frasa, transkripsi ucapan dalam bahasa yang berbeda, dan terjemahan ke dalam bahasa Inggris.

Sumber: opennet.ru

Tambah komentar