Kod untuk sistem pengecaman pertuturan dan terjemahan Whisper telah dibuka

Projek OpenAI, yang membangunkan projek awam dalam bidang kecerdasan buatan, telah menerbitkan perkembangan berkaitan sistem pengecaman pertuturan Whisper. Didakwa bahawa untuk pertuturan dalam bahasa Inggeris, sistem ini menyediakan tahap kebolehpercayaan dan ketepatan pengecaman automatik yang hampir dengan pengiktirafan manusia. Kod untuk pelaksanaan rujukan berdasarkan rangka kerja PyTorch dan satu set model yang sudah terlatih, sedia untuk digunakan, telah dibuka. Kod dibuka di bawah lesen MIT.

Untuk melatih model, 680 ribu jam data pertuturan digunakan, dikumpulkan dari beberapa koleksi yang meliputi bahasa dan bidang subjek yang berbeza. Kira-kira 1/3 daripada data pertuturan yang terlibat dalam latihan adalah dalam bahasa selain bahasa Inggeris. Sistem yang dicadangkan dengan betul mengendalikan situasi seperti sebutan beraksen, bunyi latar belakang dan penggunaan jargon teknikal. Selain menyalin pertuturan ke dalam teks, sistem ini juga boleh menterjemah pertuturan daripada mana-mana bahasa ke dalam bahasa Inggeris dan mengesan penampilan pertuturan dalam aliran audio.

Model-model tersebut dibentuk dalam dua perwakilan: model untuk bahasa Inggeris dan model berbilang bahasa, yang turut menyokong bahasa Rusia, Ukraine dan Belarus. Seterusnya, setiap perwakilan dibahagikan kepada 5 pilihan, berbeza dari segi saiz dan bilangan parameter yang diliputi dalam model. Semakin besar saiznya, semakin tinggi ketepatan dan kualiti pengecaman, tetapi juga semakin tinggi keperluan untuk saiz memori video GPU dan semakin rendah prestasinya. Sebagai contoh, pilihan minimum termasuk 39 juta parameter dan memerlukan 1 GB memori video, dan maksimum termasuk 1550 juta parameter dan memerlukan 10 GB memori video. Pilihan minimum ialah 32 kali lebih cepat daripada maksimum.

Kod untuk sistem pengecaman pertuturan dan terjemahan Whisper telah dibuka

Sistem ini menggunakan seni bina rangkaian neural Transformer, yang termasuk pengekod dan penyahkod yang berinteraksi antara satu sama lain. Audio dipecahkan kepada ketulan 30 saat, yang ditukar menjadi spektrogram log-Mel dan dihantar kepada pengekod. Output pengekod dihantar ke penyahkod, yang meramalkan perwakilan teks bercampur dengan token khas yang membolehkan, dalam satu model umum, untuk menyelesaikan masalah seperti pengesanan bahasa, perakaunan untuk kronologi sebutan frasa, transkripsi pertuturan dalam bahasa yang berbeza, dan terjemahan ke dalam bahasa Inggeris.

Sumber: opennet.ru

Tambah komen