Kode kanggo sistem pangenalan wicara lan terjemahan Whisper wis dibukak

Proyek OpenAI, sing ngembangake proyek umum ing bidang intelijen buatan, wis nerbitake perkembangan sing ana gandhengane karo sistem pangenalan wicara Whisper. Diklaim manawa kanggo wicara ing basa Inggris sistem kasebut nyedhiyakake tingkat linuwih lan akurasi pangenalan otomatis sing cedhak karo pangenalan manungsa. Kode kanggo implementasi referensi adhedhasar kerangka PyTorch lan set model sing wis dilatih, siap digunakake, wis dibukak. Kode kasebut mbukak miturut lisensi MIT.

Kanggo nglatih model kasebut, 680 ewu jam data wicara digunakake, diklumpukake saka sawetara koleksi sing nyakup macem-macem basa lan wilayah subyek. Udakara 1/3 data wicara sing melu latihan ana ing basa liyane saka Inggris. Sistem sing diusulake kanthi bener nangani kahanan kayata lafal aksen, swara latar mburi, lan panggunaan jargon teknis. Saliyane nerjemahake wicara menyang teks, sistem uga bisa nerjemahake wicara saka basa apa wae menyang Inggris lan ndeteksi tampilan wicara ing stream audio.

Model kasebut dibentuk ing rong perwakilan: model kanggo basa Inggris lan model multibasa, sing uga ndhukung basa Rusia, Ukrainia lan Belarusia. Sabanjure, saben perwakilan dipérang dadi 5 opsi, beda karo ukuran lan jumlah paramèter sing ana ing model kasebut. Sing luwih gedhe ukurane, luwih akurasi lan kualitas pangenalan, nanging uga syarat sing luwih dhuwur kanggo ukuran memori video GPU lan kinerja sing luwih murah. Contone, pilihan minimal kalebu 39 yuta paramèter lan mbutuhake 1 GB memori video, lan maksimum kalebu 1550 yuta paramèter lan mbutuhake 10 GB memori video. Opsi minimal 32 kaping luwih cepet tinimbang maksimal.

Kode kanggo sistem pangenalan wicara lan terjemahan Whisper wis dibukak

Sistem kasebut nggunakake arsitektur jaringan syaraf Transformer, sing kalebu encoder lan decoder sing saling sesambungan. Audio kasebut dipérang dadi potongan 30 detik, sing diowahi dadi spektrogram log-Mel lan dikirim menyang encoder. Output saka encoder dikirim menyang decoder, sing prédhiksi representasi teks sing dicampur karo token khusus sing ngidini, ing siji model umum, kanggo ngatasi masalah kayata deteksi basa, akuntansi kanggo kronologi pronunciation saka frase, transkripsi wicara ing macem-macem basa, lan terjemahan menyang Inggris.

Source: opennet.ru

Add a comment