Codul pentru sistemul de recunoaștere și traducere a vorbirii Whisper a fost deschis

Proiectul OpenAI, care dezvoltă proiecte publice în domeniul inteligenței artificiale, a publicat evoluții legate de sistemul de recunoaștere a vorbirii Whisper. Se susține că pentru vorbirea în limba engleză sistemul oferă niveluri de fiabilitate și acuratețe ale recunoașterii automate apropiate de recunoașterea umană. Au fost deschise codul pentru implementarea de referință bazată pe framework-ul PyTorch și un set de modele deja antrenate gata de utilizare. Codul este deschis sub licența MIT.

Pentru a antrena modelul, au fost folosite 680 de mii de ore de date de vorbire, colectate din mai multe colecții care acoperă diferite limbi și domenii. Aproximativ 1/3 din datele de vorbire implicate în formare sunt în alte limbi decât engleza. Sistemul propus gestionează corect situații precum pronunția accentuată, zgomotul de fond și utilizarea jargonului tehnic. Pe lângă transcrierea vorbirii în text, sistemul poate traduce și vorbirea din orice limbă în engleză și poate detecta aspectul vorbirii în fluxul audio.

Modelele sunt formate în două reprezentări: un model pentru limba engleză și un model multilingv, care acceptă și limbile rusă, ucraineană și belarusă. La rândul său, fiecare reprezentare este împărțită în 5 opțiuni, care diferă ca dimensiune și numărul de parametri acoperiți în model. Cu cât dimensiunea este mai mare, cu atât acuratețea și calitatea recunoașterii sunt mai mari, dar și cerințele pentru dimensiunea memoriei video GPU sunt mai mari și performanța este mai mică. De exemplu, opțiunea minimă include 39 de milioane de parametri și necesită 1 GB de memorie video, iar cea maximă include 1550 de milioane de parametri și necesită 10 GB de memorie video. Opțiunea minimă este de 32 de ori mai rapidă decât cea maximă.

Codul pentru sistemul de recunoaștere și traducere a vorbirii Whisper a fost deschis

Sistemul folosește arhitectura rețelei neuronale Transformer, care include un encoder și un decodor care interacționează unul cu celălalt. Audio-ul este împărțit în bucăți de 30 de secunde, care sunt convertite într-o spectrogramă log-Mel și trimise la codificator. Ieșirea codificatorului este trimisă către decodor, care prezice o reprezentare a textului amestecată cu jetoane speciale care permit, într-un model general, să se rezolve probleme precum detectarea limbii, luarea în considerare a cronologiei pronunției frazelor, transcrierea vorbirii în diferite limbi și traducere în engleză.

Sursa: opennet.ru

Cumpărați găzduire de încredere pentru site-uri cu protecție DDoS, servere VPS VDS 🔥 Cumpără găzduire web fiabilă cu protecție DDoS, servere VPS VDS | ProHoster