Mozilla razvija alat za prepoznavanje govora Whisperfile

Mozilla razvija Whisperfile alat za prepoznavanje govora, koji uključuje neovisnu, visokoučinkovitu implementaciju Whisper modela strojnog učenja, razvijenog i otvorenog koda od strane OpenAI-a. Alat se temelji na whisper.cpp, C/C++ implementaciji Whisper modela Georgiya Gerganova (autora llama.cpp). Kod je napisan u C++ i distribuiran pod MIT licencom.

Whisperfile razvija tim Mozilla Ocho i nadopunjuje projekt llamafile, koji je osmišljen za stvaranje univerzalnih izvršnih datoteka za pokretanje velikih jezičnih modela strojnog učenja (LLM). Slično llamafileu, projekt whisperfile omogućuje vam generiranje izvršne datoteke na temelju GGUF datoteke s parametrima modela strojnog učenja koja se može pokretati na raznim operativnim sustavima na hardveru s AMD64 i ARM64 procesorima. Kompilirani kod može se povezati sa standardnom C bibliotekom Cosmopolitan, što vam omogućuje stvaranje verzija aplikacija koje se pokreću u Linux, FreeBSD, macOS, OpenBSD, NetBSD i Windows.

Prilikom pokretanja izvršne datoteke, kao ulaz se prosljeđuje audio datoteka govora u wav, mp3, ogg ili flac formatu, a prepoznati tekst se sprema kao izlaz. U praksi se projekt može koristiti za rješavanje problema kao što su generiranje tekstualnih titlova za videozapise, stvaranje zapisnika glasovnih i video poziva, pretvaranje snimljenih glasovnih materijala u tekst i organiziranje glasovnog unosa. Pomoću Whisperfilea takvi se zadaci mogu obaviti na lokalnom sustavu bez pribjegavanja vanjskim uslugama.

Osim toga, podržava funkcioniranje kao HTTP poslužitelj, obrađujući zahtjeve za prepoznavanje govora putem web API-ja. GPU-ovi i AVX instrukcije mogu se koristiti za ubrzanje obrade modela. Alat također može ispisivati ​​ocjene pouzdanosti, omogućujući bojenje prepoznatih riječi na temelju njihove točnosti.

Mozilla razvija alat za prepoznavanje govora Whisperfile

Korišteni Whisper model obučen je na 680.000 sati govornih podataka koji pokrivaju različita predmetna područja i jezike (dvije trećine podataka su na engleskom). Model dobro prepoznaje naglasni govor, identificira tehnički žargon, podržava automatsko otkrivanje jezika i može raditi u prisutnosti pozadinske buke. Za engleski govor, sustav pokazuje razinu pouzdanosti i točnosti u automatskom prepoznavanju blisku ljudskom prepoznavanju. Osim za transkripciju govora u tekst, model se može koristiti i za prevođenje govora na drugi jezik.

Izvor: opennet.ru

Kupite pouzdan hosting za stranice s DDoS zaštitom, VPS VDS poslužiteljima 🔥 Kupite pouzdan web hosting sa DDoS zaštitom, VPS VDS servere | ProHoster