Mozilla utvecklar taligenkänningsverktyget Whisperfile, som inkluderar en oberoende, högpresterande implementering av Whisper-maskininlärningsmodellen utvecklad och öppen källkod av OpenAI. Verktygslådan är baserad på whisper.cpp, en C/C++-implementering av Whisper-modellen skapad av Georgy Gerganov (författare till llama.cpp). Koden är skriven i C++ och distribueras under MIT-licensen.
Whisperfile utvecklas av Mozilla Ocho-teamet och kompletterar llamafile-projektet, som är utformat för att skapa universella körbara filer för att köra stora maskininlärningsspråkmodeller (LLM). I likhet med llamafile låter whisperfile-projektet dig generera en körbar fil baserad på en GGUF-fil med parametrar för maskininlärningsmodeller som kan köras på olika operativsystem på hårdvara med AMD64- och ARM64-processorer. Den kompilerade koden kan länkas till standard C-biblioteket Cosmopolitan, vilket gör att du kan skapa applikationsversioner som körs i Linux, FreeBSD, macOS, OpenBSD, NetBSD och Windows.
När du kör en körbar fil skickas en fil med talljud i wav-, mp3-, ogg- eller flac-format som en indataparameter och den igenkända texten sparas som utdata. I praktiken kan projektet användas för att lösa problem som att skapa texttexter för videor, skapa en logg över röst- och videosamtal, konvertera inspelat röstmaterial till text och organisera röstinmatning. Med hjälp av Whisperfile kan sådana uppgifter lösas på ett lokalt system utan att tillgripa externa tjänster.
Dessutom stöder den att arbeta som en HTTP-server som bearbetar taligenkänningsförfrågningar via webb-API. GPU- och AVX-instruktioner kan användas för att påskynda arbetet med modellen. Verktygslådan kan också mata ut konfidenspoäng, så att du kan färglägga igenkända ord baserat på hur exakt du identifierar dem.

Whisper-modellen som användes tränades på 680 tusen timmars taldata, som täckte olika ämnesområden och språk (2/3 data på engelska). Modellen är bra på att känna igen accentuerat tal, identifiera teknisk jargong, stödja automatisk språkdetektering och kan fungera i närvaro av bakgrundsljud. För tal på engelska visar systemet en nivå av tillförlitlighet och noggrannhet för automatisk igenkänning nära mänsklig igenkänning. Förutom att transkribera tal till text kan modellen även användas för att översätta tal till ett annat språk.
Källa: opennet.ru
