Mozilla entwéckelt de Whisperfile Riederkennungstoolkit, deen eng onofhängeg, héich performant Implementatioun vum Whisper Maschinn Léiermodell enthält, entwéckelt an Open Source vun OpenAI. D'Toolkit baséiert op whisper.cpp, eng C/C++ Implementatioun vum Whisper Modell erstallt vum Georgy Gerganov (Auteur vun llama.cpp). De Code ass an C++ geschriwwen a gëtt ënner der MIT Lizenz verdeelt.
Whisperfile gëtt vum Mozilla Ocho Team entwéckelt an ass en Ergänzung zum llamafile-Projet, deen entwéckelt ass fir universell Ausféierbar ze kreéieren fir grouss Maschinnléiere Sproochmodeller (LLMs) ze lafen. Analogie mat llamafile erlaabt de Whisperfile-Projet, baséiert op enger Datei mat Maschinnléiermodellparameter am GGUF-Format, eng ausführbar Datei ze generéieren déi op verschiddene Betribssystemer op Ausrüstung mat AMD64 an ARM64 Prozessoren lafen kann. De kompiléierte Code kann mat der Cosmopolitan Standard C Bibliothéik verbonne ginn, wat et méiglech mécht Applikatiounsbauten ze kreéieren déi op Linux, FreeBSD, macOS, OpenBSD, NetBSD a Windows lafen.
Wann Dir eng ausführbar Datei leeft, gëtt eng Datei mat Ried Audio am wav, mp3, ogg oder flac Format als Inputparameter iwwerginn, an den unerkannten Text gëtt als Ausgang gespäichert. An der Praxis kann de Projet benotzt ginn fir Probleemer ze léisen, wéi zB Text Ënnerschrëfte fir Videoen ze generéieren, e Log vu Stëmm- a Videouriff erstellen, opgeholl Stëmmmaterial an Text ëmsetzen an d'Stëmminput organiséieren. Mat Whisperfile kënnen esou Aufgaben op engem lokalen System geléist ginn ouni op extern Servicer ze kommen.
Zousätzlech ënnerstëtzt et als HTTP-Server ze schaffen, deen Riederkennungsufroen iwwer d'Web API veraarbecht. GPU an AVX Instruktioune kënne benotzt ginn fir d'Aarbecht mam Modell ze beschleunegen. Den Toolkit kann och Vertrauensscores ausginn, wat Iech erlaabt unerkannte Wierder ze faarwen baséiert op wéi genau Dir se identifizéieren.

De Whisper Modell benotzt gouf op 680 Tausend Stonne Rieddaten trainéiert, déi verschidde Fachberäicher a Sproochen ofdecken (2/3 Daten op Englesch). De Modell ass gutt fir Akzenter Ried z'erkennen, technesch Jargon z'identifizéieren, automatesch Sproocherkennung z'ënnerstëtzen, a kann an der Präsenz vun Hannergrondgeräischer schaffen. Fir Ried op Englesch weist de System e Niveau vun der Zouverlässegkeet an der Genauegkeet vun der automatescher Unerkennung no bei der mënschlecher Unerkennung. Nieft der Iwwersetzung vun Ried an Text, kann de Modell och benotzt ginn fir Ried an eng aner Sprooch ze iwwersetzen.
Source: opennet.ru
