Mozilla ûntwikkelet de Whisperfile spraakherkenning toolkit, dy't in ûnôfhinklike, hege prestaasjes ymplemintaasje omfettet fan it Whisper masine learen model ûntwikkele en iepen boarne troch OpenAI. De toolkit is basearre op whisper.cpp, in C/C++ ymplemintaasje fan it Whisper-model makke troch Georgy Gerganov (auteur fan llama.cpp). De koade is skreaun yn C ++ en wurdt ferspraat ûnder de MIT-lisinsje.
Whisperfile wurdt ûntwikkele troch it Mozilla Ocho-team en is in oanfolling op it llamafile-projekt, dat ûntworpen is om universele útfierbere bestannen te meitsjen foar it útfieren fan grutte masinelearentaalmodellen (LLM). Lykas llamafile kinne jo mei it whisperfile-projekt in útfierber bestân generearje basearre op in GGUF-bestân mei parameters foar masinelearenmodellen dy't kinne rinne op ferskate bestjoeringssystemen op hardware mei AMD64- en ARM64-prosessoren. De kompilearre koade kin keppele wurde oan de standert C-bibleteek Cosmopolitan, wêrtroch jo applikaasjebuilds kinne meitsje dy't rinne yn Linux, FreeBSD, macOS, OpenBSD, NetBSD en Windows.
As jo in útfierber bestân útfiere, wurdt in bestân mei spraakaudio yn wav-, mp3-, ogg- of flac-formaat trochjûn as in ynfierparameter, en de erkende tekst wurdt bewarre as de útfier. Yn 'e praktyk kin it projekt brûkt wurde om problemen op te lossen lykas it generearjen fan tekstûnderskriften foar fideo's, it meitsjen fan in log fan stim- en fideoproppen, it konvertearjen fan opnommen stimmaterialen yn tekst, en it organisearjen fan stimynput. Mei it brûken fan Whisperfile kinne sokke taken oplost wurde op in lokaal systeem sûnder te brûken op eksterne tsjinsten.
Derneist stipet it wurkjen as in HTTP-tsjinner dy't fersiken foar spraakherkenning ferwurket fia de Web API. GPU- en AVX-ynstruksjes kinne wurde brûkt om wurk mei it model te fersnellen. De toolkit kin ek fertrouwenskoares útfiere, wêrtroch jo erkende wurden kinne kleurje op basis fan hoe krekt jo se identifisearje.

It brûkte Whisper-model waard oplaat op 680 tûzen oeren spraakgegevens, dy't ferskate ûnderwerpgebieten en talen dekke (2/3 gegevens yn it Ingelsk). It model is goed yn it herkennen fan aksintrede spraak, it identifisearjen fan technysk jargon, it stypjen fan automatyske taaldeteksje, en kin wurkje yn 'e oanwêzigens fan eftergrûnlûd. Foar spraak yn it Ingelsk toant it systeem in nivo fan betrouberens en krektens fan automatyske erkenning tichtby minsklike erkenning. Neist it oersetten fan spraak yn tekst, kin it model ek brûkt wurde om spraak oer te setten yn in oare taal.
Boarne: opennet.ru
