Mozilla kehittää Whisperfile-puheentunnistustyökalupakkia, joka sisältää itsenäisen ja tehokkaan toteutuksen Whisper-koneoppimismallista, jonka on kehittänyt ja julkaissut avoimen lähdekoodin versio OpenAI. Työkalupakki perustuu whisper.cpp-työkaluun, joka on Georgiy Gerganovin (llama.cpp-työkalun tekijä) Whisper-mallin C/C++-toteutus. Koodi on kirjoitettu C++:lla ja jaettu MIT-lisenssillä.
Whisperfile-projektia kehittää Mozilla Ocho -tiimi, ja se täydentää llamafile-projektia, jonka tarkoituksena on luoda yleismaailmallisia suoritettavia tiedostoja suurten koneoppimiskielimallien (LLM) suorittamiseen. Samoin kuin llamafile, whisperfile-projekti mahdollistaa suoritettavan tiedoston luomisen GGUF-tiedoston pohjalta koneoppimismalliparametreilla, ja tiedosto toimii eri käyttöjärjestelmissä AMD64- ja ARM64-prosessoreilla varustetuissa laitteistoissa. Käännetty koodi voidaan linkittää C-kielen standardikirjastoon Cosmopolitan, jolloin voit luoda sovelluskoonteja, jotka toimivat... Linux, FreeBSD, macOS, OpenBSD, NetBSD ja Windows.
Suoritettavaa tiedostoa suoritettaessa syötteenä annetaan wav-, mp3-, ogg- tai flac-muodossa oleva puheäänitiedosto ja tunnistettu teksti tallennetaan tulosteena. Käytännössä projektia voidaan käyttää ongelmien ratkaisemiseen, kuten videoiden tekstitekstien luomiseen, ääni- ja videopuhelulokien luomiseen, tallennetun äänimateriaalin muuntamiseen tekstiksi ja äänisyötteen järjestämiseen. Whisperfilen avulla tällaiset tehtävät voidaan suorittaa paikallisessa järjestelmässä ilman ulkoisia palveluita.
Lisäksi se tukee toimintaa HTTP-palvelimena ja puheentunnistuspyyntöjen käsittelyä Web-rajapinnan kautta. Grafiikkasuorittimia ja AVX-käskyjä voidaan käyttää mallin käsittelyn nopeuttamiseen. Työkalupakki voi myös tuottaa luotettavuuspisteitä, jolloin tunnistetut sanat voidaan värittää niiden tarkkuuden perusteella.

Käytettyä Whisper-mallia koulutettiin 680 000 tunnilla puhedataa, joka kattoi eri aihealueita ja kieliä (kaksi kolmasosaa datasta on englanniksi). Malli tunnistaa hyvin aksenttisen puheen, tunnistaa teknisen ammattikielen, tukee automaattista kielen tunnistusta ja pystyy toimimaan taustamelun läsnä ollessa. Englanninkielisen puheen osalta järjestelmä osoittaa automaattisessa tunnistuksessa lähes ihmisen tunnistusta vastaavan luotettavuuden ja tarkkuuden. Puheen tekstiksi litteroinnin lisäksi mallia voidaan käyttää myös puheen kääntämiseen toiselle kielelle.
Lähde: opennet.ru
