Whisper-puheentunnistus- ja -käännösjärjestelmän koodi on avattu

Tekoälyn alan julkisia hankkeita kehittävä OpenAI-projekti on julkaissut Whisper-puheentunnistusjärjestelmään liittyviä kehityshankkeita. Väitetään, että englanninkielisessä puheessa järjestelmä tarjoaa automaattisen tunnistuksen luotettavuuden ja tarkkuuden lähellä ihmisen tunnistusta. PyTorch-kehykseen perustuvan referenssitoteutuksen koodi ja joukko valmiiksi koulutettuja malleja on avattu. Koodi on avoinna MIT-lisenssillä.

Mallin kouluttamiseen käytettiin 680 tuhatta tuntia puhedataa, joka kerättiin useista eri kieliä ja aihealueita kattavista kokoelmista. Noin 1/3 koulutukseen liittyvästä puhedatasta on muilla kielillä kuin englanniksi. Ehdotettu järjestelmä käsittelee oikein tilanteet, kuten korostettu ääntäminen, taustamelu ja teknisen ammattikieltä. Puheen tekstiksi muuntamisen lisäksi järjestelmä voi myös kääntää puheen mistä tahansa kielestä englanniksi ja havaita puheen esiintymisen äänivirrassa.

Mallit on muodostettu kahteen esitykseen: malli englannin kielelle ja monikielinen malli, joka tukee myös venäjän, ukrainan ja valkovenäläisiä kieliä. Jokainen esitys on puolestaan ​​jaettu viiteen vaihtoehtoon, jotka eroavat mallin kattamien parametrien koosta ja lukumäärästä. Mitä suurempi koko, sitä suurempi on tunnistuksen tarkkuus ja laatu, mutta myös korkeammat vaatimukset GPU-videomuistin koosta ja sitä alhaisempi suorituskyky. Esimerkiksi minimivaihtoehto sisältää 5 miljoonaa parametria ja vaatii 39 Gt videomuistia, ja maksimi sisältää 1 miljoonaa parametria ja vaatii 1550 Gt videomuistia. Pienin vaihtoehto on 10 kertaa nopeampi kuin maksimi.

Whisper-puheentunnistus- ja -käännösjärjestelmän koodi on avattu

Järjestelmä käyttää Transformer-hermoverkkoarkkitehtuuria, joka sisältää kooderin ja dekooderin, jotka ovat vuorovaikutuksessa keskenään. Ääni jaetaan 30 sekunnin paloiksi, jotka muunnetaan log-Mel-spektrogrammiksi ja lähetetään kooderiin. Enkooderin tulos lähetetään dekooderille, joka ennustaa tekstin esityksen sekoitettuna erityisiin merkkeihin, jotka mahdollistavat yhdessä yleisessä mallissa sellaisten ongelmien ratkaisemisen, kuten kielen havaitseminen, lauseiden ääntämisen kronologian ottaminen huomioon, puheen transkriptio eri kielillä ja käännökset englanniksi.

Lähde: opennet.ru

Lisää kommentti