Atidarytas Whisper kalbos atpažinimo ir vertimo sistemos kodas

„OpenAI“ projektas, plėtojantis viešuosius projektus dirbtinio intelekto srityje, paskelbė su „Whisper“ kalbos atpažinimo sistema susijusius pokyčius. Teigiama, kad kalbant anglų kalba sistema užtikrina automatinio atpažinimo patikimumo ir tikslumo lygį, artimą žmogaus atpažinimui. Buvo atidarytas nuorodos diegimo kodas, pagrįstas „PyTorch“ sistema, ir jau parengtų modelių rinkinys, paruoštas naudoti. Kodas yra atidarytas pagal MIT licenciją.

Modeliui išmokyti buvo panaudota 680 tūkstančių valandų kalbos duomenų, surinktų iš kelių kolekcijų, apimančių skirtingas kalbas ir temas. Maždaug 1/3 kalbos duomenų, susijusių su mokymu, yra ne anglų kalba. Siūloma sistema teisingai valdo tokias situacijas kaip kirčiuotas tarimas, foninis triukšmas ir techninio žargono vartojimas. Be kalbos perrašymo į tekstą, sistema taip pat gali išversti kalbą iš bet kurios kalbos į anglų kalbą ir aptikti kalbos atsiradimą garso sraute.

Modeliai sudaromi dviem atvaizdais: modelis anglų kalbai ir daugiakalbis modelis, kuris taip pat palaiko rusų, ukrainiečių ir baltarusių kalbas. Savo ruožtu kiekvienas vaizdas yra padalintas į 5 parinktis, kurios skiriasi dydžiu ir modelio parametrų skaičiumi. Kuo didesnis dydis, tuo didesnis atpažinimo tikslumas ir kokybė, bet tuo aukštesni reikalavimai GPU vaizdo atminties dydžiui ir mažesnis našumas. Pavyzdžiui, minimali parinktis apima 39 milijonus parametrų ir reikalauja 1 GB vaizdo atminties, o maksimali - 1550 milijonų parametrų ir reikalauja 10 GB vaizdo atminties. Minimali parinktis yra 32 kartus greitesnė už didžiausią.

Atidarytas Whisper kalbos atpažinimo ir vertimo sistemos kodas

Sistema naudoja transformatoriaus neuroninio tinklo architektūrą, kurią sudaro vienas su kitu sąveikaujantys koduotuvas ir dekoderis. Garsas suskaidomas į 30 sekundžių dalis, kurios konvertuojamos į log-Mel spektrogramą ir siunčiamos į kodavimo įrenginį. Kodavimo įrenginio išvestis siunčiama į dekoderį, kuris numato teksto atvaizdavimą, sumaišytą su specialiais žetonais, kurie leidžia viename bendrame modelyje išspręsti tokias problemas kaip kalbos aptikimas, frazių tarimo chronologijos apskaita, kalbos transkripcija. įvairiomis kalbomis ir vertimas į anglų kalbą.

Šaltinis: opennet.ru

Добавить комментарий