Whisper kõnetuvastus- ja tõlkesüsteemi kood on avatud

Tehisintellekti valdkonna avalikke projekte arendav OpenAI projekt on avaldanud Whisper kõnetuvastussüsteemiga seotud arendused. Väidetavalt tagab süsteem ingliskeelse kõne puhul automaatse tuvastamise usaldusväärsuse ja täpsuse, mis on lähedane inimese äratundmisele. Avatud on PyTorchi raamistikul põhineva viiterakenduse kood ja juba koolitatud mudelite komplekt, mis on kasutusvalmis. Kood on avatud MIT-i litsentsi all.

Mudeli koolitamiseks kasutati 680 tuhat tundi kõneandmeid, mis koguti mitmest erinevat keelt ja ainevaldkonda hõlmavast kogust. Umbes 1/3 koolitusega seotud kõneandmetest on muudes keeltes kui inglise keel. Kavandatav süsteem käsitleb õigesti selliseid olukordi nagu rõhuasetusega hääldus, taustmüra ja tehnilise kõnepruugi kasutamine. Lisaks kõne tekstiks transkribeerimisele suudab süsteem tõlkida kõne mis tahes keelest inglise keelde ja tuvastada kõne ilmumist helivoos.

Mudelid on moodustatud kahes esituses: inglise keele mudel ja mitmekeelne mudel, mis toetab ka vene, ukraina ja valgevene keeli. Iga esitus on omakorda jagatud 5 valikuks, mis erinevad suuruse ja mudelis hõlmatud parameetrite arvu poolest. Mida suurem on suurus, seda suurem on tuvastamise täpsus ja kvaliteet, aga ka kõrgemad nõuded GPU videomälu suurusele ja seda madalam on jõudlus. Näiteks minimaalne valik sisaldab 39 miljonit parameetrit ja nõuab 1 GB videomälu ning maksimum sisaldab 1550 miljonit parameetrit ja nõuab 10 GB videomälu. Minimaalne valik on 32 korda kiirem kui maksimaalne.

Whisper kõnetuvastus- ja tõlkesüsteemi kood on avatud

Süsteem kasutab Transformeri närvivõrgu arhitektuuri, mis sisaldab üksteisega suhtlevat kodeerijat ja dekoodrit. Heli jaotatakse 30-sekundilisteks tükkideks, mis teisendatakse log-Mel spektrogrammiks ja saadetakse kodeerijasse. Kodeerija väljund saadetakse dekoodrisse, mis ennustab teksti esitust, mis on segatud spetsiaalsete märkidega, mis võimaldavad ühes üldmudelis lahendada selliseid probleeme nagu keele tuvastamine, fraaside häälduse kronoloogia arvestamine, kõne transkriptsioon. erinevates keeltes ja tõlkimine inglise keelde.

Allikas: opennet.ru

Lisa kommentaar