Рамзи системаи шинохти нутқ ва тарҷумаи Whisper кушода шуд

Лоиҳаи OpenAI, ки лоиҳаҳои ҷамъиятиро дар соҳаи зеҳни сунъӣ таҳия мекунад, коркардҳои марбут ба системаи шинохти нутқи Whisperро нашр кардааст. Гуфта мешавад, ки система барои суханронӣ бо забони англисӣ сатҳи эътимоднокӣ ва дақиқии шинохти автоматии ба шинохти инсон наздикро таъмин мекунад. Рамзи татбиқи истинод дар асоси чаҳорчӯбаи PyTorch ва маҷмӯи моделҳои аллакай омӯзонидашуда, ки барои истифода омодаанд, кушода шудаанд. Рамз таҳти иҷозатномаи MIT кушода аст.

Барои омӯзиши модел, 680 ҳазор соат маълумоти нутқ истифода шудааст, ки аз якчанд маҷмӯаҳои фарогирии забонҳо ва мавзӯъҳои гуногун ҷамъоварӣ шудаанд. Тақрибан 1/3 маълумоти нутқе, ки дар омӯзиш иштирок мекунанд, бо забонҳои ғайр аз забони англисӣ мебошанд. Системаи пешниҳодшуда вазъиятҳоро ба мисли талаффузи аксентӣ, садои пасзамина ва истифодаи жаргонҳои техникӣ дуруст идора мекунад. Илова бар тарҷумаи нутқ ба матн, система инчунин метавонад нутқро аз ҳар забон ба англисӣ тарҷума кунад ва пайдоиши нутқро дар ҷараёни аудио муайян кунад.

Моделҳо дар ду намояндагӣ ташкил карда шудаанд: модел барои забони англисӣ ва модели бисёрзабона, ки инчунин забонҳои русӣ, украинӣ ва белорусро дастгирӣ мекунад. Дар навбати худ, ҳар як намояндагӣ ба 5 вариант тақсим мешавад, ки аз рӯи андоза ва шумораи параметрҳои дар модел фаро гирифташуда фарқ мекунанд. Чӣ қадаре ки андозаи он калонтар бошад, ҳамон қадар дақиқӣ ва сифати шинохтан зиёдтар мешавад, аммо ҳамон қадар талабот ба андозаи хотираи видеоии GPU баландтар аст ва иҷрои он ҳамон қадар пасттар аст. Масалан, варианти минималӣ 39 миллион параметрро дар бар мегирад ва 1 ГБ хотираи видеоиро талаб мекунад ва ҳадди аксар 1550 миллион параметрҳоро дар бар мегирад ва 10 ГБ хотираи видеоиро талаб мекунад. Варианти минималӣ аз ҳадди аксар 32 маротиба тезтар аст.

Рамзи системаи шинохти нутқ ва тарҷумаи Whisper кушода шуд

Система меъмории шабакаи нейронии Transformer-ро истифода мебарад, ки рамзгузор ва декодерро дар бар мегирад, ки бо ҳамдигар ҳамкорӣ мекунанд. Аудио ба қисмҳои 30 сония тақсим карда мешавад, ки онҳо ба спектрограммаи log-Mel табдил дода мешаванд ва ба рамзгузор фиристода мешаванд. Натиҷаи рамзгузор ба декодер фиристода мешавад, ки он муаррифии матнро бо аломатҳои махсус омехта пешгӯӣ мекунад, ки дар як модели умумӣ барои ҳалли мушкилот ба монанди муайянкунии забон, баҳисобгирии хронологияи талаффузи ибораҳо, транскрипсияи нутқ дар забонҳои гуногун, ва тарҷума ба англисӣ.

Манбаъ: opennet.ru

Илова Эзоҳ