Whisper кепти таануу жана которуу системасынын коду ачылды

Жасалма интеллект тармагында коомдук долбоорлорду иштеп чыгуучу OpenAI долбоору Whisper кепти таануу системасына байланыштуу иштеп чыгууларды жарыялады. Бул система англис тилиндеги сүйлөө үчүн адам таанууга жакын автоматтык таануунун ишенимдүүлүгүн жана тактыгын камсыз кылат деп айтылат. PyTorch рамкасына негизделген маалымдама ишке ашыруу коду жана колдонууга даяр болгон буга чейин үйрөтүлгөн моделдердин топтому ачылды. Код MIT лицензиясы боюнча ачык.

Моделди окутуу үчүн ар кандай тилдерди жана предметтик аймактарды камтыган бир нече жыйнактардан чогултулган 680 миң сааттык кеп маалыматы колдонулган. Тренингге катышкан кеп маалыматтарынын 1/3 бөлүгү англис тилинен башка тилдерде. Сунушталган система акценттүү айтылуу, фондо ызы-чуу жана техникалык жаргондорду колдонуу сыяктуу кырдаалдарды туура чечет. Кепти текстке транскрипциялоодон тышкары, система кепти каалаган тилден англис тилине которуп, аудио агымдагы кептин көрүнүшүн аныктай алат.

Моделдер эки өкүлчүлүктө түзүлөт: англис тили үчүн үлгү жана орус, украин жана белорус тилдерин колдогон көп тилдүү модель. Өз кезегинде, ар бир өкүлчүлүк моделде камтылган параметрлердин өлчөмү жана саны боюнча айырмаланган 5 вариантка бөлүнөт. Өлчөмү канчалык чоң болсо, таануунун тактыгы жана сапаты ошончолук жогору болот, бирок ошондой эле GPU видео эстутумунун өлчөмүнө талаптар ошончолук жогору жана өндүрүмдүүлүгү ошончолук төмөн болот. Мисалы, минималдуу параметр 39 миллион параметрди камтыйт жана 1 ГБ видео эстутумду талап кылат, ал эми максимум 1550 миллион параметрди камтыйт жана 10 ГБ видео эстутумду талап кылат. Минималдуу вариант максимумдан 32 эсе тезирээк.

Whisper кепти таануу жана которуу системасынын коду ачылды

Система Transformer нейрон тармагынын архитектурасын колдонот, ал бири-бири менен өз ара аракеттенүүчү коддоочу жана декодерди камтыйт. Аудио 30 секунддук бөлүктөргө бөлүнөт, алар лог-Мел спектрограммасына айландырылат жана коддорго жөнөтүлөт. Шифрлөөчүнүн чыгышы декодерге жөнөтүлөт, ал бир жалпы моделде тилди аныктоо, сөз айкаштарынын айтылышынын хронологиясын эсепке алуу, кептин транскрипциясы сыяктуу маселелерди чечүүгө мүмкүндүк берген атайын токендер менен аралашкан тексттин көрсөтүлүшүн болжолдойт. ар кандай тилдер жана англис тилине которуу.

Source: opennet.ru

Комментарий кошуу