Whisper nutqini aniqlash va tarjima qilish tizimi uchun kod ochildi

Sun'iy intellekt sohasidagi ommaviy loyihalarni ishlab chiquvchi OpenAI loyihasi Whisper nutqni aniqlash tizimi bilan bog'liq ishlanmalarni e'lon qildi. Ta'kidlanishicha, ingliz tilidagi nutq uchun tizim inson tanib olish darajasiga yaqin avtomatik tanib olishning ishonchlilik va aniqlik darajasini ta'minlaydi. PyTorch ramkasi va foydalanishga tayyor allaqachon o'qitilgan modellar to'plamiga asoslangan ma'lumotnomani amalga oshirish uchun kod ochildi. Kod MIT litsenziyasi ostida ochiq.

Modelni o'qitish uchun turli tillar va mavzularni qamrab olgan bir nechta to'plamlardan to'plangan 680 ming soatlik nutq ma'lumotlari ishlatilgan. Treningga jalb qilingan nutq ma'lumotlarining taxminan 1/3 qismi ingliz tilidan boshqa tillarda. Taklif etilayotgan tizim urg'uli talaffuz, fon shovqini va texnik jargondan foydalanish kabi vaziyatlarni to'g'ri hal qiladi. Tizim nutqni matnga transkripsiya qilishdan tashqari, nutqni istalgan tildan ingliz tiliga ham tarjima qilishi va audio oqimidagi nutqning koβ€˜rinishini aniqlashi mumkin.

Modellar ikkita ko'rinishda tuzilgan: ingliz tili uchun model va rus, ukrain va belarus tillarini ham qo'llab-quvvatlaydigan ko'p tilli model. O'z navbatida, har bir vakillik 5 ta variantga bo'linadi, ular hajmi va modelda qamrab olingan parametrlar soni bilan farqlanadi. Hajmi qanchalik katta bo'lsa, tanib olishning aniqligi va sifati shunchalik yuqori bo'ladi, lekin ayni paytda GPU video xotirasi hajmiga talablar qanchalik baland va unumdorligi past bo'ladi. Misol uchun, minimal variant 39 million parametrni o'z ichiga oladi va 1 Gb video xotirani talab qiladi va maksimal 1550 million parametrni o'z ichiga oladi va 10 Gb video xotirani talab qiladi. Minimal variant maksimaldan 32 marta tezroq.

Whisper nutqini aniqlash va tarjima qilish tizimi uchun kod ochildi

Tizim Transformer neyron tarmog'i arxitekturasidan foydalanadi, u bir-biri bilan o'zaro ta'sir qiluvchi kodlovchi va dekoderni o'z ichiga oladi. Ovoz 30 soniyali bo'laklarga bo'linadi, ular log-Mel spektrogrammasiga aylantiriladi va kodlovchiga yuboriladi. Kodlovchining chiqishi dekoderga yuboriladi, u bitta umumiy modelda tilni aniqlash, iboralarning talaffuz xronologiyasini hisobga olish, nutqni transkripsiyalash kabi muammolarni hal qilishga imkon beradigan maxsus belgilar bilan aralashtirilgan matn ko'rinishini bashorat qiladi. turli tillar va ingliz tiliga tarjima.

Manba: opennet.ru

a Izoh qo'shish