Whisper nitqinin tanınması və tərcümə sisteminin kodu açılıb

Süni intellekt sahəsində ictimai layihələr hazırlayan OpenAI layihəsi Whisper nitq tanıma sistemi ilə bağlı inkişafları dərc edib. İddia olunur ki, ingilis dilində nitq üçün sistem insan tanınmasına yaxın avtomatik tanınmanın etibarlılıq və dəqiqlik səviyyələrini təmin edir. PyTorch çərçivəsinə əsaslanan istinad tətbiqi kodu və artıq öyrədilmiş, istifadəyə hazır modellər dəsti açılmışdır. Kod MIT lisenziyası altında açıqdır.

Modeli öyrətmək üçün müxtəlif dilləri və mövzu sahələrini əhatə edən bir neçə kolleksiyadan toplanmış 680 min saat nitq məlumatından istifadə edilmişdir. Təlimdə iştirak edən nitq məlumatlarının təxminən 1/3 hissəsi ingilis dilindən başqa dillərdədir. Təklif olunan sistem vurğulu tələffüz, fon səs-küyü və texniki jarqondan istifadə kimi vəziyyətləri düzgün idarə edir. Sistem nitqi mətnə ​​köçürməklə yanaşı, nitqi istənilən dildən ingilis dilinə də tərcümə edə və audio axınında nitqin görünüşünü aşkar edə bilər.

Modellər iki təqdimatda formalaşıb: ingilis dili üçün model və rus, ukrayna və belarus dillərini də dəstəkləyən çoxdilli model. Öz növbəsində, hər bir təqdimat modeldə əhatə olunan parametrlərin ölçüsü və sayı ilə fərqlənən 5 varianta bölünür. Ölçü nə qədər böyükdürsə, tanınmanın dəqiqliyi və keyfiyyəti bir o qədər yüksəkdir, həm də GPU video yaddaşının ölçüsünə tələblər bir o qədər yüksək olur və performans aşağı olur. Məsələn, minimum seçimə 39 milyon parametr daxildir və 1 GB video yaddaş, maksimum isə 1550 milyon parametr daxildir və 10 GB video yaddaş tələb edir. Minimum seçim maksimumdan 32 dəfə sürətlidir.

Whisper nitqinin tanınması və tərcümə sisteminin kodu açılıb

Sistem bir-biri ilə qarşılıqlı əlaqədə olan kodlayıcı və dekoderdən ibarət Transformer neyron şəbəkəsi arxitekturasından istifadə edir. Səs 30 saniyəlik hissələrə bölünür, onlar log-Mel spektroqramına çevrilir və kodlayıcıya göndərilir. Kodlayıcının çıxışı dekoderə göndərilir, bu, bir ümumi modeldə dilin aşkarlanması, ifadələrin tələffüz xronologiyasının uçotu, nitqin transkripsiyası kimi problemləri həll etməyə imkan verən xüsusi işarələrlə qarışıq mətn təqdimatını proqnozlaşdırır. müxtəlif dillər və ingilis dilinə tərcümə.

Mənbə: opennet.ru

Добавить комментарий