Mozilla сөйлеуді тану DeepSpeech 0.6 қозғалтқышын ұсынды

Жіберген Mozilla әзірлеген сөйлеуді тану қозғалтқышының шығарылымы DeepSpeech 0.6аттас сөйлеуді тану архитектурасын жүзеге асыратын , ұсынылған Байду зерттеушілері. Іске асыру Python тілінде TensorFlow машиналық оқыту платформасы арқылы жазылған және таралады тегін MPL 2.0 лицензиясы бойынша. Linux, Android, macOS және Windows жүйелерінде жұмысты қолдайды. Өнімділік қозғалтқышты LePotato, Raspberry Pi 3 және Raspberry Pi 4 тақталарында пайдалану үшін жеткілікті.

Сондай-ақ жиынтыққа кіреді ұсынылады үйретілген модельдер, мысалдар пәрмен жолынан дыбыс файлдары мен тану құралдары. Сөйлеуді тану функциясын бағдарламаларыңызға біріктіру үшін Python, NodeJS, C++ және .NET үшін пайдалануға дайын модульдер ұсынылады (үшінші тарап әзірлеушілері тот и Go). Дайын үлгі тек ағылшын тілінде, бірақ басқа тілдер үшін жеткізіледі тіркелген нұсқаулар пайдалана отырып жүйені өзіңіз жаттықтыра аласыз дауыстық деректер, Common Voice жобасы жинаған.

DeepSpeech дәстүрлі жүйелерге қарағанда әлдеқайда қарапайым және сонымен бірге бөгде шу болған кезде жоғары сапалы тануды қамтамасыз етеді. Ол дәстүрлі акустикалық модельдерді және фонемалар тұжырымдамасын айналып өтеді, оның орнына шу, жаңғырық және сөйлеу мүмкіндіктері сияқты әртүрлі аномалияларды модельдеу үшін бөлек компоненттерді әзірлеу қажеттілігін болдырмайтын жоғары оңтайландырылған нейрондық желіге негізделген машиналық оқыту жүйесін пайдаланады.

Бұл тәсілдің кемшілігі - нейрондық желіні жоғары сапалы тану және оқыту үшін DeepSpeech қозғалтқышы нақты жағдайларда әртүрлі дауыстармен және табиғи шудың қатысуымен жазылған үлкен көлемдегі гетерогенді деректерді қажет етеді.
Mozilla-да жасалған жоба осындай деректерді жинайды. Жалпы дауыс, 780 сағаттық тексерілген деректер жинағын қамтамасыз ету Ағылшын тілі, неміс тілінде 325, француз тілінде 173 және орыс тілінде 27 сағат.

Common Voice жобасының түпкі мақсаты – танудағы қателердің қолайлы деңгейіне қол жеткізуге мүмкіндік беретін адам сөйлеуінің типтік фразалары әртүрлі айтылуларының 10 мың сағаттық жазбасын жинақтау. Қазіргі түрінде жобаға қатысушылар жалпы саны 4.3 мың сағатты диктант етіп қойды, оның 3.5 мыңы сынақтан өтті. DeepSpeech үшін ағылшын тілінің соңғы үлгісін үйрету кезінде LibriSpeech, Fisher және Switchboard жобаларының деректерін қамтитын Common Voice қызметінен басқа, 3816 сағат сөйлеу пайдаланылды, сонымен қатар 1700 сағатқа жуық транскрипцияланған радиошоу жазбалары бар.

Жүктеп алуға ұсынылған ағылшын тілінің дайын үлгісін пайдаланған кезде, DeepSpeech бағдарламасында тану қателігінің деңгейі сынақ жинағымен бағаланған кезде 7.5% құрайды. LibriSpeech. Салыстыру үшін, адамды танудағы қателік деңгейі бағаланады % 5.83%.

DeepSpeech екі ішкі жүйеден тұрады - акустикалық модель және декодер. Акустикалық модель кіріс дыбысында белгілі бір таңбалардың болу ықтималдығын есептеу үшін терең машиналық оқыту әдістерін пайдаланады. Декодер таңба ықтималдығы деректерін мәтіндік көрініске түрлендіру үшін сәулелік іздеу алгоритмін пайдаланады.

басты инновациялар DeepSpeech 0.6 (0.6 тармағы алдыңғы шығарылымдармен үйлесімді емес және код пен үлгі жаңартуларын қажет етеді):

  • Жоғары жауап беруді қамтамасыз ететін және өңделген аудио деректердің өлшеміне тәуелсіз жаңа ағынды декодер ұсынылады. Нәтижесінде DeepSpeech-тің жаңа нұсқасы танудың кешігуін 260 мс дейін азайта алды, бұл бұрынғыға қарағанда 73% жылдамырақ және DeepSpeech-ті сөйлеуді тану шешімдерінде жылдам қолдануға мүмкіндік береді.
  • API-ге өзгертулер енгізілді және функция атауларын бір жүйеге келтіру бойынша жұмыс жүргізілді. Синхрондау туралы қосымша метадеректер алу үшін функциялар қосылды, бұл мәтіндік көріністі шығыс ретінде алуға ғана емес, сонымен қатар жеке таңбалар мен сөйлемдердің аудио ағындағы орынға байланыстыруын қадағалауға мүмкіндік береді.
  • Оқу модульдеріне арналған құралдар жинағына кітапхананы пайдалануды қолдау қосылды CuDNN қайталанатын нейрондық желілермен (RNN) жұмысты оңтайландыру, бұл модельді оқыту өнімділігін айтарлықтай (шамамен екі есе) арттыруға қол жеткізуге мүмкіндік берді, бірақ бұрын дайындалған модельдермен үйлесімділікті бұзатын кодқа өзгертулер енгізуді талап етті.
  • TensorFlow нұсқасының ең төменгі талаптары 1.13.1-ден 1.14.0-ге дейін көтерілді. DeepSpeech бумасының өлшемін 98 МБ-тан 3.7 МБ-қа дейін азайтатын TensorFlow Lite жеңіл басылымына қолдау қосылды. Енгізілген және мобильді құрылғыларда пайдалану үшін үлгімен бірге оралған файлдың өлшемі де 188 МБ-тан 47 МБ-қа дейін қысқартылды (модель үйретілгеннен кейін сығу үшін кванттау әдісі қолданылады).
  • Тіл үлгісі файлдарды жүктелген кезде жадқа салыстыруға мүмкіндік беретін басқа деректер құрылымы пішіміне аударылды. Ескі пішімге қолдау көрсету тоқтатылды.
  • Тіл үлгісі бар файлды жүктеу режимі өзгертілді, ол модельді жасағаннан кейін бірінші сұрауды өңдеу кезінде жадты тұтынуды азайтты және кідірістерді азайтты. Жұмыс кезінде DeepSpeech енді жадты 22 есе аз тұтынады және 500 есе жылдамырақ іске қосылады.

    Mozilla сөйлеуді тану DeepSpeech 0.6 қозғалтқышын ұсынды

  • Тілдік үлгіде сирек кездесетін сөздер сүзгіден өтті. Сөздердің жалпы саны үлгіні үйрету үшін қолданылған мәтінде кездесетін ең танымал сөздердің 500 мыңына дейін қысқарды. Тазалау тану қатесінің жылдамдығына іс жүзінде ешқандай әсер етпей, тіл үлгісінің өлшемін 1800 МБ-тан 900 МБ-қа дейін азайтуға мүмкіндік берді.
  • Әртүрлі қолдаулар қосылды техник оқытуда пайдаланылатын аудио деректердің қосымша вариацияларын (ұлғайту) жасау (мысалы, опциялар жинағына бұрмалау немесе шуды қосу).
  • .NET платформасына негізделген қолданбалармен біріктіру үшін байланыстары бар кітапхана қосылды.
  • Құжаттама қайта өңделген және қазір бөлек веб-сайтта жинақталған. deepspeech.readthedocs.io.

Ақпарат көзі: opennet.ru

пікір қалдыру