Навсозии Mozilla Common Voice 8.0

Mozilla навсозии маҷмӯи маълумотҳои Common Voice-ро нашр кард, ки намунаҳои талаффузи тақрибан 200 нафарро дар бар мегирад. Маълумот ҳамчун домени ҷамъиятӣ (CC0) нашр карда мешавад. Маҷмӯаҳои пешниҳодшуда метавонанд дар системаҳои омӯзиши мошинсозӣ барои сохтани моделҳои шинохти нутқ ва синтез истифода шаванд. Хачми материали нутк дар мачмуа назар ба навсозии пештара 30 фоиз — аз 13.9 то 18.2 хазор соати нутк афзуд. Шумораи забонҳои дастгирӣшаванда аз 67 то 87 зиёд шудааст.

Маҷмӯа барои забони русӣ 2452 иштирокчӣ ва 193 соат маводи нутқӣ (2136 иштирокчӣ ва 173 соат), барои забони белорус 6160 нафар ва 987 соат (3831 иштироккунанда ва 356 соат), барои забони украинӣ - 684 иштирокчӣ ва 76 соат (615 иштирокчӣ ва 66 соат). Дар тайёр кардани материалхо ба забони англией зиёда аз 79 хазор нафар одамон иштирок карда, диктант 2886 соат нутки тасдик (75 хазор иштироккунанда ва 2637 соат) буданд.

Ёдовар мешавем, ки лоиҳаи “Овози умумӣ” ба ташкили кори муштарак ҷиҳати ҷамъоварии махзани шаклҳои овоз, ки гуногунии овозҳо ва услубҳои нутқро ба инобат мегирад, равона шудааст. Истифодабарандагон ба ибораҳои овозии дар экран нишондодашуда даъват карда мешаванд ё сифати маълумоти аз ҷониби корбарони дигар иловашударо арзёбӣ мекунанд. Махзани маълумотҳои ҷамъшуда бо сабти талаффузҳои гуногуни ибораҳои маъмулии нутқи инсон метавонад бидуни маҳдудият дар системаҳои омӯзиши мошинсозӣ ва лоиҳаҳои тадқиқотӣ истифода шавад. Ба гуфтаи муаллифи китобхонаи шинохти сухани пайвастаи Vosk, камбудиҳои маҷмӯи овози умумӣ яктарафа будани маводи овозӣ (бартарияти мардони 20-30 сола ва набудани мавод бо овози занон) мебошад. , кӯдакон ва пиронсолон), набудани тағйирпазирӣ дар луғат (такрори ҳамон ибораҳо) ва паҳн кардани сабтҳо дар формати таҳрифкунандаи MP3.

Илова бар ин, мо метавонем нашри асбобҳои NVIDIA NeMo 1.6-ро қайд кунем, ки усулҳои омӯзиши мошинро барои эҷоди системаҳои шинохти сухан, синтези нутқ ва коркарди забони табииро таъмин мекунад. NeMo дорои моделҳои омодаи истифодашуда барои системаҳои омӯзиши мошинсозӣ дар асоси чаҳорчӯбаи PyTorch мебошад, ки аз ҷониби NVIDIA бо истифода аз маълумоти Common Voice сухан омода шуда, забонҳо, аксентҳо ва шаклҳои гуногуни нутқро фаро мегирад. Моделҳо метавонанд барои тадқиқотчиёне, ки системаҳои муколамаи овозӣ, платформаҳои транскриптӣ ва марказҳои зангҳои автоматиро таҳия мекунанд, муфид бошанд. Масалан, NVIDIA NeMo дар хидматҳои автоматии овозии МТС ва Сбербанк истифода мешавад. Рамзи NeMo дар Python бо истифода аз PyTorch навишта шудааст ва таҳти иҷозатномаи Apache 2.0 паҳн карда мешавад.

Манбаъ: opennet.ru

Илова Эзоҳ