Навсозии Mozilla Common Voice 7.0

NVIDIA ва Mozilla навсозии маҷмӯаҳои Common Voice-и худро нашр карданд, ки 182 намунаҳои нутқи одамонро дар бар мегирад, ки нисбат ба 25 моҳи пеш 6% зиёд аст. Маълумот ҳамчун домени ҷамъиятӣ (CC0) нашр карда мешавад. Маҷмӯаҳои пешниҳодшуда метавонанд дар системаҳои омӯзиши мошинсозӣ барои сохтани моделҳои шинохти нутқ ва синтез истифода шаванд.

Хачми материали нутки мачмуа назар ба навсозии пештара аз 9 ба 13.9 хазор соати сухан афзуд. Теъдоди забонҳои дастгирӣшаванда аз 60 то 76 адад афзоиш ёфт, аз ҷумла дастгирии забонҳои белорусӣ, қазоқӣ, ӯзбекӣ, булғорӣ, арманӣ, озарбойҷонӣ ва бошқирдӣ бори аввал. Маҷмӯа барои забони русӣ 2136 иштирокчӣ ва 173 соат маводи нутқ (1412 иштироккунанда ва 111 соат) ва ба забони украинӣ 615 иштирокчиён ва 66 соат (459 иштирок ва 30 соат) дар бар мегирад.

Дар тайёр кардани материалхо ба забони англией зиёда аз 75 хазор нафар одамон иштирок намуда, диктант 2637 соат нутки тасдик (66 хазор иштироккунанда ва 1686 соат) буданд. Ҷолиб он аст, ки забон аз рӯи ҳаҷми маълумоти ҷамъшуда дар ҷои дуюм Руанда мебошад, ки барои он 2260 соат ҷамъоварӣ шудааст. Пас аз он Олмон (1040), каталонӣ (920) ва эсперанто (840) мебошанд. Дар байни динамикӣ афзоиш додани андозаи маълумоти овозӣ забони тайӣ (20 маротиба зиёд кардани база, аз 12 то 250 соат), луганда (аз 8 то 80 соат), эсперанто (аз 100 то 840 соат) ва тамилӣ (аз 24 то 220 соат) мебошанд. аз соати XNUMX то XNUMX).

Дар доираи иштироки худ дар лоиҳаи Common Voice, NVIDIA дар асоси маълумоти ҷамъшуда моделҳои тайёри омӯзонидашударо барои системаҳои омӯзиши мошинсозӣ (аз ҷониби PyTorch дастгирӣ мекунад) омода кард. Моделҳо ҳамчун як қисми абзори ройгон ва кушодаи NVIDIA NeMo тақсим карда мешаванд, ки масалан, аллакай дар хидматҳои автоматии овозии МТС ва Сбербанк истифода мешаванд. Моделҳо барои истифода дар шинохти нутқ, синтези нутқ ва системаҳои коркарди забони табиӣ пешбинӣ шудаанд ва метавонанд барои муҳаққиқон дар сохтани системаҳои муколамаи бо овоз фаъолшуда, платформаҳои транскрипсия ва марказҳои зангҳои автоматӣ муфид бошанд. Баръакси лоиҳаҳои қаблан дастрас, моделҳои нашршуда танҳо бо шинохти забони англисӣ маҳдуд нестанд ва забонҳо, аксентҳо ва шаклҳои гуногуни нутқро фаро мегиранд.

Ёдовар мешавем, ки лоиҳаи “Овози умумӣ” ба ташкили кори муштарак ҷиҳати ҷамъоварии махзани шаклҳои овоз, ки гуногунии овозҳо ва услубҳои нутқро ба инобат мегирад, равона шудааст. Истифодабарандагон ба ибораҳои овозии дар экран нишондодашуда даъват карда мешаванд ё сифати маълумоти аз ҷониби корбарони дигар иловашударо арзёбӣ мекунанд. Махзани маълумотҳои ҷамъшуда бо сабти талаффузҳои гуногуни ибораҳои маъмулии нутқи инсон метавонад бидуни маҳдудият дар системаҳои омӯзиши мошинсозӣ ва лоиҳаҳои тадқиқотӣ истифода шавад.

Ба гуфтаи муаллифи китобхонаи шинохти сухани пайвастаи Vosk, камбудиҳои маҷмӯи овози умумӣ яктарафа будани маводи овозӣ (бартарияти мардони 20-30 сола ва набудани мавод бо овози занон) мебошад. , кӯдакон ва пиронсолон), набудани тағйирпазирӣ дар луғат (такрори ҳамон ибораҳо) ва паҳн кардани сабтҳо дар формати MP3 таҳрифшуда.

Манбаъ: opennet.ru

Илова Эзоҳ