Mozilla Common Voice 7.0 шинэчлэлт

NVIDIA болон Mozilla 182 хүний ​​ярианы дээжийг багтаасан Common Voice мэдээллийн багцдаа шинэчлэлтийг гаргасан нь 25 сарын өмнөхөөс 6%-иар өссөн байна. Мэдээллийг нийтийн домэйн (CC0) болгон нийтэлсэн. Санал болгож буй багцуудыг яриа таних болон синтезийн загваруудыг бүтээхэд машин сургалтын системд ашиглаж болно.

Өмнөх шинэчлэлтэй харьцуулахад цуглуулгын ярианы материалын хэмжээ 9-өөс 13.9 мянган цаг болж нэмэгдсэн байна. Дэмжигдсэн хэлний тоо 60-аас 76 болж нэмэгдсэн бөгөөд үүнд Беларусь, казах, узбек, болгар, армян, азербайжан, башкир хэл анх удаа дэмжигджээ. Орос хэлний багцад 2136 оролцогч, 173 цагийн ярианы материал (1412 оролцогч, 111 цаг), Украин хэлээр - 615 оролцогч, 66 цаг (459 оролцогч, 30 цаг) багтсан болно.

Англи хэл дээр материал бэлтгэхэд 75 мянга гаруй хүн оролцож, 2637 цаг баталгаатай илтгэл (66 мянган оролцогч, 1686 цаг) заажээ. Сонирхолтой нь, хуримтлагдсан мэдээллийн хэмжээгээр хоёрдугаарт бичигддэг хэл нь Руанда бөгөөд 2260 цаг цуглуулсан байна. Үүний дараа Герман (1040), Каталан (920), Эсперанто (840) бичигджээ. Дуут өгөгдлийн хэмжээ хамгийн динамикаар нэмэгдэж байгаа нь Тайланд хэл (суурь нь 20 дахин нэмэгдэж, 12-аас 250 цаг хүртэл), Луганда (8-аас 80 цаг хүртэл), Эсперанто (100-аас 840 цаг хүртэл), Тамил ( 24-220 цаг хүртэл).цаг).

Common Voice төсөлд оролцох хүрээнд NVIDIA цуглуулсан мэдээлэлд тулгуурлан машин сургалтын системд (PyTorch дэмждэг) бэлэн бэлтгэгдсэн загваруудыг бэлтгэсэн. Загваруудыг үнэгүй, нээлттэй NVIDIA NeMo хэрэгслийн нэг хэсэг болгон тараасан бөгөөд жишээлбэл, MTS болон Сбербанкны автомат дуут үйлчилгээнд аль хэдийн ашиглагдаж байна. Загварууд нь яриа таних, ярианы синтез, байгалийн хэл боловсруулах системд ашиглахад зориулагдсан бөгөөд дуу хоолойгоор идэвхжүүлсэн харилцан ярианы систем, транскрипцийн платформ, автомат дуудлагын төвийг бий болгох судлаачдад хэрэгтэй байж болох юм. Өмнө нь бэлэн байсан төслүүдээс ялгаатай нь хэвлэгдсэн загварууд нь зөвхөн англи хэлийг танихад хязгаарлагдахгүй бөгөөд төрөл бүрийн хэл, өргөлт, ярианы хэлбэрийг хамардаг.

“Common Voice” төсөл нь дуу хоолой, ярианы хэв маягийн олон талт байдлыг харгалзан дуу хоолойны хэв маягийн мэдээллийн санг бүрдүүлэх хамтарсан ажлыг зохион байгуулах зорилготой гэдгийг сануулъя. Хэрэглэгчдийг дэлгэцэн дээр харуулсан дуут хэллэг эсвэл бусад хэрэглэгчдийн нэмсэн өгөгдлийн чанарыг үнэлэхийг урьж байна. Хүний ярианы ердийн хэллэгүүдийн янз бүрийн дуудлагын бүртгэл бүхий хуримтлагдсан мэдээллийн санг машин сургалтын систем болон судалгааны төслүүдэд хязгаарлалтгүйгээр ашиглах боломжтой.

Vosk тасралтгүй яриа таних номын сангийн зохиогчийн үзэж байгаагаар Common Voice багцын сул тал нь дуу хоолойны материалын нэг талыг барьсан байдал (20-30 насны эрэгтэй хүмүүсийн давамгайлал, эмэгтэйчүүдийн дуу хоолойтой материал хомс) юм. , хүүхэд, өндөр настан), толь бичигт хувьсах чадвар дутмаг (ижил хэллэгийг давтах), бичлэгийг гажуудуулсан MP3 форматаар тараах.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх