Mozilla Common Voice 8.0-update

Mozilla heeft een update uitgebracht voor zijn Common Voice-datasets, die uitspraakvoorbeelden van bijna 200 mensen bevatten. De gegevens worden gepubliceerd als publiek domein (CC0). De voorgestelde sets kunnen worden gebruikt in machine learning-systemen om modellen voor spraakherkenning en synthese te bouwen. Vergeleken met de vorige update is het volume spraakmateriaal in de collectie met 30% toegenomen - van 13.9 naar 18.2 duizend uur spraak. Het aantal ondersteunde talen is gestegen van 67 naar 87.

De set voor de Russische taal omvat 2452 deelnemers en 193 uur aan spraakmateriaal (er waren 2136 deelnemers en 173 uur), voor de Wit-Russische taal - 6160 deelnemers en 987 uur (er waren 3831 deelnemers en 356 uur), voor de Oekraïense taal - 684 deelnemers en 76 uur (er waren 615 deelnemers en 66 uur). Meer dan 79 duizend mensen namen deel aan de voorbereiding van materiaal in het Engels, waarbij ze 2886 uur bevestigde toespraak dicteerden (er waren 75 duizend deelnemers en 2637 uur).

Laten we u eraan herinneren dat het Common Voice-project gericht is op het organiseren van gezamenlijk werk om een ​​database van stempatronen op te bouwen die rekening houdt met de diversiteit van stemmen en spraakstijlen. Gebruikers worden uitgenodigd om zinnen uit te spreken die op het scherm worden weergegeven of om de kwaliteit van de door andere gebruikers toegevoegde gegevens te beoordelen. De verzamelde database met records van verschillende uitspraken van typische menselijke uitdrukkingen kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten. Volgens de auteur van de Vosk-bibliotheek voor continue spraakherkenning zijn de nadelen van de Common Voice-set de eenzijdigheid van het stemmateriaal (de overheersing van mannelijke mensen van 20-30 jaar oud en het gebrek aan materiaal met de stemmen van vrouwen , kinderen en ouderen), het gebrek aan variatie in het woordenboek (herhaling van dezelfde zinnen) en het verspreiden van opnames in het vervormende mp3-formaat.

Daarnaast kunnen we de release noteren van de NVIDIA NeMo 1.6-toolkit, die machine learning-methoden biedt voor het creëren van spraakherkenningssystemen, spraaksynthese en natuurlijke taalverwerking. NeMo bevat kant-en-klare getrainde modellen voor machine learning-systemen op basis van het PyTorch-framework, opgesteld door NVIDIA met behulp van Common Voice-spraakgegevens en die een verscheidenheid aan talen, accenten en spraakvormen bestrijken. De modellen kunnen nuttig zijn voor onderzoekers die op spraak gebaseerde dialoogsystemen, transcriptieplatforms en geautomatiseerde callcenters ontwikkelen. NVIDIA NeMo wordt bijvoorbeeld gebruikt in geautomatiseerde spraakdiensten van MTS en Sberbank. De NeMo-code is geschreven in Python met behulp van PyTorch en gedistribueerd onder de Apache 2.0-licentie.

Bron: opennet.ru

Voeg een reactie