Mozilla Common Voice 7.0-update

NVIDIA en Mozilla hebben een update uitgebracht voor hun Common Voice-datasets, die 182 spraakfragmenten van mensen bevatten, een stijging van 25% ten opzichte van 6 maanden geleden. De gegevens worden gepubliceerd als publiek domein (CC0). De voorgestelde sets kunnen worden gebruikt in machine learning-systemen om modellen voor spraakherkenning en synthese te bouwen.

Vergeleken met de vorige update is de omvang van het spraakmateriaal in de collectie toegenomen van 9 naar 13.9 duizend uren spraak. Het aantal ondersteunde talen is gestegen van 60 naar 76, inclusief voor het eerst ondersteuning voor de Wit-Russische, Kazachse, Oezbeekse, Bulgaarse, Armeense, Azerbeidzjaanse en Basjkierse talen. De set voor de Russische taal omvat 2136 deelnemers en 173 uur aan spraakmateriaal (er waren 1412 deelnemers en 111 uur), en voor de Oekraïense taal - 615 deelnemers en 66 uur (er waren 459 deelnemers en 30 uur).

Meer dan 75 duizend mensen namen deel aan de voorbereiding van materiaal in het Engels, waarbij ze 2637 uur bevestigde toespraak dicteerden (er waren 66 duizend deelnemers en 1686 uur). Interessant genoeg is Rwanda de taal op de tweede plaats wat betreft de hoeveelheid verzamelde gegevens, waarvoor 2260 uur zijn verzameld. Daarna volgen Duits (1040), Catalaans (920) en Esperanto (840). Tot de meest dynamisch toenemende omvang van spraakgegevens behoren de Thaise taal (20-voudige toename in de basis, van 12 naar 250 uur), Luganda (van 8 naar 80 uur), Esperanto (van 100 naar 840 uur) en Tamil ( van 24 tot 220 uur).uur).

Als onderdeel van haar deelname aan het Common Voice-project heeft NVIDIA kant-en-klare getrainde modellen voor machine learning-systemen opgesteld (ondersteund door PyTorch) op basis van de verzamelde gegevens. De modellen worden verspreid als onderdeel van de gratis en open NVIDIA NeMo-toolkit, die bijvoorbeeld al wordt gebruikt in de geautomatiseerde spraakdiensten van MTS en Sberbank. De modellen zijn bedoeld voor gebruik in spraakherkennings-, spraaksynthese- en natuurlijke taalverwerkingssystemen, en kunnen nuttig zijn voor onderzoekers die stemgestuurde dialoogsystemen, transcriptieplatforms en geautomatiseerde callcenters bouwen. In tegenstelling tot eerder beschikbare projecten zijn de gepubliceerde modellen niet beperkt tot de Engelse taalherkenning en bestrijken ze een verscheidenheid aan talen, accenten en spraakvormen.

Laten we u eraan herinneren dat het Common Voice-project gericht is op het organiseren van gezamenlijk werk om een ​​database van stempatronen op te bouwen die rekening houdt met de diversiteit aan stemmen en spraakstijlen. Gebruikers worden uitgenodigd om zinnen uit te spreken die op het scherm worden weergegeven of om de kwaliteit van de door andere gebruikers toegevoegde gegevens te beoordelen. De verzamelde database met records van verschillende uitspraken van typische menselijke uitdrukkingen kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten.

Volgens de auteur van de Vosk-bibliotheek voor continue spraakherkenning zijn de nadelen van de Common Voice-set de eenzijdigheid van het stemmateriaal (de overheersing van mannelijke mensen van 20-30 jaar oud en het gebrek aan materiaal met de stemmen van vrouwen , kinderen en ouderen), het gebrek aan variatie in het woordenboek (herhaling van dezelfde zinnen) en de distributie van opnames in het vervormende mp3-formaat.

Bron: opennet.ru

Voeg een reactie