NVIDIA investeert $1.5 miljoen in het Mozilla Common Voice-project

NVIDIA investeert $1.5 miljoen in het Mozilla Common Voice-project. De belangstelling voor spraakherkenningssystemen komt voort uit de voorspelling dat spraaktechnologie de komende tien jaar een van de belangrijkste manieren zal worden waarop mensen omgaan met apparaten, variërend van computers en telefoons tot digitale assistenten en kiosken.

De prestaties van spraaksystemen zijn sterk afhankelijk van het volume en de verscheidenheid aan spraakgegevens die beschikbaar zijn voor het trainen van machine learning-modellen. De huidige stemtechnologie richt zich primair op de herkenning van de Engelse taal en bestrijkt niet het enorme scala aan talen, accenten en spraakpatronen. De investering zal helpen de groei van openbare spraakdata te versnellen, meer gemeenschappen en vrijwilligers te betrekken en het aantal fulltime projectmedewerkers uit te breiden.

Laten we u eraan herinneren dat het Common Voice-project gericht is op het organiseren van gezamenlijk werk om een ​​database van stempatronen op te bouwen die rekening houdt met de diversiteit aan stemmen en spraakstijlen. Gebruikers worden uitgenodigd om zinnen uit te spreken die op het scherm worden weergegeven of om de kwaliteit van de door andere gebruikers toegevoegde gegevens te beoordelen. De verzamelde database met records van verschillende uitspraken van typische menselijke uitdrukkingen kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten.

De Common Voice-set bevat momenteel uitspraakvoorbeelden van meer dan 164 mensen. Er zijn ongeveer 9 uur aan spraakgegevens verzameld in 60 verschillende talen. De set voor de Russische taal omvat 1412 deelnemers en 111 uur spraakmateriaal, en voor de Oekraïense taal - 459 deelnemers en 30 uur. Ter vergelijking: meer dan 66 duizend mensen namen deel aan de voorbereiding van materiaal in het Engels, waarbij ze 1686 uur aan geverifieerde spraak dicteerden. De voorgestelde sets kunnen worden gebruikt in machine learning-systemen om modellen voor spraakherkenning en synthese te bouwen. De gegevens worden gepubliceerd als publiek domein (CC0).

Volgens de auteur van de Vosk-bibliotheek voor continue spraakherkenning zijn de nadelen van de Common Voice-set de eenzijdigheid van het stemmateriaal (de overheersing van mannelijke mensen van 20-30 jaar oud en het gebrek aan materiaal met de stemmen van vrouwen , kinderen en ouderen), het gebrek aan variatie in het woordenboek (herhaling van dezelfde zinnen) en de distributie van opnames in het vervormende mp3-formaat.

Bron: opennet.ru

Voeg een reactie