Mozilla Common Voice 7.0-Update

NVIDIA und Mozilla haben ein Update ihrer Common-Voice-Datensätze veröffentlicht, die 182 Sprachproben von Menschen umfassen, 25 % mehr als vor sechs Monaten. Die Daten werden als Public Domain (CC6) veröffentlicht. Die vorgeschlagenen Sätze können in maschinellen Lernsystemen verwendet werden, um Spracherkennungs- und -synthesemodelle zu erstellen.

Im Vergleich zum vorherigen Update ist der Umfang des Sprachmaterials in der Sammlung von 9 auf 13.9 Tausend Sprachstunden gestiegen. Die Zahl der unterstützten Sprachen ist von 60 auf 76 gestiegen, darunter erstmals auch die Unterstützung für Weißrussisch, Kasachisch, Usbekisch, Bulgarisch, Armenisch, Aserbaidschanisch und Baschkirisch. Das Set für die russische Sprache umfasst 2136 Teilnehmer und 173 Stunden Sprachmaterial (es waren 1412 Teilnehmer und 111 Stunden) und für die ukrainische Sprache 615 Teilnehmer und 66 Stunden (es waren 459 Teilnehmer und 30 Stunden).

Mehr als 75 Menschen beteiligten sich an der Vorbereitung der Materialien auf Englisch und diktierten 2637 Stunden bestätigter Rede (es gab 66 Teilnehmer und 1686 Stunden). Interessanterweise liegt die Sprache an zweiter Stelle in Bezug auf die Menge der gesammelten Daten: Ruanda, für das 2260 Stunden gesammelt wurden. Es folgen Deutsch (1040), Katalanisch (920) und Esperanto (840). Zu den am dynamischsten wachsenden Sprachdaten gehören die thailändische Sprache (20-fache Vergrößerung der Basis von 12 auf 250 Stunden), Luganda (von 8 auf 80 Stunden), Esperanto (von 100 auf 840 Stunden) und Tamil ( von 24 bis 220 Stunden).

Im Rahmen seiner Teilnahme am Common Voice-Projekt hat NVIDIA auf der Grundlage der gesammelten Daten vorgefertigte trainierte Modelle für maschinelle Lernsysteme (unterstützt von PyTorch) erstellt. Die Modelle werden als Teil des kostenlosen und offenen NVIDIA NeMo-Toolkits vertrieben, das beispielsweise bereits in den automatisierten Sprachdiensten von MTS und Sberbank verwendet wird. Die Modelle sind für den Einsatz in Spracherkennungs-, Sprachsynthese- und Verarbeitungssystemen natürlicher Sprache gedacht und können für Forscher nützlich sein, die sprachaktivierte Dialogsysteme, Transkriptionsplattformen und automatisierte Callcenter entwickeln. Im Gegensatz zu bisher verfügbaren Projekten beschränken sich die veröffentlichten Modelle nicht auf die Erkennung der englischen Sprache und decken eine Vielzahl von Sprachen, Akzenten und Sprachformen ab.

Wir möchten Sie daran erinnern, dass das Common Voice-Projekt darauf abzielt, eine gemeinsame Arbeit zum Aufbau einer Datenbank mit Stimmmustern zu organisieren, die die Vielfalt der Stimmen und Sprachstile berücksichtigt. Benutzer werden aufgefordert, auf dem Bildschirm angezeigte Phrasen auszusprechen oder die Qualität der von anderen Benutzern hinzugefügten Daten zu bewerten. Die akkumulierte Datenbank mit Aufzeichnungen verschiedener Aussprachen typischer Phrasen der menschlichen Sprache kann ohne Einschränkungen in maschinellen Lernsystemen und in Forschungsprojekten verwendet werden.

Laut dem Autor der kontinuierlichen Spracherkennungsbibliothek Vosk bestehen die Nachteile des Common Voice-Sets in der Einseitigkeit des Stimmmaterials (Vorherrschaft männlicher Menschen im Alter von 20 bis 30 Jahren und der Mangel an Material mit den Stimmen von Frauen). , Kinder und ältere Menschen), die mangelnde Variabilität im Wörterbuch (Wiederholung derselben Phrasen) und die Verbreitung von Aufnahmen im verzerrenden MP3-Format.

Source: opennet.ru

Kommentar hinzufügen