Mozilla Common Voice 8.0-Update

Mozilla hat ein Update seiner Common Voice-Datensätze veröffentlicht, die Aussprachebeispiele von fast 200 Menschen enthalten. Die Daten werden als Public Domain (CC0) veröffentlicht. Die vorgeschlagenen Sätze können in maschinellen Lernsystemen verwendet werden, um Spracherkennungs- und -synthesemodelle zu erstellen. Im Vergleich zum vorherigen Update ist der Umfang des Sprachmaterials in der Sammlung um 30 % gestiegen – von 13.9 auf 18.2 Tausend Sprachstunden. Die Anzahl der unterstützten Sprachen ist von 67 auf 87 gestiegen.

Das Set für die russische Sprache umfasst 2452 Teilnehmer und 193 Stunden Sprachmaterial (es waren 2136 Teilnehmer und 173 Stunden), für die weißrussische Sprache - 6160 Teilnehmer und 987 Stunden (es waren 3831 Teilnehmer und 356 Stunden), für die ukrainische Sprache - 684 Teilnehmer und 76 Stunden (es waren 615 Teilnehmer und 66 Stunden). Mehr als 79 Menschen beteiligten sich an der Vorbereitung der Materialien auf Englisch und diktierten 2886 Stunden bestätigter Rede (es gab 75 Teilnehmer und 2637 Stunden).

Wir möchten Sie daran erinnern, dass das Common Voice-Projekt darauf abzielt, eine gemeinsame Arbeit zum Aufbau einer Datenbank mit Stimmmustern zu organisieren, die die Vielfalt der Stimmen und Sprachstile berücksichtigt. Benutzer werden aufgefordert, auf dem Bildschirm angezeigte Phrasen auszusprechen oder die Qualität der von anderen Benutzern hinzugefügten Daten zu bewerten. Die akkumulierte Datenbank mit Aufzeichnungen verschiedener Aussprachen typischer Phrasen der menschlichen Sprache kann ohne Einschränkungen in maschinellen Lernsystemen und in Forschungsprojekten verwendet werden. Laut dem Autor der kontinuierlichen Spracherkennungsbibliothek Vosk bestehen die Nachteile des Common Voice-Sets in der Einseitigkeit des Stimmmaterials (Vorherrschaft männlicher Menschen im Alter von 20 bis 30 Jahren und der Mangel an Material mit den Stimmen von Frauen). , Kinder und ältere Menschen), die mangelnde Variabilität im Wörterbuch (Wiederholung derselben Phrasen) und die Verbreitung von Aufnahmen im verzerrenden MP3-Format.

Darüber hinaus können wir die Veröffentlichung des NVIDIA NeMo 1.6 Toolkits zur Kenntnis nehmen, das maschinelle Lernmethoden für die Erstellung von Spracherkennungssystemen, Sprachsynthese und Verarbeitung natürlicher Sprache bereitstellt. NeMo umfasst gebrauchsfertige trainierte Modelle für maschinelle Lernsysteme, die auf dem PyTorch-Framework basieren, von NVIDIA unter Verwendung von Common Voice-Sprachdaten erstellt wurden und eine Vielzahl von Sprachen, Akzenten und Sprachformen abdecken. Die Modelle können für Forscher nützlich sein, die sprachbasierte Dialogsysteme, Transkriptionsplattformen und automatisierte Callcenter entwickeln. NVIDIA NeMo wird beispielsweise in automatisierten Sprachdiensten von MTS und Sberbank verwendet. Der NeMo-Code wird in Python mit PyTorch geschrieben und unter der Apache 2.0-Lizenz vertrieben.

Source: opennet.ru

Kommentar hinzufügen