🥇 Aktualisierung der Sprachdaten Mozilla Common Voice 12.0

Das Unternehmen Mozilla hat die Voice-Datensätze von Common Voice aktualisiert, die Beispiele von über 200.000 Personen enthalten. Die Daten wurden als Gemeinbesitz (CC0) veröffentlicht. Die vorgeschlagenen Datensätze können in Maschinenlernsystemen verwendet werden, um Modelle für Sprach- und Synthesizerkennung zu erstellen.

Im Vergleich zum letzten Update hat sich das Volumen des Sprachmaterials in der Sammlung von 23,8 auf 25,8 Tausend Stunden Sprache erhöht. An der Erstellung der Materialien in englischer Sprache haben über 88.000 Personen mitgewirkt, die 3.161 Stunden Sprache diktiert haben (es waren 84.000 Teilnehmer und 3.098 Stunden). Der Datensatz für die belarussische Sprache umfasst 7.903 Teilnehmer und 1.419 Stunden Sprachmaterial (es waren 6.965 Teilnehmer und 1.217 Stunden), für die russische Sprache 2.815 Teilnehmer und 229 Stunden (es waren 2.731 Teilnehmer und 215 Stunden), für die usbekische Sprache 2.092 Teilnehmer und 262 Stunden (es waren 2.025 Teilnehmer und 258 Stunden), und für die ukrainische Sprache 780 Teilnehmer und 87 Stunden (es waren 759 Teilnehmer und 87 Stunden).

Das Common Voice-Projekt zielt darauf ab, die Zusammenarbeit zur Erstellung einer Datenbank von Sprachmustern zu organisieren, die die gesamte Vielfalt von Stimmen und Sprechstilen berücksichtigt. Nutzer können die auf dem Bildschirm angezeigten Sätze vertonen oder die Qualität von Daten bewerten, die von anderen Nutzern hinzugefügt wurden. Die gesammelte Datenbank mit Aufnahmen verschiedener Aussprachen typischer menschlicher Sprache kann ohne Einschränkungen in Systemen des maschinellen Lernens und in Forschungsprojekten verwendet werden.

Quelle: opennet.ru

Aktualisierung der Sprachdaten von Mozilla Common Voice 12.0

Juri Gagarin