Mozilla Common Voice 12.0-Update

Mozilla hat seine Common Voice-Datensätze aktualisiert und enthält nun Aussprachebeispiele von über 200 Personen. Die Daten werden als Public Domain (CC0) veröffentlicht. Die vorgeschlagenen Sätze können in maschinellen Lernsystemen verwendet werden, um Spracherkennungs- und -synthesemodelle zu erstellen.

Im Vergleich zum vorherigen Update ist der Umfang des Sprachmaterials in der Sammlung von 23.8 auf 25.8 Tausend Sprachstunden gestiegen. Mehr als 88 Menschen beteiligten sich an der Vorbereitung der Materialien auf Englisch und diktierten 3161 Stunden Redezeit (es gab 84 Teilnehmer und 3098 Stunden). Das Set für die belarussische Sprache umfasst 7903 Teilnehmer und 1419 Stunden Sprachmaterial (es waren 6965 Teilnehmer und 1217 Stunden), Russisch - 2815 Teilnehmer und 229 Stunden (es waren 2731 Teilnehmer und 215 Stunden), Usbekisch - 2092 Teilnehmer und 262 Stunden ( es gab 2025 Teilnehmer und 258 Stunden), Ukrainische Sprache - 780 Teilnehmer und 87 Stunden (es gab 759 Teilnehmer und 87 Stunden).

Ziel des Common Voice-Projekts ist die Organisation einer gemeinsamen Arbeit zum Aufbau einer Datenbank mit Stimmmustern, die die Vielfalt der Stimmen und Sprachstile berücksichtigt. Benutzer werden aufgefordert, auf dem Bildschirm angezeigte Phrasen auszusprechen oder die Qualität der von anderen Benutzern hinzugefügten Daten zu bewerten. Die akkumulierte Datenbank mit Aufzeichnungen verschiedener Aussprachen typischer Phrasen der menschlichen Sprache kann ohne Einschränkungen in maschinellen Lernsystemen und in Forschungsprojekten verwendet werden.

Source: opennet.ru

Kommentar hinzufügen