Mozilla Common Voice 9.0-Update

Mozilla hat ein Update seiner Common Voice-Datensätze veröffentlicht, die Aussprachebeispiele von fast 200 Menschen enthalten. Die Daten werden als Public Domain (CC0) veröffentlicht. Die vorgeschlagenen Sätze können in maschinellen Lernsystemen verwendet werden, um Spracherkennungs- und -synthesemodelle zu erstellen.

Im Vergleich zum vorherigen Update ist der Umfang des Sprachmaterials in der Sammlung um 10 % gestiegen – von 18.2 auf 20.2 Tausend Sprachstunden. Die Anzahl der unterstützten Sprachen ist von 87 auf 93 gestiegen. Für 27 Sprachen wurden mehr als 100 Stunden Sprachdaten gesammelt und für 9 Sprachen mehr als 500 Stunden Sprachdaten. Für 9 Sprachen konnte zudem ein Anteil weiblicher Sprache von mindestens 45 % erreicht werden.

Mehr als 81 Menschen beteiligten sich an der Vorbereitung der Materialien auf Englisch und diktierten 2953 Stunden Redezeit (es gab 79 Teilnehmer und 2886 Stunden). Das Set für die belarussische Sprache umfasst 6326 Teilnehmer und 1054 Stunden Sprachmaterial (es waren 6160 Teilnehmer und 987 Stunden), Russisch - 2585 Teilnehmer und 201 Stunden (es waren 2452 Teilnehmer und 193 Stunden), Usbekisch - 1503 Teilnehmer und 231 Stunden ( es gab 1355 Teilnehmer und 227 Stunden), Ukrainische Sprache - 696 Teilnehmer und 79 Stunden (es gab 684 Teilnehmer und 76 Stunden).

Ziel des Common Voice-Projekts ist die Organisation einer gemeinsamen Arbeit zum Aufbau einer Datenbank mit Stimmmustern, die die Vielfalt der Stimmen und Sprachstile berücksichtigt. Benutzer werden aufgefordert, auf dem Bildschirm angezeigte Phrasen auszusprechen oder die Qualität der von anderen Benutzern hinzugefügten Daten zu bewerten. Die akkumulierte Datenbank mit Aufzeichnungen verschiedener Aussprachen typischer Phrasen der menschlichen Sprache kann ohne Einschränkungen in maschinellen Lernsystemen und in Forschungsprojekten verwendet werden.

Source: opennet.ru

Kommentar hinzufügen