Bag-ong mga modelo alang sa pag-ila sa sinultihan sa Russia sa librarya sa Vosk

Ang mga developers sa Vosk library nagpatik ug bag-ong mga modelo alang sa Russian speech recognition: server-side vosk-model-ru-0.22 ug mobile Vosk-model-small-ru-0.22. Gigamit sa mga modelo ang bag-ong datos sa pagsulti, ingon man usa ka bag-ong arkitektura sa neural network, nga nagpaposible nga madugangan ang katukma sa pag-ila sa 10-20%. Ang code ug data gipang-apod-apod ubos sa Apache 2.0 nga lisensya.

Importante nga mga pagbag-o:

  • Ang bag-ong datos nga nakolekta sa mga kolum sa tingog makapauswag sa pag-ila sa mga sugo sa pagsulti nga gisulti gikan sa layo.
  • Ang bag-ong sound extraction scheme nakapauswag pag-ayo sa recognition accuracy para sa wideband recording. Sa samang higayon, ang katukma sa pag-ila sa telepono miuswag usab.
  • Ang diksyonaryo nga add-on nga pakete nagtugot kanimo sa pagpahiangay sa pag-ila sa komplikadong teknikal nga mga entry.

Alang sa labing tukma nga katukma, girekomenda nga i-update ang bersyon sa Wax sa 0.3.32 usab. Mahimong interesado ka usab sa bag-ong mga bahin sa Wax - panagsama sa Unity, Nativescript, Jigasi. Mga modelo alang sa pag-ila sa Kazakh ug Ukrainian nga mga pinulongan. Ang modelo sa server nanginahanglan usa ka modernong processor ug 8GB nga memorya aron molihok. Ang mobile nga modelo mahimong magamit sa mga telepono ug RaspberryPi 3+.

Source: opennet.ru

Idugang sa usa ka comment