مدل های جدید برای تشخیص گفتار روسی در کتابخانه Vosk

توسعه دهندگان کتابخانه Vosk مدل های جدیدی را برای تشخیص گفتار روسی منتشر کرده اند: سرور vosk-model-ru-0.22 و تلفن همراه Vosk-model-small-ru-0.22. مدل‌ها از داده‌های گفتاری جدید و همچنین معماری شبکه عصبی جدید استفاده می‌کنند که دقت تشخیص را 10 تا 20 درصد افزایش داده است. کد و داده ها تحت مجوز Apache 2.0 توزیع می شوند.

تغییرات مهم:

  • داده های جدید جمع آوری شده در بلندگوهای صوتی به طور قابل توجهی تشخیص دستورات گفتاری که از راه دور گفته می شود را بهبود می بخشد.
  • طرح جدید استخراج صدا به طور قابل توجهی دقت تشخیص را برای ضبط های باند پهن بهبود بخشیده است. در عین حال، دقت تشخیص تلفن نیز بهبود یافته است.
  • بسته افزودنی فرهنگ لغت به شما امکان می دهد تا تشخیص سوابق فنی پیچیده را سفارشی کنید.

برای بهترین دقت، توصیه می شود نسخه Wax را به 0.3.32 به روز کنید. همچنین ممکن است به ویژگی های جدید Vosk علاقه مند شوید - ادغام با Unity، Nativescript، Jigasi. مدل هایی برای شناخت زبان های قزاقی و اوکراینی. مدل سرور برای کار کردن به یک پردازنده مدرن و 8 گیگابایت حافظه نیاز دارد. مدل موبایل قابل استفاده در گوشی و RaspberryPi 3+ است.

منبع: opennet.ru

اضافه کردن نظر