ووسک لائبریری میں روسی تقریر کی شناخت کے لیے نئے ماڈل

ووسک لائبریری کے ڈویلپرز نے روسی اسپیچ ریکگنیشن کے لیے نئے ماڈل شائع کیے ہیں: سرور-سائیڈ ووسک-ماڈل-ru-0.22 اور موبائل Vosk-model-small-ru-0.22۔ ماڈلز نئے اسپیچ ڈیٹا کے ساتھ ساتھ ایک نئے نیورل نیٹ ورک فن تعمیر کا استعمال کرتے ہیں، جس نے شناخت کی درستگی کو 10-20% تک بڑھانا ممکن بنایا۔ کوڈ اور ڈیٹا اپاچی 2.0 لائسنس کے تحت تقسیم کیے گئے ہیں۔

اہم تبدیلیاں:

  • صوتی کالموں میں اکٹھا کیا گیا نیا ڈیٹا دور سے بولی جانے والی اسپیچ کمانڈز کی پہچان کو نمایاں طور پر بہتر بناتا ہے۔
  • نئی آواز نکالنے کی اسکیم نے وائیڈ بینڈ ریکارڈنگ کے لیے شناخت کی درستگی کو نمایاں طور پر بہتر کیا ہے۔ ایک ہی وقت میں، ٹیلی فونی شناخت کی درستگی میں بھی بہتری آئی ہے۔
  • لغت کا اضافہ پیکیج آپ کو پیچیدہ تکنیکی اندراجات کی شناخت کو اپنی مرضی کے مطابق کرنے کی اجازت دیتا ہے۔

بہترین درستگی کے لیے، Wax ورژن کو بھی 0.3.32 پر اپ ڈیٹ کرنے کی سفارش کی جاتی ہے۔ آپ کو موم کی نئی خصوصیات میں بھی دلچسپی ہو سکتی ہے - اتحاد، مقامی اسکرپٹ، جیگاسی کے ساتھ انضمام۔ قازق اور یوکرینی زبانوں کی پہچان کے لیے ماڈل۔ سرور ماڈل کو کام کرنے کے لیے ایک جدید پروسیسر اور 8GB میموری کی ضرورت ہے۔ موبائل ماڈل فونز اور RaspberryPi 3+ میں استعمال کیا جا سکتا ہے۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں