موزیلا نے اسپیچ ریکگنیشن انجن ڈیپ اسپیچ 0.6 متعارف کرایا

کی طرف سے پیش موزیلا کی طرف سے تیار کردہ اسپیچ ریکگنیشن انجن کی ریلیز ڈیپ اسپیچ 0.6، جو اسی نام کے اسپیچ ریکگنیشن فن تعمیر کو لاگو کرتا ہے، مجوزہ Baidu کے محققین کے ذریعہ۔ TensorFlow مشین لرننگ پلیٹ فارم کا استعمال کرتے ہوئے Python میں عمل درآمد لکھا گیا ہے۔ نے بانٹا مفت MPL 2.0 لائسنس کے تحت۔ لینکس، اینڈرائیڈ، میک او ایس اور ونڈوز پر کام کو سپورٹ کرتا ہے۔ کارکردگی LePotato، Raspberry Pi 3 اور Raspberry Pi 4 بورڈز پر انجن کو استعمال کرنے کے لیے کافی ہے۔

سیٹ میں بھی شامل ہے۔ پیش کیے جاتے ہیں تربیت یافتہ ماڈلز، مثال کے طور پر کمانڈ لائن سے آواز کی فائلیں اور شناختی ٹولز۔ آپ کے پروگراموں میں اسپیچ ریکگنیشن فنکشن کو ضم کرنے کے لیے، Python، NodeJS، C++ اور .NET کے لیے استعمال کے لیے تیار ماڈیولز پیش کیے جاتے ہیں (تیسرے فریق کے ڈویلپرز نے علیحدہ علیحدہ ماڈیول تیار کیے ہیں مورچا и Go)۔ تیار شدہ ماڈل صرف انگریزی کے لیے فراہم کیا جاتا ہے، لیکن دوسری زبانوں کے لیے منسلک ہدایات آپ خود اس نظام کو استعمال کرکے تربیت دے سکتے ہیں۔ صوتی ڈیٹاکامن وائس پروجیکٹ کے ذریعے جمع کیا گیا۔

ڈیپ اسپیچ روایتی سسٹمز کے مقابلے میں بہت آسان ہے اور ساتھ ہی ساتھ بیرونی شور کی موجودگی میں بھی اعلیٰ معیار کی پہچان فراہم کرتا ہے۔ یہ روایتی صوتی ماڈلز اور فونیم کے تصور کو نظرانداز کرتا ہے، بجائے اس کے کہ ایک انتہائی بہتر نیورل نیٹ ورک پر مبنی مشین لرننگ سسٹم کا استعمال کیا جائے جو شور، بازگشت اور تقریر کی خصوصیات جیسی مختلف بے ضابطگیوں کو ماڈل کرنے کے لیے الگ الگ اجزاء تیار کرنے کی ضرورت کو ختم کرتا ہے۔

اس نقطہ نظر کا منفی پہلو یہ ہے کہ نیورل نیٹ ورک کی اعلیٰ معیار کی پہچان اور تربیت حاصل کرنے کے لیے، ڈیپ اسپیچ انجن کو مختلف آوازوں کے ذریعے حقیقی حالات میں اور قدرتی شور کی موجودگی میں متضاد ڈیٹا کی ایک بڑی مقدار کی ضرورت ہوتی ہے۔
موزیلا میں بنایا گیا ایک پروجیکٹ اس طرح کا ڈیٹا اکٹھا کرتا ہے۔ مشترکہ آواز780 گھنٹے کے ساتھ ایک تصدیق شدہ ڈیٹاسیٹ فراہم کرنا انگریزی زبان، جرمن میں 325، فرانسیسی میں 173 اور روسی میں 27 گھنٹے۔

کامن وائس پروجیکٹ کا حتمی مقصد انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کی 10 ہزار گھنٹے کی ریکارڈنگز کو جمع کرنا ہے، جس سے شناخت میں غلطیوں کی ایک قابل قبول سطح کو حاصل کیا جا سکے گا۔ اس کی موجودہ شکل میں، پراجیکٹ کے شرکاء نے پہلے ہی کل 4.3 ہزار گھنٹے طے کیے ہیں، جن میں سے 3.5 ہزار کا تجربہ کیا جا چکا ہے۔ ڈیپ اسپیچ کے لیے آخری انگریزی زبان کے ماڈل کی تربیت کے دوران، 3816 گھنٹے کی تقریر کا استعمال کیا گیا، اس کے علاوہ لائبری اسپیچ، فشر اور سوئچ بورڈ پروجیکٹس کے ڈیٹا کو کور کرنے والے کامن وائس کے علاوہ، اور تقریباً 1700 گھنٹے کی ٹرانسکرائب شدہ ریڈیو شو کی ریکارڈنگ بھی شامل تھی۔

ڈاؤن لوڈ کے لیے پیش کردہ انگریزی زبان کے تیار کردہ ماڈل کو استعمال کرتے وقت، ٹیسٹ سیٹ کے ساتھ تشخیص کرنے پر ڈیپ اسپیچ میں شناخت کی غلطی کی شرح 7.5% ہے۔ LibriSpeech. مقابلے کے لیے، انسانی شناخت کے لیے غلطی کی شرح اندازہ لگایا 5.83٪ پر

DeepSpeech دو ذیلی نظاموں پر مشتمل ہے - ایک صوتی ماڈل اور ایک ڈیکوڈر۔ صوتی ماڈل ان پٹ ساؤنڈ میں بعض حروف کے موجود ہونے کے امکان کا حساب لگانے کے لیے گہری مشین سیکھنے کے طریقے استعمال کرتا ہے۔ ڈیکوڈر کریکٹر کے امکانی ڈیٹا کو متن کی نمائندگی میں تبدیل کرنے کے لیے رے سرچ الگورتھم کا استعمال کرتا ہے۔

اہم بدعات DeepSpeech 0.6 (0.6 برانچ پچھلی ریلیز کے ساتھ مطابقت نہیں رکھتی اور کوڈ اور ماڈل اپ ڈیٹ کی ضرورت ہوتی ہے):

  • ایک نیا اسٹریمنگ ڈیکوڈر تجویز کیا گیا ہے جو اعلی ردعمل فراہم کرتا ہے اور پروسیس شدہ آڈیو ڈیٹا کے سائز سے آزاد ہے۔ نتیجے کے طور پر، DeepSpeech کا نیا ورژن 260 ms تک شناخت کے لیے تاخیر کو کم کرنے میں کامیاب ہو گیا، جو کہ پہلے کے مقابلے میں 73% زیادہ تیز ہے، اور ڈیپ اسپیچ کو فلائی پر اسپیچ ریکگنیشن سلوشنز میں استعمال کرنے کی اجازت دیتا ہے۔
  • API میں تبدیلیاں کی گئی ہیں اور فنکشن کے ناموں کو یکجا کرنے کے لیے کام کیا گیا ہے۔ مطابقت پذیری کے بارے میں اضافی میٹا ڈیٹا حاصل کرنے کے لیے فنکشنز کو شامل کیا گیا ہے، جس سے آپ کو نہ صرف ایک آؤٹ پٹ کے طور پر متن کی نمائندگی حاصل ہو سکتی ہے، بلکہ آڈیو سٹریم میں کسی پوزیشن کے لیے انفرادی حروف اور جملوں کے پابند ہونے کا بھی پتہ چلتا ہے۔
  • تربیتی ماڈیولز کے لیے ٹول کٹ میں لائبریری کے استعمال کے لیے سپورٹ شامل کر دی گئی ہے۔ CuDNN ریکرنٹ نیورل نیٹ ورکس (RNN) کے ساتھ کام کو بہتر بنانے کے لیے، جس نے ماڈل ٹریننگ کی کارکردگی میں نمایاں (تقریباً دوگنا) اضافہ حاصل کرنا ممکن بنایا، لیکن اس کوڈ میں تبدیلیوں کی ضرورت ہے جس نے پہلے سے تیار کردہ ماڈلز کے ساتھ مطابقت کی خلاف ورزی کی۔
  • TensorFlow ورژن کی کم از کم ضروریات کو 1.13.1 سے بڑھا کر 1.14.0 کر دیا گیا ہے۔ TensorFlow Lite کے ہلکے وزن والے ایڈیشن کے لیے سپورٹ شامل کیا گیا، جو DeepSpeech پیکیج کا سائز 98 MB سے کم کر کے 3.7 MB کر دیتا ہے۔ ایمبیڈڈ اور موبائل ڈیوائسز پر استعمال کے لیے، ماڈل کے ساتھ پیک فائل کا سائز بھی 188 MB سے کم کر کے 47 MB ​​کر دیا گیا ہے (ماڈل کی تربیت کے بعد کمپریشن کے لیے کوانٹائزیشن کا طریقہ استعمال کیا جاتا ہے)۔
  • لینگویج ماڈل کا ایک مختلف ڈیٹا سٹرکچر فارمیٹ میں ترجمہ کیا گیا ہے جو لوڈ ہونے پر فائلوں کو میموری میں میپ کرنے کی اجازت دیتا ہے۔ پرانے فارمیٹ کے لیے سپورٹ بند کر دی گئی ہے۔
  • زبان کے ماڈل کے ساتھ فائل لوڈ کرنے کا موڈ تبدیل کر دیا گیا ہے، جس سے میموری کی کھپت میں کمی آئی ہے اور ماڈل بنانے کے بعد پہلی درخواست پر کارروائی کرتے وقت تاخیر میں کمی آئی ہے۔ آپریشن کے دوران، ڈیپ اسپیچ اب 22 گنا کم میموری استعمال کرتا ہے اور 500 گنا تیزی سے شروع ہوتا ہے۔

    موزیلا نے اسپیچ ریکگنیشن انجن ڈیپ اسپیچ 0.6 متعارف کرایا

  • زبان کے ماڈل میں نایاب الفاظ کو فلٹر کیا گیا تھا۔ الفاظ کی کل تعداد کو کم کر کے ماڈل کی تربیت کے لیے استعمال ہونے والے متن میں پائے جانے والے مقبول ترین الفاظ میں سے 500 ہزار کر دیا گیا تھا۔ صفائی نے زبان کے ماڈل کے سائز کو 1800MB سے 900MB تک کم کرنا ممکن بنایا، جس کا عملی طور پر شناخت کی غلطی کی شرح پر کوئی اثر نہیں ہوا۔
  • مختلف کے لیے سپورٹ شامل کر دی گئی۔ ٹیکنیشن تربیت میں استعمال ہونے والے آڈیو ڈیٹا کی اضافی تغیرات (اضافہ) بنانا (مثال کے طور پر اختیارات کے سیٹ میں تحریف یا شور شامل کرنا)۔
  • .NET پلیٹ فارم پر مبنی ایپلی کیشنز کے ساتھ انضمام کے لیے بائنڈنگز کے ساتھ ایک لائبریری شامل کی گئی۔
  • دستاویزات کو دوبارہ کام کیا گیا ہے اور اب ایک علیحدہ ویب سائٹ پر جمع کیا گیا ہے۔ deepspeech.readthedocs.io.

ماخذ: opennet.ru

نیا تبصرہ شامل کریں