وسپر اسپیچ ریکگنیشن اور ٹرانسلیشن سسٹم کا کوڈ کھول دیا گیا ہے۔

OpenAI پروجیکٹ، جو مصنوعی ذہانت کے شعبے میں عوامی منصوبوں کو تیار کرتا ہے، نے Whisper اسپیچ ریکگنیشن سسٹم سے متعلق پیش رفت شائع کی ہے۔ یہ دعویٰ کیا جاتا ہے کہ انگریزی میں تقریر کے لیے یہ نظام انسانی شناخت کے قریب خودکار شناخت کی وشوسنییتا اور درستگی کی سطح فراہم کرتا ہے۔ PyTorch فریم ورک پر مبنی حوالہ کے نفاذ کے لیے کوڈ اور پہلے سے تربیت یافتہ ماڈلز کا ایک سیٹ، استعمال کے لیے تیار، کھول دیا گیا ہے۔ کوڈ MIT لائسنس کے تحت کھلا ہے۔

ماڈل کو تربیت دینے کے لیے، 680 ہزار گھنٹے کی تقریری ڈیٹا استعمال کیا گیا، جو مختلف زبانوں اور مضامین کے شعبوں پر محیط کئی مجموعوں سے جمع کیے گئے۔ تربیت میں شامل تقریری ڈیٹا کا تقریباً 1/3 انگریزی کے علاوہ دیگر زبانوں میں ہے۔ مجوزہ نظام درست طریقے سے ایسے حالات کو ہینڈل کرتا ہے جیسے کہ تلفظ، پس منظر میں شور، اور تکنیکی جرگون کا استعمال۔ تقریر کو متن میں نقل کرنے کے علاوہ، یہ نظام کسی بھی زبان سے انگریزی میں تقریر کا ترجمہ بھی کر سکتا ہے اور آڈیو سٹریم میں تقریر کی ظاہری شکل کا پتہ لگا سکتا ہے۔

ماڈلز دو نمائندگیوں میں بنائے گئے ہیں: ایک انگریزی زبان کا ماڈل اور ایک کثیر لسانی ماڈل، جو روسی، یوکرینی اور بیلاروسی زبانوں کی بھی حمایت کرتا ہے۔ بدلے میں، ہر نمائندگی کو 5 اختیارات میں تقسیم کیا گیا ہے، جو ماڈل میں شامل کردہ سائز اور پیرامیٹرز کی تعداد میں مختلف ہے۔ سائز جتنا بڑا ہوگا، شناخت کی درستگی اور معیار اتنا ہی زیادہ ہوگا، لیکن GPU ویڈیو میموری کے سائز کے تقاضے بھی اتنے ہی زیادہ ہوں گے اور کارکردگی اتنی ہی کم ہوگی۔ مثال کے طور پر، کم از کم اختیار میں 39 ملین پیرامیٹرز شامل ہیں اور اس کے لیے 1 GB ویڈیو میموری کی ضرورت ہے، اور زیادہ سے زیادہ میں 1550 ملین پیرامیٹرز شامل ہیں اور 10 GB ویڈیو میموری کی ضرورت ہے۔ کم از کم آپشن زیادہ سے زیادہ سے 32 گنا تیز ہے۔

وسپر اسپیچ ریکگنیشن اور ٹرانسلیشن سسٹم کا کوڈ کھول دیا گیا ہے۔

سسٹم ٹرانسفارمر نیورل نیٹ ورک فن تعمیر کا استعمال کرتا ہے، جس میں ایک انکوڈر اور ڈیکوڈر شامل ہیں جو ایک دوسرے کے ساتھ تعامل کرتے ہیں۔ آڈیو کو 30 سیکنڈ کے ٹکڑوں میں تقسیم کیا جاتا ہے، جو لاگ میل سپیکٹروگرام میں تبدیل ہو کر انکوڈر کو بھیج دیا جاتا ہے۔ انکوڈر کا آؤٹ پٹ ڈیکوڈر کو بھیجا جاتا ہے، جو خصوصی ٹوکنز کے ساتھ مخلوط متن کی نمائندگی کی پیش گوئی کرتا ہے جو کہ ایک عام ماڈل میں، زبان کا پتہ لگانے، فقروں کے تلفظ کی تاریخ کا حساب کتاب، میں تقریر کی نقل جیسے مسائل کو حل کرنے کی اجازت دیتا ہے۔ مختلف زبانیں، اور انگریزی میں ترجمہ۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں