د ویسپر وینا پیژندنې او ژباړې سیسټم لپاره کوډ خلاص شوی

د OpenAI پروژه، چې د مصنوعي استخباراتو په برخه کې عامه پروژې رامینځته کوي، د ویسپر وینا پیژندنې سیسټم پورې اړوند پرمختګونه خپاره کړي. دا ادعا کیږي چې په انګلیسي کې د وینا لپاره سیسټم د انسان پیژندنې ته نږدې د اتوماتیک پیژندنې اعتبار او دقت چمتو کوي. د PyTorch چوکاټ پراساس د حوالې پلي کولو لپاره کوډ او د دمخه روزل شوي ماډلونو سیټ ، د کارولو لپاره چمتو شوی ، خلاص شوی. کوډ د MIT جواز لاندې خلاص دی.

د موډل د روزنې لپاره، د وینا 680 زره ساعته معلومات کارول شوي، د ډیری مجموعو څخه راټول شوي چې د مختلفو ژبو او موضوع برخو پوښښ لري. په روزنه کې د وینا معلوماتو شاوخوا 1/3 برخه د انګلیسي پرته په نورو ژبو کې ده. وړاندیز شوی سیسټم په سمه توګه حالتونه اداره کوي لکه د تلفظ تلفظ، شالید شور، او د تخنیکي جرګون کارول. په متن کې د وینا د لیږد سربیره، سیسټم کولی شي وینا د هرې ژبې څخه انګلیسي ته وژباړي او په آډیو جریان کې د وینا بڼه معلومه کړي.

ماډلونه په دوه نمایندګیو کې جوړ شوي دي: د انګلیسي ژبې ماډل او څو ژبني ماډل، چې د روسیې، اوکراین او بیلاروس ژبو هم ملاتړ کوي. په بدل کې، هر استازیتوب په 5 اختیارونو ویشل شوی، په ماډل کې پوښل شوي اندازې او پیرامیټونو شمیر کې توپیر لري. څومره چې اندازه لوی وي، د پیژندنې دقت او کیفیت ډیر وي، مګر د GPU ویډیو حافظې د اندازې لپاره اړتیاوې هم لوړې دي او فعالیت ټیټ دی. د مثال په توګه ، لږترلږه اختیار کې 39 ملیون پیرامیټرې شاملې دي او د 1 GB ویډیو حافظې ته اړتیا لري ، او اعظمي کې 1550 ملیون پیرامیټرې شاملې دي او د 10 GB ویډیو حافظې ته اړتیا لري. لږترلږه اختیار د اعظمي څخه 32 ځله ګړندی دی.

د ویسپر وینا پیژندنې او ژباړې سیسټم لپاره کوډ خلاص شوی

سیسټم د ټرانسفارمر عصبي شبکې جوړښت کاروي، کوم چې یو کوډر او کوډر شامل دي چې یو له بل سره اړیکه لري. آډیو په 30-ثانوي ټوټو ویشل شوې، کوم چې په log-Mel سپیکٹروګرام کې بدلیږي او کوډ کونکي ته لیږل کیږي. د کوډ کونکي محصول ډیکوډر ته لیږل کیږي ، کوم چې د ځانګړي توکیو سره مخلوط شوي متن نمایش وړاندوینه کوي چې په یو عمومي ماډل کې اجازه ورکوي ستونزې حل کړي لکه د ژبې کشف ، د جملو د تلفظ کرونولوژي حساب کول ، د وینا لیږد په مختلفو ژبو، او په انګلیسي کې ژباړه.

سرچینه: opennet.ru

Add a comment