د ریډپاجاما پروژه د مصنوعي استخباراتو سیسټمونو لپاره خلاص ډیټا سیټ رامینځته کوي

RedPajama معرفي کړ، یوه ګډه پروژه چې موخه یې د پرانیستې ماشین زده کړې ماډلونه او د روزنې معلوماتو سره یوځای کول دي چې د هوښیار معاونینو رامینځته کولو لپاره کارول کیدی شي چې د سوداګریزو محصولاتو لکه ChatGPT سره سیالي وکړي. د خلاصې سرچینې ډیټا او د لوی ژبې ماډلونو شتون تمه کیږي چې د ماشین زده کړې خپلواکې څیړنې ټیمونه خلاص کړي او د دودیز خبرو اترو سیسټمونو رامینځته کول اسانه کړي. سازمانونه او ټولنې لکه Together، Ontocord.ai، ETH DS3Lab، Stanford CRFM، Hazy Research او MILA Québec AI انسټیټیوټ په دې پروژه کې شامل شول.

لومړی ګام د خبرو اترو ماډلونو روزنې لپاره د RedPajama-Data-1T ډیټاسیټ خپرول و، چې 1.2 ټریلیون ټوکونه لري. د RedPajama سویټ په عامه توګه موجود ډیټا تولیدوي چې د فیسبوک لخوا د خپل LLaMA ماډل رامینځته کولو لپاره کارول کیږي (د 1.25 ټریلیون ټوکن ارزښت) ، مګر د خلاصې ، خلاصې سرچینې جواز لاندې چمتو شوی (د LLaMA ډیټا او ماډلونه یوازې د تحقیق کونکو لپاره د ځانګړي غوښتنې لپاره چمتو شوي. - تجارتي استعمال). د RedPajama-Data-1T د کښته کولو وړ سیټ 2.67 TB اندازه لري او پدې کې د عام کرال - شاخص شوي ویب پا pagesو څخه معلومات ، د ویکیپیډیا آرشیفونه ، د GitHub څخه سرچینه کوډ ، د ګوتنبرګ کتابتون څخه عامه ډومین کتابونه ، د ArXiv آرشیف څخه ساینسي مقالې ، او بحثونه شامل دي. د Stack Overflow او د Stack Exchange نور سایټونه.

چمتو شوي ماډلونه، د چمتو شوي ډیټا سیټ پراساس روزل شوي او د الپاکا او OpenChatKit پروژو څخه د لارښوونې اجرا کولو په بڼه د ډیالوګونو چمتو شوي مثالونو په کارولو سره غوره شوي، پالن شوي چې په راتلونکو څو اونیو کې جوړ شي. د ورته ژبې ماډل نوښتونه په جزوي توګه د خلاصې سرچینې پروژې LLaMA، Alpaca، Vicuna، او کوالا، او همدارنګه د بشپړ خلاص سرچینې نوښتونه Pythia، OpenChatKit، Open Assistant، او Dolly شامل دي.

سربیره پردې ، د ماشین زده کړې پورې اړوند څو نوې پروژې یادونه کیدی شي:

  • MiniGPT-4 - د ظرفیتونو سره دودیز متقابل چټ بوټونه پراخوي چې بصري معلومات په پام کې نیسي ، کوم چې تاسو ته اجازه درکوي عکسونه تحلیل کړئ او د سیسټم سره متقابل عمل کولو پرمهال په لاسي لیکل شوي متن په پام کې ونیسئ (د مثال په توګه ، تاسو کولی شئ پوښتنه وکړئ چې په عکس کې کوم ډول څیز ښودل شوی) ، له بوټ څخه وغواړئ چې په عکس کې ښودل شوي د یوې کیسې پراساس یوه کیسه ولیکئ ، یا د سکیمیک سکیچ پراساس ، د ویب پا رامینځته کولو غوښتنه وکړئ). د MiniGPT-4 تطبیق په Python کې لیکل شوی او د BSD جواز لاندې ویشل شوی.
  • فیسبوک وسیلې او د ځان زده کړې (SSL، د ځان څارنې زده کړې، د روزنې پرمهال د انسان لخوا چمتو شوي لیبلونه او تشریحات نه کاروي) د کمپیوټر لید ماډل DINOv2، د عمومي لید ډیټا پروسس کولو ستونزو حل کولو لپاره مناسب (د عکس طبقه بندي، د معلوماتو استخراج) خپور کړی. په عکسونو کې شیان، پدې پوهیدل چې په ویډیو کې څه پیښیږي) او د پکسل په کچه لاسوهنې (د ژورې وړاندوینې، قطع کول). ماډل د 142 ملیون عکسونو په ټولګه کې روزل شوی و. تطبیق په Python کې لیکل شوی او د Creative Commons Attribution-NonCommercial 4.0 جواز لاندې ویشل شوی، د غیر تجارتي کارونې اجازه ورکوي.
  • GPT4All ستاسو په خپل هارډویر کې د سټنډرډ چټ بوټونو ګړندي پیل کولو لپاره یوه وسیله کټ ده (دوی بهرني خدماتو ته لاسرسی نلري او د اجرا کولو لپاره د AVX2 ملاتړ سره CPU کاروي). د GPT-J او LLaMa پراساس د لوی ژبې ماډلونو پیوستون ملاتړ کوي. کوډ په Python کې لیکل شوی او د MIT جواز لاندې ویشل شوی.

سرچینه: opennet.ru

Add a comment