ريڊ پاجاما پروجيڪٽ مصنوعي ذهانت واري نظام لاءِ هڪ کليل ڊيٽا سيٽ ٺاهي ٿو

هڪ RedPajama تعاون وارو پروجيڪٽ پيش ڪيو ويو آهي اوپن مشين لرننگ ماڊل ٺاهڻ ۽ ان سان گڏ ٽريننگ ان پٽس جيڪي استعمال ڪري سگھجن ٿيون انٽيليجنٽ اسسٽنٽ ٺاهڻ لاءِ جيڪي تجارتي پروڊڪٽس جهڙوڪ ChatGPT سان مقابلو ڪن ٿيون. اميد آهي ته اوپن سورس ڊيٽا ۽ وڏي ٻولي ماڊلز جي موجودگي مشين لرننگ جي شعبي ۾ تحقيق ۾ مصروف آزاد ٽيمن جي پابندين کي ختم ڪندي، ۽ خاص ڊائلاگ سسٽم جي تخليق کي آسان بڻائي سگهندي. تنظيمون ۽ برادريون جهڙوڪ Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ۽ MILA Québec AI Institute هن منصوبي تي ڪم ۾ شامل ٿي ويا آهن.

پهريون قدم 1 ٽريلين ٽوڪن جي اشاعت هئي RedPajama-Data-1.2T ڊيٽا سيٽ گفتگو واري ماڊل جي تربيت لاءِ. RedPajama سيٽ عوامي ذريعن مان ڊيٽا کي ٻيهر پيدا ڪري ٿو جيڪو Facebook پاران استعمال ڪيو ويو ان جو LLaMA ماڊل ٺاهڻ لاءِ (مجموعي طور تي 1.25 ٽريلين ٽوڪن)، پر هڪ کليل لائسنس تحت فراهم ڪيو ويو آهي جيڪو استعمال جي دائري کي محدود نٿو ڪري (LLaMA ڊيٽا ۽ ماڊل صرف خاص طور تي محققن کي فراهم ڪيا ويا. غير تجارتي استعمال لاء درخواست). ڊائون لوڊ ڪرڻ جي قابل RedPajama-Data-1T سيٽ 2.67 TB آهي ۽ ان ۾ ڪمن ڪرال انڊيڪس ٿيل ويب پيجز، وڪيپيڊيا آرڪائيوز، گيٽ هب مان سورس ڪوڊ، گٽينبرگ لائبريري مان عوامي ڪتاب، ArXiv آرڪائيو مان سائنسي مضمون، ۽ اسٽيڪ اوور فلو ۽ ٻين سان بحث شامل آهن. اسٽيڪ ايڪسچينج سائيٽون.

تيار ڪيل ماڊلز تيار ڪيل ڊيٽا سيٽ جي بنياد تي تيار ڪيا ويا آهن ۽ ڊائلاگ جي تيار ڪيل مثالن کي استعمال ڪندي الپيڪا ۽ اوپن چيٽ ڪيٽ پروجيڪٽ جي هدايتن جي صورت ۾ استعمال ڪرڻ جي منصوبابندي ڪئي وئي آهي ايندڙ ڪجهه هفتن ۾. ساڳي ٻوليءَ جي ماڊل جي شروعاتن ۾ جزوي طور تي اوپن سورس پروجيڪٽ شامل آهن LLaMA، Alpaca، Vicuna، ۽ Koala، گڏوگڏ مڪمل طور تي اوپن سورس جي شروعات Pythia، OpenChatKit، Open Assistant، ۽ Dolly.

اضافي طور تي، مشين سکيا سان لاڳاپيل ڪيترائي نوان منصوبا آهن:

  • MiniGPT-4 - روايتي گفتگو واري چيٽ بوٽن کي وڌائي ٿو صلاحيتن سان جيڪي بصري معلومات ۾ وٺن ٿيون، جيڪا توهان کي تصويرن جو تجزيو ڪرڻ جي اجازت ڏئي ٿي ۽ سسٽم سان رابطي جي عمل ۾ هٿ سان لکيل متن ۾ آڻڻ جي اجازت ڏئي ٿي (مثال طور، توهان پڇي سگهو ٿا ته ڪهڙي قسم جو اعتراض ڏيکاريو ويو آهي. تصوير ۾، بوٽ کان پڇو ته هڪ ڪهاڻي لکڻ جي بنياد تي جيڪا تصوير ۾ ڏيکاريل آهي، يا هڪ اسڪيمي اسڪيچ جي بنياد تي، ويب سائيٽ ٺاهڻ لاءِ پڇو). MiniGPT-4 تي عملدرآمد پٿون ۾ لکيل آهي ۽ BSD لائسنس تحت ورهايو ويو آهي.
  • Facebook شايع ڪيو آهي هڪ ٽول ڪٽ ۽ هڪ سيلف لرننگ (SSL, Self-Supervised Learning, is not use the human-prepared labels and annotations) DINOv2 مشين وژن ماڊل عام ٿيل بصري ڊيٽا پروسيسنگ جي مسئلن کي حل ڪرڻ لاءِ موزون آهي (تصويرن کي درجي بندي ڪرڻ، شين جي باري ۾ معلومات ڪڍڻ. تصويرون، سمجھڻ ته وڊيو تي ڇا ٿي رھيو آھي) ۽ پکسل جي سطح تي ٺاھڻ (گہرا اڳڪٿي، ڀاڱيداري). ماڊل 142 ملين تصويرن جي مجموعي تي تربيت ڪئي وئي آهي. پليپشن Python ۾ لکيل آهي ۽ هڪ Creative Commons Attribution-Non Commercial 4.0 لائسنس تحت ورهايو ويو آهي جيڪو غير تجارتي استعمال جي اجازت ڏئي ٿو.
  • GPT4All هڪ ٽول ڪٽ آهي جلدي لانچ ڪرڻ لاءِ اسٽينڊ اڪيلو چيٽ بوٽس پنهنجي هارڊويئر تي (اهي ٻاهرين خدمتن تائين رسائي نٿا ڪن ۽ استعمال ڪرڻ لاءِ AVX2 سپورٽ سان CPUs استعمال ڪن ٿا). GPT-J ۽ LLaMa جي بنياد تي وڏي ٻولي ماڊل کي ڳنڍڻ جي حمايت ڪئي وئي آهي. ڪوڊ Python ۾ لکيل آهي ۽ MIT لائسنس تحت ورهايو ويو آهي.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو