โครงการ RedPajama พัฒนาชุดข้อมูลแบบเปิดสำหรับระบบปัญญาประดิษฐ์

มีการนำเสนอโครงการความร่วมมือ RedPajama เพื่อสร้างโมเดลแมชชีนเลิร์นนิงแบบเปิดและอินพุตการฝึกอบรมที่สามารถใช้สร้างผู้ช่วยอัจฉริยะที่แข่งขันกับผลิตภัณฑ์เชิงพาณิชย์เช่น ChatGPT คาดว่าการมีอยู่ของข้อมูลโอเพ่นซอร์สและโมเดลภาษาขนาดใหญ่จะช่วยขจัดข้อจำกัดของทีมอิสระที่มีส่วนร่วมในการวิจัยด้านแมชชีนเลิร์นนิง และจะทำให้การสร้างระบบการสนทนาเฉพาะทางง่ายขึ้น องค์กรและชุมชนต่างๆ เช่น Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research และ MILA Québec AI Institute ได้เข้าร่วมโครงการนี้

ขั้นตอนแรกคือการเผยแพร่ชุดข้อมูล RedPajama-Data-1T จำนวน 1.2 ล้านล้านโทเค็นสำหรับการฝึกอบรมโมเดลการสนทนา ชุด RedPajama จำลองข้อมูลจากแหล่งข้อมูลสาธารณะที่ Facebook ใช้เพื่อสร้างโมเดล LLaMA (ทั้งหมด 1.25 ล้านล้านโทเค็น) แต่จัดทำภายใต้ใบอนุญาตแบบเปิดที่ไม่จำกัดขอบเขตการใช้งาน (ข้อมูลและโมเดล LLaMA มอบให้กับนักวิจัยเท่านั้น โดยคำขอพิเศษสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์) ชุด RedPajama-Data-1T ที่ดาวน์โหลดได้มีขนาด 2.67 TB และรวมข้อมูลจากหน้าเว็บที่จัดทำดัชนี Common Crawl, เอกสารสำคัญของ Wikipedia, ซอร์สโค้ดจาก GitHub, หนังสือสาธารณะจากห้องสมุด Gutenberg, บทความทางวิทยาศาสตร์จากไฟล์เก็บถาวร ArXiv และการสนทนาจาก Stack Overflow และไซต์ Stack Exchange อื่นๆ

แบบจำลองสำเร็จรูปซึ่งได้รับการฝึกฝนบนพื้นฐานของชุดข้อมูลที่เตรียมไว้และปรับให้เหมาะสมโดยใช้ตัวอย่างกล่องโต้ตอบสำเร็จรูปในรูปแบบของการดำเนินการคำสั่งจากโครงการ Alpaca และ OpenChatKit มีแผนที่จะสร้างขึ้นในอีกไม่กี่สัปดาห์ข้างหน้า โครงการริเริ่มรูปแบบภาษาที่คล้ายคลึงกัน ได้แก่ โครงการโอเพนซอร์สบางส่วน LLaMA, Alpaca, Vicuna และ Koala ตลอดจนโครงการริเริ่มโอเพนซอร์สเต็มรูปแบบ Pythia, OpenChatKit, Open Assistant และ Dolly

นอกจากนี้ยังมีโปรเจกต์ใหม่ๆ ที่เกี่ยวข้องกับแมชชีนเลิร์นนิงอีกมากมาย:

  • MiniGPT-4 - ขยายแชทบอทการสนทนาแบบดั้งเดิมด้วยความสามารถที่คำนึงถึงข้อมูลภาพ ซึ่งช่วยให้คุณวิเคราะห์ภาพและพิจารณาข้อความที่เขียนด้วยลายมือในกระบวนการโต้ตอบกับระบบ (ตัวอย่างเช่น คุณสามารถถามว่าวัตถุประเภทใดที่แสดงอยู่ในรูปภาพ ขอให้บอทเขียนเรื่องราวตามสิ่งที่แสดงในภาพถ่าย หรือขอให้สร้างเว็บไซต์ตามภาพร่าง) การใช้งาน MiniGPT-4 เขียนด้วย Python และเผยแพร่ภายใต้ใบอนุญาต BSD
  • Facebook ได้เผยแพร่ชุดเครื่องมือและการเรียนรู้ด้วยตนเอง (SSL, Self-Supervised Learning ไม่ใช้ป้ายกำกับและคำอธิบายประกอบที่มนุษย์เตรียมไว้) โมเดลวิชันซิสเต็ม DINOv2 เหมาะสำหรับการแก้ปัญหาของการประมวลผลข้อมูลภาพทั่วไป (การจัดประเภทภาพ การดึงข้อมูลเกี่ยวกับวัตถุในภาพ การทำความเข้าใจสิ่งที่เกิดขึ้นบนวิดีโอ) และการจัดการในระดับพิกเซล (การทำนายเชิงลึก การแบ่งส่วน) แบบจำลองได้รับการฝึกฝนในคอลเลกชัน 142 ล้านภาพ การใช้งานเขียนด้วยภาษา Python และเผยแพร่ภายใต้ใบอนุญาต Creative Commons Attribution-NonCommercial 4.0 ที่อนุญาตให้ใช้งานที่ไม่ใช่เชิงพาณิชย์
  • GPT4All เป็นชุดเครื่องมือสำหรับการเปิดใช้งานแชทบอทแบบสแตนด์อโลนอย่างรวดเร็วบนฮาร์ดแวร์ของตนเอง (ไม่สามารถเข้าถึงบริการภายนอกและใช้ CPU ที่รองรับ AVX2 เพื่อดำเนินการ) รองรับการเชื่อมต่อโมเดลภาษาขนาดใหญ่ที่ใช้ GPT-J และ LLaMa รหัสนี้เขียนด้วย Python และเผยแพร่ภายใต้ใบอนุญาต MIT

ที่มา: opennet.ru

เพิ่มความคิดเห็น