የሬድፓጃማ ፕሮጀክት ለአርቴፊሻል ኢንተለጀንስ ስርዓቶች ክፍት የውሂብ ስብስብ ያዘጋጃል።

ክፍት የማሽን መማሪያ ሞዴሎችን ለመፍጠር እና እንደ ChatGPT ካሉ የንግድ ምርቶች ጋር የሚወዳደሩ አስተዋይ ረዳቶችን ለመፍጠር የሚያገለግሉ የሥልጠና ግብአቶችን ለመፍጠር ያለመ ሬድፓጃማ የትብብር ፕሮጀክት አስተዋውቋል። የክፍት ምንጭ መረጃ እና ትልቅ የቋንቋ ሞዴሎች መገኘት ነጻ የማሽን መማሪያ የምርምር ቡድኖችን ነጻ እንደሚያወጣ እና ብጁ የውይይት ሥርዓቶችን መገንባት ቀላል ያደርገዋል ተብሎ ይጠበቃል። ድርጅቶች እና ማህበረሰቦች እንደ Together፣ Ontocord.ai፣ ETH DS3Lab፣ Stanford CRFM፣ Hazy Research እና MILA ኩቤክ AI ኢንስቲትዩት ፕሮጀክቱን ተቀላቅለዋል።

የመጀመሪያው እርምጃ 1 ትሪሊዮን ቶከኖችን የያዘ የውይይት ሞዴሎችን ለማሰልጠን የ RedPajama-Data-1.2T ዳታ ስብስብ ታትሟል። የሬድፓጃማ ስብስብ ፌስቡክ የኤልኤምኤ ሞዴሉን ለመፍጠር የተጠቀመበትን በይፋ የሚገኘውን መረጃ (1.25 ትሪሊዮን ቶከኖች ዋጋ ያለው) ያሰራጫል፣ ነገር ግን በክፍት ምንጭ ፈቃድ ነው የቀረበው (LLaMA ውሂብ እና ሞዴሎች ለተመራማሪዎች የሚቀርቡት በልዩ ጥያቄ ብቻ ነው። - የንግድ አጠቃቀም). የ RedPajama-Data-1T ሊወርድ የሚችል ስብስብ መጠን 2.67 ቲቢ ነው እና መረጃን ከጋራ ክራውል መረጃ ጠቋሚ ድረ-ገጾች፣ የዊኪፔዲያ ማህደሮች፣ የ GitHub ምንጭ ኮድ፣ የጉተንበርግ ቤተ መፃህፍት የህዝብ መፃህፍት፣ ሳይንሳዊ መጣጥፎች ከአርሲቪቭ ማህደር እና ውይይቶችን ያካትታል። የቁልል ትርፍ ፍሰት እና ሌሎች የቁልል ልውውጥ ጣቢያዎች።

ዝግጁ የሆኑ ሞዴሎች፣ በተዘጋጀ የውሂብ ስብስብ ላይ የሰለጠኑ እና የተዘጋጁ የውይይት ምሳሌዎችን በመጠቀም የተመቻቹ ከአልፓካ እና ከኦፕንቻት ኪት ፕሮጀክቶች መመሪያ-አፈፃፀም በሚቀጥሉት ጥቂት ሳምንታት ውስጥ ለመመስረት ታቅደዋል። ተመሳሳይ የቋንቋ ሞዴል ተነሳሽነቶች ከፊል ክፍት ምንጭ ፕሮጀክቶች ኤልኤምኤ፣ አልፓካ፣ ቪኩና እና ኮዋላ፣ እንዲሁም ሙሉ ለሙሉ ክፍት ምንጭ የሆኑ ፒቲያ፣ ኦፕንቻት ኪት፣ ክፍት ረዳት እና ዶሊ ያካትታሉ።

በተጨማሪም፣ ከማሽን መማር ጋር የተያያዙ በርካታ አዳዲስ ፕሮጀክቶች ሊታወቁ ይችላሉ፡-

  • MiniGPT-4 - ምስሎችን ለመተንተን እና ከስርዓቱ ጋር በሚገናኙበት ጊዜ በእጅ የተጻፈ ጽሑፍን ከግምት ውስጥ ለማስገባት የሚያስችል የእይታ መረጃን ከግምት ውስጥ የሚያስገባ ችሎታ ያለው ባህላዊ በይነተገናኝ ቻትቦቶችን ያሰፋል (ለምሳሌ በሥዕሉ ላይ ምን ዓይነት ነገር እንደሚታየው መጠየቅ ይችላሉ) , ቦት በፎቶው ላይ በሚታየው ታሪክ ላይ በመመስረት ታሪክ እንዲጽፍ ይጠይቁ ወይም በስዕላዊ ንድፍ ላይ በመመስረት, ድር ጣቢያ ለመፍጠር ይጠይቁ). የ MiniGPT-4 አተገባበር በፓይዘን ተጽፎ በ BSD ፍቃድ ተሰራጭቷል።
  • ፌስቡክ መሳሪያዎችን እና እራስን መማርን አሳትሟል (ኤስኤስኤል ፣ በራስ የሚተዳደር ትምህርት ፣ በስልጠና ወቅት በሰው የተዘጋጁ መለያዎችን እና ማብራሪያዎችን አይጠቀምም) የኮምፒተር እይታ ሞዴል DINOv2 ፣ አጠቃላይ የእይታ መረጃን ሂደት ችግሮች ለመፍታት (የምስል ምደባ ፣ ስለ መረጃ ማውጣት) በምስሎች ውስጥ ያሉ እቃዎች, በቪዲዮ ላይ ምን እየተከሰተ እንዳለ መረዳት) እና በፒክሰል ደረጃ (ጥልቀት ትንበያ, ክፍልፋዮች) ማባበያዎች. ሞዴሉ በ 142 ሚሊዮን ምስሎች ስብስብ ላይ ሰልጥኗል. አተገባበሩ የተፃፈው በፓይዘን ነው እና በCreative Commons Attribution-NonCommercial 4.0 ፍቃድ ስር ይሰራጫል፣ ይህም ለንግድ-ያልሆነ ጥቅም ላይ ሊውል ይችላል።
  • GPT4All ለብቻዎ ቻትቦቶችን በራስዎ ሃርድዌር ለማስጀመር የሚያስችል መሳሪያ ነው (የውጭ አገልግሎቶችን አይደርሱም እና ለአፈፃፀም AVX2 ድጋፍ ያለው ሲፒዩ ይጠቀማሉ)። በ GPT-J እና LLaMa ላይ የተመሰረቱ ትላልቅ የቋንቋ ሞዴሎችን ግንኙነት ይደግፋል. ኮዱ በፓይዘን የተፃፈ ሲሆን በ MIT ፍቃድ ይሰራጫል።

ምንጭ: opennet.ru

አስተያየት ያክሉ