FlexGen ChatGPT የሚመስሉ AI ቦቶችን በነጠላ የጂፒዩ ሲስተሞች ላይ ለማሄድ ሞተር ነው።

የስታንፎርድ ዩኒቨርሲቲ፣ የካሊፎርኒያ ዩኒቨርሲቲ በርክሌይ፣ ኢቲኤች ዙሪክ፣ የድህረ ምረቃ ትምህርት ቤት ኢኮኖሚክስ፣ ካርኔጂ ሜሎን ዩኒቨርሲቲ፣ እንዲሁም Yandex እና Meta የተመራማሪዎች ቡድን ትልቅ የቋንቋ ሞዴሎችን በሃብት ላይ ለማስኬድ የአንድ ሞተር ምንጭ ኮድ አሳትመዋል። - የተገደቡ ስርዓቶች. ለምሳሌ ሞተሩ 175 ቢሊየን መለኪያዎችን የሚሸፍን ቀድሞ የሰለጠነ OPT-175B ሞዴልን በማስኬድ ቻትጂፒቲ እና ኮፒሎትን የሚያስታውስ ተግባርን የመፍጠር አቅምን ይሰጣል በመደበኛ ኮምፒዩተር በNVDIA RTX3090 ጌም ግራፊክስ ካርድ 24ጂቢ የቪዲዮ ሜሞሪ የተገጠመለት። ኮዱ በፓይዘን የተፃፈ ነው ፣ የፒቶርች ማዕቀፍን ይጠቀማል እና በ Apache 2.0 ፈቃድ ስር ይሰራጫል።

በይፋ ከሚገኙት የቋንቋ ሞዴሎች ውስጥ አንዱን እንዲያወርዱ እና ወዲያውኑ ግንኙነት እንዲጀምሩ የሚያስችልዎትን ቦቶች ለመፍጠር ምሳሌ ስክሪፕት ያካትታል (ለምሳሌ፦ «python apps/chatbot.py —model facebook/opt-30b — -መቶኛ 0» የሚለውን ትዕዛዝ በማስኬድ 100 100 0 100 0”) እንደ መሰረት, በ ቡክኮርፐስ (10 ሺህ መጽሃፍቶች), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, ወዘተ) ስብስቦች ላይ የሰለጠነ በፌስቡክ የታተመ ትልቅ የቋንቋ ሞዴል ለመጠቀም ታቅዷል, Pushshift. io (በ Reddit ውሂብ ላይ የተመሰረተ) እና CCNewsV2 (የዜና ማህደር)። ሞዴሉ በግምት 180 ቢሊዮን ቶከኖች (800 ጂቢ ውሂብ) ይሸፍናል. የ33 ቀናት የክላስተር ኦፕሬሽን ከ992 NVIDIA A100 80GB ጂፒዩዎች ጋር ሞዴሉን በማሰልጠን ላይ ውሏል።

የ OPT-175B ሞዴልን በአንድ ኒቪዲ ቲ 4 ጂፒዩ (16 ጂቢ) ሲሰራ፣ የFlexGen ሞተር አፈፃፀሙን ቀደም ሲል ከቀረቡት መፍትሄዎች እስከ 100 እጥፍ ፈጥኖ በማሳየቱ ትልልቅ የቋንቋ ሞዴሎችን መጠቀም በተመጣጣኝ ዋጋ እንዲጨምር እና እንዲሰሩ ያስችላቸዋል። የወሰኑ accelerators ያለ ስርዓቶች. በተመሳሳይ ጊዜ፣ FlexGen ስሌቶችን ከበርካታ ጂፒዩዎች ጋር ለማዛመድ ልኬት ይችላል። የአምሳያው መጠንን ለመቀነስ የባለቤትነት መለኪያ መጭመቂያ እቅድ እና ሞዴል መሸጎጫ ዘዴ በተጨማሪ ጥቅም ላይ ይውላሉ.

በአሁኑ ጊዜ FlexGen የ OPT ቋንቋ ሞዴሎችን ብቻ ይደግፋል ፣ ግን ለወደፊቱ ገንቢዎች እንዲሁ ለ BLOOM (176 ቢሊዮን መለኪያዎች ፣ 46 ቋንቋዎችን እና 13 የፕሮግራም ቋንቋዎችን ይደግፋል) ፣ CodeGen (በ 22 የፕሮግራም ቋንቋዎች ኮድ ማመንጨት ይችላል) እና GLM ሞዴሎች. በFlexGen እና በ OPT-30B ሞዴል ላይ የተመሰረተ ከቦት ጋር የውይይት ምሳሌ፡-

ሰው፡- በአለም ላይ ረጅሙ ተራራ ማን ይባላል?

ረዳት: ኤቨረስት.

ሰው፡- ለአመታዊ ዝግጅታችን ጉዞ እያቀድኩ ነው። ምን ማድረግ እንችላለን?

ረዳት፡ መልካም፣ ለበዓልህ ልታደርጋቸው የምትችላቸው በርካታ ነገሮች አሉ። በመጀመሪያ ካርዶችን መጫወት ይችላሉ. ሁለተኛ, ለእግር ጉዞ መሄድ ይችላሉ. ሦስተኛ, ወደ ሙዚየም መሄድ ይችላሉ.

ምንጭ: opennet.ru

አስተያየት ያክሉ