A FlexGen egy motor ChatGPT-szerű AI-botok futtatására egyetlen GPU-rendszereken

A Stanford Egyetem, a Berkeley-i Kaliforniai Egyetem, az ETH Zurich, a Graduate School of Economics, a Carnegie Mellon Egyetem, valamint a Yandex és a Meta kutatócsoportja közzétette a nagy nyelvi modellek erőforrásokon való futtatására szolgáló motor forráskódját. -korlátozott rendszerek. A motor például lehetővé teszi a ChatGPT-re és a Copilotra emlékeztető funkcionalitás létrehozását egy előre betanított, 175 milliárd paramétert lefedő OPT-175B modell futtatásával egy normál számítógépen, 3090 GB videomemóriával felszerelt NVIDIA RTX24 gamer grafikus kártyával. A kód Python nyelven íródott, a PyTorch keretrendszert használja, és az Apache 2.0 licenc alatt kerül terjesztésre.

Tartalmaz egy példaszkriptet robotok létrehozására, amely lehetővé teszi az egyik nyilvánosan elérhető nyelvi modell letöltését, és azonnali kommunikáció megkezdését (például a „python apps/chatbot.py —model facebook/opt-30b — -percent 0 parancs futtatásával 100 100 0 100 0” ). Alapként a Facebook által közzétett nagy nyelvi modell használatát javasolják, amely a BookCorpus (10 ezer könyv), a CC-Stories, a Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews stb.), a Pushshift gyűjteményén van kiképezve. io (Reddit adatok alapján) és CCNewsV2 (hírarchívum). A modell körülbelül 180 milliárd tokent (800 GB adatot) fed le. A modell betanítására 33 napos fürtműködést fordítottak 992 NVIDIA A100 80 GB-os GPU-val.

Amikor az OPT-175B modellt egyetlen NVIDIA T4 GPU-val (16 GB) rendelkező rendszeren futtatja, a FlexGen motor akár 100-szor gyorsabb teljesítményt mutatott, mint a korábban kínált megoldások, így megfizethetőbbé tette a nagy nyelvű modellek használatát, és lehetővé tette azok futtatását dedikált gyorsítók nélküli rendszerek. Ugyanakkor a FlexGen képes skálázni, hogy párhuzamosítsa a számításokat több GPU-val. A modell méretének csökkentése érdekében szabadalmaztatott paramétertömörítési sémát és modell gyorsítótárazási mechanizmust is használnak.

A FlexGen jelenleg csak az OPT nyelvi modelleket támogatja, de a jövőben a fejlesztők azt ígérik, hogy a BLOOM (176 milliárd paraméter, 46 nyelvet és 13 programozási nyelvet támogat), a CodeGen (22 programozási nyelven tud kódot generálni) és GLM modellek. Példa a FlexGen és az OPT-30B modellen alapuló bottal folytatott párbeszédre:

Ember: Mi a neve a világ legmagasabb hegyének?

Asszisztens: Everest.

Human: Utazást tervezek az évfordulónkra. Milyen dolgokat tehetünk?

Asszisztens: Nos, számos dolgot megtehet az évfordulója alkalmából. Először is kártyázhatsz. Másodszor, elmehetsz kirándulni. Harmadszor, elmehetsz egy múzeumba.

Forrás: opennet.ru

Hozzászólás