FlexGen on moottori ChatGPT:n kaltaisten AI-bottien ajamiseen yksittäisissä GPU-järjestelmissä

Tutkijaryhmä Stanfordin yliopistosta, Kalifornian yliopistosta Berkeleystä, ETH Zürichistä, Graduate School of Economicsista, Carnegie Mellonin yliopistosta sekä Yandexista ja Metasta on julkaissut lähdekoodin moottorille, jolla ajetaan suuria kielimalleja resurssilla. -rajoitetut järjestelmät. Moottori tarjoaa esimerkiksi mahdollisuuden luoda ChatGPT:tä ja Copilotia muistuttavia toimintoja ajamalla esikoulutettua OPT-175B-mallia, joka kattaa 175 miljardia parametria, tavallisessa tietokoneessa, jossa on NVIDIA RTX3090 -pelinäytönohjain, joka on varustettu 24 Gt:n videomuistilla. Koodi on kirjoitettu Pythonilla, käyttää PyTorch-kehystä ja sitä jaetaan Apache 2.0 -lisenssillä.

Se sisältää esimerkkiskriptin robottien luomiseen, jonka avulla voit ladata jonkin julkisesti saatavilla olevista kielimalleista ja aloittaa viestinnän välittömästi (esimerkiksi suorittamalla komennon ”python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0"). Pohjaksi ehdotetaan käytettäväksi suurta Facebookin julkaisemaa kielimallia, joka on koulutettu BookCorpusin (10 tuhatta kirjaa), CC-Storiesin, Pilen (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews jne.), Pushshiftin kokoelmiin. io (perustuu Reddit-tietoihin) ja CCNewsV2 (uutisarkisto). Malli kattaa noin 180 miljardia tokenia (800 Gt dataa). Mallin koulutukseen käytettiin 33 päivää klusteritoimintaa 992 NVIDIA A100 80 Gt:n GPU:lla.

Kun OPT-175B-mallia käytettiin järjestelmässä, jossa on yksi NVIDIA T4 GPU (16 Gt), FlexGen-moottori osoitti suorituskykyä jopa 100 kertaa nopeammin kuin aiemmin tarjotut ratkaisut, mikä teki suurten kielimallien käytöstä edullisempaa ja mahdollistaa niiden käytön järjestelmät ilman erityisiä kiihdyttimiä. Samaan aikaan FlexGen voi skaalata laskelmia rinnakkain useiden GPU:iden kanssa. Mallin koon pienentämiseksi käytetään lisäksi patentoitua parametrien pakkausjärjestelmää ja mallin välimuistimekanismia.

Tällä hetkellä FlexGen tukee vain OPT-kielimalleja, mutta jatkossa kehittäjät lupaavat lisätä tuen myös BLOOMille (176 miljardia parametria, tukee 46 kieltä ja 13 ohjelmointikieltä), CodeGenille (voi luoda koodia 22 ohjelmointikielellä) ja GLM mallit. Esimerkki dialogista FlexGeniin ja OPT-30B-malliin perustuvan botin kanssa:

Ihminen: Mikä on maailman korkeimman vuoren nimi?

Assistentti: Everest.

Ihminen: Suunnittelen matkaa vuosipäivämme kunniaksi. Mitä asioita voimme tehdä?

Assistentti: Voit tehdä vuosipäivänäsi useita asioita. Ensinnäkin voit pelata korttia. Toiseksi, voit mennä vaellukselle. Kolmanneksi voit mennä museoon.

Lähde: opennet.ru

Lisää kommentti