FlexGen is 'n enjin om ChatGPT-agtige AI-bots op enkele GPU-stelsels te laat loop

'n Span navorsers van Stanford Universiteit, die Universiteit van Kalifornië in Berkeley, ETH Zurich, die Graduate School of Economics, Carnegie Mellon Universiteit, sowel as Yandex en Meta, het die bronkode van 'n enjin vir die bestuur van groot taalmodelle op hulpbron gepubliseer -beperkte stelsels. Die enjin bied byvoorbeeld die vermoë om funksionaliteit te skep wat herinner aan ChatGPT en Copilot deur 'n vooraf-opgeleide OPT-175B-model, wat 175 miljard parameters dek, op 'n gewone rekenaar met 'n NVIDIA RTX3090-speletjie-grafiese kaart wat met 24 GB videogeheue toegerus is, te laat loop. Die kode is in Python geskryf, gebruik die PyTorch-raamwerk en word onder die Apache 2.0-lisensie versprei.

Dit bevat 'n voorbeeldskrif vir die skep van bots wat jou toelaat om een ​​van die publiek beskikbare taalmodelle af te laai en dadelik te begin kommunikeer (byvoorbeeld deur die opdrag "python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0”). As basis word daar voorgestel om 'n groot taalmodel te gebruik wat deur Facebook gepubliseer is, opgelei op die versamelings van BookCorpus (10 duisend boeke), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, ens.), Pushshift. io (gebaseer op Reddit-data) en CCNewsV2 (nuusargief). Die model dek ongeveer 180 miljard tokens (800 GB data). 33 dae van groepering met 992 NVIDIA A100 80GB GPU's is bestee aan die opleiding van die model.

Wanneer die OPT-175B-model op 'n stelsel met 'n enkele NVIDIA T4 GPU (16GB) gebruik word, het die FlexGen-enjin prestasie tot 100 keer vinniger getoon as wat voorheen aangebied is, wat die gebruik van groot taalmodelle meer bekostigbaar gemaak het en hulle toegelaat het om op te loop stelsels sonder toegewyde versnellers. Terselfdertyd kan FlexGen skaal om berekeninge met veelvuldige GPU's te paralleliseer. Om die grootte van die model te verminder, word 'n eie parameter-kompressieskema en 'n modelkasmeganisme ook gebruik.

Tans ondersteun FlexGen slegs OPT-taalmodelle, maar in die toekoms belowe die ontwikkelaars ook om ondersteuning vir die BLOOM by te voeg (176 miljard parameters, ondersteun 46 tale en 13 programmeertale), CodeGen (kan kode in 22 programmeertale genereer) en GLM modelle. 'n Voorbeeld van 'n dialoog met 'n bot gebaseer op FlexGen en die OPT-30B-model:

Mens: Wat is die naam van die hoogste berg in die wêreld?

Assistent: Everest.

Mens: Ek beplan 'n reis vir ons herdenking. Watter dinge kan ons doen?

Assistent: Wel, daar is 'n aantal dinge wat jy vir jou herdenking kan doen. Eerstens kan jy kaarte speel. Tweedens kan jy gaan stap. Derdens kan jy na 'n museum gaan.

Bron: opennet.ru

Voeg 'n opmerking