FlexGen je motor na spustenie robotov AI podobných ChatGPT na systémoch s jedným GPU

Tím výskumníkov zo Stanfordskej univerzity, Kalifornskej univerzity v Berkeley, ETH Zurich, Graduate School of Economics, Carnegie Mellon University, ako aj Yandex a Meta, zverejnil zdrojový kód motora na spúšťanie veľkých jazykových modelov na zdroji. - obmedzené systémy. Engine napríklad poskytuje možnosť vytvárať funkcionalitu pripomínajúcu ChatGPT a Copilot spustením vopred trénovaného modelu OPT-175B, pokrývajúceho 175 miliárd parametrov, na bežnom počítači s hernou grafickou kartou NVIDIA RTX3090 vybavenou 24 GB video pamäte. Kód je napísaný v jazyku Python, používa framework PyTorch a je distribuovaný pod licenciou Apache 2.0.

Obsahuje vzorový skript na vytváranie robotov, ktorý vám umožní stiahnuť si jeden z verejne dostupných jazykových modelov a okamžite začať komunikovať (napríklad spustením príkazu “python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0”). Ako základ sa navrhuje použiť veľký jazykový model publikovaný Facebookom, vyškolený na zbierkach BookCorpus (10 tisíc kníh), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews atď.), Pushshift. io (na základe údajov Reddit) a CCNewsV2 (archív správ). Model pokrýva približne 180 miliárd tokenov (800 GB dát). Na trénovanie modelu bolo vynaložených 33 dní prevádzky klastra s 992 GPU NVIDIA A100 80 GB.

Pri prevádzke modelu OPT-175B na systéme s jedným GPU NVIDIA T4 (16 GB) motor FlexGen preukázal výkon až 100-krát rýchlejší ako predtým ponúkané riešenia, vďaka čomu je použitie veľkých jazykových modelov cenovo dostupnejšie a umožňuje ich bežať na systémy bez vyhradených urýchľovačov. FlexGen môže zároveň škálovať, aby paralelizoval výpočty s viacerými GPU. Na zmenšenie veľkosti modelu sa dodatočne používa proprietárna schéma kompresie parametrov a mechanizmus ukladania modelu do vyrovnávacej pamäte.

V súčasnosti FlexGen podporuje iba jazykové modely OPT, ale v budúcnosti vývojári sľubujú pridanie podpory pre BLOOM (176 miliárd parametrov, podporuje 46 jazykov a 13 programovacích jazykov), CodeGen (môže generovať kód v 22 programovacích jazykoch) a GLM modely. Príklad dialógu s robotom založeným na FlexGen a modeli OPT-30B:

Človek: Ako sa volá najvyššia hora na svete?

Asistent: Everest.

Človek: Plánujem výlet na naše výročie. Aké veci môžeme robiť?

Asistent: No, existuje veľa vecí, ktoré môžete urobiť pre svoje výročie. Najprv môžete hrať karty. Po druhé, môžete ísť na túru. Po tretie, môžete ísť do múzea.

Zdroj: opennet.ru

Pridať komentár