FlexGen ir dzinējs ChatGPT līdzīgu AI robotu darbināšanai vienā GPU sistēmās

Pētnieku komanda no Stenfordas Universitātes, Kalifornijas Universitātes Bērklijā, ETH Cīrihes, Ekonomikas augstskolas, Kārnegija Melona universitātes, kā arī Yandex un Meta ir publicējuši avota kodu dzinējam lielu valodu modeļu darbināšanai resursos. - ierobežotas sistēmas. Piemēram, dzinējs nodrošina iespēju izveidot funkcionalitāti, kas atgādina ChatGPT un Copilot, darbinot iepriekš apmācītu OPT-175B modeli, kas aptver 175 miljardus parametru, parastā datorā ar NVIDIA RTX3090 spēļu grafisko karti, kas aprīkota ar 24 GB video atmiņu. Kods ir rakstīts Python, izmanto PyTorch sistēmu un tiek izplatīts saskaņā ar Apache 2.0 licenci.

Tajā ir iekļauts robotu izveides skripta piemērs, kas ļauj lejupielādēt kādu no publiski pieejamajiem valodu modeļiem un nekavējoties sākt sazināties (piemēram, izpildot komandu “python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0”). Kā bāzi tiek piedāvāts izmantot lielu Facebook publicēto valodas modeli, kas apmācīts BookCorpus (10 tūkstoši grāmatu), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews uc), Pushshift kolekcijās. io (pamatojoties uz Reddit datiem) un CCNewsV2 (ziņu arhīvs). Modelis aptver aptuveni 180 miljardus marķieru (800 GB datu). Modeļa apmācībai tika iztērētas 33 klastera darbības dienas ar 992 NVIDIA A100 80 GB GPU.

Darbinot OPT-175B modeli sistēmā ar vienu NVIDIA T4 GPU (16 GB), FlexGen dzinējs demonstrēja veiktspēju līdz pat 100 reizēm ātrāk nekā iepriekš piedāvātie risinājumi, padarot lielu valodu modeļu izmantošanu pieejamāku un ļaujot tiem darboties sistēmas bez īpašiem paātrinātājiem. Tajā pašā laikā FlexGen var mērogot, lai paralēli veiktu aprēķinus ar vairākiem GPU. Lai samazinātu modeļa izmēru, papildus tiek izmantota patentēta parametru saspiešanas shēma un modeļa kešatmiņas mehānisms.

Pašlaik FlexGen atbalsta tikai OPT valodu modeļus, bet nākotnē izstrādātāji sola arī pievienot atbalstu BLOOM (176 miljardi parametru, atbalsta 46 valodas un 13 programmēšanas valodas), CodeGen (var ģenerēt kodu 22 programmēšanas valodās) un GLM modeļi. Piemērs dialogam ar robotu, kura pamatā ir FlexGen un OPT-30B modelis:

Cilvēks: Kā sauc garāko kalnu pasaulē?

Asistents: Everests.

Cilvēks: Es plānoju ceļojumu mūsu jubilejā. Kādas lietas mēs varam darīt?

Asistents: Ir vairākas lietas, ko varat darīt savā jubilejā. Pirmkārt, jūs varat spēlēt kārtis. Otrkārt, jūs varat doties pārgājienā. Treškārt, jūs varat doties uz muzeju.

Avots: opennet.ru

Pievieno komentāru