FlexGen je motor za poganjanje botov z umetno inteligenco, podobnih ChatGPT, v sistemih z enim GPE

Skupina raziskovalcev z univerze Stanford, kalifornijske univerze v Berkeleyju, ETH Zurich, podiplomske šole za ekonomijo, univerze Carnegie Mellon ter Yandex in Meta je objavila izvorno kodo mehanizma za izvajanje velikih jezikovnih modelov na viru - omejeni sistemi. Na primer, motor omogoča ustvarjanje funkcionalnosti, ki spominja na ChatGPT in Copilot, z izvajanjem predhodno usposobljenega modela OPT-175B, ki pokriva 175 milijard parametrov, na običajnem računalniku z igralno grafično kartico NVIDIA RTX3090, opremljeno s 24 GB video pomnilnika. Koda je napisana v Pythonu, uporablja ogrodje PyTorch in se distribuira pod licenco Apache 2.0.

Vključuje primer skripta za ustvarjanje botov, ki vam omogoča, da prenesete enega od javno dostopnih jezikovnih modelov in takoj začnete komunicirati (na primer z zagonom ukaza »python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0” ). Kot osnovo je predlagana uporaba velikega jezikovnega modela, ki ga je izdal Facebook, usposobljen na zbirkah BookCorpus (10 tisoč knjig), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews itd.), Pushshift. io (na podlagi podatkov Reddit) in CCNewsV2 (arhiv novic). Model pokriva približno 180 milijard žetonov (800 GB podatkov). Za usposabljanje modela je bilo porabljenih 33 dni delovanja gruče z 992 grafičnimi procesorji NVIDIA A100 80 GB.

Pri izvajanju modela OPT-175B v sistemu z enim GPU NVIDIA T4 (16 GB) je motor FlexGen pokazal zmogljivost do 100-krat hitrejšo od predhodno ponujenih rešitev, zaradi česar je uporaba velikih jezikovnih modelov cenovno ugodnejša in jim omogoča delovanje na sistemi brez namenskih pospeševalnikov. Hkrati se lahko FlexGen prilagaja za vzporedne izračune z več grafičnimi procesorji. Za zmanjšanje velikosti modela sta dodatno uporabljena lastniška shema stiskanja parametrov in mehanizem za predpomnjenje modela.

Trenutno FlexGen podpira samo jezikovne modele OPT, v prihodnosti pa razvijalci obljubljajo dodajanje podpore za BLOOM (176 milijard parametrov, podpira 46 jezikov in 13 programskih jezikov), CodeGen (lahko ustvari kodo v 22 programskih jezikih) in GLM modeli. Primer dialoga z botom, ki temelji na FlexGen in modelu OPT-30B:

Človek: Kako se imenuje najvišja gora na svetu?

Pomočnik: Everest.

Človek: Načrtujem potovanje za najino obletnico. Kaj lahko storimo?

Pomočnik: No, veliko stvari lahko narediš za svojo obletnico. Najprej lahko igrate karte. Drugič, lahko greš na pohod. Tretjič, lahko greš v muzej.

Vir: opennet.ru

Dodaj komentar