Ang FlexGen usa ka makina alang sa pagpadagan sa ChatGPT-sama sa AI bots sa usa ka GPU system

Usa ka grupo sa mga tigdukiduki gikan sa Stanford University, sa Unibersidad sa California sa Berkeley, ETH Zurich, sa Graduate School of Economics, Carnegie Mellon University, ingon man sa Yandex ug Meta, nagpatik sa source code sa usa ka makina alang sa pagpadagan sa dagkong mga modelo sa pinulongan sa kapanguhaan. - gipugngan nga mga sistema. Pananglitan, ang makina naghatag og abilidad sa paghimo og functionality nga makapahinumdom sa ChatGPT ug Copilot pinaagi sa pagpadagan sa usa ka pre-trained OPT-175B nga modelo, nga naglangkob sa 175 bilyon nga mga parameter, sa usa ka regular nga kompyuter nga adunay NVIDIA RTX3090 gaming graphics card nga adunay 24GB nga memorya sa video. Ang code gisulat sa Python, naggamit sa PyTorch framework ug giapod-apod ubos sa Apache 2.0 nga lisensya.

Naglakip kini sa usa ka pananglitan nga script alang sa paghimo og mga bot nga nagtugot kanimo sa pag-download sa usa sa mga modelo sa pinulongan nga magamit sa publiko ug magsugod dayon sa pagpakigsulti (pananglitan, pinaagi sa pagpadagan sa command "python apps/chatbot.py β€”model facebook/opt-30b β€” -percent 0 100 100 0 100 0” ). Isip base, gisugyot nga gamiton ang usa ka dako nga modelo sa pinulongan nga gipatik sa Facebook, gibansay sa mga koleksyon sa BookCorpus (10 ka libo nga mga libro), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, ug uban pa), Pushshift. io (base sa Reddit data ) ug CCNewsV2 (news archive). Ang modelo naglangkob sa gibana-bana nga 180 bilyon nga mga token (800 GB nga datos). Ang 33 ka adlaw nga operasyon sa cluster nga adunay 992 NVIDIA A100 80GB GPUs gigasto sa pagbansay sa modelo.

Kung gipadagan ang OPT-175B nga modelo sa usa ka sistema nga adunay usa ka NVIDIA T4 GPU (16GB), ang FlexGen nga makina nagpakita sa pasundayag hangtod sa 100 ka beses nga mas paspas kaysa kaniadto nga gitanyag nga mga solusyon, nga naghimo sa paggamit sa dagkong mga modelo sa lengguwahe nga mas barato ug gitugotan sila nga modagan sa. mga sistema nga walay gipahinungod nga mga accelerator. Sa parehas nga oras, ang FlexGen mahimong mag-scale aron ipahiangay ang mga kalkulasyon sa daghang mga GPU. Aron makunhuran ang gidak-on sa modelo, usa ka proprietary parameter compression scheme ug usa ka mekanismo sa pag-cache sa modelo ang dugang nga gigamit.

Sa pagkakaron, ang FlexGen nagsuporta lamang sa mga modelo sa OPT nga pinulongan, apan sa umaabot ang mga developers usab misaad nga makadugang sa suporta alang sa BLOOM (176 bilyon nga mga parameter, nagsuporta sa 46 nga mga pinulongan ug 13 nga mga programming language), CodeGen (makahimo og code sa 22 nga mga programming language) ug Mga modelo sa GLM. Usa ka pananglitan sa usa ka diyalogo sa usa ka bot nga gibase sa FlexGen ug ang OPT-30B nga modelo:

Tawo: Unsa ang ngalan sa pinakataas nga bukid sa kalibutan?

Katabang: Everest.

Tawo: Nagplano ko og biyahe para sa atong anibersaryo. Unsa nga mga butang ang atong mahimo?

Katabang: Aw, adunay daghang mga butang nga mahimo nimo alang sa imong anibersaryo. Una, mahimo kang magdula og mga kard. Ikaduha, mahimo kang mag-hike. Ikatulo, makaadto ka sa museyo.

Source: opennet.ru

Idugang sa usa ka comment