Датабрикс нь байгалийн хэлээр асуултуудад хариулах, санал болгож буй математикийн асуудлыг шийдвэрлэх, өгөгдсөн сэдвээр контент үүсгэх, янз бүрийн програмчлалын хэл дээр код үүсгэх боломжтой чатботуудыг үүсгэхэд ашиглаж болох DBRX хэмээх том хэлний загварыг нээснээ зарлав. Уг загварыг Databricks 1.3 тэрбум доллараар худалдаж авсан Mosaic ML компани бүтээсэн. Сургалтанд 3072 NVIDIA H100 Tensor Core GPU-ийн кластер ашигласан. Дууссан загварыг ажиллуулахын тулд 320 ГБ санах ой ашиглахыг зөвлөж байна.
Загварыг сургахдаа шинжээчдийн илүү нарийвчлалтай үнэлгээ, 12 Tb хэмжээтэй текст, кодын цуглуулга авах боломжийг олгодог МЭ (Мэргэжилтнүүдийн холимог) архитектурыг ашигласан. DBRX загварт харгалзан үзсэн контекстийн хэмжээ нь 32 мянган жетон (текст үүсгэх үед загвар боловсруулж, санаж чадах токенуудын тоо) юм. Харьцуулбал, Google Gemini болон OpenAI GPT-4 загваруудын контекст хэмжээ 32 мянган жетон, Google Gemma 8 мянга, GPT-4 Turbo загвар нь 128 мянга байна.
Энэхүү загвар нь 132 тэрбум параметрийг хамардаг бөгөөд 16 шинжээчийн сүлжээнд хуваагддаг бөгөөд хүсэлтийг боловсруулахдаа 4-өөс илүүгүй сүлжээг ашиглах боломжтой (жетон тус бүр 36 тэрбумаас илүүгүй параметрийг хамардаг). Харьцуулбал, GPT-4 загвар нь 1.76 их наяд параметрийг багтаасан гэж таамаглаж байна, саяхан нээгдсэн X/Twitter загвар Grok (X/Twitter) - 314 тэрбум, GPT-3.5 - 175 тэрбум, YaLM (Yandex) - 100 тэрбум, LLaMA (Meta) - 65 тэрбум , GigaChat (Sber) - 29 тэрбум, Жемма (Google) - 7 тэрбум.
Загвар болон холбогдох бүрэлдэхүүн хэсгүүд нь Databricks Open Model License-ийн дагуу лицензтэй бөгөөд ашиглах, хуулбарлах, хуулбарлах, өөрчлөх, үүсмэл бүтээл хийх боломжийг олгодог боловч тодорхой хязгаарлалттай. Жишээлбэл, лиценз нь DBRX, түүний дериватив загварууд болон тэдгээрт суурилсан аливаа гаралтыг DBRX-ээс бусад хэлний загварыг сайжруулахад ашиглахыг хориглодог. Тусгай зөвшөөрөл нь хууль, дүрэм зөрчсөн газарт загварыг ашиглахыг мөн хориглосон. Дериватив загварыг ижил лицензийн дагуу тараах ёстой. Сард 700 сая гаруй хэрэглэгчийн ашигладаг бүтээгдэхүүн, үйлчилгээнд ашиглах тохиолдолд тусдаа зөвшөөрөл шаардлагатай.
Загвар бүтээгчдийн үзэж байгаагаар DBRX нь онцлог шинж чанар, чадавхаараа OpenAI-ийн GPT-3.5, Twitter-ийн Grok-1 загваруудаас давуу бөгөөд хэлний ойлголтын түвшин, чадварыг шалгахдаа Gemini 1.0 Pro загвартай өрсөлдөх боломжтой. програмчлалын хэлээр код бичих, математикийн асуудлыг шийдвэрлэх. SQL асуулга үүсгэх зэрэг зарим програмуудад DBRX нь зах зээлд тэргүүлэгч GPT-4 Turbo-ийн гүйцэтгэлд ойртдог. Нэмж дурдахад, загвар нь маш хурдан ажилладгаараа өрсөлдөгч үйлчилгээнүүдээс ялгаатай бөгөөд танд бараг тэр даруй хариу өгөх боломжийг олгодог. Тодруулбал, DBRX нь хэрэглэгч бүрт секундэд 150 хүртэлх жетон хурдтай текст үүсгэх боломжтой бөгөөд энэ нь LLaMA2-70B загвараас хоёр дахин хурдан юм.


Нэмж дурдахад, Apache 2 лицензийн дагуу түгээгдсэн, 2.0, 20, 7 тэрбум параметр бүхий хувилбарт байгаа нээлттэй том хэлний InternLM1.8 загварын техникийн тайлбарыг нийтэлж байгааг тэмдэглэж болно. Энэхүү загварыг Шанхайн хиймэл оюун ухааны лаборатори Хятадын хэд хэдэн их сургуулийн оролцоотойгоор боловсруулж байгаа бөгөөд 200 мянга хүртэлх контекст жетоныг харгалзан үзэж, англи төдийгүй хятад хэлийг дэмждэг гэдгээрээ онцлог юм. Олон туршилтаар загвар нь GPT-4-тэй ойролцоо байна.



Нэмж дурдахад, Mozilla-ийн llamafile хэрэгсэлд зориулж 84 шинэ матриц үржүүлэх цөмийг боловсруулж байгаа бөгөөд энэ нь том машин сургалтын хэлний загваруудыг (LLM) ажиллуулах бүх нийтийн гүйцэтгэгчийг бий болгох боломжийг олгодог. Өөрчлөлтүүд нь CPU дээр ажиллах үед llamafile дахь загваруудын ажиллагааг ихээхэн хурдасгах боломжтой болсон. Жишээлбэл, llamafile ашиглах үед загвар гүйцэтгэл нь орчноос хамаарч llama.cpp ашиглахтай харьцуулахад 30% -аас 500% хүртэл илүү хурдан бөгөөд MKL номын сантай харьцуулахад L2 кэшэд багтах матрицын үйлдлүүд нь XNUMX дахин хурдан хийгддэг. шинэ хэрэгжилт.
Эх сурвалж: opennet.ru
