Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5

Компания Databricks объявила ΠΎΠ± ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΈΠΈ большой языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ DBRX, которая ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ для создания Ρ‡Π°Ρ‚Π±ΠΎΡ‚ΠΎΠ², ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΡ… Π½Π° вопросы Π½Π° СстСствСнном языкС, Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΡ… ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Π΅ матСматичСскиС Π·Π°Π΄Π°Ρ‡ΠΈ, способных Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚ Π½Π° Π·Π°Π΄Π°Π½Π½ΡƒΡŽ Ρ‚Π΅ΠΌΡƒ ΠΈ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΠΊΠΎΠ΄ Π½Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… языках программирования. МодСль Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠ΅ΠΉ Mosaic ML, которая Π±Ρ‹Π»Π° ΠΊΡƒΠΏΠ»Π΅Π½Π° Databricks Π·Π° 1.3 ΠΌΠ»Ρ€Π΄ Π΄ΠΎΠ»Π»Π°Ρ€ΠΎΠ². Для обучСния использовался кластСр ΠΈΠ· 3072 GPU NVIDIA H100 Tensor Core. Для запуска Π³ΠΎΡ‚ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ рСкомСндуСтся 320GB памяти.

ΠŸΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΠ»Π°ΡΡŒ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° MoE (Mixture of experts), ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΡƒΡŽ ΡΠΊΡΠΏΠ΅Ρ€Ρ‚Π½ΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ, ΠΈ коллСкция тСкстов ΠΈ ΠΊΠΎΠ΄Π°, Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 12 Tb. Π Π°Π·ΠΌΠ΅Ρ€ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ модСлью DBRX контСкста составляСт 32 тысяч Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² (число Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ модСль ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ ΠΈ Π·Π°ΠΏΠΎΠΌΠ½ΠΈΡ‚ΡŒ ΠΏΡ€ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ тСкста). Для сравнСния Ρ€Π°Π·ΠΌΠ΅Ρ€ контСкста Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Google Gemini ΠΈ OpenAI GPT-4 составляСт 32 тысячи Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Google Gemma — 8 тысяч, Π° Ρƒ ΠΌΠΎΠ΄Π΅Π»ΠΈ GPT-4 Turbo — 128 тысяч.

МодСль ΠΎΡ…Π²Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ 132 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Π° Π½Π° 16 экспСртных сСтСй, ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ запроса ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π½Π΅ Π±ΠΎΠ»Π΅Π΅ 4 (ΠΎΡ…Π²Π°Ρ‚ Π½Π΅ Π±ΠΎΠ»Π΅Π΅ 36 ΠΌΠ»Ρ€Π΄ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°). Для сравнСния модСль GPT-4 ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ 1.76 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π΅Π΄Π°Π²Π½ΠΎ открытая X/Twitter модСль Grok (X/Twitter) — 314 ΠΌΠ»Ρ€Π΄, GPT-3.5 — 175 ΠΌΠ»Ρ€Π΄, YaLM (Yandex) — 100 ΠΌΠ»Ρ€Π΄, LLaMA (Meta) — 65 ΠΌΠ»Ρ€Π΄, GigaChat (Sber) — 29 ΠΌΠ»Ρ€Π΄, Gemma (Google) — 7 ΠΌΠ»Ρ€Π΄.

МодСль ΠΈ связанныС с Π½Π΅ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡŽΡ‚ΡΡ ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ Databricks Open Model License, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π΅ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ, Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡŒ, ΠΊΠΎΠΏΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ, ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒ ΠΈ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹, Π½ΠΎ с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ ограничСниями. НапримСр, лицСнзия Π·Π°ΠΏΡ€Π΅Ρ‰Π°Π΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ DBRX, ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ любой Π²Ρ‹Π²ΠΎΠ΄ Π½Π° ΠΈΡ… основС для ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ Π΄Ρ€ΡƒΠ³ΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΎΡ‚ DBRX. ЛицСнзия Ρ‚Π°ΠΊΠΆΠ΅ Π·Π°ΠΏΡ€Π΅Ρ‰Π°Π΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ модСль Π² областях, Π½Π°Ρ€ΡƒΡˆΠ°ΡŽΡ‰ΠΈΡ… Π·Π°ΠΊΠΎΠ½Ρ‹ ΠΈ Π½ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ Π°ΠΊΡ‚Ρ‹. ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚ΡŒΡΡ ΠΏΠΎΠ΄ Ρ‚ΠΎΠΉ ΠΆΠ΅ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ. ΠŸΡ€ΠΈ использовании Π² ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°Ρ… ΠΈ сСривисах, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ ΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π±ΠΎΠ»Π΅Π΅ 700 ΠΌΠ»Π½ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ Π² мСсяц, трСбуСтся ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ.

По заявлСнию создатСлСй ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΏΠΎ своим характСристикам ΠΈ возмоТностям DBRX прСвосходит ΠΌΠΎΠ΄Π΅Π»ΠΈ GPT-3.5 ΠΎΡ‚ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ OpenAI ΠΈ Grok-1 ΠΎΡ‚ Twitter, ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с модСлью Gemini 1.0 Pro ΠΏΡ€ΠΈ тСстировании стСпСни понимания языка, возмоТностСй написания ΠΊΠΎΠ΄Π° Π½Π° языках программирования ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ матСматичСских Π·Π°Π΄Π°Ρ‡. Π’ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… примСнСниях, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΡ€ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ SQL-запросов, DBRX приблиТаСтся ΠΏΠΎ эффСктивности ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ GPT-4 Turbo, которая Π»ΠΈΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ Π½Π° Ρ€Ρ‹Π½ΠΊΠ΅. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, модСль отличаСтся ΠΎΡ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ… сСрвисов ΠΎΡ‡Π΅Π½ΡŒ быстрой Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ ΠΈ позволяСт Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ ΠΏΠΎΡ‡Ρ‚ΠΈ ΠΌΠ³Π½ΠΎΠ²Π΅Π½Π½ΠΎ. Π’ частности, DBRX ΠΌΠΎΠΆΠ΅Ρ‚ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ тСкст со ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ Π΄ΠΎ 150 Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² сСкунду Π½Π° ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π² Π΄Π²Π° Ρ€Π°Π·Π° быстрСС ΠΌΠΎΠ΄Π΅Π»ΠΈ LLaMA2-70B.

Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5
Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5

Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΡŽ тСхничСского описания ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ большой языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ InternLM2, которая распространяСтся ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ Apache 2.0, доступна Π² Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°Ρ… с 20, 7 ΠΈ 1.8 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π°ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². МодСль развиваСтся ΡˆΠ°Π½Ρ…Π°ΠΉΡΠΊΠΎΠΉ Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€ΠΈΠ΅ΠΉ искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π° ΠΏΡ€ΠΈ участии Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… китайских унивСрситСтов ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ‡Π°Ρ‚Π΅Π»ΡŒΠ½Π° ΡƒΡ‡Ρ‘Ρ‚ΠΎΠΌ Π΄ΠΎ 200K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² контСкста ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ английского, Π½ΠΎ ΠΈ китайского языка. Π’ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… тСстах модСль Π±Π»ΠΈΠ·ΠΊΠ° ΠΊ GPT-4.

Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5
Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5
Databricks ΠΎΡ‚ΠΊΡ€Ρ‹Π» Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль DBRX, ΠΎΠΏΠ΅Ρ€Π΅ΠΆΠ°ΡŽΡ‰ΡƒΡŽ Π² тСстах GPT-3.5

ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, сообщаСтся ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ 84 Π½ΠΎΠ²Ρ‹Ρ… ядра умноТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ† для инструмСнтария llamafile, Ρ€Π°Π·Π²ΠΈΠ²Π°Π΅ΠΌΠΎΠ³ΠΎ Mozilla ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π΅Π³ΠΎ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹Π΅ исполняСмыС Ρ„Π°ΠΉΠ»Ρ‹ для запуска Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния (LLM). ИзмСнСния ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² llamafile ΠΏΡ€ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ Π½Π° CPU. НапримСр, Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈ использовании llamafile Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ быстрСС, Ρ‡Π΅ΠΌ ΠΏΡ€ΠΈ использовании llama.cpp ΠΎΡ‚ 30% Π΄ΠΎ 500% Π² зависимости ΠΎΡ‚ окруТСния, Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΎΠΉ MKL ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠΌΠ΅Ρ‰Π°ΡŽΡ‚ΡΡ Π² кэш L2, Π² Π½ΠΎΠ²ΠΎΠΉ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ Π² Π΄Π²Π° Ρ€Π°Π·Π° быстрСС.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ: opennet.ru

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ