🥇Розробники ІІ стали переходити на компактні ІІ-моделі — вони дешевші та економічніші

Технологічні гіганти та стартапи переходять на більш компактні та ефективні моделі штучного інтелекту, прагнучи скоротити витрати та підвищити продуктивність. Ці моделі, на відміну від своїх старших братів, таких як GPT-4, можуть навчатися на меншому обсязі даних і спеціалізуються на вирішенні конкретних завдань.

Microsoft, Google, Apple та стартапи, такі як Mistral, Anthropic та Cohere, все частіше звертаються до малих та середніх мовних моделей штучного інтелекту. На відміну від великих моделей (LLM), таких як GPT-4 від OpenAI, які використовують більше одного трильйона параметрів і їх розробка оцінюється далеко за 100 мільйонів доларів, компактні моделі навчаються на більш вузьких наборах даних і можуть коштувати менше 10 мільйонів доларів. При цьому використовуючи менше 10 мільярдів параметрів.

Компанія Microsoft, один із лідерів в області ІІ, представила сімейство невеликих моделей під назвою Phi. За словами генерального директора компанії Сатьї Наделли (Satya Nadella), ці моделі в 100 разів менші за безкоштовну версію ChatGPT, але при цьому справляються з багатьма завданнями майже так само ефективно. Юсуф Мехді (Yusuf Mehdi), комерційний директор Microsoft, зазначив, що компанія швидко усвідомила, що експлуатація великих моделей ІІ обходиться дорожче, ніж передбачалося спочатку, що спонукало Microsoft шукати економічніші рішення.

Інші технологічні гіганти також не залишилися осторонь. Google, Apple, а також Mistral, Anthropic та Cohere випустили свої версії малих та середніх моделей. Apple, зокрема, планує використовувати такі моделі для запуску ІІ локально, безпосередньо на смартфонах, що має підвищити швидкість роботи та безпеку. При цьому споживання ресурсів на смартфонах буде мінімальним.

Експерти зазначають, що для багатьох завдань, таких як узагальнення документів або створення зображень, великі моделі взагалі можуть бути надмірними. Ілля Полосухін, один із авторів основної статті Google у 2017 році, що стосується штучного інтелекту, образно порівняв використання великих моделей для простих завдань із поїздкою до магазину за продуктами на танку. "Для обчислення 2 + 2 не повинні вимагатися квадрильйони операцій", - підкреслив він.

Компанії та споживачі також шукають способи знизити витрати на експлуатацію генеративних технологій ІІ. За словами Йоава Шохама (Yoav Shoham), співзасновника ІІ-компанії AI21 Labs з Тель-Авіва, невеликі моделі можуть відповідати на питання, якщо перевести все в гроші, лише за одну шосту вартість великих мовних моделей.

Цікаво, що ключовою перевагою малих моделей є можливість їхнього тонкого налаштування під конкретні завдання та набори даних. Це дозволяє їм ефективно працювати у спеціалізованих областях за менших витрат, наприклад, лише у юридичної галузі.

Проте експерти зазначають, що компанії не мають наміру повністю відмовлятися від LLM. Наприклад, Apple оголосила про інтеграцію ChatGPT до Siri для виконання складних завдань, а Microsoft планує використовувати останню модель OpenAI у новій версії. Windows. А такі компанії як Experian з Ірландії та Salesforce зі США вже перейшли на використання компактних моделей ІІ для чат-ботів і виявили, що вони забезпечують таку ж продуктивність, як і великі моделі, але при значно менших витратах і з меншими затримками обробки даних.

Перехід до малих моделей відбувається і натомість уповільнення прогресу у сфері великих публічно доступних моделей штучного інтелекту. Експерти пов'язують це з нестачею високоякісних нових даних для навчання, і в цілому вказують на новий і важливий етап еволюції індустрії.

Джерело:

Джерело: 3dnews.ru