Los gigantes tecnológicos y las nuevas empresas están adoptando modelos de IA más pequeños y eficientes en su intento de reducir costos y mejorar la productividad. Estos modelos, a diferencia de sus “hermanos mayores” como GPT-4, pueden entrenarse con una cantidad menor de datos y especializarse en la resolución de problemas específicos.

Microsoft, Google, Apple y startups como Mistral, Anthropic y Cohere recurren cada vez más a modelos de lenguajes de inteligencia artificial pequeños y medianos. A diferencia de los modelos a gran escala (LLM) como el GPT-4 de OpenAI, que utilizan más de un billón de parámetros y su desarrollo cuesta más de 100 millones de dólares, los modelos compactos se entrenan en conjuntos de datos más estrechos y pueden costar menos de 10 millones de dólares, con lo que se utiliza menos de 10 mil millones de parámetros.
Microsoft, uno de los líderes en el campo de la IA, presentó una familia de pequeños modelos llamada Phi. Según el director general de la empresa, Satya Nadella, estos modelos son 100 veces más pequeños que la versión gratuita de ChatGPT, pero al mismo tiempo realizan muchas tareas casi con la misma eficacia. Yusuf Mehdi, director comercial de Microsoft, señaló que la empresa rápidamente se dio cuenta de que ejecutar grandes modelos de IA era más caro de lo que se pensaba originalmente, lo que llevó a Microsoft a buscar soluciones más rentables.
Otros gigantes tecnológicos tampoco se quedan fuera. Google, Apple, así como Mistral, Anthropic y Cohere han lanzado sus propias versiones de modelos pequeños y medianos. Apple, en particular, planea utilizar dichos modelos para ejecutar IA localmente, directamente en teléfonos inteligentes, lo que debería mejorar la velocidad y la seguridad. Al mismo tiempo, el consumo de recursos en los teléfonos inteligentes será mínimo.
Los expertos señalan que para muchas tareas, como resumir documentos o crear imágenes, los modelos grandes pueden resultar excesivos. Ilya Polosukhin, uno de los autores del artículo fundamental de Google de 2017 sobre inteligencia artificial, comparó en sentido figurado el uso de modelos grandes para tareas simples con conducir un tanque al supermercado. “Calcular 2+2 no debería requerir billones de operaciones”, enfatizó.
Las empresas y los consumidores también están buscando formas de reducir el costo de operar tecnologías de IA generativa. Según Yoav Shoham, cofundador de la empresa de inteligencia artificial AI21 Labs, con sede en Tel Aviv, los modelos pequeños pueden responder preguntas, cuando se traducen en dinero, por solo una sexta parte del costo de los modelos de lenguaje grandes.
Curiosamente, la ventaja clave de los modelos pequeños es la capacidad de ajustarlos a tareas y conjuntos de datos específicos. Esto les permite operar de manera eficiente en áreas especializadas a un costo menor, como la industria legal únicamente.
Sin embargo, los expertos señalan que las empresas no van a abandonar por completo el LLM. Por ejemplo, Apple anunció la integración de ChatGPT en Siri para realizar tareas complejas y Microsoft planea utilizar el último modelo OpenAI en la nueva versión de Windows. Y empresas como Experian en Irlanda y Salesforce en EE.UU. ya han adoptado modelos de IA más pequeños para chatbots y han descubierto que ofrecen el mismo rendimiento que los modelos más grandes, pero a costos significativamente más bajos y con menor latencia de procesamiento.
El cambio a modelos pequeños se produce a medida que se desacelera el progreso en modelos de IA grandes y disponibles públicamente. Los expertos atribuyen esto a la falta de nuevos datos de formación de alta calidad y, en general, señalan una nueva e importante etapa en la evolución de la industria.
Fuente:
Fuente: 3dnews.ru
