Intel Xeon superó varias veces a ocho Tesla V100 al entrenar una red neuronal

El procesador central tenía un rendimiento varias veces más rápido que una combinación de ocho procesadores gráficos a la vez cuando se utilizaban redes neuronales de aprendizaje profundo. Suena como algo sacado de la ciencia ficción, ¿no? Pero los investigadores de la Universidad Rice, utilizando Intel Xeon, han demostrado que es posible.

Intel Xeon superó varias veces a ocho Tesla V100 al entrenar una red neuronal

Las GPU siempre han sido mucho más adecuadas que las CPU para redes neuronales de aprendizaje profundo. Esto se debe a la arquitectura de las GPU, que constan de muchos núcleos pequeños capaces de realizar muchas tareas pequeñas en paralelo, que es exactamente lo que se requiere para entrenar redes neuronales. Pero resultó que los procesadores centrales, con el enfoque correcto, pueden ser muy eficaces en el aprendizaje profundo.

Se informa que cuando se utiliza el algoritmo de aprendizaje profundo SLIDE, un procesador Intel Xeon con 44 núcleos fue 3,5 veces más productivo que una combinación de ocho aceleradores informáticos NVIDIA Tesla V100. Esta es quizás la primera vez que la CPU no sólo alcanza a la GPU en tal escenario, sino que también las supera, y de manera muy notable.

Un comunicado de prensa emitido por la universidad afirma que el algoritmo SLIDE no requiere GPU ya que utiliza un enfoque completamente diferente. Normalmente, al entrenar redes neuronales, se utiliza la técnica de retropropagación de errores de entrenamiento, que utiliza la multiplicación de matrices, que es una carga ideal para la GPU. SLIDE, por otro lado, convierte el aprendizaje en un problema de búsqueda que se resuelve mediante tablas hash.


Intel Xeon superó varias veces a ocho Tesla V100 al entrenar una red neuronal

Según los investigadores, esto reduce significativamente el coste computacional del entrenamiento de redes neuronales. Para obtener una base, los investigadores utilizaron el sistema existente del laboratorio de la Universidad Rice con ocho aceleradores Tesla V100 para entrenar una red neuronal utilizando la biblioteca TensorFlow de Google. El proceso duró 3,5 horas. Posteriormente, se entrenó una red neuronal similar utilizando el algoritmo SLIDE en un sistema con un único procesador Xeon de 44 núcleos, y solo tomó 1 hora.

Vale la pena señalar aquí que Intel actualmente no tiene modelos de procesadores de 44 núcleos en su gama de productos. Es posible que los investigadores hayan utilizado algún tipo de chip personalizado o inédito, pero esto es poco probable. Es mucho más probable que aquí se haya utilizado un sistema con dos Intel Xeon de 22 núcleos, o simplemente hubo un error en el comunicado de prensa, y estamos hablando de 44 subprocesos que fueron proporcionados por un procesador de 22 núcleos. Pero en cualquier caso esto no quita mérito al logro en sí.

Por supuesto, el algoritmo SLIDE todavía tiene que pasar por muchas pruebas y demostrar su eficacia, así como la ausencia de peculiaridades y dificultades. Sin embargo, lo que vemos ahora es muy impresionante y realmente puede tener un gran impacto en el desarrollo de la industria.



Fuente: 3dnews.ru

Añadir un comentario