Intel Xeon a surpassé huit Tesla V100 à plusieurs reprises lors de la formation d'un réseau neuronal

Le processeur central était plusieurs fois plus rapide en termes de performances qu'une combinaison de huit processeurs graphiques à la fois lors de l'apprentissage en profondeur des réseaux neuronaux. Cela ressemble à quelque chose qui sort de la science-fiction, n'est-ce pas ? Mais des chercheurs de l'Université Rice, utilisant Intel Xeon, ont prouvé que c'était possible.

Intel Xeon a surpassé huit Tesla V100 à plusieurs reprises lors de la formation d'un réseau neuronal

Les GPU ont toujours été bien mieux adaptés aux réseaux neuronaux d’apprentissage profond que les CPU. Cela est dû à l'architecture des GPU, qui sont constitués de nombreux petits cœurs capables d'effectuer de nombreuses petites tâches en parallèle, ce qui est exactement ce qui est requis pour la formation des réseaux de neurones. Mais il s’est avéré que les processeurs centraux, avec la bonne approche, peuvent être très efficaces en matière d’apprentissage profond.

Il a été rapporté qu'en utilisant l'algorithme d'apprentissage en profondeur SLIDE, un processeur Intel Xeon doté de 44 cœurs était 3,5 fois plus productif qu'une combinaison de huit accélérateurs informatiques NVIDIA Tesla V100. C'est peut-être la première fois que le CPU non seulement rattrape le GPU dans un tel scénario, mais les dépasse également, et de manière très visible.

Un communiqué de presse publié par l'université indique que l'algorithme SLIDE ne nécessite pas de GPU car il utilise une approche complètement différente. Généralement, lors de la formation des réseaux de neurones, une technique de rétropropagation est utilisée, qui utilise la multiplication matricielle, ce qui constitue une charge de travail idéale pour le GPU. SLIDE, quant à lui, transforme l'apprentissage en un problème de recherche résolu à l'aide de tables de hachage.


Intel Xeon a surpassé huit Tesla V100 à plusieurs reprises lors de la formation d'un réseau neuronal

Selon les chercheurs, cela réduit considérablement le coût de calcul de la formation des réseaux neuronaux. Pour obtenir une base de référence, les chercheurs ont utilisé le système existant du laboratoire de l'Université Rice avec huit accélérateurs Tesla V100 pour former un réseau neuronal à l'aide de la bibliothèque TensorFlow de Google. Le processus a duré 3,5 heures. Ensuite, un réseau neuronal similaire a été formé à l’aide de l’algorithme SLIDE sur un système doté d’un seul processeur Xeon à 44 cœurs, et cela n’a pris qu’une heure.

Il convient de noter ici qu'Intel ne propose actuellement pas de modèles de processeurs à 44 cœurs dans sa gamme de produits. Il est possible que les chercheurs aient utilisé une sorte de puce personnalisée ou inédite, mais cela est peu probable. Il est beaucoup plus probable qu'un système avec deux Intel Xeon à 22 cœurs ait été utilisé ici, ou qu'il y ait simplement eu une erreur dans le communiqué de presse, et nous parlons de 44 threads fournis par un processeur à 22 cœurs. Mais en tout cas, cela n’enlève rien à la réalisation elle-même.

Bien entendu, l'algorithme SLIDE doit encore passer de nombreux tests et prouver son efficacité, ainsi que l'absence de particularités et d'embûches. Cependant, ce que nous voyons aujourd’hui est très impressionnant et peut réellement avoir un impact important sur le développement de l’industrie.



Source: 3dnews.ru

Ajouter un commentaire