Intel Xeon übertraf beim Training eines neuronalen Netzwerks mehrmals acht Tesla V100

Beim Deep Learning neuronaler Netze war der Zentralprozessor um ein Vielfaches schneller in der Leistung als eine Kombination aus acht Grafikprozessoren gleichzeitig. Klingt nach etwas aus der Science-Fiction, nicht wahr? Aber Forscher der Rice University haben mithilfe von Intel Xeon bewiesen, dass dies möglich ist.

Intel Xeon übertraf beim Training eines neuronalen Netzwerks mehrmals acht Tesla V100

GPUs waren schon immer viel besser für Deep-Learning-Neuronale Netze geeignet als CPUs. Das liegt an der Architektur von GPUs, die aus vielen kleinen Kernen bestehen, die in der Lage sind, viele kleine Aufgaben parallel zu erledigen, was genau das ist, was für das Training neuronaler Netze erforderlich ist. Es stellte sich jedoch heraus, dass Zentralprozessoren mit dem richtigen Ansatz beim Deep Learning sehr effektiv sein können.

Berichten zufolge war ein Intel Xeon-Prozessor mit 44 Kernen bei Verwendung des SLIDE-Deep-Learning-Algorithmus 3,5-mal produktiver als eine Kombination aus acht NVIDIA Tesla V100-Rechnerbeschleunigern. Dies ist möglicherweise das erste Mal, dass die CPU in einem solchen Szenario nicht nur zur GPU aufschließt, sondern diese sogar deutlich übertrifft.

In einer Pressemitteilung der Universität heißt es, dass der SLIDE-Algorithmus keine GPUs benötige, da er einen völlig anderen Ansatz verwende. Typischerweise wird beim Training neuronaler Netze die Trainingsfehler-Backpropagation-Technik verwendet, die eine Matrixmultiplikation verwendet, was eine ideale Belastung für die GPU darstellt. SLIDE hingegen verwandelt das Lernen in ein Nachschlageproblem, das mithilfe von Hash-Tabellen gelöst wird.


Intel Xeon übertraf beim Training eines neuronalen Netzwerks mehrmals acht Tesla V100

Den Forschern zufolge wird dadurch der Rechenaufwand für das Training neuronaler Netze deutlich reduziert. Um eine Basislinie zu erhalten, nutzten die Forscher das bestehende System des Labors der Rice University mit acht Tesla V100-Beschleunigern, um ein neuronales Netzwerk mithilfe der TensorFlow-Bibliothek von Google zu trainieren. Der Vorgang dauerte 3,5 Stunden. Anschließend wurde ein ähnliches neuronales Netzwerk mit dem SLIDE-Algorithmus auf einem System mit einem einzelnen 44-Core-Xeon-Prozessor trainiert, was nur eine Stunde dauerte.

Hierbei ist anzumerken, dass Intel derzeit keine 44-Kern-Prozessormodelle im Produktportfolio hat. Es ist möglich, dass die Forscher einen benutzerdefinierten oder unveröffentlichten Chip verwendet haben, aber das ist unwahrscheinlich. Viel wahrscheinlicher ist, dass hier ein System mit zwei 22-Kern Intel Der Leistung selbst tut dies aber auf jeden Fall keinen Abbruch.

Natürlich muss der SLIDE-Algorithmus noch viele Tests durchlaufen und seine Wirksamkeit sowie das Fehlen jeglicher Besonderheiten und Fallstricke beweisen. Was wir jetzt sehen, ist jedoch sehr beeindruckend und kann wirklich einen großen Einfluss auf die Entwicklung der Branche haben.



Source: 3dnews.ru

Kommentar hinzufügen