Intel Xeon mengungguli lapan Tesla V100 beberapa kali apabila melatih rangkaian saraf

Pemproses pusat adalah beberapa kali lebih pantas dalam prestasi daripada gabungan lapan pemproses grafik sekaligus apabila rangkaian neural pembelajaran mendalam. Bunyi seperti sesuatu yang keluar dari fiksyen sains, bukan? Tetapi penyelidik dari Rice University, menggunakan Intel Xeon, telah membuktikan bahawa ia mungkin.

Intel Xeon mengungguli lapan Tesla V100 beberapa kali apabila melatih rangkaian saraf

GPU sentiasa lebih sesuai untuk rangkaian neural pembelajaran mendalam daripada CPU. Ini disebabkan oleh seni bina GPU, yang terdiri daripada banyak teras kecil yang mampu melaksanakan banyak tugas kecil secara selari, iaitu apa yang diperlukan untuk melatih rangkaian saraf. Tetapi ternyata pemproses pusat, dengan pendekatan yang betul, boleh menjadi sangat berkesan dalam pembelajaran mendalam.

Dilaporkan bahawa apabila menggunakan algoritma pembelajaran mendalam SLIDE, pemproses Intel Xeon dengan 44 teras adalah 3,5 kali lebih produktif daripada gabungan lapan pemecut pengkomputeran NVIDIA Tesla V100. Ini mungkin kali pertama CPU bukan sahaja mengejar GPU dalam senario sedemikian, tetapi juga mengatasinya, dan sangat ketara.

Siaran akhbar yang dikeluarkan oleh universiti menyatakan bahawa algoritma SLIDE tidak memerlukan GPU kerana ia menggunakan pendekatan yang sama sekali berbeza. Biasanya, apabila melatih rangkaian saraf, teknik perambatan balik ralat latihan digunakan, yang menggunakan pendaraban matriks, yang merupakan beban ideal untuk GPU. SLAID, sebaliknya, menjadikan pembelajaran sebagai masalah carian yang diselesaikan menggunakan jadual cincang.


Intel Xeon mengungguli lapan Tesla V100 beberapa kali apabila melatih rangkaian saraf

Menurut para penyelidik, ini dengan ketara mengurangkan kos pengiraan rangkaian saraf latihan. Untuk mendapatkan garis dasar, para penyelidik menggunakan sistem sedia ada makmal Rice University dengan lapan pemecut Tesla V100 untuk melatih rangkaian saraf menggunakan perpustakaan TensorFlow Google. Proses mengambil masa 3,5 jam. Selepas itu, rangkaian saraf yang serupa telah dilatih menggunakan algoritma SLIDE pada sistem dengan pemproses Xeon 44-teras tunggal, dan ia mengambil masa hanya 1 jam.

Perlu diperhatikan di sini bahawa Intel pada masa ini tidak mempunyai model pemproses 44-teras dalam rangkaian produknya. Ada kemungkinan bahawa penyelidik menggunakan beberapa jenis cip tersuai atau belum dikeluarkan, tetapi ini tidak mungkin. Kemungkinan besar sistem dengan dua Intel Xeon 22-teras telah digunakan di sini, atau hanya terdapat ralat dalam siaran akhbar, dan kita bercakap tentang 44 utas yang disediakan oleh satu pemproses 22-teras. Tetapi dalam apa jua keadaan, ini tidak menjejaskan pencapaian itu sendiri.

Sudah tentu, algoritma SLIDE masih perlu melalui banyak ujian dan membuktikan keberkesanannya, serta ketiadaan sebarang keanehan dan perangkap. Walau bagaimanapun, apa yang kita lihat sekarang sangat mengagumkan dan benar-benar boleh memberi impak besar kepada pembangunan industri.



Sumber: 3dnews.ru

Tambah komen