NVIDIA a publié de nouveaux résultats encore plus impressionnants dans le domaine de l'utilisation de grands modèles de langage (LLM) dans le benchmark MLPerf Inference 4.0. Au cours des six derniers mois, les résultats déjà élevés démontrés par l'architecture Hopper dans les scénarios d'inférence ont été presque triplés. Un résultat aussi impressionnant a été obtenu grâce à la fois aux améliorations matérielles des accélérateurs H200 et aux optimisations logicielles. L'IA générative a littéralement fait exploser l'industrie : au cours des dix dernières années, la puissance de calcul consacrée à la formation des réseaux neuronaux a augmenté de six ordres de grandeur, et les LLM avec un billion de paramètres ne sont plus inhabituels. Cependant, l’inférence de tels modèles est également une tâche difficile, que NVIDIA aborde de manière globale, en utilisant, selon ses propres termes, « l’optimisation multidimensionnelle ».
Source: 3dnews.ru