
Die Architektur des neuen Sprachmodells Ă€hnelt Llama oder Qwen, wurde jedoch vollstĂ€ndig von Grund auf trainiert. Die Ăhnlichkeit ermöglicht die Verwendung derselben Werkzeuge. Vortrainierte Version des groĂen Sprachmodells YandexGPT 5 Lite mit 8 Milliarden Parametern und einer KontextlĂ€nge von 32 Token. Beim Trainieren des Modells wurde besonderes Augenmerk auf die russische Sprache gelegt; Materialien in russischer Sprache machten mehr als 70 % des Datensatzes aus.
Das Ă€ltere Modell YandexGPT 5 ist in Alice verfĂŒgbar und auf der Yandex-Website, es wird jedoch nicht öffentlich zugĂ€nglich gemacht.
In seiner Kategorie erreicht das Modell in einer Reihe wichtiger Benchmarks fĂŒr Pretrain-Modelle Gleichstand mit globalen SOTAs und ĂŒbertrifft sie in vielen anderen. Beispielsweise ĂŒbertrifft YandexGPT 5 Pro laut den Ergebnissen eines internen blinden paarweisen Vergleichs (nebeneinander) fĂŒr einen breiten Abfragefluss YandexGPT 4 Pro in 67 % der FĂ€lle und ist GPT-4o in nichts nach.
Source: linux.org.ru
