Defekti në CPU AMD EPYC 7002 ngrin pas 1044 ditësh funksionimi

Në serinë AMD EPYC 2018 ("Roma") të përpunuesve të serverëve të dorëzuar që nga viti 7002, i ndërtuar në mikroarkitekturën "Zen 2", është identifikuar një gabim si rezultat i të cilit procesori ngrin pas 1044 ditësh funksionimi pa rivendosur gjendjen ( rindezja e sistemit). Si një zgjidhje për të bllokuar problemin, rekomandohet të çaktivizoni mbështetjen për modalitetin e kursimit të energjisë CC6 ose të rindizni serverin më shumë se një herë në 1044 ditë (afërsisht 2 vjet 10 muaj).

Sipas informacionit të publikuar nga AMD, varja është shkaktuar nga një defekt që ndodh kur bërthama e procesorit përpiqet të dalë nga modaliteti i kursimit të energjisë CC6 (core-C6, ul tensionin kur është joaktiv) kur kohëmatësi arrin 1044 ditë pas CPU-së së fundit. rivendosni (koha që ndodh mund të ndryshojë në varësi të frekuencës REFCLK).

AMD nuk jep një shpjegim më të detajuar të shkakut të dështimit. Duke gjykuar nga supozimi i publikuar në Reddit, një ngrirje ndodh kur numëruesi në regjistrin TSC (Time Stamp Counter), i cili numëron numrin e cikleve të punës pas një rivendosjeje, në një frekuencë prej 2800 MHz arrin vlerën 0x380000000000000 (2800 MHz * **10 * 6, pra pas 1042.5 ditësh dhe 1042 orësh).

Nuk ka plane për të publikuar një rregullim të gabimeve. Problemi mbeti i pavërejtur për një kohë të gjatë pasi koha afatgjatë nuk është tipike për serverët, të cilët, në mënyrë që të mbahen të përditësuar, duhet të rifillohen periodikisht për të instaluar përditësimet e kernelit ose për të migruar në një version të ri të sistemit operativ. Megjithatë, metodat e shpërndarjeve Linux për përditësimin e kernelit pa rindezje, si dhe ciklet e gjata të mirëmbajtjes (Ubuntu, RHEL dhe SUSE mbështeten për 10 vjet), mund të çojnë në funksionimin e serverëve për një kohë të gjatë pa rindezje.

Burimi: opennet.ru

Shto një koment