Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове

Надеждност на флаш паметта: очакваното и неочакваното. Част 1. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове

4.2.2. RBER и възраст на диска (с изключение на PE цикли).

Фигура 1 показва значителна корелация между RBER и възрастта, което е броят месеци, през които дискът е бил в полето. Това обаче може да е фалшива корелация, тъй като е вероятно по-старите устройства да имат повече PE и следователно RBER е по-корелиран с PE циклите.

За да елиминираме ефекта на възрастта върху износването, причинено от PE циклите, ние групирахме всички месеци на експлоатация в контейнери, използвайки децилите на разпределението на PE цикъла като граница между контейнерите, например първият контейнер съдържа всички месеци живот на диска до първи децил от разпределението на PE цикъла и така нататък. Проверихме, че във всеки контейнер корелацията между PE циклите и RBER е доста малка (тъй като всеки контейнер покрива само малък диапазон от PE цикли) и след това изчислихме коефициента на корелация между RBER и възрастта на диска отделно за всеки контейнер.

Извършихме този анализ отделно за всеки модел, тъй като всички наблюдавани корелации не се дължат на разлики между по-младите и по-старите модели, а единствено поради възрастта на устройствата на същия модел. Ние забелязахме, че дори след ограничаване на ефекта от PE циклите по начина, описан по-горе, за всички модели задвижвания все още имаше значителна корелация между броя месеци, през които задвижването е било в полето, и неговия RBER (коефициентите на корелация варираха от 0,2 до 0,4). ).

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Ориз. 3. Връзката между RBER и броя PE цикли за нови и стари дискове показва, че възрастта на диска влияе върху стойността на RBER независимо от PE циклите, причинени от износване.

Също така графично визуализирахме ефекта от възрастта на устройството, като разделихме дните на използване на устройството на „млада“ възраст до 1 година и дните на използване на устройството на възраст над 4 години, и след това начертахме RBER на всеки група спрямо броя PE цикли. Фигура 3 показва тези резултати за модела на задвижване MLC-D. Виждаме забележима разлика в стойностите на RBER между групите стари и нови дискове през всички PE цикли.

От това заключаваме, че възрастта, измерена чрез дни на използване на диска на полето, има значително влияние върху RBER, независимо от износването на клетките на паметта поради излагане на PE цикли. Това означава, че други фактори, като стареенето на силиций, играят голяма роля за физическото износване на диска.

4.2.3. RBER и натоварване.

Смята се, че битовите грешки са причинени от един от четирите механизма:

  1. грешки при съхранение Грешки при запазване, когато клетка от паметта губи данни с течение на времето
    Грешки при четене, при които операция за четене поврежда съдържанието на съседна клетка;
  2. Грешки при запис, при които операция за четене поврежда съдържанието на съседна клетка;
  3. Грешки при непълно изтриване, когато операцията по изтриване не изтрива напълно съдържанието на клетката.

Грешките от последните три типа (смущение при четене, смущение при запис, непълно изтриване) са свързани с натоварването, така че разбирането на връзката между RBER и натоварването ни помага да разберем разпространението на различни механизми за грешки. В едно скорошно проучване, „Мащабно проучване на откази на флаш памет в полето“ (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. „Мащабно проучване на откази на флаш памет в полето." В сборника от 2015 г. Международната конференция на ACM SIGMETRICS за измерване и моделиране на компютърни системи, Ню Йорк, 2015 г., SIGMETRICS '15, ACM, стр. 177–190) заключава, че грешките при съхранение преобладават в областта, докато грешките при четене са съвсем незначителни.

Фигура 1 показва значителна връзка между стойността на RBER за даден месец живот на диска и броя на четенията, записите и изтриванията през същия месец за някои модели (например коефициентът на корелация е по-висок от 0,2 за MLC - B модел и по-висока от 0,6 за SLC-B). Възможно е обаче това да е фалшива корелация, тъй като месечното работно натоварване може да е свързано с общия брой PE цикли.

Използвахме същата методология, описана в Раздел 4.2.2, за да изолираме ефектите от работното натоварване от ефектите на PE циклите чрез изолиране на месеци работа на задвижването въз основа на предишни PE цикли и след това определяне на коефициентите на корелация отделно за всеки контейнер.

Видяхме, че корелацията между броя на четенията за даден месец от живота на диска и стойността на RBER през този месец се запазва за моделите MLC-B и SLC-B, дори при ограничаване на PE циклите. Също така повторихме подобен анализ, при който изключихме ефекта от четенията върху броя на едновременните записи и изтривания и заключихме, че корелацията между RBER и броя на четенията е вярна за модела SLC-B.

Фигура 1 също показва корелацията между RBER и операциите за запис и изтриване, така че повторихме същия анализ за операциите за четене, запис и изтриване. Заключаваме, че чрез ограничаване на въздействието на PE циклите и четенията няма връзка между стойността на RBER и броя на записванията и изтриванията.

По този начин има дискови модели, при които грешките при нарушение на четенето оказват значително влияние върху RBER. От друга страна, няма доказателства, че RBER е засегнат от грешки при нарушаване на записа и грешки при непълно изтриване.

4.2.4 RBER и литография.

Разликите в размера на обекта могат частично да обяснят разликите в стойностите на RBER между моделите на устройства, използващи една и съща технология, т.е. MLC или SLC. (Вижте таблица 1 за общ преглед на литографията на различните модели, включени в това проучване).

Например, 2 модела SLC с 34nm литография (модели SLC-A и SLC-D) имат RBER, който е с порядък по-висок от този на 2 модела с 50nm микроелектронна литография (модели SLC-B и SLC-C). В случай на MLC модели, само 43nm модел (MLC-B) има среден RBER, който е с 50% по-висок от останалите 3 модела с 50nm литография. Освен това тази разлика в RBER се увеличава с коефициент 4, когато устройствата се износват, както е показано на фигура 2. И накрая, по-тънката литография може да обясни по-високия RBER на eMLC устройства в сравнение с MLC устройства. Като цяло имаме ясни доказателства, че литографията засяга RBER.

4.2.5. Наличие на други грешки.

Изследвахме връзката между RBER и други видове грешки, като некоригируеми грешки, грешки при изчакване и т.н., по-специално дали стойността на RBER става по-висока след месец на излагане на други видове грешки.

Фигура 1 показва, че докато RBER за предходния месец предсказва бъдещи стойности на RBER (коефициент на корелация, по-голям от 0,8), няма значителна корелация между некоригируемите грешки и RBER (най-дясната група елементи на Фигура 1). За други видове грешки коефициентът на корелация е дори по-нисък (не е показан на фигурата). Допълнително проучихме връзката между RBER и некоригируеми грешки в раздел 5.2 на този документ.

4.2.6. Влияние на други фактори.

Открихме доказателства, че има фактори, които имат значително влияние върху RBER, които нашите данни не могат да отчетат. По-специално забелязахме, че RBER за даден модел диск варира в зависимост от клъстера, в който е разположен дискът. Добър пример е Фигура 4, която показва RBER като функция на PE цикли за MLC-D устройства в три различни клъстера (пунктирани линии) и го сравнява с RBER за този модел спрямо общия брой устройства (плътна линия). Откриваме, че тези разлики продължават да съществуват дори когато ограничим влиянието на фактори като възраст на диска или брой четения.

Едно възможно обяснение за това са разликите в вида на работното натоварване между клъстерите, тъй като наблюдаваме, че клъстерите, чиито работни натоварвания имат най-високи съотношения на четене/запис, имат най-висок RBER.

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Ориз. 4 а), б). Средните стойности на RBER като функция на PE циклите за три различни клъстера и зависимостта на съотношението четене/запис от броя на PE циклите за три различни клъстера.

Например Фигура 4(b) показва съотношенията четене/запис на различни клъстери за модела на устройството MLC-D. Съотношението четене/запис обаче не обяснява разликите между клъстерите за всички модели, така че може да има други фактори, които нашите данни не отчитат, като фактори на околната среда или други външни параметри на натоварване.

4.3. RBER по време на ускорено изпитване за издръжливост.

Повечето научни разработки, както и тестове, проведени при закупуване на носители в индустриален мащаб, предвиждат надеждността на устройствата в полето въз основа на резултатите от ускорените тестове за издръжливост. Решихме да разберем доколко резултатите от подобни тестове съответстват на практическия опит при работа с твърдотелни носители за съхранение.
Анализът на резултатите от тестовете, проведен с помощта на общата методология за ускорени тестове за оборудване, доставено на центрове за данни на Google, показа, че стойностите на RBER на полето са значително по-високи от прогнозираните. Например, за модела eMLC-a средният RBER за дискове, работещи на място (в края на тестването броят на PE цикъла достигна 600) беше 1e-05, докато според резултатите от предварителното ускорено тестване този RBER стойността трябва да съответства на повече от 4000 PE цикъла. Това показва, че е много трудно да се предвиди точно стойността на RBER в полето въз основа на оценките на RBER, получени от лабораторни тестове.

Също така отбелязахме, че някои видове грешки са доста трудни за възпроизвеждане по време на ускорено тестване. Например, в случая на модела MLC-B, почти 60% от устройствата в полето изпитват некоригируеми грешки и почти 80% от устройствата развиват лоши блокове. Въпреки това, по време на ускорените тестове за издръжливост, нито едно от шестте устройства не е имало некоригируеми грешки, докато устройствата не достигнат повече от три пъти лимита на PE цикъла. За моделите eMLC, некоригируеми грешки са възникнали в повече от 80% от устройствата на място, докато по време на ускорено тестване такива грешки са възникнали след достигане на 15000 XNUMX PE цикъла.

Разгледахме също RBER, отчетен в предишна изследователска работа, която се основаваше на експерименти в контролирана среда, и заключихме, че диапазонът от стойности е изключително широк. Например, L.M. Grupp и други в своя работен доклад за 2009 -2012 г. докладват стойности на RBER за задвижвания, които са близо до достигане на ограниченията на PE цикъла. Например за SLC и MLC устройства с литографски размери, подобни на тези, използвани в нашата работа (25-50nm), стойността на RBER варира от 1e-08 до 1e-03, като повечето тествани модели устройства имат стойност на RBER, близка до 1e- 06.

В нашето проучване трите модела на задвижване, които достигнаха лимита на PE цикъла, имаха RBER, вариращи от 3e-08 до 8e-08. Дори като се има предвид, че нашите числа са долни граници и могат да бъдат 16 пъти по-големи в най-лошия случай, или като се вземе предвид 95-ия персентил на RBER, нашите стойности все още са значително по-ниски.

Като цяло, докато действителните полеви стойности на RBER са по-високи от прогнозираните стойности въз основа на ускорено тестване за издръжливост, те все още са по-ниски от повечето RBER за подобни устройства, докладвани в други изследователски статии и изчислени от лабораторни тестове. Това означава, че не трябва да разчитате на прогнозирани полеви RBER стойности, които са получени от ускорено тестване за издръжливост.

5. Непоправими грешки.

Като се има предвид широко разпространената поява на некоригируеми грешки (UE), които бяха обсъдени в раздел 3 на този документ, в този раздел изследваме техните характеристики по-подробно. Започваме с обсъждане кой показател да използваме за измерване на UE, как е свързан с RBER и как UE се влияе от различни фактори.

5.1. Защо съотношението UBER няма смисъл.

Стандартната метрика, характеризираща некоригируемите грешки, е процентът на некоригируеми битови грешки на UBER, т.е. съотношението на броя на некоригируемите битови грешки към общия брой прочетени битове.

Тази метрика имплицитно предполага, че броят на некоригируемите грешки по някакъв начин е свързан с броя на прочетените битове и следователно трябва да бъде нормализиран от това число.

Това предположение е валидно за поправими грешки, при които се установява, че броят на грешките, наблюдавани през даден месец, е силно свързан с броя на четенията за същия период от време (коефициент на корелация на Spearman, по-голям от 0.9). Причината за такава силна корелация е, че дори един лош бит, стига да може да се коригира с помощта на ECC, ще продължи да увеличава броя на грешките с всяка операция за четене, достъпна от него, тъй като оценката на клетката, съдържаща лошия бит, е не се коригира незабавно при откриване на грешка (дискове само периодично презаписват страници с повредени битове).

Същото предположение не важи за некоригируеми грешки. Некоригируема грешка изключва по-нататъшното използване на повредения блок, така че веднъж открита, такава блокировка няма да повлияе на броя на грешките в бъдеще.

За да потвърдим официално това предположение, използвахме различни показатели за измерване на връзката между броя на четенията за даден месец от живота на диска и броя на некоригируемите грешки за същия период от време, включително различни коефициенти на корелация (Pearson, Spearman, Kendall) , както и визуална проверка на графиките . В допълнение към броя на некоригируемите грешки, ние също разгледахме честотата на некоригируеми инциденти с грешки (т.е. вероятността дискът да има поне един такъв инцидент през даден период от време) и връзката им с операциите за четене.
Не открихме доказателства за връзка между броя на прочитанията и броя на некоригируемите грешки. За всички модели задвижвания коефициентите на корелация бяха под 0.02 и графиките не показаха увеличение на UE с увеличаване на броя на четенията.

В раздел 5.4 на този документ обсъждаме, че операциите за запис и изтриване също нямат връзка с непоправими грешки, така че алтернативната дефиниция на UBER, която се нормализира чрез операции за запис или изтриване вместо операции за четене, няма значение.

Следователно заключаваме, че UBER не е смислен показател, освен може би когато се тества в контролирани среди, където броят на прочитанията се задава от експериментатора. Ако UBER се използва като метрика по време на полеви тестове, той изкуствено ще намали процента на грешки за устройства с висок брой четения и изкуствено ще увеличи процента на грешки за устройства с нисък брой четения, тъй като възникват некоригируеми грешки независимо от броя на четенията.

5.2. Некоригируеми грешки и RBER.

Уместността на RBER се обяснява с факта, че той служи като мярка за определяне на цялостната надеждност на задвижването, по-специално въз основа на вероятността от некоригируеми грешки. В своята работа N. Mielke et al през 2008 г. бяха първите, които предложиха дефиниране на очаквания процент на некоригируеми грешки като функция на RBER. Оттогава много разработчици на системи са използвали подобни методи, като например оценяване на очаквания процент на некоригируеми грешки като функция на типа RBER и ECC.

Целта на този раздел е да характеризира колко добре RBER предвижда некоригируеми грешки. Нека започнем с Фигура 5а, която изобразява медианата на RBER за редица модели задвижвания от първо поколение спрямо процента на дните, в които са били използвани, в които са възникнали некоригируеми UE грешки. Трябва да се отбележи, че някои от 16-те модела, показани на графиката, не са включени в таблица 1 поради липса на аналитична информация.

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Ориз. 5а. Връзка между средния RBER и некоригируеми грешки за различни модели задвижвания.

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Ориз. 5б. Връзка между средния RBER и некоригируеми грешки за различни задвижвания от един и същи модел.

Спомнете си, че всички модели от едно и също поколение използват един и същ ECC механизъм, така че разликите между моделите не зависят от разликите в ECC. Не видяхме връзка между RBER и UE инциденти. Създадохме същата графика за 95-ия процентил RBER спрямо вероятността за UE и отново не видяхме корелация.

След това повторихме анализа на детайлно ниво за отделни устройства, т.е. опитахме се да разберем дали има устройства, при които по-висока стойност на RBER съответства на по-висока UE честота. Като пример, Фигура 5b изобразява медианата на RBER за всяко устройство на модела MLC-c спрямо броя на UE (резултати, подобни на тези, получени за 95-ия персентил RBER). Отново не видяхме никаква връзка между RBER и UE.

И накрая, направихме по-прецизен анализ на времето, за да проверим дали работните месеци на устройства с по-висок RBER ще съответстват на месеците, през които са възникнали UE. Фигура 1 вече показа, че коефициентът на корелация между некоригируеми грешки и RBER е много нисък. Ние също експериментирахме с различни начини за начертаване на вероятността от UE като функция на RBER и не открихме доказателства за корелация.

По този начин заключаваме, че RBER е ненадежден показател за прогнозиране на UE. Това може да означава, че механизмите за повреда, които водят до RBER, са различни от механизмите, които водят до некоригируеми грешки (напр. грешки, съдържащи се в отделни клетки срещу по-големи проблеми, възникващи с цялото устройство).

5.3. Некоригируеми грешки и износване.

Тъй като износването е един от основните проблеми на флаш паметта, Фигура 6 показва ежедневната вероятност от некоригируеми грешки на устройството като функция на PE циклите.

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Фигура 6. Ежедневна вероятност за възникване на некоригируеми грешки в задвижването в зависимост от PE циклите.

Отбелязваме, че вероятността за UE се увеличава непрекъснато с възрастта на устройството. Въпреки това, както при RBER, увеличението е по-бавно, отколкото обикновено се предполага: графиките показват, че UE растат линейно, а не експоненциално с PE цикли.

Две заключения, които направихме за RBER, се отнасят и за UE: първо, няма ясно увеличение на потенциала за грешка след достигане на лимита на PE цикъла, като например на Фигура 6 за модела MLC-D, чието ограничение на PE цикъла е 3000. Второ, Второ , процентът на грешки варира между различните модели, дори в рамките на един и същи клас. Тези разлики обаче не са толкова големи, колкото при RBER.

И накрая, в подкрепа на нашите открития в раздел 5.2, открихме, че в рамките на един клас модел (MLC срещу SLC), моделите с най-ниски стойности на RBER за даден брой PE цикли не са непременно тези с най-ниските вероятност за поява на UE. Например, над 3000 PE цикъла, моделите MLC-D имаха стойности на RBER 4 пъти по-ниски от моделите MLC-B, но вероятността за UE за същия брой PE цикли беше малко по-висока за моделите MLC-D, отколкото за MLC-B модели.

Надеждност на флаш паметта: очакваното и неочакваното. Част 2. XIV Конференция на Асоциация ЮСЕНИКС. Технологии за съхранение на файлове
Фигура 7. Месечна вероятност за възникване на некоригируеми грешки на устройството като функция от наличието на предишни грешки от различни видове.

5.4. Некоригируеми грешки и натоварване.

По същите причини, поради които работното натоварване може да повлияе на RBER (вижте раздел 4.2.3), може да се очаква то да засегне и UE. Например, тъй като забелязахме, че грешките при нарушение при четене засягат RBER, операциите за четене могат също да увеличат вероятността от некоригируеми грешки.

Проведохме подробно проучване за въздействието на натоварването върху ЕС. Въпреки това, както е отбелязано в раздел 5.1, не открихме връзка между UE и броя на прочитанията. Повторихме същия анализ за операциите за запис и изтриване и отново не видяхме корелация.
Обърнете внимание, че на пръв поглед изглежда, че това противоречи на нашето предишно наблюдение, че некоригируемите грешки са свързани с PE циклите. Следователно може да се очаква корелация с броя на операциите за запис и изтриване.

Въпреки това, в нашия анализ на въздействието на PE циклите, ние сравнихме броя на некоригируемите грешки през даден месец с общия брой PE цикли, които задвижването е претърпяло през целия си живот до момента, за да измерим ефекта от износването. Когато проучвахме въздействието на работното натоварване, ние разгледахме месеците на работа на устройството, които имат най-голям брой операции за четене/запис/изтриване през определен месец, които също имат по-голям шанс да причинят непоправими грешки, т.е. не сме взели предвид отчетете общия брой операции за четене/запис/изтриване.

В резултат на това стигнахме до заключението, че грешките при нарушение при четене, грешките при нарушение при запис и грешките при непълно изтриване не са основните фактори за развитието на некоригируеми грешки.

Благодарим ви, че останахте с нас. Харесвате ли нашите статии? Искате ли да видите още интересно съдържание? Подкрепете ни, като направите поръчка или препоръчате на приятели, 30% отстъпка за потребителите на Habr за уникален аналог на сървъри от начално ниво, който беше измислен от нас за вас: Цялата истина за VPS (KVM) E5-2650 v4 (6 ядра) 10GB DDR4 240GB SSD 1Gbps от $20 или как да споделите сървър? (предлага се с RAID1 и RAID10, до 24 ядра и до 40GB DDR4).

Dell R730xd 2 пъти по-евтин? Само тук 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV от $199 в Холандия! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - от $99! Прочети за Как да изградим инфраструктура Corp. клас с използване на сървъри Dell R730xd E5-2650 v4 на стойност 9000 евро за стотинка?

Източник: www.habr.com

Добавяне на нов коментар