Ժամանակակից տվյալների կենտրոններում խոշոր դժբախտ պատահարների թեման առաջացնում է հարցեր, որոնց պատասխանը չի տրվել առաջին հոդվածում. մենք որոշեցինք զարգացնել այն:
Համաձայն Uptime Institute-ի վիճակագրության՝ տվյալների կենտրոններում տեղի ունեցած միջադեպերի մեծ մասը կապված է էլեկտրամատակարարման համակարգի խափանումների հետ՝ դրանք կազմում են միջադեպերի 39%-ը: Նրանց հաջորդում է մարդկային գործոնը, որին բաժին է ընկնում պատահարների եւս 24%-ը։ Երրորդ կարևորագույն պատճառը (15%) եղել է օդորակման համակարգի խափանումը, իսկ չորրորդ տեղում (12%) բնական աղետներն են։ Այլ անախորժությունների ընդհանուր մասնաբաժինը կազմում է ընդամենը 10%: Առանց հարգված կազմակերպության տվյալները կասկածի տակ դնելու՝ մենք կնշենք տարբեր վթարների ժամանակ սովորական մի բան և կփորձենք հասկանալ՝ արդյոք հնարավոր էր դրանցից խուսափել։ Սփոյլեր. շատ դեպքերում դա հնարավոր է։
Կոնտակտների գիտություն
Պարզ ասած՝ էլեկտրամատակարարման հետ կապված ընդամենը երկու խնդիր կա՝ կամ կոնտակտ չկա այնտեղ, որտեղ պետք է լինի, կամ կա կոնտակտ, որտեղ չպետք է լինի: Դուք կարող եք երկար խոսել ժամանակակից անխափան սնուցման համակարգերի հուսալիության մասին, բայց դրանք միշտ չէ, որ փրկում են ձեզ: Վերցնենք «British Airways»-ի կողմից օգտագործվող տվյալների կենտրոնի հայտնի դեպքը, որը պատկանում է International Airlines Group-ի մայր ընկերությանը: Հիթրոու օդանավակայանի մոտակայքում կան երկու այդպիսի սեփականություն՝ Boadicea House և Comet House: Դրանցից առաջինում՝ 27 թվականի մայիսի 2017-ին, տեղի է ունեցել հոսանքի պատահական անջատում, որը հանգեցրել է UPS համակարգի գերբեռնվածության և խափանման։ Արդյունքում, ՏՏ սարքավորումների մի մասը ֆիզիկապես վնասվել է, և վերջին աղետի վերացման համար պահանջվել է երեք օր:
Ավիաընկերությունը ստիպված է եղել չեղարկել կամ վերափոխել ավելի քան հազար չվերթ, մոտ 75 հազար ուղևոր չի կարողացել ժամանակին թռչել՝ փոխհատուցում վճարելու վրա ծախսվել է 128 միլիոն դոլար՝ չհաշված տվյալների կենտրոնների ֆունկցիոնալությունը վերականգնելու համար պահանջվող ծախսերը։ Անջատման պատճառների պատմությունը պարզ չէ։ Եթե հավատում եք International Airlines Group-ի գործադիր տնօրեն Վիլի Ուոլշի հայտարարած ներքին հետաքննության արդյունքներին, ապա դա տեղի է ունեցել ինժեներների սխալի պատճառով: Այնուամենայնիվ, անխափան սնուցման համակարգը ստիպված էր դիմակայել նման անջատմանը, դրա համար էլ այն տեղադրվեց: Տվյալների կենտրոնը կառավարվում էր CBRE Managed Services աութսորսինգ ընկերության մասնագետների կողմից, ուստի British Airways-ը փորձեց վերականգնել վնասի չափը Լոնդոնի դատարանի միջոցով:
Էլեկտրաէներգիայի անջատումները տեղի են ունենում նմանատիպ սցենարներով. սկզբում էլեկտրաէներգիայի մատակարարի մեղքով հոսանքազրկում է տեղի ունենում, երբեմն վատ եղանակի կամ ներքին խնդիրների պատճառով (ներառյալ մարդկային սխալները), այնուհետև անխափան սնուցման համակարգը չի կարող հաղթահարել բեռը կամ կարճատևությունը: - Սինուսային ալիքի ժամկետային ընդհատումը հանգեցնում է բազմաթիվ ծառայությունների խափանումների, որոնց վերականգնումը պահանջում է շատ ժամանակ և գումար: Հնարավո՞ր է խուսափել նման վթարներից։ Անկասկած. Եթե դուք ճիշտ եք նախագծում համակարգը, ապա նույնիսկ խոշոր տվյալների կենտրոնների ստեղծողները զերծ չեն մնում սխալներից:
Մարդկային գործոն
Երբ միջադեպի անմիջական պատճառը տվյալների կենտրոնի անձնակազմի սխալ գործողություններն են, խնդիրները ամենից հաճախ (բայց ոչ միշտ) ազդում են ՏՏ ենթակառուցվածքի ծրագրային մասի վրա: Նման վթարներ տեղի են ունենում նույնիսկ խոշոր կորպորացիաներում։ 2017 թվականի փետրվարին տվյալների կենտրոններից մեկի տեխնիկական շահագործման խմբի թիմի սխալ հավաքագրված անդամի պատճառով Amazon Web Services սերվերների մի մասն անջատվել է: Սխալ է տեղի ունեցել Amazon Simple Storage Service (S3) ամպային պահեստավորման հաճախորդների համար վճարային գործընթացի վրիպազերծման ժամանակ: Աշխատակիցը փորձել է ջնջել բիլինգի համակարգի կողմից օգտագործվող մի շարք վիրտուալ սերվերներ, սակայն հարվածել է ավելի մեծ կլաստերի:
Ինժեներական սխալի հետևանքով սերվերները, որոնք աշխատում էին Amazon ամպային պահպանման ծրագրային ապահովման կարևոր մոդուլներով, ջնջվեցին: Առաջինը տուժել է ինդեքսավորման ենթահամակարգը, որը պարունակում է տեղեկատվություն ԱՄՆ-EAST-3 ամերիկյան տարածաշրջանի բոլոր S1 օբյեկտների մետատվյալների և գտնվելու վայրի մասին: Միջադեպը ազդել է նաև ենթահամակարգի վրա, որն օգտագործվում է տվյալների հյուրընկալման և պահեստավորման համար հասանելի տարածքը կառավարելու համար: Վիրտուալ մեքենաները ջնջելուց հետո այս երկու ենթահամակարգերը պահանջում էին ամբողջական վերագործարկում, և այնուհետև Amazon-ի ինժեներներին անակնկալ էր սպասվում. երկար ժամանակ հանրային ամպային պահեստը չէր կարողանում սպասարկել հաճախորդների հարցումները:
Ազդեցությունը համատարած էր, քանի որ շատ մեծ ռեսուրսներ օգտագործում են Amazon S3-ը: Անջատումները ազդել են Trello-ի, Coursera-ի, IFTTT-ի և, ամենատխուրը, S&P 500 ցուցակից Amazon-ի խոշոր գործընկերների ծառայությունների վրա: Նման դեպքերում վնասը դժվար է հաշվարկել, բայց այն կազմել է հարյուր միլիոնավոր ԱՄՆ դոլար: Ինչպես տեսնում եք, մեկ սխալ հրամանը բավական է ամենամեծ ամպային հարթակի ծառայությունն անջատելու համար։ Սա մեկուսացված դեպք չէ. 16 թվականի մայիսի 2019-ին սպասարկման աշխատանքների ժամանակ Yandex.Cloud ծառայությունը
Սառեցված սառեցում
2017 թվականի հունվարին խոշոր վթար է տեղի ունեցել Megafon ընկերության Դմիտրովի տվյալների կենտրոնում։ Այնուհետև Մոսկվայի մարզում ջերմաստիճանը իջավ մինչև -35 °C, ինչը հանգեցրեց հաստատության հովացման համակարգի խափանմանը: Օպերատորի մամուլի ծառայությունը առանձնապես չի խոսել միջադեպի պատճառների մասին. ռուսական ընկերությունները չափազանց դժկամությամբ են խոսում իրենց պատկանող օբյեկտներում տեղի ունեցած վթարների մասին, հրապարակայնության առումով մենք շատ հետ ենք Արևմուտքից: Սոցցանցերում վարկած էր շրջանառվում փողոցի երկայնքով դրված խողովակներում հովացուցիչ նյութի սառեցման և էթիլեն գլիկոլի արտահոսքի մասին։ Նրա խոսքով՝ օպերատիվ ծառայությունը երկարատև արձակուրդների պատճառով չի կարողացել արագ ձեռք բերել 30 տոննա հովացուցիչ նյութ և դուրս է եկել իմպրովիզացված միջոցներով՝ կազմակերպելով իմպրովիզացված ազատ հովացում՝ խախտելով համակարգի շահագործման կանոնները։ Ուժեղ ցուրտը սրեց խնդիրը՝ հունվարին ձմեռը հանկարծակի հարվածեց Ռուսաստանին, թեև ոչ ոք դրան չէր սպասում։ Արդյունքում անձնակազմը ստիպված է եղել անջատել սերվերի դարակների մի մասը, ինչի պատճառով օպերատորների որոշ ծառայություններ երկու օր անհասանելի են եղել։
Այստեղ, հավանաբար, կարելի է խոսել եղանակային անոմալիայի մասին, սակայն նման սառնամանիքները արտասովոր բան չեն մայրաքաղաքի համար։ Մոսկովյան տարածաշրջանում ձմռանը ջերմաստիճանը կարող է իջնել ավելի ցածր մակարդակի, ուստի տվյալների կենտրոնները կառուցվում են −42°C-ում կայուն աշխատանքի ակնկալիքով: Ամենից հաճախ հովացման համակարգերը ձախողվում են ցուրտ եղանակին գլիկոլների անբավարար բարձր կոնցենտրացիայի և հովացուցիչ նյութի լուծույթում ավելորդ ջրի պատճառով: Խնդիրներ կան նաև խողովակների տեղադրման կամ համակարգի նախագծման և փորձարկման սխալ հաշվարկների հետ կապված, որոնք հիմնականում կապված են գումար խնայելու ցանկության հետ: Արդյունքում լուրջ վթար է տեղի ունենում, որը կարելի էր կանխել։
Բնական աղետներ
Ամենից հաճախ ամպրոպները և/կամ փոթորիկները խաթարում են տվյալների կենտրոնի ինժեներական ենթակառուցվածքը՝ հանգեցնելով ծառայության ընդհատումների և/կամ սարքավորումների ֆիզիկական վնասմանը: Վատ եղանակի հետևանքով միջադեպերը բավականին հաճախ են տեղի ունենում։ 2012 թվականին «Սենդի» փոթորիկը հորդառատ անձրևներով շրջեց Միացյալ Նահանգների Արևմտյան ափը: Գտնվում է Ստորին Մանհեթենի բարձրահարկ շենքում՝ Peer 1 տվյալների կենտրոնը
Վառելիքի պոմպը նույնպես խափանվեց, ուստի անձնակազմը մի քանի օր ծախսեց դիզելային վառելիքը ձեռքով գեներատորներ տեղափոխելու համար: Թիմի հերոսությունը փրկեց տվյալների կենտրոնը լուրջ վթարից, բայց արդյո՞ք դա իսկապես անհրաժեշտ էր: Մենք ապրում ենք ազոտ-թթվածնային մթնոլորտով և շատ ջրով մոլորակի վրա: Այստեղ հաճախակի են ամպրոպներն ու փոթորիկները (հատկապես ափամերձ շրջաններում): Դիզայներները, հավանաբար, լավ կանեն հաշվի առնեն ներգրավված ռիսկերը և կառուցեն համապատասխան անխափան սնուցման համակարգ: Կամ գոնե տվյալների կենտրոնի համար ավելի հարմար տեղ ընտրեք, քան կղզու բարձրահարկը:
Մնացած ամեն ինչ
Uptime Institute-ը բացահայտում է այս կատեգորիայի մի շարք միջադեպեր, որոնց թվում դժվար է ընտրել բնորոշը: Պղնձե մալուխների գողություն, տվյալների կենտրոններ բախվող մեքենաներ, էլեկտրահաղորդման գծերի հենարաններ և տրանսֆորմատորային ենթակայաններ, հրդեհներ, օպտիկա վնասող էքսկավատորների օպերատորները, կրծողները (առնետները, նապաստակները և նույնիսկ մոմբատները, որոնք իրականում մարսյուներ են), ինչպես նաև նրանց, ովքեր սիրում են կրակել: մետաղալարեր - ճաշացանկը ընդարձակ է: Էլեկտրաէներգիայի խափանումները կարող են նույնիսկ առաջացնել
Source: www.habr.com