Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Ժամանակակից տվյալների կենտրոններում խոշոր դժբախտ պատահարների թեման առաջացնում է հարցեր, որոնց պատասխանը չի տրվել առաջին հոդվածում. մենք որոշեցինք զարգացնել այն:

Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Համաձայն Uptime Institute-ի վիճակագրության՝ տվյալների կենտրոններում տեղի ունեցած միջադեպերի մեծ մասը կապված է էլեկտրամատակարարման համակարգի խափանումների հետ՝ դրանք կազմում են միջադեպերի 39%-ը: Նրանց հաջորդում է մարդկային գործոնը, որին բաժին է ընկնում պատահարների եւս 24%-ը։ Երրորդ կարևորագույն պատճառը (15%) եղել է օդորակման համակարգի խափանումը, իսկ չորրորդ տեղում (12%) բնական աղետներն են։ Այլ անախորժությունների ընդհանուր մասնաբաժինը կազմում է ընդամենը 10%: Առանց հարգված կազմակերպության տվյալները կասկածի տակ դնելու՝ մենք կնշենք տարբեր վթարների ժամանակ սովորական մի բան և կփորձենք հասկանալ՝ արդյոք հնարավոր էր դրանցից խուսափել։ Սփոյլեր. շատ դեպքերում դա հնարավոր է։

Կոնտակտների գիտություն

Պարզ ասած՝ էլեկտրամատակարարման հետ կապված ընդամենը երկու խնդիր կա՝ կամ կոնտակտ չկա այնտեղ, որտեղ պետք է լինի, կամ կա կոնտակտ, որտեղ չպետք է լինի: Դուք կարող եք երկար խոսել ժամանակակից անխափան սնուցման համակարգերի հուսալիության մասին, բայց դրանք միշտ չէ, որ փրկում են ձեզ: Վերցնենք «British Airways»-ի կողմից օգտագործվող տվյալների կենտրոնի հայտնի դեպքը, որը պատկանում է International Airlines Group-ի մայր ընկերությանը: Հիթրոու օդանավակայանի մոտակայքում կան երկու այդպիսի սեփականություն՝ Boadicea House և Comet House: Դրանցից առաջինում՝ 27 թվականի մայիսի 2017-ին, տեղի է ունեցել հոսանքի պատահական անջատում, որը հանգեցրել է UPS համակարգի գերբեռնվածության և խափանման։ Արդյունքում, ՏՏ սարքավորումների մի մասը ֆիզիկապես վնասվել է, և վերջին աղետի վերացման համար պահանջվել է երեք օր:

Ավիաընկերությունը ստիպված է եղել չեղարկել կամ վերափոխել ավելի քան հազար չվերթ, մոտ 75 հազար ուղևոր չի կարողացել ժամանակին թռչել՝ փոխհատուցում վճարելու վրա ծախսվել է 128 միլիոն դոլար՝ չհաշված տվյալների կենտրոնների ֆունկցիոնալությունը վերականգնելու համար պահանջվող ծախսերը։ Անջատման պատճառների պատմությունը պարզ չէ։ Եթե ​​հավատում եք International Airlines Group-ի գործադիր տնօրեն Վիլի Ուոլշի հայտարարած ներքին հետաքննության արդյունքներին, ապա դա տեղի է ունեցել ինժեներների սխալի պատճառով: Այնուամենայնիվ, անխափան սնուցման համակարգը ստիպված էր դիմակայել նման անջատմանը, դրա համար էլ այն տեղադրվեց: Տվյալների կենտրոնը կառավարվում էր CBRE Managed Services աութսորսինգ ընկերության մասնագետների կողմից, ուստի British Airways-ը փորձեց վերականգնել վնասի չափը Լոնդոնի դատարանի միջոցով:

Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Էլեկտրաէներգիայի անջատումները տեղի են ունենում նմանատիպ սցենարներով. սկզբում էլեկտրաէներգիայի մատակարարի մեղքով հոսանքազրկում է տեղի ունենում, երբեմն վատ եղանակի կամ ներքին խնդիրների պատճառով (ներառյալ մարդկային սխալները), այնուհետև անխափան սնուցման համակարգը չի կարող հաղթահարել բեռը կամ կարճատևությունը: - Սինուսային ալիքի ժամկետային ընդհատումը հանգեցնում է բազմաթիվ ծառայությունների խափանումների, որոնց վերականգնումը պահանջում է շատ ժամանակ և գումար: Հնարավո՞ր է խուսափել նման վթարներից։ Անկասկած. Եթե ​​դուք ճիշտ եք նախագծում համակարգը, ապա նույնիսկ խոշոր տվյալների կենտրոնների ստեղծողները զերծ չեն մնում սխալներից:

Մարդկային գործոն

Երբ միջադեպի անմիջական պատճառը տվյալների կենտրոնի անձնակազմի սխալ գործողություններն են, խնդիրները ամենից հաճախ (բայց ոչ միշտ) ազդում են ՏՏ ենթակառուցվածքի ծրագրային մասի վրա: Նման վթարներ տեղի են ունենում նույնիսկ խոշոր կորպորացիաներում։ 2017 թվականի փետրվարին տվյալների կենտրոններից մեկի տեխնիկական շահագործման խմբի թիմի սխալ հավաքագրված անդամի պատճառով Amazon Web Services սերվերների մի մասն անջատվել է: Սխալ է տեղի ունեցել Amazon Simple Storage Service (S3) ամպային պահեստավորման հաճախորդների համար վճարային գործընթացի վրիպազերծման ժամանակ: Աշխատակիցը փորձել է ջնջել բիլինգի համակարգի կողմից օգտագործվող մի շարք վիրտուալ սերվերներ, սակայն հարվածել է ավելի մեծ կլաստերի:

Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Ինժեներական սխալի հետևանքով սերվերները, որոնք աշխատում էին Amazon ամպային պահպանման ծրագրային ապահովման կարևոր մոդուլներով, ջնջվեցին: Առաջինը տուժել է ինդեքսավորման ենթահամակարգը, որը պարունակում է տեղեկատվություն ԱՄՆ-EAST-3 ամերիկյան տարածաշրջանի բոլոր S1 օբյեկտների մետատվյալների և գտնվելու վայրի մասին: Միջադեպը ազդել է նաև ենթահամակարգի վրա, որն օգտագործվում է տվյալների հյուրընկալման և պահեստավորման համար հասանելի տարածքը կառավարելու համար: Վիրտուալ մեքենաները ջնջելուց հետո այս երկու ենթահամակարգերը պահանջում էին ամբողջական վերագործարկում, և այնուհետև Amazon-ի ինժեներներին անակնկալ էր սպասվում. երկար ժամանակ հանրային ամպային պահեստը չէր կարողանում սպասարկել հաճախորդների հարցումները:

Ազդեցությունը համատարած էր, քանի որ շատ մեծ ռեսուրսներ օգտագործում են Amazon S3-ը: Անջատումները ազդել են Trello-ի, Coursera-ի, IFTTT-ի և, ամենատխուրը, S&P 500 ցուցակից Amazon-ի խոշոր գործընկերների ծառայությունների վրա: Նման դեպքերում վնասը դժվար է հաշվարկել, բայց այն կազմել է հարյուր միլիոնավոր ԱՄՆ դոլար: Ինչպես տեսնում եք, մեկ սխալ հրամանը բավական է ամենամեծ ամպային հարթակի ծառայությունն անջատելու համար։ Սա մեկուսացված դեպք չէ. 16 թվականի մայիսի 2019-ին սպասարկման աշխատանքների ժամանակ Yandex.Cloud ծառայությունը ջնջված է ru-central1-c գոտու օգտատերերի վիրտուալ մեքենաներ, որոնք առնվազն մեկ անգամ եղել են SUSPENDED կարգավիճակում: Հաճախորդի տվյալները այստեղ արդեն վնասվել են, որոնցից մի քանիսն անդառնալիորեն կորել են: Իհարկե, մարդիկ անկատար են, բայց տեղեկատվական անվտանգության ժամանակակից համակարգերը վաղուց կարողացել են վերահսկել արտոնյալ օգտատերերի գործողությունները՝ նախքան նրանց մուտքագրած հրամանները կատարելը: Եթե ​​նման լուծումներ իրականացվեն Yandex-ում կամ Amazon-ում, ապա կարելի է խուսափել նման միջադեպերից։

Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Սառեցված սառեցում

2017 թվականի հունվարին խոշոր վթար է տեղի ունեցել Megafon ընկերության Դմիտրովի տվյալների կենտրոնում։ Այնուհետև Մոսկվայի մարզում ջերմաստիճանը իջավ մինչև -35 °C, ինչը հանգեցրեց հաստատության հովացման համակարգի խափանմանը: Օպերատորի մամուլի ծառայությունը առանձնապես չի խոսել միջադեպի պատճառների մասին. ռուսական ընկերությունները չափազանց դժկամությամբ են խոսում իրենց պատկանող օբյեկտներում տեղի ունեցած վթարների մասին, հրապարակայնության առումով մենք շատ հետ ենք Արևմուտքից: Սոցցանցերում վարկած էր շրջանառվում փողոցի երկայնքով դրված խողովակներում հովացուցիչ նյութի սառեցման և էթիլեն գլիկոլի արտահոսքի մասին։ Նրա խոսքով՝ օպերատիվ ծառայությունը երկարատև արձակուրդների պատճառով չի կարողացել արագ ձեռք բերել 30 տոննա հովացուցիչ նյութ և դուրս է եկել իմպրովիզացված միջոցներով՝ կազմակերպելով իմպրովիզացված ազատ հովացում՝ խախտելով համակարգի շահագործման կանոնները։ Ուժեղ ցուրտը սրեց խնդիրը՝ հունվարին ձմեռը հանկարծակի հարվածեց Ռուսաստանին, թեև ոչ ոք դրան չէր սպասում։ Արդյունքում անձնակազմը ստիպված է եղել անջատել սերվերի դարակների մի մասը, ինչի պատճառով օպերատորների որոշ ծառայություններ երկու օր անհասանելի են եղել։

Տվյալների կենտրոններում վթարների հիմնական պատճառը համակարգչի և աթոռի միջև եղած միջադիրն է

Այստեղ, հավանաբար, կարելի է խոսել եղանակային անոմալիայի մասին, սակայն նման սառնամանիքները արտասովոր բան չեն մայրաքաղաքի համար։ Մոսկովյան տարածաշրջանում ձմռանը ջերմաստիճանը կարող է իջնել ավելի ցածր մակարդակի, ուստի տվյալների կենտրոնները կառուցվում են −42°C-ում կայուն աշխատանքի ակնկալիքով: Ամենից հաճախ հովացման համակարգերը ձախողվում են ցուրտ եղանակին գլիկոլների անբավարար բարձր կոնցենտրացիայի և հովացուցիչ նյութի լուծույթում ավելորդ ջրի պատճառով: Խնդիրներ կան նաև խողովակների տեղադրման կամ համակարգի նախագծման և փորձարկման սխալ հաշվարկների հետ կապված, որոնք հիմնականում կապված են գումար խնայելու ցանկության հետ: Արդյունքում լուրջ վթար է տեղի ունենում, որը կարելի էր կանխել։

Բնական աղետներ

Ամենից հաճախ ամպրոպները և/կամ փոթորիկները խաթարում են տվյալների կենտրոնի ինժեներական ենթակառուցվածքը՝ հանգեցնելով ծառայության ընդհատումների և/կամ սարքավորումների ֆիզիկական վնասմանը: Վատ եղանակի հետևանքով միջադեպերը բավականին հաճախ են տեղի ունենում։ 2012 թվականին «Սենդի» փոթորիկը հորդառատ անձրևներով շրջեց Միացյալ Նահանգների Արևմտյան ափը: Գտնվում է Ստորին Մանհեթենի բարձրահարկ շենքում՝ Peer 1 տվյալների կենտրոնը կորցրել է արտաքին էլեկտրամատակարարումը, այն բանից հետո, երբ ծովի աղի ջուրը լցվել է նկուղները։ Հաստատության վթարային գեներատորները գտնվում էին 18-րդ հարկում, և դրանց վառելիքի մատակարարումը սահմանափակ էր. սեպտեմբերի 9-ի ահաբեկչությունից հետո Նյու Յորքում ներդրված կանոններն արգելում են մեծ քանակությամբ վառելիք պահել վերին հարկերում:

Վառելիքի պոմպը նույնպես խափանվեց, ուստի անձնակազմը մի քանի օր ծախսեց դիզելային վառելիքը ձեռքով գեներատորներ տեղափոխելու համար: Թիմի հերոսությունը փրկեց տվյալների կենտրոնը լուրջ վթարից, բայց արդյո՞ք դա իսկապես անհրաժեշտ էր: Մենք ապրում ենք ազոտ-թթվածնային մթնոլորտով և շատ ջրով մոլորակի վրա: Այստեղ հաճախակի են ամպրոպներն ու փոթորիկները (հատկապես ափամերձ շրջաններում): Դիզայներները, հավանաբար, լավ կանեն հաշվի առնեն ներգրավված ռիսկերը և կառուցեն համապատասխան անխափան սնուցման համակարգ: Կամ գոնե տվյալների կենտրոնի համար ավելի հարմար տեղ ընտրեք, քան կղզու բարձրահարկը:

Մնացած ամեն ինչ

Uptime Institute-ը բացահայտում է այս կատեգորիայի մի շարք միջադեպեր, որոնց թվում դժվար է ընտրել բնորոշը: Պղնձե մալուխների գողություն, տվյալների կենտրոններ բախվող մեքենաներ, էլեկտրահաղորդման գծերի հենարաններ և տրանսֆորմատորային ենթակայաններ, հրդեհներ, օպտիկա վնասող էքսկավատորների օպերատորները, կրծողները (առնետները, նապաստակները և նույնիսկ մոմբատները, որոնք իրականում մարսյուներ են), ինչպես նաև նրանց, ովքեր սիրում են կրակել: մետաղալարեր - ճաշացանկը ընդարձակ է: Էլեկտրաէներգիայի խափանումները կարող են նույնիսկ առաջացնել գողություն էլեկտրաէներգիայի անօրինական մարիխուանայի պլանտացիա. Շատ դեպքերում միջադեպի մեղավորը դառնում են կոնկրետ մարդիկ, այսինքն՝ մենք նորից գործ ունենք մարդկային գործոնի հետ, երբ խնդիրն ունի անուն-ազգանուն։ Նույնիսկ եթե առաջին հայացքից վթարը կապված է տեխնիկական անսարքության կամ տարերային աղետների հետ, այն կարելի է խուսափել՝ պայմանով, որ օբյեկտը ճիշտ նախագծված և ճիշտ շահագործվի: Բացառություն են կազմում տվյալների կենտրոնի ենթակառուցվածքին կրիտիկական վնաս հասցնելու կամ բնական աղետի հետևանքով շենքերի և շինությունների ոչնչացման դեպքերը: Սրանք իսկապես ֆորսմաժորային հանգամանքներ են, և մնացած բոլոր խնդիրները պայմանավորված են համակարգչի և աթոռի միջև եղած միջադիրով. թերևս սա ցանկացած բարդ համակարգի ամենաանվստահելի մասն է:

Source: www.habr.com

Добавить комментарий