Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Заманауи деректер орталықтарындағы ірі апаттар тақырыбы бірінші мақалада жауап берілмеген сұрақтарды тудырады - біз оны әзірлеуді шештік.

Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Uptime институтының статистикасына сәйкес, деректер орталықтарындағы оқыс оқиғалардың көпшілігі электрмен жабдықтау жүйесінің істен шығуына байланысты - олар оқиғалардың 39% құрайды. Олардан кейін жазатайым оқиғалардың тағы 24 пайызын құрайтын адам факторы келеді. Үшінші маңызды себеп (15%) ауаны баптау жүйесінің істен шығуы болса, төртінші орында (12%) табиғи апаттар болды. Басқа қиындықтардың жалпы үлесі небәрі 10% құрайды. Құрметті ұйымның деректеріне күмән келтірмей, біз әртүрлі апаттарда жиі кездесетін нәрсені бөліп көрсетеміз және олардың алдын алуға болатынын түсінуге тырысамыз. Спойлер: бұл көп жағдайда мүмкін.

Байланыстар туралы ғылым

Қарапайым тілмен айтсақ, электрмен жабдықтауда тек екі мәселе бар: не болуы керек жерде байланыс жоқ, немесе байланыс болмауы керек жерде байланыс бар. Қазіргі заманғы үздіксіз электрмен жабдықтау жүйелерінің сенімділігі туралы ұзақ уақыт сөйлесуге болады, бірақ олар әрқашан сізді құтқара бермейді. International Airlines Group бас компаниясына тиесілі British Airways пайдаланатын дата орталығының танымал корпусын алайық. Хитроу әуежайының жанында осындай екі мүлік бар - Boadicea House және Comet House. Олардың біріншісінде, 27 жылдың 2017 мамырында электр қуатының кездейсоқ үзілуі орын алып, ол UPS жүйесінің шамадан тыс жүктелуіне және істен шығуына әкелді. Нәтижесінде кейбір IT жабдықтары физикалық зақымданды және соңғы апатты жоюға үш күн қажет болды.

Әуе компаниясы мыңнан астам рейсті тоқтатуға немесе өзгертуге тура келді, 75 мыңға жуық жолаушы уақытында ұша алмады - өтемақы төлеуге 128 миллион доллар жұмсалды, дата орталықтарының функционалдығын қалпына келтіруге қажетті шығындарды есептемегенде. Жарықтың сөну себебінің тарихы түсініксіз. International Airlines Group бас директоры Вилли Уолш жариялаған ішкі тергеу нәтижелеріне сенсеңіз, бұл инженерлердің қателігінен болды. Дегенмен, үздіксіз электрмен жабдықтау жүйесі мұндай өшіруге төтеп беруге мәжбүр болды - сондықтан ол орнатылды. Дата орталығын CBRE Managed Services аутсорсингтік компаниясының мамандары басқарды, сондықтан British Airways Лондон соты арқылы шығын сомасын өндіріп алуға тырысты.

Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Осыған ұқсас сценарийлерде электр қуатының үзілуі орын алады: алдымен электр жеткізушінің кінәсінен, кейде ауа-райының қолайсыздығынан немесе ішкі проблемаларға байланысты (соның ішінде адам қателері) электр қуатының өшуі болады, содан кейін үзіліссіз электрмен жабдықтау жүйесі жүктемені жеңе алмайды немесе қысқа -синус толқынының мерзімді үзілуі көптеген қызметтердің істен шығуына әкеліп соғады, оларды қалпына келтіру көп уақыт пен ақшаны қажет етеді. Мұндай апаттарды болдырмау мүмкін бе? Сөзсіз. Егер сіз жүйені дұрыс құрастырсаңыз, тіпті үлкен деректер орталықтарын жасаушылар да қателіктерден қорғанбайды.

Адам факторы

Оқиғаның тікелей себебі деректер орталығы қызметкерлерінің дұрыс емес әрекеттері болса, мәселелер көбінесе (бірақ әрқашан емес) АТ инфрақұрылымының бағдарламалық бөлігіне әсер етеді. Мұндай апаттар тіпті ірі корпорацияларда да болады. 2017 жылдың ақпанында деректер орталықтарының бірінің техникалық операциялық тобының қате таңдалған командасының мүшесіне байланысты Amazon Web Services серверлерінің бір бөлігі өшірілді. Amazon Simple Storage Service (S3) бұлтты сақтау тұтынушылары үшін есепшот ұсыну процесін жөндеу кезінде қате орын алды. Қызметкер төлем жүйесі пайдаланатын бірнеше виртуалды серверлерді жоюға әрекеттенді, бірақ үлкенірек кластерге соқты.

Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Инженерлік қатенің нәтижесінде Amazon бұлтты сақтаудың маңызды бағдарламалық жасақтама модульдерін басқаратын серверлер жойылды. Бірінші әсер еткен US-EAST-3 Америка аймағындағы барлық S1 нысандарының метадеректері мен орны туралы ақпаратты қамтитын индекстеу ішкі жүйесі болды. Оқиға деректерді орналастыру және сақтау үшін қолжетімді кеңістікті басқару үшін пайдаланылатын ішкі жүйеге де әсер етті. Виртуалды машиналарды жойғаннан кейін, бұл екі ішкі жүйе толығымен қайта іске қосуды талап етті, содан кейін Amazon инженерлері таң қалдырды - ұзақ уақыт бойы қоғамдық бұлттық қойма тұтынушылардың сұрауларына қызмет көрсете алмады.

Әсер кең тарады, өйткені көптеген ірі ресурстар Amazon S3 пайдаланады. Үзілістер Trello, Coursera, IFTTT және, ең жағымсызы, S&P 500 тізіміндегі негізгі Amazon серіктестерінің қызметтеріне әсер етті.Мұндай жағдайларда келтірілген залалды есептеу қиын, бірақ ол жүздеген миллион АҚШ долларын құрайтын аймақта болды. Көріп отырғаныңыздай, ең үлкен бұлттық платформаның қызметін өшіру үшін бір қате пәрмен жеткілікті. Бұл оқшауланған жағдай емес, 16 жылдың 2019 мамырында жөндеу жұмыстары кезінде Yandex.Cloud қызметі жойылды ru-central1-c аймағында кем дегенде бір рет ТОҚТАТУ күйінде болған пайдаланушылардың виртуалды машиналары. Мұнда клиент деректері әлдеқашан бүлінген, олардың кейбіреулері қалпына келтірілмейтіндей жоғалған. Әрине, адамдар жетілмеген, бірақ қазіргі заманғы ақпараттық қауіпсіздік жүйелері артықшылықты пайдаланушылардың енгізген командаларын орындамас бұрын олардың әрекеттерін бақылай алады. Егер мұндай шешімдер Яндекс немесе Amazon-да жүзеге асырылса, мұндай оқиғаларды болдырмауға болады.

Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Мұздатылған салқындату

2017 жылдың қаңтарында «Мегафон» компаниясының Дмитров деректер орталығында ірі апат болды. Содан кейін Мәскеу облысында температура -35 ° C дейін төмендеді, бұл нысанның салқындату жүйесінің істен шығуына әкелді. Оператордың баспасөз қызметі оқиғаның себептері туралы ерекше айтқан жоқ - ресейлік компаниялар өздеріне тиесілі нысандардағы апаттар туралы айтудан тым құлықсыз; жариялылық жағынан біз Батыстан әлдеқайда арттамыз. Әлеуметтік желіде көше бойындағы құбырлардағы салқындатқыштың қатып, этиленгликоль ағып кеткені туралы нұсқа тараған болатын. Оның айтуынша, эксплуатациялық қызмет ұзақ демалыс күндеріне байланысты тез арада 30 тонна салқындатқышты ала алмай, жүйені пайдалану ережелерін бұза отырып, импровизацияланған еркін салқындауды ұйымдастырып, импровизацияланған құралдарды пайдаланып шығарған. Қатты суық мәселені ушықтырды – қаңтарда ешкім күтпеген болса да, кенеттен Ресейге қыс келді. Нәтижесінде қызметкерлерге серверлік тіректердің бір бөлігіне электр қуатын өшіруге тура келді, сондықтан кейбір оператор қызметтері екі күн бойы қолжетімсіз болды.

Дата орталықтарындағы апаттардың негізгі себебі - компьютер мен орындық арасындағы тығыздағыш

Бұл жерде ауа райының аномалиясы туралы айтуға болатын шығар, бірақ мұндай аяз астаналық аймақ үшін таңсық нәрсе емес. Мәскеу облысында қыста температура төмен деңгейге дейін төмендеуі мүмкін, сондықтан деректер орталықтары -42 ° C тұрақты жұмыс күтумен салынған. Көбінесе салқындату жүйелері салқындатқыш ерітіндісіндегі гликольдердің және артық судың жеткіліксіз жоғары концентрациясына байланысты суық мезгілде істен шығады. Сондай-ақ құбырларды орнату немесе жүйені жобалау және сынау кезінде қате есептеулер бар, негізінен ақшаны үнемдеу ниетімен байланысты проблемалар бар. Нәтижесінде күтпеген жерден ауыр апат орын алады, оның алдын алуға болатын еді.

Табиғи апаттар

Көбінесе найзағай және/немесе дауыл деректер орталығының инженерлік инфрақұрылымын бұзады, бұл қызмет көрсетудің үзілуіне және/немесе жабдықтың физикалық зақымдалуына әкеледі. Ауа-райының қолайсыздығынан туындаған оқиғалар жиі орын алады. 2012 жылы «Сэнди» дауылы Америка Құрама Штаттарының батыс жағалауында қатты жауын-шашынмен өтті. Төменгі Манхэттендегі көп қабатты ғимаратта орналасқан, Peer 1 деректер орталығы сыртқы қуат көзі жоғалды, тұзды теңіз суынан кейін жертөлелерді басып қалды. Нысанның авариялық генераторлары 18-ші қабатта орналасты, ал олардың жанармаймен қамтамасыз етілуі шектеулі болды - Нью-Йоркте 9 қыркүйектегі лаңкестік шабуылдардан кейін енгізілген ережелер жоғарғы қабаттарда жанармайдың көп мөлшерін сақтауға тыйым салады.

Жанармай сорғы да істен шыққандықтан, қызметкерлер бірнеше күн бойы дизельді генераторларға қолмен тасымалдауға жұмсады. Команданың ерлігі деректер орталығын ауыр апаттан құтқарды, бірақ бұл шынымен қажет пе? Біз азот-оттегі атмосферасы және суы көп планетада өмір сүреміз. Мұнда (әсіресе жағалаудағы аудандарда) найзағай мен дауыл жиі болады. Дизайнерлер тәуекелдерді қарастырып, сәйкес үзіліссіз электрмен жабдықтау жүйесін құрса жақсы болар еді. Немесе, кем дегенде, аралдағы көп қабатты үйден гөрі деректер орталығы үшін қолайлы орынды таңдаңыз.

Қалғанының бәрі

Uptime институты осы санаттағы әртүрлі оқиғаларды анықтайды, олардың арасында типтік біреуін таңдау қиын. Мыс кабельдерді ұрлау, деректер орталықтарына, электр желісінің тіректеріне және трансформаторлық қосалқы станцияларға соқтығысқан автокөліктер, өрттер, оптиканы зақымдайтын экскаватор операторлары, кеміргіштер (егеуқұйрықтар, қояндар және тіпті вомбаттар, олар шын мәнінде марсупиалдар), сондай-ақ ату жаттығуларын ұнататындар. сымдар - мәзір кең. Электр қуатының бұзылуы тіпті себеп болуы мүмкін ұрлау электр энергиясы заңсыз марихуана плантациясы. Көп жағдайда нақты адамдар оқиғаға кінәлі болады, яғни мәселенің аты мен тегі болған кезде біз қайтадан адам факторымен айналысамыз. Бір қарағанда апат техникалық ақаумен немесе табиғи апаттармен байланысты болса да, нысанды дұрыс жобалаған және дұрыс пайдаланған жағдайда оны болдырмауға болады. Жалғыз ерекшелік - деректер орталығының инфрақұрылымының күрделі зақымдануы немесе табиғи апат салдарынан ғимараттар мен құрылыстардың қирауы. Бұл шынымен форс-мажорлық жағдайлар, және барлық басқа мәселелер компьютер мен орындық арасындағы тығыздағыштан туындайды - мүмкін бұл кез келген күрделі жүйенің ең сенімсіз бөлігі.

Ақпарат көзі: www.habr.com

пікір қалдыру