Заманауи деректер орталықтарындағы ірі апаттар тақырыбы бірінші мақалада жауап берілмеген сұрақтарды тудырады - біз оны әзірлеуді шештік.
Uptime институтының статистикасына сәйкес, деректер орталықтарындағы оқыс оқиғалардың көпшілігі электрмен жабдықтау жүйесінің істен шығуына байланысты - олар оқиғалардың 39% құрайды. Олардан кейін жазатайым оқиғалардың тағы 24 пайызын құрайтын адам факторы келеді. Үшінші маңызды себеп (15%) ауаны баптау жүйесінің істен шығуы болса, төртінші орында (12%) табиғи апаттар болды. Басқа қиындықтардың жалпы үлесі небәрі 10% құрайды. Құрметті ұйымның деректеріне күмән келтірмей, біз әртүрлі апаттарда жиі кездесетін нәрсені бөліп көрсетеміз және олардың алдын алуға болатынын түсінуге тырысамыз. Спойлер: бұл көп жағдайда мүмкін.
Байланыстар туралы ғылым
Қарапайым тілмен айтсақ, электрмен жабдықтауда тек екі мәселе бар: не болуы керек жерде байланыс жоқ, немесе байланыс болмауы керек жерде байланыс бар. Қазіргі заманғы үздіксіз электрмен жабдықтау жүйелерінің сенімділігі туралы ұзақ уақыт сөйлесуге болады, бірақ олар әрқашан сізді құтқара бермейді. International Airlines Group бас компаниясына тиесілі British Airways пайдаланатын дата орталығының танымал корпусын алайық. Хитроу әуежайының жанында осындай екі мүлік бар - Boadicea House және Comet House. Олардың біріншісінде, 27 жылдың 2017 мамырында электр қуатының кездейсоқ үзілуі орын алып, ол UPS жүйесінің шамадан тыс жүктелуіне және істен шығуына әкелді. Нәтижесінде кейбір IT жабдықтары физикалық зақымданды және соңғы апатты жоюға үш күн қажет болды.
Әуе компаниясы мыңнан астам рейсті тоқтатуға немесе өзгертуге тура келді, 75 мыңға жуық жолаушы уақытында ұша алмады - өтемақы төлеуге 128 миллион доллар жұмсалды, дата орталықтарының функционалдығын қалпына келтіруге қажетті шығындарды есептемегенде. Жарықтың сөну себебінің тарихы түсініксіз. International Airlines Group бас директоры Вилли Уолш жариялаған ішкі тергеу нәтижелеріне сенсеңіз, бұл инженерлердің қателігінен болды. Дегенмен, үздіксіз электрмен жабдықтау жүйесі мұндай өшіруге төтеп беруге мәжбүр болды - сондықтан ол орнатылды. Дата орталығын CBRE Managed Services аутсорсингтік компаниясының мамандары басқарды, сондықтан British Airways Лондон соты арқылы шығын сомасын өндіріп алуға тырысты.
Осыған ұқсас сценарийлерде электр қуатының үзілуі орын алады: алдымен электр жеткізушінің кінәсінен, кейде ауа-райының қолайсыздығынан немесе ішкі проблемаларға байланысты (соның ішінде адам қателері) электр қуатының өшуі болады, содан кейін үзіліссіз электрмен жабдықтау жүйесі жүктемені жеңе алмайды немесе қысқа -синус толқынының мерзімді үзілуі көптеген қызметтердің істен шығуына әкеліп соғады, оларды қалпына келтіру көп уақыт пен ақшаны қажет етеді. Мұндай апаттарды болдырмау мүмкін бе? Сөзсіз. Егер сіз жүйені дұрыс құрастырсаңыз, тіпті үлкен деректер орталықтарын жасаушылар да қателіктерден қорғанбайды.
Адам факторы
Оқиғаның тікелей себебі деректер орталығы қызметкерлерінің дұрыс емес әрекеттері болса, мәселелер көбінесе (бірақ әрқашан емес) АТ инфрақұрылымының бағдарламалық бөлігіне әсер етеді. Мұндай апаттар тіпті ірі корпорацияларда да болады. 2017 жылдың ақпанында деректер орталықтарының бірінің техникалық операциялық тобының қате таңдалған командасының мүшесіне байланысты Amazon Web Services серверлерінің бір бөлігі өшірілді. Amazon Simple Storage Service (S3) бұлтты сақтау тұтынушылары үшін есепшот ұсыну процесін жөндеу кезінде қате орын алды. Қызметкер төлем жүйесі пайдаланатын бірнеше виртуалды серверлерді жоюға әрекеттенді, бірақ үлкенірек кластерге соқты.
Инженерлік қатенің нәтижесінде Amazon бұлтты сақтаудың маңызды бағдарламалық жасақтама модульдерін басқаратын серверлер жойылды. Бірінші әсер еткен US-EAST-3 Америка аймағындағы барлық S1 нысандарының метадеректері мен орны туралы ақпаратты қамтитын индекстеу ішкі жүйесі болды. Оқиға деректерді орналастыру және сақтау үшін қолжетімді кеңістікті басқару үшін пайдаланылатын ішкі жүйеге де әсер етті. Виртуалды машиналарды жойғаннан кейін, бұл екі ішкі жүйе толығымен қайта іске қосуды талап етті, содан кейін Amazon инженерлері таң қалдырды - ұзақ уақыт бойы қоғамдық бұлттық қойма тұтынушылардың сұрауларына қызмет көрсете алмады.
Әсер кең тарады, өйткені көптеген ірі ресурстар Amazon S3 пайдаланады. Үзілістер Trello, Coursera, IFTTT және, ең жағымсызы, S&P 500 тізіміндегі негізгі Amazon серіктестерінің қызметтеріне әсер етті.Мұндай жағдайларда келтірілген залалды есептеу қиын, бірақ ол жүздеген миллион АҚШ долларын құрайтын аймақта болды. Көріп отырғаныңыздай, ең үлкен бұлттық платформаның қызметін өшіру үшін бір қате пәрмен жеткілікті. Бұл оқшауланған жағдай емес, 16 жылдың 2019 мамырында жөндеу жұмыстары кезінде Yandex.Cloud қызметі
Мұздатылған салқындату
2017 жылдың қаңтарында «Мегафон» компаниясының Дмитров деректер орталығында ірі апат болды. Содан кейін Мәскеу облысында температура -35 ° C дейін төмендеді, бұл нысанның салқындату жүйесінің істен шығуына әкелді. Оператордың баспасөз қызметі оқиғаның себептері туралы ерекше айтқан жоқ - ресейлік компаниялар өздеріне тиесілі нысандардағы апаттар туралы айтудан тым құлықсыз; жариялылық жағынан біз Батыстан әлдеқайда арттамыз. Әлеуметтік желіде көше бойындағы құбырлардағы салқындатқыштың қатып, этиленгликоль ағып кеткені туралы нұсқа тараған болатын. Оның айтуынша, эксплуатациялық қызмет ұзақ демалыс күндеріне байланысты тез арада 30 тонна салқындатқышты ала алмай, жүйені пайдалану ережелерін бұза отырып, импровизацияланған еркін салқындауды ұйымдастырып, импровизацияланған құралдарды пайдаланып шығарған. Қатты суық мәселені ушықтырды – қаңтарда ешкім күтпеген болса да, кенеттен Ресейге қыс келді. Нәтижесінде қызметкерлерге серверлік тіректердің бір бөлігіне электр қуатын өшіруге тура келді, сондықтан кейбір оператор қызметтері екі күн бойы қолжетімсіз болды.
Бұл жерде ауа райының аномалиясы туралы айтуға болатын шығар, бірақ мұндай аяз астаналық аймақ үшін таңсық нәрсе емес. Мәскеу облысында қыста температура төмен деңгейге дейін төмендеуі мүмкін, сондықтан деректер орталықтары -42 ° C тұрақты жұмыс күтумен салынған. Көбінесе салқындату жүйелері салқындатқыш ерітіндісіндегі гликольдердің және артық судың жеткіліксіз жоғары концентрациясына байланысты суық мезгілде істен шығады. Сондай-ақ құбырларды орнату немесе жүйені жобалау және сынау кезінде қате есептеулер бар, негізінен ақшаны үнемдеу ниетімен байланысты проблемалар бар. Нәтижесінде күтпеген жерден ауыр апат орын алады, оның алдын алуға болатын еді.
Табиғи апаттар
Көбінесе найзағай және/немесе дауыл деректер орталығының инженерлік инфрақұрылымын бұзады, бұл қызмет көрсетудің үзілуіне және/немесе жабдықтың физикалық зақымдалуына әкеледі. Ауа-райының қолайсыздығынан туындаған оқиғалар жиі орын алады. 2012 жылы «Сэнди» дауылы Америка Құрама Штаттарының батыс жағалауында қатты жауын-шашынмен өтті. Төменгі Манхэттендегі көп қабатты ғимаратта орналасқан, Peer 1 деректер орталығы
Жанармай сорғы да істен шыққандықтан, қызметкерлер бірнеше күн бойы дизельді генераторларға қолмен тасымалдауға жұмсады. Команданың ерлігі деректер орталығын ауыр апаттан құтқарды, бірақ бұл шынымен қажет пе? Біз азот-оттегі атмосферасы және суы көп планетада өмір сүреміз. Мұнда (әсіресе жағалаудағы аудандарда) найзағай мен дауыл жиі болады. Дизайнерлер тәуекелдерді қарастырып, сәйкес үзіліссіз электрмен жабдықтау жүйесін құрса жақсы болар еді. Немесе, кем дегенде, аралдағы көп қабатты үйден гөрі деректер орталығы үшін қолайлы орынды таңдаңыз.
Қалғанының бәрі
Uptime институты осы санаттағы әртүрлі оқиғаларды анықтайды, олардың арасында типтік біреуін таңдау қиын. Мыс кабельдерді ұрлау, деректер орталықтарына, электр желісінің тіректеріне және трансформаторлық қосалқы станцияларға соқтығысқан автокөліктер, өрттер, оптиканы зақымдайтын экскаватор операторлары, кеміргіштер (егеуқұйрықтар, қояндар және тіпті вомбаттар, олар шын мәнінде марсупиалдар), сондай-ақ ату жаттығуларын ұнататындар. сымдар - мәзір кең. Электр қуатының бұзылуы тіпті себеп болуы мүмкін
Ақпарат көзі: www.habr.com