Subiectul accidentelor majore din centrele de date moderne ridică întrebări la care nu s-a răspuns în primul articol - am decis să o dezvoltăm.
Potrivit statisticilor Uptime Institute, majoritatea incidentelor din centrele de date sunt legate de defecțiuni ale sistemului de alimentare cu energie – acestea reprezintă 39% dintre incidente. Ele sunt urmate de factorul uman, care reprezintă încă 24% din accidente. Al treilea cel mai important motiv (15%) a fost defectarea sistemului de aer condiționat, iar pe locul patru (12%) au fost dezastrele naturale. Ponderea totală a altor necazuri este de doar 10%. Fără a pune la îndoială datele unei organizații respectate, vom evidenția ceva comun în diferite accidente și vom încerca să înțelegem dacă acestea ar fi putut fi evitate. Spoiler: este posibil în majoritatea cazurilor.
Știința Contactelor
Pentru a spune simplu, există doar două probleme cu alimentarea cu energie: fie nu există niciun contact acolo unde ar trebui să fie, fie există contact unde nu ar trebui să existe contact. Puteți vorbi mult timp despre fiabilitatea sistemelor moderne de alimentare neîntreruptibilă, dar acestea nu vă salvează întotdeauna. Luați cazul de mare profil al centrului de date folosit de British Airways, care este deținut de compania-mamă International Airlines Group. Există două astfel de proprietăți situate lângă Aeroportul Heathrow - Casa Boadicea și Casa Comet. În prima dintre acestea, pe 27 mai 2017, a avut loc o întrerupere accidentală a curentului, care a dus la supraîncărcare și defecțiune a sistemului UPS. Ca urmare, unele dintre echipamentele IT au fost deteriorate fizic, iar cel mai recent dezastru a durat trei zile pentru a fi rezolvat.
Compania aeriană a trebuit să anuleze sau să reprogrameze mai mult de o mie de zboruri, aproximativ 75 de mii de pasageri nu au putut zbura la timp - 128 de milioane de dolari au fost cheltuiți pentru plata despăgubirilor, fără a lua în calcul costurile necesare pentru restabilirea funcționalității centrelor de date. Istoria cauzelor panei de curent este neclară. Dacă credeți rezultatele investigației interne anunțate de CEO-ul International Airlines Group, Willie Walsh, aceasta s-a datorat unei erori a inginerilor. Cu toate acestea, sistemul de alimentare neîntreruptibilă a trebuit să reziste la o astfel de oprire - de aceea a fost instalat. Centrul de date a fost administrat de specialiști de la compania de outsourcing CBRE Managed Services, așa că British Airways a încercat să recupereze suma prejudiciului printr-un tribunal din Londra.
Întreruperile de curent apar în scenarii similare: mai întâi are loc o întrerupere din vina furnizorului de energie electrică, uneori din cauza vremii nefavorabile sau a unor probleme interne (inclusiv erori umane), iar apoi sistemul de alimentare neîntreruptibilă nu poate face față sarcinii sau unui scurtcircuit. -întreruperea pe termen a undei sinusoidale cauzează defecțiuni ale multor servicii, determinând restaurarea cărora necesită mult timp și bani. Este posibil să evitați astfel de accidente? Fara indoiala. Dacă proiectați corect sistemul, chiar și creatorii de centre de date mari nu sunt imuni de greșeli.
Factorul uman
Atunci când cauza imediată a unui incident este acțiunile incorecte ale personalului centrului de date, problemele cel mai adesea (dar nu întotdeauna) afectează partea software a infrastructurii IT. Astfel de accidente apar chiar și în marile corporații. În februarie 2017, din cauza unui membru al echipei recrutat incorect din grupul de operare tehnică a unuia dintre centrele de date, o parte din serverele Amazon Web Services a fost dezactivată. A apărut o eroare la depanarea procesului de facturare pentru clienții de stocare în cloud Amazon Simple Storage Service (S3). Un angajat a încercat să ștergă o serie de servere virtuale utilizate de sistemul de facturare, dar a lovit un cluster mai mare.
Ca urmare a unei erori inginerești, serverele care rulau module software importante de stocare în cloud Amazon au fost șterse. Primul afectat a fost subsistemul de indexare, care conține informații despre metadatele și locația tuturor obiectelor S3 din regiunea americană US-EAST-1. Incidentul a afectat și subsistemul folosit pentru găzduirea datelor și gestionarea spațiului disponibil pentru stocare. După ștergerea mașinilor virtuale, aceste două subsisteme au necesitat o repornire completă, iar apoi inginerii Amazon au avut o surpriză - pentru o lungă perioadă de timp, stocarea publică în cloud nu a putut răspunde solicitărilor clienților.
Impactul a fost larg răspândit, deoarece multe resurse mari folosesc Amazon S3. Întreruperile au afectat Trello, Coursera, IFTTT și, cel mai neplăcut, serviciile marilor parteneri Amazon din lista S&P 500. Prejudiciul în astfel de cazuri este greu de calculat, dar a fost de aproximativ sute de milioane de dolari SUA. După cum puteți vedea, o comandă greșită este suficientă pentru a dezactiva serviciul celei mai mari platforme cloud. Acesta nu este un caz izolat; pe 16 mai 2019, în timpul lucrărilor de întreținere, serviciul Yandex.Cloud
Răcire înghețată
În ianuarie 2017, un accident major a avut loc în centrul de date Dmitrov al companiei Megafon. Apoi temperatura din regiunea Moscovei a scăzut la -35 °C, ceea ce a dus la defecțiunea sistemului de răcire al instalației. Serviciul de presă al operatorului nu a vorbit în mod special despre motivele incidentului - companiile rusești sunt extrem de reticente să vorbească despre accidente la unitățile pe care le dețin; în ceea ce privește publicitatea, suntem cu mult în urma Occidentului. Pe rețelele de socializare circula o versiune despre înghețarea lichidului de răcire în țevile așezate de-a lungul străzii și scurgerile de etilenglicol. Potrivit acesteia, serviciul de operare nu a reușit să obțină rapid 30 de tone de lichid de răcire din cauza vacanțelor lungi și a ieșit folosind mijloace improvizate, organizând o răcire liberă improvizată, încălcând regulile de funcționare a sistemului. Frigul sever a exacerbat problema - în ianuarie, iarna a lovit brusc Rusia, deși nimeni nu se aștepta la asta. În consecință, personalul a fost nevoit să oprească alimentarea unei părți din rafturile serverelor, motiv pentru care unele servicii de operator au fost indisponibile timp de două zile.
Probabil că aici putem vorbi despre o anomalie meteorologică, dar astfel de înghețuri nu sunt ceva neobișnuit pentru regiunea capitalei. Temperaturile din timpul iernii în regiunea Moscovei pot scădea la niveluri mai scăzute, astfel încât centrele de date sunt construite cu așteptarea unei funcționări stabile la -42°C. Cel mai adesea, sistemele de răcire eșuează pe vreme rece din cauza unei concentrații insuficient de ridicate de glicoli și a excesului de apă în soluția de răcire. Există, de asemenea, probleme cu instalarea țevilor sau cu calcule greșite în proiectarea și testarea sistemului, asociate în principal cu dorința de a economisi bani. Ca urmare, are loc din senin un accident grav, care ar fi putut fi prevenit.
Dezastre naturale
Cel mai adesea, furtunile și/sau uraganele perturbă infrastructura de inginerie a unui centru de date, ducând la întreruperi ale serviciului și/sau daune fizice ale echipamentelor. Incidentele cauzate de vremea rea apar destul de des. În 2012, uraganul Sandy a măturat coasta de vest a Statelor Unite cu ploi abundente. Situat într-o clădire înaltă din Lower Manhattan, centrul de date Peer 1
Pompa de combustibil a defectat și ea, așa că personalul a petrecut câteva zile transportând manual motorină la generatoare. Eroismul echipei a salvat centrul de date de la un accident grav, dar a fost chiar necesar? Trăim pe o planetă cu atmosferă de azot-oxigen și multă apă. Furtunile și uraganele sunt frecvente aici (mai ales în zonele de coastă). Proiectanții ar face bine să ia în considerare riscurile implicate și să construiască un sistem de alimentare neîntreruptibil adecvat. Sau, cel puțin, alegeți o locație mai potrivită pentru centrul de date decât o clădire pe o insulă.
Orice altceva
Uptime Institute identifică o varietate de incidente din această categorie, dintre care este dificil să alegeți unul tipic. Furtul de cabluri de cupru, mașinile care se prăbușesc în centre de date, suporturi de linii electrice și substații de transformare, incendii, operatorii de excavatoare care deteriorează optica, rozătoare (șobolani, iepuri și chiar wombați, care sunt de fapt marsupiale), precum și cei cărora le place să exerseze tragerea la fire - meniul este extins . Întreruperea curentului poate cauza chiar
Sursa: www.habr.com