Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Subiectul accidentelor majore din centrele de date moderne ridică întrebări la care nu s-a răspuns în primul articol - am decis să o dezvoltăm.

Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Potrivit statisticilor Uptime Institute, majoritatea incidentelor din centrele de date sunt legate de defecțiuni ale sistemului de alimentare cu energie – acestea reprezintă 39% dintre incidente. Ele sunt urmate de factorul uman, care reprezintă încă 24% din accidente. Al treilea cel mai important motiv (15%) a fost defectarea sistemului de aer condiționat, iar pe locul patru (12%) au fost dezastrele naturale. Ponderea totală a altor necazuri este de doar 10%. Fără a pune la îndoială datele unei organizații respectate, vom evidenția ceva comun în diferite accidente și vom încerca să înțelegem dacă acestea ar fi putut fi evitate. Spoiler: este posibil în majoritatea cazurilor.

Știința Contactelor

Pentru a spune simplu, există doar două probleme cu alimentarea cu energie: fie nu există niciun contact acolo unde ar trebui să fie, fie există contact unde nu ar trebui să existe contact. Puteți vorbi mult timp despre fiabilitatea sistemelor moderne de alimentare neîntreruptibilă, dar acestea nu vă salvează întotdeauna. Luați cazul de mare profil al centrului de date folosit de British Airways, care este deținut de compania-mamă International Airlines Group. Există două astfel de proprietăți situate lângă Aeroportul Heathrow - Casa Boadicea și Casa Comet. În prima dintre acestea, pe 27 mai 2017, a avut loc o întrerupere accidentală a curentului, care a dus la supraîncărcare și defecțiune a sistemului UPS. Ca urmare, unele dintre echipamentele IT au fost deteriorate fizic, iar cel mai recent dezastru a durat trei zile pentru a fi rezolvat.

Compania aeriană a trebuit să anuleze sau să reprogrameze mai mult de o mie de zboruri, aproximativ 75 de mii de pasageri nu au putut zbura la timp - 128 de milioane de dolari au fost cheltuiți pentru plata despăgubirilor, fără a lua în calcul costurile necesare pentru restabilirea funcționalității centrelor de date. Istoria cauzelor panei de curent este neclară. Dacă credeți rezultatele investigației interne anunțate de CEO-ul International Airlines Group, Willie Walsh, aceasta s-a datorat unei erori a inginerilor. Cu toate acestea, sistemul de alimentare neîntreruptibilă a trebuit să reziste la o astfel de oprire - de aceea a fost instalat. Centrul de date a fost administrat de specialiști de la compania de outsourcing CBRE Managed Services, așa că British Airways a încercat să recupereze suma prejudiciului printr-un tribunal din Londra.

Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Întreruperile de curent apar în scenarii similare: mai întâi are loc o întrerupere din vina furnizorului de energie electrică, uneori din cauza vremii nefavorabile sau a unor probleme interne (inclusiv erori umane), iar apoi sistemul de alimentare neîntreruptibilă nu poate face față sarcinii sau unui scurtcircuit. -întreruperea pe termen a undei sinusoidale cauzează defecțiuni ale multor servicii, determinând restaurarea cărora necesită mult timp și bani. Este posibil să evitați astfel de accidente? Fara indoiala. Dacă proiectați corect sistemul, chiar și creatorii de centre de date mari nu sunt imuni de greșeli.

Factorul uman

Atunci când cauza imediată a unui incident este acțiunile incorecte ale personalului centrului de date, problemele cel mai adesea (dar nu întotdeauna) afectează partea software a infrastructurii IT. Astfel de accidente apar chiar și în marile corporații. În februarie 2017, din cauza unui membru al echipei recrutat incorect din grupul de operare tehnică a unuia dintre centrele de date, o parte din serverele Amazon Web Services a fost dezactivată. A apărut o eroare la depanarea procesului de facturare pentru clienții de stocare în cloud Amazon Simple Storage Service (S3). Un angajat a încercat să ștergă o serie de servere virtuale utilizate de sistemul de facturare, dar a lovit un cluster mai mare.

Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Ca urmare a unei erori inginerești, serverele care rulau module software importante de stocare în cloud Amazon au fost șterse. Primul afectat a fost subsistemul de indexare, care conține informații despre metadatele și locația tuturor obiectelor S3 din regiunea americană US-EAST-1. Incidentul a afectat și subsistemul folosit pentru găzduirea datelor și gestionarea spațiului disponibil pentru stocare. După ștergerea mașinilor virtuale, aceste două subsisteme au necesitat o repornire completă, iar apoi inginerii Amazon au avut o surpriză - pentru o lungă perioadă de timp, stocarea publică în cloud nu a putut răspunde solicitărilor clienților.

Impactul a fost larg răspândit, deoarece multe resurse mari folosesc Amazon S3. Întreruperile au afectat Trello, Coursera, IFTTT și, cel mai neplăcut, serviciile marilor parteneri Amazon din lista S&P 500. Prejudiciul în astfel de cazuri este greu de calculat, dar a fost de aproximativ sute de milioane de dolari SUA. După cum puteți vedea, o comandă greșită este suficientă pentru a dezactiva serviciul celei mai mari platforme cloud. Acesta nu este un caz izolat; pe 16 mai 2019, în timpul lucrărilor de întreținere, serviciul Yandex.Cloud șters mașinile virtuale ale utilizatorilor din zona ru-central1-c care au fost în starea SUSPENDAT cel puțin o dată. Datele clienților au fost deja deteriorate aici, dintre care unele s-au pierdut iremediabil. Desigur, oamenii sunt imperfecți, dar sistemele moderne de securitate a informațiilor sunt capabile de multă vreme să monitorizeze acțiunile utilizatorilor privilegiați înainte de a executa comenzile pe care le-au introdus. Dacă astfel de soluții sunt implementate în Yandex sau Amazon, astfel de incidente pot fi evitate.

Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Răcire înghețată

În ianuarie 2017, un accident major a avut loc în centrul de date Dmitrov al companiei Megafon. Apoi temperatura din regiunea Moscovei a scăzut la -35 °C, ceea ce a dus la defecțiunea sistemului de răcire al instalației. Serviciul de presă al operatorului nu a vorbit în mod special despre motivele incidentului - companiile rusești sunt extrem de reticente să vorbească despre accidente la unitățile pe care le dețin; în ceea ce privește publicitatea, suntem cu mult în urma Occidentului. Pe rețelele de socializare circula o versiune despre înghețarea lichidului de răcire în țevile așezate de-a lungul străzii și scurgerile de etilenglicol. Potrivit acesteia, serviciul de operare nu a reușit să obțină rapid 30 de tone de lichid de răcire din cauza vacanțelor lungi și a ieșit folosind mijloace improvizate, organizând o răcire liberă improvizată, încălcând regulile de funcționare a sistemului. Frigul sever a exacerbat problema - în ianuarie, iarna a lovit brusc Rusia, deși nimeni nu se aștepta la asta. În consecință, personalul a fost nevoit să oprească alimentarea unei părți din rafturile serverelor, motiv pentru care unele servicii de operator au fost indisponibile timp de două zile.

Principala cauză a accidentelor în centrele de date este garnitura dintre computer și scaun

Probabil că aici putem vorbi despre o anomalie meteorologică, dar astfel de înghețuri nu sunt ceva neobișnuit pentru regiunea capitalei. Temperaturile din timpul iernii în regiunea Moscovei pot scădea la niveluri mai scăzute, astfel încât centrele de date sunt construite cu așteptarea unei funcționări stabile la -42°C. Cel mai adesea, sistemele de răcire eșuează pe vreme rece din cauza unei concentrații insuficient de ridicate de glicoli și a excesului de apă în soluția de răcire. Există, de asemenea, probleme cu instalarea țevilor sau cu calcule greșite în proiectarea și testarea sistemului, asociate în principal cu dorința de a economisi bani. Ca urmare, are loc din senin un accident grav, care ar fi putut fi prevenit.

Dezastre naturale

Cel mai adesea, furtunile și/sau uraganele perturbă infrastructura de inginerie a unui centru de date, ducând la întreruperi ale serviciului și/sau daune fizice ale echipamentelor. Incidentele cauzate de vremea rea ​​apar destul de des. În 2012, uraganul Sandy a măturat coasta de vest a Statelor Unite cu ploi abundente. Situat într-o clădire înaltă din Lower Manhattan, centrul de date Peer 1 sursa de alimentare externă pierdută, după ce apa sărată a mării a inundat subsoluri. Generatoarele de urgență ale instalației erau amplasate la etajul 18, iar alimentarea cu combustibil a fost limitată - regulile introduse la New York după atacurile teroriste din 9 septembrie interzic depozitarea unor cantități mari de combustibil la etajele superioare.

Pompa de combustibil a defectat și ea, așa că personalul a petrecut câteva zile transportând manual motorină la generatoare. Eroismul echipei a salvat centrul de date de la un accident grav, dar a fost chiar necesar? Trăim pe o planetă cu atmosferă de azot-oxigen și multă apă. Furtunile și uraganele sunt frecvente aici (mai ales în zonele de coastă). Proiectanții ar face bine să ia în considerare riscurile implicate și să construiască un sistem de alimentare neîntreruptibil adecvat. Sau, cel puțin, alegeți o locație mai potrivită pentru centrul de date decât o clădire pe o insulă.

Orice altceva

Uptime Institute identifică o varietate de incidente din această categorie, dintre care este dificil să alegeți unul tipic. Furtul de cabluri de cupru, mașinile care se prăbușesc în centre de date, suporturi de linii electrice și substații de transformare, incendii, operatorii de excavatoare care deteriorează optica, rozătoare (șobolani, iepuri și chiar wombați, care sunt de fapt marsupiale), precum și cei cărora le place să exerseze tragerea la fire - meniul este extins . Întreruperea curentului poate cauza chiar furtul electricitate plantație ilegală de marijuana. În cele mai multe cazuri, anumiți oameni devin vinovați de incident, adică avem de-a face din nou cu factorul uman, când problema are un nume și un prenume. Chiar dacă la prima vedere accidentul este asociat cu o defecțiune tehnică sau cu dezastre naturale, acesta poate fi evitat cu condiția ca instalația să fie proiectată și operat corect. Singurele excepții sunt cazurile de deteriorare critică a infrastructurii centrului de date sau distrugerea clădirilor și structurilor din cauza unui dezastru natural. Acestea sunt cu adevărat circumstanțe de forță majoră, iar toate celelalte probleme sunt cauzate de garnitura dintre computer și scaun - poate aceasta este partea cea mai nesigură a oricărui sistem complex.

Sursa: www.habr.com

Adauga un comentariu