Accidentele majore în centrele de date: cauze și consecințe

Centrele de date moderne sunt fiabile, dar orice echipament se defectează din când în când. În acest scurt articol am adunat cele mai semnificative incidente din 2018.

Accidentele majore în centrele de date: cauze și consecințe

Influența tehnologiilor digitale asupra economiei este în creștere, volumul de informații procesate crește, se construiesc noi facilități, iar acest lucru este bine atâta timp cât totul funcționează. Din păcate, impactul economic al defecțiunilor centrelor de date a crescut și de când oamenii au început să găzduiască infrastructura IT critică pentru afaceri, ca o consecință inevitabilă a digitalizării. Publicăm o mică selecție a celor mai notabile accidente care au avut loc în diferite țări anul trecut.

Statele Unite ale Americii

Această țară este un lider recunoscut în domeniul construcției de centre de date. Statele Unite ale Americii au cel mai mare număr de centre mari de date comerciale și corporative care deservesc servicii globale, astfel încât consecințele incidentelor de acolo sunt cele mai semnificative. La începutul lunii martie, patru unități Equinix au suferit întreruperi de curent din cauza unui ciclon puternic. Spațiul a fost folosit pentru echipamente Amazon Web Services (AWS); accidentul a dus la indisponibilitatea multor servicii populare: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio și mCapital One, precum și asistentul virtual Amazon Alexa, au fost afectate.

În septembrie, anomaliile meteorologice au lovit centrele de date Microsoft situate în Texas.Atunci, din cauza unei furtuni, sistemul de alimentare cu energie electrică a întregii regiuni a fost întrerupt, iar în centrul de date care a trecut la alimentare de la generatorul diesel, nu se știe de ce. răcirea s-a oprit. A fost nevoie de câteva zile pentru a elimina consecințele accidentului și, deși, datorită echilibrării încărcării, această defecțiune nu a devenit critică, o ușoară încetinire a funcționării serviciilor cloud Microsoft a fost observată de utilizatorii din întreaga lume.

Rusia

Cel mai grav accident a avut loc pe 20 august într-unul dintre centrele de date Rostelecom. Din cauza asta, serverele Registrului Unificat de Stat al Imobiliare s-au oprit timp de 66 de ore și, prin urmare, au trebuit să fie transferate pe un site de rezervă. Rosreestr a reușit să restabilească procesarea cererilor primite prin toate canalele abia pe 3 septembrie - organizația guvernamentală încearcă să recupereze o sumă mare de la Rostelecom pentru încălcarea acordului de nivel de servicii.

Pe 16 februarie, din cauza unor probleme în rețelele Lenenergo, a fost pornit sistemul de alimentare de rezervă din centrul de date din Xelnet (Sankt Petersburg). O întrerupere pe termen scurt a undei sinusoidale a dus la întreruperi în funcționarea multor servicii: în special, marele furnizor de cloud 1cloud a fost afectat, dar cea mai vizibilă problemă pentru publicul rus de internet a fost incapacitatea de a accesa site-ul de rețea socială VKontakte. . Cel mai interesant lucru este că a durat aproximativ 12 ore pentru a elimina complet consecințele unei pene de curent pe termen scurt.

Uniunea Europeană

Mai multe incidente grave au fost înregistrate în UE în 2018. În martie, a avut loc o defecțiune la centrul de date al companiei aeriene KLM: alimentarea cu energie electrică a fost întreruptă timp de 10 minute, iar puterea grupurilor electrogene diesel a fost insuficientă pentru a opera echipamentul. Unele servere s-au defectat, iar compania aeriană a fost nevoită să anuleze sau să reprogrameze câteva zeci de zboruri.

Acesta nu este singurul incident legat de călătoriile aeriene - deja în aprilie a avut loc o defecțiune la sistemul de alimentare cu energie electrică a centrului de date Eurocontrol. Organizația controlează mișcarea aeronavelor în Uniunea Europeană, iar în timp ce specialiștii au petrecut 5 ore eliminând consecințele accidentului, pasagerii au fost din nou nevoiți să suporte întârzieri și zboruri reprogramate.

Probleme foarte grave apar din cauza accidentelor din centrele de date care deservesc sectorul financiar. Costul întreruperilor tranzacțiilor aici este de obicei ridicat, iar nivelul de fiabilitate al instalațiilor este adecvat, dar acest lucru nu previne incidentele. Pe 18 aprilie, bursa nordică NASDAQ (Helsinki, Finlanda) nu a putut tranzacționa în toată Europa de Nord în timpul zilei din cauza activării neautorizate a unui sistem de stingere a incendiilor cu gaz în centrul de date comercial DigiPlex, care a fost deconectat brusc de tensiune.

Pe 7 iunie, întreruperile centrelor de date au forțat Bursa de Valori din Londra (LSE) să întârzie începerea tranzacționării cu o oră. În plus, în iunie, în Europa, din cauza unei defecțiuni la un centru de date, serviciile sistemului internațional de plăți VISA au fost dezactivate pentru întreaga zi, iar detaliile incidentului nu au fost niciodată dezvăluite.

Japonia

În vara lui 2018, un incendiu a avut loc la nivelurile subterane ale unui centru de date Amazon în construcție într-o suburbie din Tokyo, ucigând 5 muncitori și rănind cel puțin 50. Incendiul a afectat aproximativ 5000 m2 din instalație. Ancheta a arătat că cauza incendiului a fost o eroare umană: din cauza manipulării neglijente a torțelor de acetilenă, izolația s-a aprins.

Cauzele eșecurilor

Lista de incidente de mai sus este departe de a fi completă; din cauza accidentelor din centrele de date, clienții băncilor și operatorii de telecomunicații au de suferit, serviciile furnizorilor de cloud sunt offline și chiar și activitatea serviciilor de urgență este întreruptă. O mică întrerupere a serviciului poate duce la pierderi majore, iar majoritatea întreruperilor (39%) sunt legate de sistemul electric, potrivit Uptime Institute. Pe locul doi (24%) se află factorul uman, iar pe al treilea (15%) se află sistemul de aer condiționat. Doar 12% dintre accidentele din centrele de date pot fi atribuite fenomenelor naturale, iar doar 10% dintre acestea au loc din alte motive decât cele enumerate.

În ciuda standardelor stricte de fiabilitate și siguranță, nicio unitate nu este imună la incidente. Cele mai multe dintre ele apar din cauza pene de curent sau erori umane. Proprietarii de centre de date și camere de servere ar trebui să acorde mai întâi atenție acestor doi factori, iar clienții ar trebui să înțeleagă: nici măcar liderii de piață nu pot garanta fiabilitatea absolută. Dacă echipamentele sau un serviciu cloud servesc proceselor critice pentru afaceri, ar trebui să vă gândiți la un site de rezervă.

Sursa foto: telecombloger.ru

Sursa: www.habr.com

Adauga un comentariu