A modern adatközpontokban bekövetkezett súlyos balesetek témája olyan kérdéseket vet fel, amelyekre az első cikkben nem kaptunk választ – úgy döntöttünk, hogy továbbfejlesztjük.
Az Uptime Institute statisztikái szerint az adatközpontokban bekövetkezett incidensek többsége az áramellátó rendszer meghibásodásához kapcsolódik – ez az incidensek 39%-áért felelős. Őket követi az emberi tényező, amely a balesetek további 24%-át teszi ki. A harmadik legfontosabb ok (15%) a klímarendszer meghibásodása, a negyedik helyen (12%) a természeti katasztrófák álltak. Az egyéb bajok teljes aránya mindössze 10%. Anélkül, hogy megkérdőjeleznénk egy tekintélyes szervezet adatait, kiemelünk valamit, ami a különböző baleseteknél gyakori, és megpróbáljuk megérteni, hogy elkerülhetőek-e. Spoiler: a legtöbb esetben lehetséges.
Az érintkezés tudománya
Leegyszerűsítve, csak két probléma van az áramellátással: vagy nincs érintkezés ott, ahol lennie kellene, vagy ott van, ahol nem. Sokáig lehet beszélni a modern szünetmentes tápegységek megbízhatóságáról, de nem mindig mentik meg. Vegyük a British Airways által használt adatközpont nagy horderejű esetét, amely az anyavállalat, az International Airlines Group tulajdonosa. Két ilyen ingatlan található a Heathrow repülőtér közelében – a Boadicea House és a Comet House. Ezek közül az elsőben 27. május 2017-én véletlenül áramszünet következett be, ami az UPS rendszer túlterheléséhez és meghibásodásához vezetett. Emiatt az informatikai eszközök egy része fizikailag megsérült, a legutóbbi katasztrófa megoldása három napig tartott.
A légitársaságnak több mint ezer járatát kellett törölnie vagy átütemeznie, mintegy 75 ezer utas nem tudott időben repülni – 128 millió dollárt költöttek kártérítésre, nem számítva az adatközpontok működőképességének helyreállításához szükséges költségeket. Az áramszünet okainak története nem tisztázott. Ha hisz az International Airlines Group vezérigazgatója, Willie Walsh által bejelentett belső vizsgálat eredményeinek, ez a mérnökök hibája miatt történt. A szünetmentes tápegységnek azonban ki kellett bírnia egy ilyen leállást - ezért került telepítésre. Az adatközpontot a CBRE Managed Services outsourcing cég szakemberei kezelték, így a British Airways egy londoni bíróságon keresztül próbálta behajtani a kár összegét.
Az áramkimaradások hasonló forgatókönyvekben fordulnak elő: először az áramszolgáltató hibája miatt áramszünet, esetenként rossz időjárás vagy belső problémák (beleértve az emberi hibákat is), majd a szünetmentes tápegység nem tud megbirkózni a terheléssel vagy rövidzárlattal. - a szinuszhullám időtartamú megszakítása számos szolgáltatás meghibásodását okozza, aminek helyreállítása sok időt és pénzt igényel. El lehet kerülni az ilyen baleseteket? Kétségtelenül. Ha helyesen tervezi meg a rendszert, még a nagy adatközpontok készítői sem mentesek a hibáktól.
Emberi tényező
Ha az incidens közvetlen oka az adatközpont személyzetének helytelen tevékenysége, akkor a problémák leggyakrabban (de nem mindig) az informatikai infrastruktúra szoftveres részét érintik. Ilyen balesetek még a nagyvállalatoknál is előfordulnak. 2017 februárjában az egyik adatközpont műszaki üzemeltetési csoportjának egy helytelenül toborzott csapattagja miatt az Amazon Web Services szerverek egy részét letiltották. Hiba történt az Amazon Simple Storage Service (S3) felhőalapú tárolási ügyfelei számlázási folyamatának hibakeresése közben. Egy alkalmazott megpróbált törölni számos, a számlázási rendszer által használt virtuális szervert, de egy nagyobb fürtöt talált el.
Mérnöki hiba következtében törölték azokat a szervereket, amelyeken fontos Amazon felhőalapú tárolási szoftvermodulokat futtattak. Az első érintett az indexelési alrendszer volt, amely információkat tartalmaz a US-EAST-3 amerikai régióban található összes S1 objektum metaadatairól és helyéről. Az incidens az adatok tárolására és a tárolásra rendelkezésre álló terület kezelésére használt alrendszert is érintette. A virtuális gépek törlése után ez a két alrendszer teljes újraindítást igényelt, majd az Amazon mérnökeit meglepetés érte – a nyilvános felhőtárhely sokáig nem tudta kiszolgálni az ügyfelek kéréseit.
A hatás széles körben elterjedt, mivel sok nagy erőforrás használja az Amazon S3-at. A kimaradások a Trellót, a Courserát, az IFTTT-t, és ami a legkellemetlenebb, az S&P 500-as listáról az Amazon nagy partnereinek szolgáltatásait érintették, a kárt ilyen esetekben nehéz kiszámítani, de a több százmillió dollár körüli összeget. Mint látható, egy rossz parancs elég a legnagyobb felhőplatform szolgáltatásának letiltásához. Ez nem egyedi eset, 16. május 2019-án a karbantartási munkák során a Yandex.Cloud szolgáltatás
Fagyasztott hűtés
2017 januárjában súlyos baleset történt a Megafon cég Dmitrov adatközpontjában. Ezután a moszkvai régió hőmérséklete –35 °C-ra csökkent, ami a létesítmény hűtőrendszerének meghibásodásához vezetett. Az üzemeltető sajtószolgálata nem beszélt különösebben az incidens okairól - az orosz cégek rendkívül vonakodnak beszélni a tulajdonukban lévő létesítményeikben történt balesetekről, a nyilvánosságot illetően messze lemaradunk a nyugatitól. A közösségi hálózatokon keringett egy verzió a hűtőfolyadék lefagyásáról az utca mentén lefektetett csövekben és az etilénglikol szivárgásáról. Elmondása szerint az üzemeltetési szolgálat a hosszú szabadságok miatt nem tudott gyorsan beszerezni 30 tonna hűtőfolyadékot, és rögtönzött eszközökkel, a rendszer üzemeltetési szabályait megsértve rögtönzött szabadhűtést szervezve kiszállt. A súlyos hideg súlyosbította a problémát – januárban hirtelen beütött a tél Oroszországba, bár erre senki sem számított. Emiatt a személyzetnek le kellett kapcsolnia a kiszolgáló állványok egy részét, ezért egyes operátori szolgáltatások két napig nem voltak elérhetők.
Valószínűleg itt időjárási anomáliáról beszélhetünk, de az ilyen fagyok nem szokatlanok a fővárosban. A moszkvai régióban télen a hőmérséklet alacsonyabb szintre süllyedhet, ezért az adatközpontok –42°C-os stabil működésre számítva épülnek. Leggyakrabban a hűtőrendszerek meghibásodnak hideg időben a glikolok nem kellően magas koncentrációja és a hűtőfolyadék-oldatban lévő felesleges víz miatt. Problémák vannak a csövek felszerelésével vagy a rendszer tervezése és tesztelése során felmerülő hibás számításokkal is, amelyek főként a megtakarítási vágyhoz kapcsolódnak. Emiatt hirtelen hirtelen súlyos baleset történik, ami megelőzhető lett volna.
A természeti katasztrófák
Leggyakrabban a zivatarok és/vagy hurrikánok megzavarják egy adatközpont mérnöki infrastruktúráját, ami szolgáltatáskimaradásokhoz és/vagy a berendezések fizikai károsodásához vezet. A rossz időjárás okozta incidensek gyakran előfordulnak. 2012-ben a Sandy hurrikán heves esőzésekkel söpört végig az Egyesült Államok nyugati partján. Alsó-Manhattanben, egy sokemeletes épületben található a Peer 1 adatközpont
Az üzemanyag-szivattyú is meghibásodott, ezért a személyzet több napot töltött azzal, hogy kézzel szállították a gázolajat a generátorokhoz. A csapat hősiessége megmentette az adatközpontot egy súlyos balesettől, de valóban szükség volt rá? Olyan bolygón élünk, ahol nitrogén-oxigén légkör és sok víz van. Itt gyakoriak a zivatarok és hurrikánok (főleg a tengerparti területeken). A tervezők valószínűleg jól tennék, ha mérlegelnék az ezzel járó kockázatokat, és megfelelő szünetmentes tápegységet építenének ki. Vagy legalább válasszon megfelelőbb helyet az adatközpontnak, mint egy szigeti toronyházat.
Minden más
Az Uptime Institute számos olyan eseményt azonosít ebben a kategóriában, amelyek közül nehéz kiválasztani a tipikusat. Rézkábelek lopása, adatközpontokba ütköző autók, vezetéktartók és transzformátor alállomások, tüzek, az optikát károsító kotrógép-kezelők, rágcsálók (patkányok, nyulak, sőt vombatok, amelyek valójában erszényes állatok), valamint azok, akik szeretik a lövöldözést gyakorolni. vezetékek - a menü kiterjedt. Áramkimaradás akár okozhat
Forrás: will.com