Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

A modern adatközpontokban bekövetkezett súlyos balesetek témája olyan kérdéseket vet fel, amelyekre az első cikkben nem kaptunk választ – úgy döntöttünk, hogy továbbfejlesztjük.

Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

Az Uptime Institute statisztikái szerint az adatközpontokban bekövetkezett incidensek többsége az áramellátó rendszer meghibásodásához kapcsolódik – ez az incidensek 39%-áért felelős. Őket követi az emberi tényező, amely a balesetek további 24%-át teszi ki. A harmadik legfontosabb ok (15%) a klímarendszer meghibásodása, a negyedik helyen (12%) a természeti katasztrófák álltak. Az egyéb bajok teljes aránya mindössze 10%. Anélkül, hogy megkérdőjeleznénk egy tekintélyes szervezet adatait, kiemelünk valamit, ami a különböző baleseteknél gyakori, és megpróbáljuk megérteni, hogy elkerülhetőek-e. Spoiler: a legtöbb esetben lehetséges.

Az érintkezés tudománya

Leegyszerűsítve, csak két probléma van az áramellátással: vagy nincs érintkezés ott, ahol lennie kellene, vagy ott van, ahol nem. Sokáig lehet beszélni a modern szünetmentes tápegységek megbízhatóságáról, de nem mindig mentik meg. Vegyük a British Airways által használt adatközpont nagy horderejű esetét, amely az anyavállalat, az International Airlines Group tulajdonosa. Két ilyen ingatlan található a Heathrow repülőtér közelében – a Boadicea House és a Comet House. Ezek közül az elsőben 27. május 2017-én véletlenül áramszünet következett be, ami az UPS rendszer túlterheléséhez és meghibásodásához vezetett. Emiatt az informatikai eszközök egy része fizikailag megsérült, a legutóbbi katasztrófa megoldása három napig tartott.

A légitársaságnak több mint ezer járatát kellett törölnie vagy átütemeznie, mintegy 75 ezer utas nem tudott időben repülni – 128 millió dollárt költöttek kártérítésre, nem számítva az adatközpontok működőképességének helyreállításához szükséges költségeket. Az áramszünet okainak története nem tisztázott. Ha hisz az International Airlines Group vezérigazgatója, Willie Walsh által bejelentett belső vizsgálat eredményeinek, ez a mérnökök hibája miatt történt. A szünetmentes tápegységnek azonban ki kellett bírnia egy ilyen leállást - ezért került telepítésre. Az adatközpontot a CBRE Managed Services outsourcing cég szakemberei kezelték, így a British Airways egy londoni bíróságon keresztül próbálta behajtani a kár összegét.

Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

Az áramkimaradások hasonló forgatókönyvekben fordulnak elő: először az áramszolgáltató hibája miatt áramszünet, esetenként rossz időjárás vagy belső problémák (beleértve az emberi hibákat is), majd a szünetmentes tápegység nem tud megbirkózni a terheléssel vagy rövidzárlattal. - a szinuszhullám időtartamú megszakítása számos szolgáltatás meghibásodását okozza, aminek helyreállítása sok időt és pénzt igényel. El lehet kerülni az ilyen baleseteket? Kétségtelenül. Ha helyesen tervezi meg a rendszert, még a nagy adatközpontok készítői sem mentesek a hibáktól.

Emberi tényező

Ha az incidens közvetlen oka az adatközpont személyzetének helytelen tevékenysége, akkor a problémák leggyakrabban (de nem mindig) az informatikai infrastruktúra szoftveres részét érintik. Ilyen balesetek még a nagyvállalatoknál is előfordulnak. 2017 februárjában az egyik adatközpont műszaki üzemeltetési csoportjának egy helytelenül toborzott csapattagja miatt az Amazon Web Services szerverek egy részét letiltották. Hiba történt az Amazon Simple Storage Service (S3) felhőalapú tárolási ügyfelei számlázási folyamatának hibakeresése közben. Egy alkalmazott megpróbált törölni számos, a számlázási rendszer által használt virtuális szervert, de egy nagyobb fürtöt talált el.

Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

Mérnöki hiba következtében törölték azokat a szervereket, amelyeken fontos Amazon felhőalapú tárolási szoftvermodulokat futtattak. Az első érintett az indexelési alrendszer volt, amely információkat tartalmaz a US-EAST-3 amerikai régióban található összes S1 objektum metaadatairól és helyéről. Az incidens az adatok tárolására és a tárolásra rendelkezésre álló terület kezelésére használt alrendszert is érintette. A virtuális gépek törlése után ez a két alrendszer teljes újraindítást igényelt, majd az Amazon mérnökeit meglepetés érte – a nyilvános felhőtárhely sokáig nem tudta kiszolgálni az ügyfelek kéréseit.

A hatás széles körben elterjedt, mivel sok nagy erőforrás használja az Amazon S3-at. A kimaradások a Trellót, a Courserát, az IFTTT-t, és ami a legkellemetlenebb, az S&P 500-as listáról az Amazon nagy partnereinek szolgáltatásait érintették, a kárt ilyen esetekben nehéz kiszámítani, de a több százmillió dollár körüli összeget. Mint látható, egy rossz parancs elég a legnagyobb felhőplatform szolgáltatásának letiltásához. Ez nem egyedi eset, 16. május 2019-án a karbantartási munkák során a Yandex.Cloud szolgáltatás törölve a ru-central1-c zónában lévő felhasználók virtuális gépei, amelyek legalább egyszer FELFÜGGESZTETT állapotban voltak. Itt már megsérültek az ügyféladatok, amelyek egy része helyrehozhatatlanul elveszett. Természetesen az emberek tökéletlenek, de a modern információbiztonsági rendszerek már régóta képesek figyelni a kiváltságos felhasználók cselekedeteit, mielőtt végrehajtanák a beírt parancsokat. Ha ilyen megoldásokat alkalmaznak a Yandexben vagy az Amazonban, az ilyen incidensek elkerülhetők.

Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

Fagyasztott hűtés

2017 januárjában súlyos baleset történt a Megafon cég Dmitrov adatközpontjában. Ezután a moszkvai régió hőmérséklete –35 °C-ra csökkent, ami a létesítmény hűtőrendszerének meghibásodásához vezetett. Az üzemeltető sajtószolgálata nem beszélt különösebben az incidens okairól - az orosz cégek rendkívül vonakodnak beszélni a tulajdonukban lévő létesítményeikben történt balesetekről, a nyilvánosságot illetően messze lemaradunk a nyugatitól. A közösségi hálózatokon keringett egy verzió a hűtőfolyadék lefagyásáról az utca mentén lefektetett csövekben és az etilénglikol szivárgásáról. Elmondása szerint az üzemeltetési szolgálat a hosszú szabadságok miatt nem tudott gyorsan beszerezni 30 tonna hűtőfolyadékot, és rögtönzött eszközökkel, a rendszer üzemeltetési szabályait megsértve rögtönzött szabadhűtést szervezve kiszállt. A súlyos hideg súlyosbította a problémát – januárban hirtelen beütött a tél Oroszországba, bár erre senki sem számított. Emiatt a személyzetnek le kellett kapcsolnia a kiszolgáló állványok egy részét, ezért egyes operátori szolgáltatások két napig nem voltak elérhetők.

Az adatközpontokban a balesetek fő oka a számítógép és a szék közötti tömítés

Valószínűleg itt időjárási anomáliáról beszélhetünk, de az ilyen fagyok nem szokatlanok a fővárosban. A moszkvai régióban télen a hőmérséklet alacsonyabb szintre süllyedhet, ezért az adatközpontok –42°C-os stabil működésre számítva épülnek. Leggyakrabban a hűtőrendszerek meghibásodnak hideg időben a glikolok nem kellően magas koncentrációja és a hűtőfolyadék-oldatban lévő felesleges víz miatt. Problémák vannak a csövek felszerelésével vagy a rendszer tervezése és tesztelése során felmerülő hibás számításokkal is, amelyek főként a megtakarítási vágyhoz kapcsolódnak. Emiatt hirtelen hirtelen súlyos baleset történik, ami megelőzhető lett volna.

A természeti katasztrófák

Leggyakrabban a zivatarok és/vagy hurrikánok megzavarják egy adatközpont mérnöki infrastruktúráját, ami szolgáltatáskimaradásokhoz és/vagy a berendezések fizikai károsodásához vezet. A rossz időjárás okozta incidensek gyakran előfordulnak. 2012-ben a Sandy hurrikán heves esőzésekkel söpört végig az Egyesült Államok nyugati partján. Alsó-Manhattanben, egy sokemeletes épületben található a Peer 1 adatközpont elveszett a külső tápegység, miután sós tengervíz öntötte el a pincéket. A létesítmény vészhelyzeti generátorai a 18. emeleten helyezkedtek el, üzemanyag-ellátásuk korlátozott volt – New Yorkban a szeptember 9-i terrortámadások után bevezetett szabályok tiltják a nagy mennyiségű üzemanyag tárolását a felső emeleteken.

Az üzemanyag-szivattyú is meghibásodott, ezért a személyzet több napot töltött azzal, hogy kézzel szállították a gázolajat a generátorokhoz. A csapat hősiessége megmentette az adatközpontot egy súlyos balesettől, de valóban szükség volt rá? Olyan bolygón élünk, ahol nitrogén-oxigén légkör és sok víz van. Itt gyakoriak a zivatarok és hurrikánok (főleg a tengerparti területeken). A tervezők valószínűleg jól tennék, ha mérlegelnék az ezzel járó kockázatokat, és megfelelő szünetmentes tápegységet építenének ki. Vagy legalább válasszon megfelelőbb helyet az adatközpontnak, mint egy szigeti toronyházat.

Minden más

Az Uptime Institute számos olyan eseményt azonosít ebben a kategóriában, amelyek közül nehéz kiválasztani a tipikusat. Rézkábelek lopása, adatközpontokba ütköző autók, vezetéktartók és transzformátor alállomások, tüzek, az optikát károsító kotrógép-kezelők, rágcsálók (patkányok, nyulak, sőt vombatok, amelyek valójában erszényes állatok), valamint azok, akik szeretik a lövöldözést gyakorolni. vezetékek - a menü kiterjedt. Áramkimaradás akár okozhat lopás villamos energia illegális marihuána ültetvény. A legtöbb esetben konkrét személyek válnak az incidens felelőseivé, vagyis ismét az emberi tényezővel van dolgunk, amikor a problémának vezeték- és vezetéknév is van. Még akkor is, ha a baleset első pillantásra műszaki meghibásodáshoz vagy természeti katasztrófához kapcsolódik, akkor is elkerülhető, ha a létesítményt megfelelően tervezik és megfelelően üzemeltetik. Az egyetlen kivétel az adatközpont infrastruktúrájának kritikus károsodása vagy az épületek és építmények természeti katasztrófa miatti megsemmisülése. Ezek valóban vis maior körülmények, és minden más problémát a számítógép és a szék közötti tömítés okoz - talán ez a legmegbízhatatlanabb része minden összetett rendszernek.

Forrás: will.com

Hozzászólás