Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Tema e aksidenteve të mëdha në qendrat moderne të të dhënave ngre pyetje që nuk u përgjigjën në artikullin e parë, kështu që vendosëm ta trajtojmë më gjerësisht.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Sipas statistikave të Uptime Institute, shumica e incidenteve në qendrat e të dhënave lidhen me ndërprerjet e furnizimit me energji elektrike, duke përbërë 39% të incidenteve. Gabimi njerëzor vjen më pas, duke përbërë 24% të tjera të aksidenteve. Dështimet e ajrit të kondicionuar ishin shkaku i tretë më i zakonshëm (15%), dhe fatkeqësitë natyrore renditeshin në vendin e katërt (12%). Pjesa e kombinuar e incidenteve të tjera është vetëm 10%. Pa vënë në dyshim të dhënat e organizatës së nderuar, le të shohim pikat e përbashkëta në këto incidente të ndryshme dhe të përpiqemi të përcaktojmë nëse ato mund të ishin shmangur. Spoiler: në shumicën e rasteve, ato mund të ishin shmangur.

Shkenca e Kontakteve

Thënë thjesht, ka vetëm dy probleme me furnizimin me energji elektrike: ose nuk ka lidhje aty ku duhet të ketë, ose ka një lidhje aty ku nuk duhet të ketë. Mund të flasim gjatë për besueshmërinë e sistemeve moderne të furnizimit me energji të pandërprerë, por ato nuk e shpëtojnë gjithmonë situatën. Merrni, për shembull, rastin e profilit të lartë që përfshin një qendër të dhënash të përdorur nga British Airways, në pronësi të kompanisë së saj mëmë, International Airlines Group. Dy objekte të tilla, Boadicea House dhe Comet House, ndodhen pranë Aeroportit Heathrow. Në Boadicea House, ndodhi një ndërprerje aksidentale e energjisë më 27 maj 2017, e cila çoi në mbingarkesë dhe dështim të sistemit UPS. Si rezultat, disa pajisje IT u dëmtuan fizikisht dhe u deshën tre ditë për të zgjidhur incidentin.

Kompania ajrore u detyrua të anulonte ose të ricaktonte mbi një mijë fluturime, dhe afërsisht 75 pasagjerë nuk mundën të niseshin në kohë. Pagesat e kompensimit kushtuan 128 milionë dollarë, pa përfshirë koston e rivendosjes së qendrave të të dhënave. Shkaku i ndërprerjes së energjisë është i paqartë. Sipas rezultateve të një hetimi të brendshëm të shpallur nga Drejtori Ekzekutiv i Grupit Ndërkombëtar të Linjave Ajrore, Willie Walsh, kjo u shkaktua nga një gabim inxhinierik. Megjithatë, sistemi i furnizimit me energji të pandërprerë ishte projektuar për t'i bërë ballë një ndërprerjeje të tillë - për këtë ishte projektuar. Qendra e të dhënave menaxhohej nga specialistë të kompanisë së jashtme CBRE Managed Services, kështu që British Airways u përpoq të merrte dëmshpërblim përmes gjykatave të Londrës.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ndërprerjet e energjisë elektrike ndjekin modele të ngjashme: së pari, ka një ndërprerje për shkak të furnizuesit të energjisë, ndonjëherë për shkak të motit të keq ose problemeve të brendshme (përfshirë gabimin njerëzor), pastaj sistemi i furnizimit me energji të pandërprerë (UPS) nuk arrin të përballojë ngarkesën, ose një ndërprerje e shkurtër në furnizimin me energji shkakton ndërprerje të shumta të shërbimit, duke kërkuar një sasi të madhe kohe dhe parash për t'u rikthyer. A mund të shmangen ndërprerje të tilla? Absolutisht. Me një dizajn të duhur të sistemit, edhe qendrat e mëdha të të dhënave nuk janë imune ndaj gabimeve.

Faktori njerëzor

Kur shkaku i menjëhershëm i një incidenti janë veprime të papërshtatshme nga personeli i qendrës së të dhënave, problemet më shpesh (por jo gjithmonë) ndikojnë në pjesën e softuerit të infrastrukturës së IT-së. Incidente të tilla ndodhin edhe në korporata të mëdha. Në shkurt 2017, një anëtar i ekipit të operacioneve teknike në njërën nga qendrat e të dhënave çaktivizoi disa serverë të Amazon Web Services. Gabimi ndodhi gjatë debugging-ut të procesit të faturimit për klientët e Amazon Simple Storage Service (S3). Punonjësi u përpoq të fshinte disa serverë virtualë të përdorur nga sistemi i faturimit, por në vend të kësaj preku një grumbull më të madh.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Gabimi i një inxhinieri rezultoi në fshirjen e serverëve që përdornin module kritike të ruajtjes në cloud të Amazon. Nënsistemi i indeksimit, i cili përmban informacione rreth meta të dhënave dhe vendndodhjes së të gjitha objekteve S3 në rajonin US-EAST-1, u prek kryesisht. Incidenti ndikoi gjithashtu në nënsistemin e përdorur për të pritur të dhënat dhe për të menaxhuar hapësirën e disponueshme të ruajtjes. Pasi makinat virtuale u fshinë, këto dy nënsisteme kërkuan një rinisje të plotë dhe inxhinierët e Amazon u pritën nga një surprizë: ruajtja publike në cloud nuk ishte në gjendje t'u shërbente kërkesave të klientëve për një periudhë të zgjatur.

Ndikimi ishte i përhapur, pasi shumë burime të mëdha përdorin Amazon S3. Ndërprerjet prekën Trello, Coursera, IFTTT dhe, më alarmuese, shërbimet e partnerëve kryesorë të Amazon të listuar në S&P 500. Dëmi në raste të tilla është i vështirë për t'u llogaritur, por ishte në qindra miliona dollarë amerikanë. Siç mund ta shihni, mjafton vetëm një komandë e gabuar për të çaktivizuar shërbimin e platformës më të madhe cloud. Ky nuk është një incident i izoluar; më 16 maj 2019, gjatë mirëmbajtjes, shërbimi Yandex.Cloud u ndalua. fshihet Makinat virtuale të përdoruesve në zonën ru-central1-c që kishin të paktën një status të pezulluar. Të dhënat e klientëve ishin prekur tashmë, disa prej të cilave ishin humbur në mënyrë të pakthyeshme. Sigurisht, njerëzit janë të papërsosur, por sistemet moderne të sigurisë së informacionit kanë qenë prej kohësh në gjendje të monitorojnë veprimet e përdoruesve të privilegjuar përpara se të ekzekutohen komandat e tyre. Nëse Yandex ose Amazon zbatojnë zgjidhje të tilla, incidente të ngjashme mund të shmangen.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ftohje e ngrirë

Në janar të vitit 2017, një aksident i madh ndodhi në qendrën e të dhënave të Megafon në Dmitrov. Temperaturat në rajonin e Moskës ranë në -35°C, duke shkaktuar dështimin e sistemit të ftohjes së objektit. Shërbimi për shtyp i operatorit nuk foli për shkakun e incidentit - kompanitë ruse ngurrojnë jashtëzakonisht të flasin për aksidentet në objektet e tyre, dhe ne jemi shumë prapa Perëndimit për sa i përket publicitetit. Një thashethem qarkulloi në mediat sociale në lidhje me ngrirjen e ftohësit në tubat e rrugës dhe një rrjedhje të etilen glikoli. Sipas kësaj teorie, ekipi i mirëmbajtjes nuk ishte në gjendje të siguronte shpejt 30 ton ftohës për shkak të pushimeve të zgjatura dhe iu drejtua ftohjes së improvizuar falas, duke shkelur procedurat e funksionimit të sistemit. I ftohti i fortë e përkeqësoi problemin - dimri mbërriti papritur në janar në Rusi, edhe pse askush nuk e priste. Si rezultat, stafit iu desh të shkëpuste energjinë elektrike në disa rafte serverash, që do të thoshte se disa nga shërbimet e operatorit nuk ishin të disponueshme për dy ditë.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ndoshta kjo mund t'i atribuohet një anomalie të motit, por një mot kaq i ftohtë nuk është i pazakontë për rajonin e Moskës. Temperaturat e dimrit në rajonin e Moskës mund të bien edhe më poshtë, kështu që qendrat e të dhënave janë ndërtuar për të funksionuar në mënyrë të besueshme në -42°C. Sistemet e ftohjes më shpesh dështojnë në temperatura të ngrirjes për shkak të përqendrimeve të pamjaftueshme të glikoli dhe ujit të tepërt në tretësirën e ftohësit. Ka gjithashtu probleme me instalimin e tubave ose gabimet në projektim dhe testim, kryesisht për shkak të masave për uljen e kostove. Si rezultat, një aksident serioz, i cili mund të ishte parandaluar lehtësisht, ndodh papritur.

Fatkeqësi natyrore

Më shpesh, stuhitë dhe/ose uraganet prishin infrastrukturën e qendrave të të dhënave, duke çuar në ndërprerje të shërbimit dhe/ose dëmtime fizike të pajisjeve. Incidentet që lidhen me motin janë mjaft të zakonshme. Në vitin 2012, Uragani Sandy përfshiu Bregun Perëndimor të Shteteve të Bashkuara, duke sjellë reshje të mëdha shiu. Qendra e të dhënave Peer 1, e vendosur në një ndërtesë të lartë në Lower Manhattan, furnizimi me energji i jashtëm i humbur, pasi uji i kripur përmbyti bodrumet. Gjeneratorët e emergjencës së objektit ishin të vendosur në katin e 18-të dhe furnizimi i tyre me karburant ishte i kufizuar - rregulloret e futura në Nju Jork pas sulmeve të 11 shtatorit ndalojnë ruajtjen e sasive të mëdha të karburantit në katet e sipërme.

Pompa e karburantit gjithashtu dështoi, kështu që stafi kaloi disa ditë duke transportuar manualisht karburantin dizel për gjeneratorët. Heroizmi i ekipit e shpëtoi qendrën e të dhënave nga një aksident i rëndë, por a ishte vërtet i nevojshëm? Ne jetojmë në një planet me një atmosferë azot-oksigjen dhe një sasi të madhe uji. Stuhitë dhe uraganet janë të zakonshme këtu (sidomos në zonat bregdetare). Projektuesit ndoshta duhet të kishin marrë në konsideratë rreziqet që lidhen me to dhe të kishin ndërtuar një sistem të përshtatshëm furnizimi me energji të pandërprerë. Ose të paktën të kishin zgjedhur një vendndodhje më të përshtatshme për qendrën e të dhënave sesa një ndërtesë e lartë në një ishull.

Çdo gjĂ« tjetĂ«r

Instituti Uptime identifikon një larmi të gjerë incidentesh në këtë kategori, duke e bërë të vështirë zgjedhjen e një incidenti tipik. Vjedhjet e kabllove të bakrit, përplasjet e automjeteve në qendrat e të dhënave, kullat e transmetimit të energjisë dhe nënstacionet e transformatorëve, zjarret, ekskavatorët që dëmtojnë optikën, brejtësit (minjtë, lepujt dhe madje edhe wombatët, të cilët në fakt janë marsupialë) dhe njerëzit që u pëlqen të praktikojnë të shtënat në tela - menyja është e gjerë. Edhe ndërprerjet e energjisë mund të shkaktojnë vjedhje Një plantacion i paligjshëm i marijuanës po humbet energjinë elektrike. Në shumicën e rasteve, individë të caktuar janë fajtorët pas incidentit, që do të thotë se përsëri kemi të bëjmë me faktorin njerëzor, ku problemi ka një emër. Edhe nëse në shikim të parë, një aksident duket se është për shkak të një mosfunksionimi teknik ose një fatkeqësie natyrore, ai mund të shmanget me projektimin e duhur të objektit dhe funksionimin e duhur. Përjashtimet e vetme janë rastet e dëmtimit kritik të infrastrukturës së qendrës së të dhënave ose shkatërrimi i ndërtesave dhe strukturave për shkak të një fatkeqësie natyrore. Këto janë rrethana vërtet të forcës madhore, ndërsa të gjitha problemet e tjera shkaktohen nga instalimet elektrike midis kompjuterit dhe karriges - ndoshta pjesa më e pabesueshme e çdo sistemi kompleks.

Burimi: www.habr.com

Bleni njĂ« host tĂ« besueshĂ«m pĂ«r faqet me mbrojtje DDoS, serverĂ« VPS VDS đŸ”„ Bleni hosting tĂ« besueshĂ«m tĂ« faqeve tĂ« internetit me mbrojtje DDoS, servera VPS VDS | ProHoster