Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Tema e aksidenteve të mëdha në qendrat moderne të të dhënave ngre pyetje që nuk morën përgjigje në artikullin e parë - vendosëm ta zhvillojmë atë.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Sipas statistikave nga Instituti Uptime, shumica e incidenteve në qendrat e të dhënave lidhen me dështimet e sistemit të furnizimit me energji elektrike - ato përbëjnë 39% të incidenteve. Pas tyre vjen faktori njeri, i cili përbën edhe 24% të aksidenteve. Arsyeja e tretë më e rëndësishme (15%) ishte dështimi i sistemit të ajrit të kondicionuar dhe në vendin e katërt (12%) ishin fatkeqësitë natyrore. Pjesa totale e problemeve të tjera është vetëm 10%. Pa vënë në dyshim të dhënat e një organizate të respektuar, ne do të theksojmë diçka të zakonshme në aksidente të ndryshme dhe do të përpiqemi të kuptojmë nëse ato mund të ishin shmangur. Spoiler: është e mundur në shumicën e rasteve.

Shkenca e Kontakteve

Për ta thënë thjesht, ka vetëm dy probleme me furnizimin me energji elektrike: ose nuk ka kontakt aty ku duhet, ose ka kontakt aty ku nuk duhet të ketë kontakt. Ju mund të flisni për një kohë të gjatë për besueshmërinë e sistemeve moderne të furnizimit me energji të pandërprerë, por ato jo gjithmonë ju shpëtojnë. Merrni rastin e profilit të lartë të qendrës së të dhënave të përdorur nga British Airways, e cila është në pronësi të kompanisë mëmë International Airlines Group. Ka dy prona të tilla të vendosura pranë Aeroportit Heathrow - Shtëpia Boadicea dhe Shtëpia e Kometës. Në të parin, më 27 maj 2017, ka ndodhur një ndërprerje aksidentale e energjisë elektrike, e cila ka sjellë mbingarkesë dhe dështim të sistemit UPS. Si rezultat, disa nga pajisjet e TI-së u dëmtuan fizikisht dhe fatkeqësia e fundit mori tre ditë për t'u zgjidhur.

Linja ajrore duhej të anulonte ose të riplanifikonte më shumë se një mijë fluturime, rreth 75 mijë pasagjerë nuk ishin në gjendje të fluturonin në kohë - 128 milion dollarë u shpenzuan për pagesën e kompensimit, pa llogaritur kostot e kërkuara për të rivendosur funksionalitetin e qendrave të të dhënave. Historia e arsyeve të ndërprerjes së energjisë elektrike është e paqartë. Nëse besoni rezultatet e hetimit të brendshëm të shpallur nga CEO i Grupit Ndërkombëtar të Airlines, Willie Walsh, ishte për shkak të një gabimi të inxhinierëve. Sidoqoftë, sistemi i furnizimit me energji të pandërprerë duhej t'i rezistonte një mbylljeje të tillë - kjo është arsyeja pse u instalua. Qendra e të dhënave menaxhohej nga specialistë nga kompania e jashtme CBRE Managed Services, kështu që British Airways u përpoq të rikuperonte shumën e dëmit përmes një gjykate në Londër.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ndërprerjet e energjisë ndodhin në skenarë të ngjashëm: fillimisht ka një ndërprerje për shkak të fajit të furnizuesit të energjisë elektrike, ndonjëherë për shkak të motit të keq ose problemeve të brendshme (përfshirë gabimet njerëzore), dhe më pas sistemi i furnizimit me energji të pandërprerë nuk mund të përballojë ngarkesën ose një kohë të shkurtër. -Ndërprerja afatgjate e valës sinus shkakton dështime të shumë shërbimeve, duke shkaktuar rikthimin e të cilave kërkon shumë kohë dhe para. A është e mundur të shmangen aksidente të tilla? Pa dyshim. Nëse e dizajnoni sistemin në mënyrë korrekte, edhe krijuesit e qendrave të mëdha të të dhënave nuk janë të imunizuar nga gabimet.

Faktori njerëzor

Kur shkaku i menjëhershëm i një incidenti janë veprimet e pasakta të personelit të qendrës së të dhënave, problemet më shpesh (por jo gjithmonë) prekin pjesën softuerike të infrastrukturës së IT. Aksidente të tilla ndodhin edhe në korporata të mëdha. Në shkurt 2017, për shkak të një anëtari ekipi të rekrutuar gabimisht të grupit të operimit teknik të njërës prej qendrave të të dhënave, një pjesë e serverëve të Shërbimeve Ueb të Amazon u çaktivizua. Ndodhi një gabim gjatë korrigjimit të procesit të faturimit për klientët e shërbimit të ruajtjes së thjeshtë të Amazon (S3). Një punonjës u përpoq të fshinte një numër serverësh virtualë të përdorur nga sistemi i faturimit, por goditi një grup më të madh.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Si rezultat i një gabimi inxhinierik, serverët që drejtonin module të rëndësishme të softuerit të ruajtjes së cloud në Amazon u fshinë. I pari i prekur ishte nënsistemi i indeksimit, i cili përmban informacion në lidhje me meta të dhënat dhe vendndodhjen e të gjitha objekteve S3 në rajonin amerikan US-EAST-1. Incidenti preku gjithashtu nënsistemin e përdorur për të pritur të dhënat dhe për të menaxhuar hapësirën e disponueshme për ruajtje. Pas fshirjes së makinave virtuale, këto dy nënsisteme kërkuan një rinisje të plotë, dhe më pas inxhinierët e Amazon ishin në një surprizë - për një kohë të gjatë, ruajtja publike e cloud nuk ishte në gjendje të shërbente kërkesat e klientëve.

Ndikimi ishte i përhapur, pasi shumë burime të mëdha përdorin Amazon S3. Ndërprerjet prekën Trello, Coursera, IFTTT dhe, më e pakëndshme, shërbimet e partnerëve kryesorë të Amazon nga lista S&P 500. Dëmi në raste të tilla është i vështirë për t'u llogaritur, por ishte në rajonin e qindra miliona dollarëve amerikanë. Siç mund ta shihni, mjafton një komandë e gabuar për të çaktivizuar shërbimin e platformës më të madhe cloud. Ky nuk është një rast i izoluar; më 16 maj 2019, gjatë punës së mirëmbajtjes, shërbimi Yandex.Cloud fshihet makina virtuale të përdoruesve në zonën ru-central1-c që të paktën një herë ishin në statusin SUSPENDED. Të dhënat e klientit tashmë janë dëmtuar këtu, disa prej të cilave janë humbur në mënyrë të pakthyeshme. Sigurisht, njerëzit janë të papërsosur, por sistemet moderne të sigurisë së informacionit kanë qenë prej kohësh në gjendje të monitorojnë veprimet e përdoruesve të privilegjuar përpara se të ekzekutojnë komandat që ata kanë futur. Nëse zgjidhje të tilla zbatohen në Yandex ose Amazon, incidente të tilla mund të shmangen.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ftohje e ngrirë

Në janar 2017, një aksident i madh ndodhi në qendrën e të dhënave Dmitrov të kompanisë Megafon. Pastaj temperatura në rajonin e Moskës ra në -35 °C, gjë që çoi në dështimin e sistemit të ftohjes së objektit. Shërbimi për shtyp i operatorit nuk foli veçanërisht për arsyet e incidentit - kompanitë ruse janë jashtëzakonisht të gatshme të flasin për aksidente në objektet që zotërojnë; për sa i përket publicitetit, ne jemi shumë prapa Perëndimit. Në rrjetet sociale qarkullonte një version për ngrirjen e ftohësit në tubat e vendosur përgjatë rrugës dhe rrjedhjen e etilen glikolit. Sipas saj, shërbimi i operimit nuk ka mundur të marrë shpejt 30 tonë ftohës për shkak të pushimeve të gjata dhe ka dalë duke përdorur mjete të improvizuara, duke organizuar ftohje të lirë të improvizuar në kundërshtim me rregullat e funksionimit të sistemit. I ftohti i fortë e përkeqësoi problemin - në janar, dimri goditi papritur Rusinë, megjithëse askush nuk e priste. Si rezultat, stafit iu desh të fikte energjinë në një pjesë të rafteve të serverëve, kjo është arsyeja pse disa shërbime të operatorit ishin të padisponueshme për dy ditë.

Shkaku kryesor i aksidenteve në qendrat e të dhënave është guarnicioni midis kompjuterit dhe karriges

Ndoshta këtu mund të flasim për një anomali të motit, por ngrica të tilla nuk janë diçka e pazakontë për rajonin e kryeqytetit. Temperaturat në dimër në rajonin e Moskës mund të bien në nivele më të ulëta, kështu që qendrat e të dhënave ndërtohen me pritjen e funksionimit të qëndrueshëm në -42°C. Më shpesh, sistemet e ftohjes dështojnë në mot të ftohtë për shkak të një përqendrimi të pamjaftueshëm të lartë të glikoleve dhe ujit të tepërt në tretësirën e ftohësit. Probleme ka edhe me instalimin e tubave ose me llogaritjet e gabuara në projektimin dhe testimin e sistemit, të lidhura kryesisht me dëshirën për të kursyer para. Si pasojë, ndodh një aksident i rëndë, i cili mund të ishte parandaluar.

Fatkeqësitë natyrore

Më shpesh, stuhitë dhe/ose uraganet prishin infrastrukturën inxhinierike të një qendre të dhënash, duke çuar në ndërprerje të shërbimit dhe/ose dëmtim fizik të pajisjeve. Incidentet e shkaktuara nga moti i keq ndodhin mjaft shpesh. Në vitin 2012, Uragani Sandy përfshiu Bregun Perëndimor të Shteteve të Bashkuara me reshje të dendura shiu. E vendosur në një ndërtesë shumëkatëshe në Lower Manhattan, qendra e të dhënave Peer 1 humbja e furnizimit me energji të jashtme, pasi uji i kripur i detit përmbyti bodrumet. Gjeneratorët e emergjencës së objektit ishin vendosur në katin e 18-të dhe furnizimi i tyre me karburant ishte i kufizuar - rregullat e futura në Nju Jork pas sulmeve terroriste të 9 shtatorit ndalojnë ruajtjen e sasive të mëdha të karburantit në katet e sipërme.

Dështoi edhe pompa e karburantit, kështu që stafi kaloi disa ditë duke transportuar me dorë naftë deri te gjeneratorët. Heroizmi i ekipit e shpëtoi qendrën e të dhënave nga një aksident i rëndë, por a ishte vërtet i nevojshëm? Ne jetojmë në një planet me një atmosferë azoti-oksigjen dhe shumë ujë. Stuhitë dhe uraganet janë të zakonshme këtu (veçanërisht në zonat bregdetare). Projektuesit ndoshta do të bënin mirë të merrnin parasysh rreziqet e përfshira dhe të ndërtonin një sistem të përshtatshëm të furnizimit me energji të pandërprerë. Ose të paktën zgjidhni një vendndodhje më të përshtatshme për qendrën e të dhënave se sa një ndërtesë e lartë në një ishull.

Çdo gjë tjetër

Instituti Uptime identifikon një sërë incidentesh në këtë kategori, ndër të cilat është e vështirë të zgjidhet një tipik. Vjedhja e kabllove të bakrit, makinave që përplasen në qendrat e të dhënave, mbështetësve të linjave të energjisë elektrike dhe nënstacioneve të transformatorëve, zjarreve, operatorëve të ekskavatorëve që dëmtojnë optikën, brejtësit (minjtë, lepujt dhe madje edhe kërpudhat, të cilët janë në të vërtetë marsupialë), si dhe ata që duan të praktikojnë të shtënat në telat - menyja është e gjerë. Dështimet e energjisë madje mund të shkaktojnë duke vjedhur plantacion ilegale të marihuanës me energji elektrike. Në shumicën e rasteve fajtorë të incidentit bëhen persona të caktuar, pra kemi të bëjmë sërish me faktorin njerëzor, kur problemi ka emër dhe mbiemër. Edhe nëse në pamje të parë aksidenti shoqërohet me një mosfunksionim teknik ose fatkeqësi natyrore, ai mund të shmanget me kusht që objekti të jetë projektuar dhe funksionuar siç duhet. Përjashtimet e vetme janë rastet e dëmtimit kritik të infrastrukturës së qendrës së të dhënave ose shkatërrimit të ndërtesave dhe strukturave për shkak të një fatkeqësie natyrore. Këto janë vërtet rrethana të forcës madhore dhe të gjitha problemet e tjera shkaktohen nga copë litari midis kompjuterit dhe karriges - ndoshta kjo është pjesa më e pabesueshme e çdo sistemi kompleks.

Burimi: www.habr.com

Shto një koment