La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

La temo de gravaj akcidentoj en modernaj datumcentroj levas demandojn, kiuj ne estis responditaj en la unua artikolo - ni decidis disvolvi ĝin.

La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

Laŭ statistiko de la Uptime Institute, la plimulto de incidentoj en datumcentroj rilatas al fiaskoj de elektroprovizsistemo—ili okupas 39% de incidentoj. Sekvas ilin la homa faktoro, kiu respondecas pri pliaj 24% de akcidentoj. La tria plej grava kialo (15%) estis fiasko de la klimatizilo, kaj en kvara loko (12%) estis naturaj katastrofoj. La tuta parto de aliaj problemoj estas nur 10%. Sen pridubi la datumojn de respektata organizo, ni reliefigos ion komunan en malsamaj akcidentoj kaj provos kompreni ĉu ili povus esti evititaj. Spoiler: ĝi eblas en la plej multaj kazoj.

La Scienco de Kontaktoj

Por diri simple, estas nur du problemoj kun elektroprovizo: aŭ ne estas kontakto kie ĝi devus esti, aŭ ekzistas kontakto kie ne devus esti kontakto. Vi povas longe paroli pri la fidindeco de modernaj seninterrompaj elektroprovizoj, sed ili ne ĉiam savas vin. Prenu la altprofilan kazon de la datumcentro uzata de British Airways, kiu estas posedata de la gepatra kompanio International Airlines Group. Estas du tiaj posedaĵoj situantaj proksime de Heathrow Flughaveno - Boadicea House kaj Comet House. En la unua el tiuj, la 27-an de majo 2017, okazis hazarda elektropaneo, kiu kaŭzis troŝarĝon kaj fiaskon de la UPS-sistemo. Kiel rezulto, iuj el la IT-ekipaĵoj estis fizike difektitaj, kaj la plej nova katastrofo daŭris tri tagojn por solvi.

La flugkompanio devis nuligi aŭ replanigi pli ol mil flugojn, ĉirkaŭ 75 mil pasaĝeroj ne povis flugi ĝustatempe - 128 milionoj da dolaroj estis elspezitaj por pagado de kompenso, ne kalkulante la kostojn necesajn por restarigi la funkciojn de datumcentroj. La historio de la kialoj de la senkurentiĝo estas neklara. Se vi kredas la rezultojn de la interna enketo anoncita de la CEO de International Airlines Group Willie Walsh, tio estis pro eraro de inĝenieroj. Tamen, la seninterrompa elektroprovizo-sistemo devis elteni tian haltigon - tial ĝi estis instalita. La datumcentro estis administrita de specialistoj de la subkontrakta kompanio CBRE Managed Services, do British Airways provis reakiri la kvanton da damaĝo per Londona tribunalo.

La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

Elektropaneoj okazas en similaj scenaroj: unue estas senkurentiĝo pro la kulpo de la elektroprovizanto, foje pro malbona vetero aŭ internaj problemoj (inkluzive de homaj eraroj), kaj tiam la seninterrompa elektroprovizo ne povas elteni la ŝarĝon aŭ mallongan. -termina interrompo de la sinusondo kaŭzas malsukcesojn de multaj servoj, kaŭzante restarigo de kiuj postulas multan tempon kaj monon. Ĉu eblas eviti tiajn akcidentojn? Sendube. Se vi desegnas la sistemon ĝuste, eĉ la kreintoj de grandaj datumcentroj ne estas imunaj kontraŭ eraroj.

Homa faktoro

Kiam la tuja kaŭzo de okazaĵo estas la malĝustaj agoj de datencentropersonaro, la problemoj plej ofte (sed ne ĉiam) influas la programaran parton de la IT-infrastrukturo. Tiaj akcidentoj okazas eĉ en grandaj korporacioj. En februaro 2017, pro malĝuste rekrutita teamano de la teknika operacia grupo de unu el la datumcentroj, parto de la serviloj de Amazon Web Services estis malfunkciigita. Okazis eraro dum elpurigado de la faktura procezo por Amazon Simple Storage Service (S3) nuba stokado klientoj. Dungito provis forigi kelkajn virtualajn servilojn uzatajn de la faktura sistemo, sed trafis pli grandan areton.

La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

Rezulte de eraro de inĝeniero, serviloj prizorgante gravajn modulojn de Amazon-nuba stokado de programaro estis forigitaj. La unua tuŝita estis la indeksa subsistemo, kiu enhavas informojn pri la metadatenoj kaj loko de ĉiuj S3-objektoj en la usona regiono US-EAST-1. La okazaĵo ankaŭ influis la subsistemon uzitan por gastigi datumojn kaj administri la disponeblan spacon por stokado. Post forigo de la virtualaj maŝinoj, ĉi tiuj du subsistemoj postulis kompletan rekomencon, kaj tiam Amazon-inĝenieroj estis surprizitaj - dum longa tempo, la publika nuba stokado ne povis servi klientajn petojn.

La efiko estis disvastigita, ĉar multaj grandaj rimedoj uzas Amazon S3. La malfunkcioj tuŝis Trello, Coursera, IFTTT kaj, plej malagrable, la servojn de ĉefaj Amazon-partneroj de la listo S & P 500. La damaĝo en tiaj kazoj estas malfacile kalkulebla, sed ĝi estis en la regiono de centoj da milionoj da usonaj dolaroj. Kiel vi povas vidi, unu malĝusta komando sufiĉas por malŝalti la servon de la plej granda nuba platformo. Ĉi tio ne estas izolita kazo; la 16-an de majo 2019, dum prizorgado, la servo Yandex.Cloud forigita virtualaj maŝinoj de uzantoj en la ru-central1-c-zono kiuj estis en la SUSPENDITA statuso almenaŭ unufoje. Klientaj datumoj jam estis damaĝitaj ĉi tie, kelkaj el kiuj estis nerehaveble perditaj. Kompreneble, homoj estas neperfektaj, sed modernaj informsekurecaj sistemoj longe kapablas kontroli la agojn de privilegiitaj uzantoj antaŭ ol plenumi la komandojn, kiujn ili enigis. Se tiaj solvoj estas efektivigitaj en Yandex aŭ Amazon, tiaj okazaĵoj povas esti evititaj.

La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

Frosta malvarmigo

En januaro 2017, grava akcidento okazis en la datumcentro Dmitrov de la kompanio Megafon. Tiam la temperaturo en la Moskva regiono falis al −35 °C, kio kaŭzis malsukceson de la malvarmiga sistemo de la instalaĵo. La gazetara servo de la funkciigisto ne precipe parolis pri la kialoj de la okazaĵo - rusaj kompanioj estas ege malvolontaj paroli pri akcidentoj ĉe la instalaĵoj, kiujn ili posedas; laŭ publikeco, ni restas multe malantaŭ la Okcidento. Estis versio cirkulanta en sociaj retoj pri frostado de fridigaĵo en tuboj metitaj laŭ la strato kaj elfluado de etilenglikolo. Laŭ ŝi, la operacia servo ne povis rapide akiri 30 tunojn da fridigaĵo pro longaj ferioj kaj eliris uzante improvizitajn rimedojn, organizante improvizitan liberan malvarmigon malobservante la regulojn por funkciigado de la sistemo. Forta malvarmo plimalbonigis la problemon - en januaro, vintro subite trafis Rusion, kvankam neniu atendis ĝin. Kiel rezulto, la personaro devis malŝalti potencon al parto de la servilaj rakoj, tial iuj funkciigistaj servoj estis neatingeblaj dum du tagoj.

La ĉefa kaŭzo de akcidentoj en datumcentroj estas la gardo inter la komputilo kaj la seĝo

Verŝajne, ni povas paroli pri vetera anomalio ĉi tie, sed tiaj frostoj ne estas io nekutima por la ĉefurbo. Temperaturoj vintre en la Moskva regiono povas fali al pli malaltaj niveloj, do datumcentroj estas konstruitaj kun la atendo de stabila operacio je −42 °C. Plej ofte, malvarmigaj sistemoj malsukcesas en malvarma vetero pro nesufiĉe alta koncentriĝo de glikoloj kaj troa akvo en la malvarmiga solvo. Ankaŭ ekzistas problemoj kun la instalado de tuboj aŭ kun miskalkuloj en la dezajno kaj testado de la sistemo, ĉefe asociitaj kun la deziro ŝpari monon. Kiel rezulto, grava akcidento okazas ekstere, kiu povus esti malhelpita.

Naturaj katastrofoj

Plej ofte, fulmotondroj kaj/aŭ uraganoj interrompas la inĝenieristikinfrastrukturon de datencentro, kaŭzante servointerrompojn kaj/aŭ fizikan damaĝon al ekipaĵo. Okazaĵoj kaŭzitaj de malbona vetero okazas sufiĉe ofte. En 2012, Hurricane Sandy balais trans la Okcidenta marbordo de Usono kun forta pluvokvanto. Lokita en alta konstruaĵo en Malsupra Manhatano, la datumcentro Peer 1 perdita ekstera elektroprovizo, post kiam sala marakvo inundis la kelojn. La akutgeneratoroj de la instalaĵo situis sur la 18-a etaĝo, kaj ilia fuelprovizo estis limigita - reguloj lanĉitaj en New York post la 9/11 teroristaj atakoj malpermesas stoki grandajn kvantojn da fuelo sur la supraj etaĝoj.

La benzinpumpilo ankaŭ malsukcesis, tiel ke la kunlaborantaro pasigis plurajn tagojn transportante dizelon al la generatoroj permane. La heroeco de la teamo savis la datumcentron de grava akcidento, sed ĉu ĝi vere estis necesa? Ni loĝas sur planedo kun nitrogen-oksigena atmosfero kaj multe da akvo. Fulmotondroj kaj uraganoj estas oftaj ĉi tie (precipe en marbordaj regionoj). Dizajnistoj verŝajne farus bone pripensi la riskojn implikitajn kaj konstrui taŭgan seninterrompan elektroprovizosistemon. Aŭ almenaŭ elektu pli taŭgan lokon por la datumcentro ol altaĵo sur insulo.

Ĉio alia

Uptime Institute identigas diversajn okazaĵojn en ĉi tiu kategorio, inter kiuj estas malfacile elekti tipan. Ŝtelo de kupraj kabloj, aŭtoj frakasantaj en datumcentroj, elektroliniaj subtenoj kaj transformilsubstacioj, fajroj, elkavatorfunkciigistoj difektantaj optikon, ronĝuloj (ratoj, kunikloj kaj eĉ vombatoj, kiuj fakte estas marsupiuloj), same kiel tiuj, kiuj ŝatas praktiki pafadon ĉe. dratoj - la menuo estas ampleksa. Elektropaneoj eĉ povas kaŭzi ŝtelado elektro kontraŭleĝa mariĥuanplantejo. Plejofte, specifaj homoj fariĝas la kulpuloj de la okazaĵo, t.e. ni denove traktas la homan faktoron, kiam la problemo havas nomon kaj familian nomon. Eĉ se unuavide la akcidento estas rilata al teknika misfunkcio aŭ naturaj katastrofoj, ĝi povas esti evitita kondiĉe ke la instalaĵo estas konvene desegnita kaj funkciigita ĝuste. La solaj esceptoj estas kazoj de kritika damaĝo al la datumcentra infrastrukturo aŭ detruo de konstruaĵoj kaj strukturoj pro natura katastrofo. Ĉi tiuj estas vere fortaj cirkonstancoj, kaj ĉiuj aliaj problemoj estas kaŭzitaj de la gardo inter la komputilo kaj la seĝo - eble ĉi tio estas la plej nefidinda parto de iu kompleksa sistemo.

fonto: www.habr.com

Aldoni komenton