De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

It ûnderwerp fan grutte ûngemakken yn moderne datasintra ropt fragen op dy't net yn it earste artikel waarden beantwurde - wy besletten it te ûntwikkeljen.

De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

Neffens statistiken fan it Uptime Institute is de mearderheid fan ynsidinten yn datasintra relatearre oan flaters fan stroomfoarsjenningssysteem - se binne goed foar 39% fan ynsidinten. Se wurde folge troch de minsklike faktor, dy't goed is foar nochris 24% fan 'e ûngemakken. De tredde wichtichste reden (15%) wie mislearjen fan it airconditioningsysteem, en op it fjirde plak (12%) wiene natuerrampen. It totale oandiel fan oare problemen is mar 10%. Sûnder de gegevens fan in respekteare organisaasje te freegjen, sille wy wat gewoan markearje yn ferskate ûngemakken en besykje te begripen oft se kinne wurde foarkommen. Spoiler: it is mooglik yn de measte gefallen.

De wittenskip fan kontakten

Om it gewoan te sizzen, binne d'r mar twa problemen mei stroomfoarsjenning: of der is gjin kontakt wêr't it moat wêze, of der is kontakt wêr't gjin kontakt wêze moat. Jo kinne in lange tiid prate oer de betrouberens fan moderne uninterruptible power supply systemen, mar se bewarje jo net altyd. Nim de hege-profyl gefal fan it datasintrum brûkt troch British Airways, dat is eigendom fan memmebedriuw International Airlines Group. D'r binne twa sokke eigenskippen yn 'e buert fan Heathrow Airport - Boadicea House en Comet House. Yn 'e earste fan dizze, op maaie 27, 2017, barde in tafallige stroomûnderbrekking, wat late ta in overload en mislearjen fan it UPS-systeem. As gefolch waard guon fan 'e IT-apparatuer fysyk skansearre, en de lêste ramp naam trije dagen om op te lossen.

De loftline moast mear as tûzen flechten annulearje of opnij planne, sawat 75 tûzen passazjiers koene net op 'e tiid fleane - $ 128 miljoen waard bestege oan it beteljen fan kompensaasje, sûnder de kosten te rekkenjen dy't nedich binne om de funksjonaliteit fan datasintra te herstellen. De skiednis fan 'e redenen foar de blackout is ûndúdlik. As jo ​​leauwe dat de resultaten fan it ynterne ûndersyk oankundige troch International Airlines Group CEO Willie Walsh, it wie te tankjen oan in flater troch yngenieurs. Lykwols, it uninterruptible Netzteil systeem moast wjerstean sa'n shutdown - dat is wêrom it waard ynstallearre. It datasintrum waard beheard troch spesjalisten fan it útbestegingsbedriuw CBRE Managed Services, sadat British Airways besocht it bedrach fan skea troch in Londenske rjochtbank werom te heljen.

De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

Stromstorings komme yn ferlykbere senario's foar: earst komt der in blackout troch de skuld fan de elektrisiteitsleveransier, soms troch min waar of ynterne problemen (ynklusyf minsklike flaters), en dan kin it net ûnderbrekke stroomfoarsjenning de lading of in koarte -term ûnderbrekking fan de sine wave feroarsaket mislearrings fan in protte tsjinsten, wêrtroch restauraasje fan dat nimt in soad tiid en jild. Is it mooglik om sokke ûngelokken te foarkommen? Sûnder mis. As jo ​​it systeem goed ûntwerpe, binne sels de makkers fan grutte datasintra net ymmún foar flaters.

Minsklike faktor

As de direkte oarsaak fan in ynsidint de ferkearde aksjes fan datacenterpersoniel is, hawwe de problemen meast (mar net altyd) ynfloed op it softwarediel fan 'e IT-ynfrastruktuer. Sokke ûngelokken komme sels yn grutte bedriuwen foar. Yn febrewaris 2017, troch in ferkeard rekrutearre teamlid fan 'e technyske operaasjegroep fan ien fan' e datasintra, waard in diel fan 'e Amazon Web Services-tsjinners útskeakele. Der barde in flater by it debuggen fan it fakturearringproses foar Amazon Simple Storage Service (S3) wolkopslachklanten. In meiwurker besocht te wiskjen in oantal firtuele tsjinners brûkt troch it billing systeem, mar rekke in grutter kluster.

De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

As gefolch fan in yngenieurflater, waarden servers dy't wichtige Amazon-wolkopslachsoftwaremodules draaie wiske. De earste beynfloede wie it yndeksearjende subsysteem, dat ynformaasje befettet oer de metadata en lokaasje fan alle S3-objekten yn 'e Amerikaanske regio US-EAST-1. It ynsidint hat ek ynfloed op it subsysteem dat brûkt waard om gegevens te hostjen en de romte beskikber foar opslach te behearjen. Nei it wiskjen fan 'e firtuele masines easke dizze twa subsystemen in folsleine opnij starte, en doe wiene Amazon-yngenieurs in ferrassing - foar in lange tiid wie de iepenbiere wolkopslach net yn steat om oanfragen fan klanten te tsjinjen.

De ynfloed wie wiidferspraat, om't in protte grutte boarnen Amazon S3 brûke. De útbrekken beynfloede Trello, Coursera, IFTTT en, meast ûnnoflik, de tsjinsten fan grutte Amazon-partners út 'e list fan S & P 500. De skea yn sokke gefallen is dreech te berekkenjen, mar it wie yn' e regio fan hûnderten miljoenen Amerikaanske dollars. Sa't jo sjen kinne, is ien ferkeard kommando genôch om de tsjinst fan it grutste wolkplatfoarm út te skeakeljen. Dit is gjin isolearre gefal; op 16 maaie 2019, tidens ûnderhâldswurk, de Yandex.Cloud-tsjinst wiske firtuele masines fan brûkers yn 'e ru-central1-c-sône dy't op syn minst ien kear yn' e SUSPENDED-status wiene. Klantgegevens binne hjir al skansearre, wêrfan guon ûnherstelber ferlern gien binne. Fansels binne minsken ûnfolslein, mar moderne ynformaasjebefeiligingssystemen binne al lang by steat om de aksjes fan befoarrjochte brûkers te kontrolearjen foardat se de kommando's útfiere dy't se ynfierd hawwe. As sokke oplossingen wurde ymplementearre yn Yandex of Amazon, kinne sokke ynsidinten foarkommen wurde.

De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

Frozen koeling

Yn jannewaris 2017 barde in grut ûngelok yn it Dmitrov datacenter fan it bedriuw Megafon. Doe sakke de temperatuer yn 'e Moskouske regio nei -35 °C, wat late ta it mislearjen fan it koelsysteem fan' e foarsjenning. De parsetsjinst fan 'e operator spruts net spesjaal oer de redenen foar it ynsidint - Russyske bedriuwen binne ekstreem weromhâldend om te praten oer ûngemakken yn' e foarsjenningen dy't se besitte; yn termen fan publisiteit bliuwe wy fier efter it Westen. D'r sirkulearre in ferzje op sosjale netwurken oer it befriezen fan koelmiddel yn liedingen lein lâns de strjitte en lekkage fan ethylene glycol. Neffens har, de operaasje tsjinst koe net fluch krije 30 ton fan coolant fanwege lange fakânsjes en kaam út mei ymprovisearre middels, it organisearjen fan ymprovisearre frije koeling yn striid mei de regels foar it bestjoeren fan it systeem. Swiere kjeld fergrutte it probleem - yn jannewaris rekke de winter ynienen Ruslân, hoewol gjinien it ferwachte. As gefolch, it personiel moast útsette macht oan in part fan de server rekken, dat is wêrom guon operator tsjinsten wiene net beskikber foar twa dagen.

De wichtichste oarsaak fan ûngelokken yn datasintra is de pakking tusken de kompjûter en de stoel

Wierskynlik kinne wy ​​hjir oer in waaroanomaly prate, mar sokke froast is net ûngewoan foar de haadstêd. Temperatueren yn 'e winter yn' e Moskou-regio kinne nei legere nivo's sakje, sadat datasintra wurde boud mei de ferwachting fan stabile operaasje by -42 ° C. Meastentiids mislearje koelsystemen yn kâld waar troch in net genôch hege konsintraasje fan glycols en oerstallich wetter yn 'e koelmiddeloplossing. Der binne ek problemen mei de ynstallaasje fan pipen of mei miscalculations yn it ûntwerp en testen fan it systeem, benammen ferbûn mei de winsk om jild te besparjen. Dêrtroch ûntstiet út de loft in slim ûngelok, dat foarkaam wurde koe.

Natuerrampen

Meastentiids fersteure tongerbuien en/of orkanen de technyske ynfrastruktuer fan in datasintrum, wat liedt ta tsjinstûnderbrekkings en/of fysike skea oan apparatuer. Ynsidinten troch min waar komme frij faak foar. Yn 2012 sloech de orkaan Sandy oer de westkust fan 'e Feriene Steaten mei swiere delslach. Lizzend yn in heechbougebou yn Lower Manhattan, it Peer 1 datasintrum ferlern eksterne Netzteil, neidat sâlt seewetter de kelders oerstreamde. De needgenerators fan 'e foarsjenning wiene op' e 18e ferdjipping, en har brânstoffoarsjenning wie beheind - regels yntrodusearre yn New York nei de terroristyske oanfallen fan 9/11 ferbiede it bewarjen fan grutte hoemannichten brânstof op 'e boppeste ferdjippings.

Ek de brânstofpomp foel út, sadat it personiel ferskate dagen diesel mei de hân nei de generators helle. It heroïsme fan it team rêde it datasintrum fan in slim ûngelok, mar wie it echt nedich? Wy libje op in planeet mei in stikstof-soerstof sfear en in protte wetter. Tongerbuien en orkanen binne hjir gewoan (benammen yn kustgebieten). Untwerpers soene it wierskynlik goed dwaan om de belutsen risiko's te beskôgjen en in passend uninterruptible stroomfoarsjenningssysteem te bouwen. Of kies op syn minst in geskiktere lokaasje foar it datasintrum as in heechbou op in eilân.

Al it oare

Uptime Institute identifisearret in ferskaat oan ynsidinten yn dizze kategory, wêrfan it lestich is om in typysk te kiezen. Diefstal fan koperen kabels, auto's dy't yn datasintra botse, stipe foar machtline en transformatorstasjons, brânen, graafmasine-operators dy't optyk beskeadigje, knaagdieren (ratten, kninen en sels wombats, dy't eins buideldieren binne), lykas dyjingen dy't graach oefenje mei sjitten op draden - it menu is wiidweidich. Stromfalen kinne sels feroarsaakje stellen elektrisiteit yllegale marijuana plantaazje. Yn 'e measte gefallen wurde spesifike minsken de skuldigen fan' e ynsidint, d.w.s. wy hawwe wer te krijen mei de minsklike faktor, as it probleem in namme en efternamme hat. Sels as it ûngelok op it earste each ferbûn is mei in technyske steuring of natuerrampen, kin it foarkommen wurde as de foarsjenning goed ûntwurpen en goed eksploitearre is. De ienige útsûnderingen binne gefallen fan krityske skea oan de ynfrastruktuer fan it datasintrum of ferneatiging fan gebouwen en struktueren troch in natuerramp. Dit binne wirklik oermacht omstannichheden, en alle oare problemen wurde feroarsake troch de pakking tusken de kompjûter en de stoel - miskien is dit it meast ûnbetroubere diel fan in kompleks systeem.

Boarne: www.habr.com

Add a comment