Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

Mae pwnc damweiniau mawr mewn canolfannau data modern yn codi cwestiynau na chawsant eu hateb yn yr erthygl gyntaf - penderfynasom ei ddatblygu.

Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

Yn ôl ystadegau gan y Uptime Institute, mae mwyafrif y digwyddiadau mewn canolfannau data yn gysylltiedig â methiannau yn y system cyflenwad pŵer - maent yn cyfrif am 39% o ddigwyddiadau. Fe'u dilynir gan y ffactor dynol, sy'n cyfrif am 24% arall o ddamweiniau. Y trydydd rheswm pwysicaf (15%) oedd methiant y system aerdymheru, ac yn y pedwerydd safle (12%) roedd yn drychinebau naturiol. Dim ond 10% yw cyfanswm y gyfran o drafferthion eraill. Heb gwestiynu data sefydliad uchel ei barch, byddwn yn tynnu sylw at rywbeth cyffredin mewn gwahanol ddamweiniau ac yn ceisio deall a ellid bod wedi eu hosgoi. Spoiler: mae'n bosibl yn y rhan fwyaf o achosion.

Gwyddor Cysylltiadau

I'w roi yn syml, dim ond dwy broblem sydd gyda chyflenwad pŵer: naill ai nid oes unrhyw gyswllt lle y dylai fod, neu mae cyswllt lle na ddylai fod cyswllt. Gallwch siarad am amser hir am ddibynadwyedd systemau cyflenwad pŵer di-dor modern, ond nid ydynt bob amser yn eich arbed. Cymerwch achos proffil uchel y ganolfan ddata a ddefnyddir gan British Airways, sy'n eiddo i'r rhiant-gwmni International Airlines Group. Mae dau eiddo o'r fath wedi'u lleoli ger Maes Awyr Heathrow - Boadicea House a Comet House. Yn y cyntaf o'r rhain, ar 27 Mai, 2017, digwyddodd toriad pŵer damweiniol, a arweiniodd at orlwytho a methiant y system UPS. O ganlyniad, cafodd rhai o'r offer TG eu difrodi'n ffisegol, a chymerodd y trychineb diweddaraf dridiau i'w datrys.

Bu'n rhaid i'r cwmni hedfan ganslo neu aildrefnu mwy na mil o hediadau, nid oedd tua 75 mil o deithwyr yn gallu hedfan ar amser - gwariwyd $ 128 miliwn ar dalu iawndal, heb gyfrif y costau angenrheidiol i adfer ymarferoldeb canolfannau data. Mae hanes y rhesymau dros y blacowt yn aneglur. Os ydych chi'n credu canlyniadau'r ymchwiliad mewnol a gyhoeddwyd gan Brif Swyddog Gweithredol Grŵp International Airlines Willie Walsh, camgymeriad gan beirianwyr oedd yn gyfrifol am hynny. Fodd bynnag, roedd yn rhaid i'r system cyflenwad pŵer di-dor wrthsefyll cau o'r fath - dyna pam y cafodd ei gosod. Rheolwyd y ganolfan ddata gan arbenigwyr o'r cwmni allanol CBRE Managed Services, felly ceisiodd British Airways adennill maint y difrod trwy lys yn Llundain.

Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

Mae toriadau pŵer yn digwydd mewn senarios tebyg: yn gyntaf mae blacowt oherwydd bai'r cyflenwr trydan, weithiau oherwydd tywydd gwael neu broblemau mewnol (gan gynnwys gwallau dynol), ac yna ni all y system cyflenwad pŵer di-dor ymdopi â'r llwyth neu fyr. - mae ymyrraeth tymor hir y don sin yn achosi methiannau llawer o wasanaethau, gan achosi adferiad sy'n cymryd llawer o amser ac arian. A yw'n bosibl osgoi damweiniau o'r fath? Yn ddiamau. Os ydych chi'n dylunio'r system yn gywir, nid yw hyd yn oed crewyr canolfannau data mawr yn imiwn rhag camgymeriadau.

Ffactor dynol

Pan mai gweithredoedd anghywir personél canolfan ddata yw achos uniongyrchol digwyddiad, mae'r problemau amlaf (ond nid bob amser) yn effeithio ar ran meddalwedd y seilwaith TG. Mae damweiniau o'r fath yn digwydd hyd yn oed mewn corfforaethau mawr. Ym mis Chwefror 2017, oherwydd aelod tîm a recriwtiwyd yn anghywir o grŵp gweithredu technegol un o'r canolfannau data, analluogwyd rhan o weinyddion Amazon Web Services. Digwyddodd gwall wrth ddadfygio'r broses filio ar gyfer cwsmeriaid storio cwmwl Amazon Simple Storage Service (S3). Ceisiodd gweithiwr ddileu nifer o weinyddion rhithwir a ddefnyddir gan y system filio, ond tarodd clwstwr mwy.

Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

O ganlyniad i gamgymeriad peiriannydd, cafodd gweinyddwyr sy'n rhedeg modiwlau meddalwedd storio cwmwl Amazon pwysig eu dileu. Y cyntaf yr effeithiwyd arno oedd yr is-system fynegeio, sy'n cynnwys gwybodaeth am fetadata a lleoliad yr holl wrthrychau S3 yn rhanbarth US-EAST-1 America. Effeithiodd y digwyddiad hefyd ar yr is-system a ddefnyddiwyd i gynnal data a rheoli'r gofod sydd ar gael i'w storio. Ar ôl dileu'r peiriannau rhithwir, roedd angen ailgychwyn llwyr ar y ddwy is-system hyn, ac yna roedd peirianwyr Amazon i mewn am syndod - am amser hir, nid oedd y storfa cwmwl cyhoeddus yn gallu gwasanaethu ceisiadau cwsmeriaid.

Roedd yr effaith yn eang, gan fod llawer o adnoddau mawr yn defnyddio Amazon S3. Effeithiodd y toriadau ar Trello, Coursera, IFTTT ac, yn fwyaf annymunol, ar wasanaethau prif bartneriaid Amazon o'r rhestr S&P 500. Mae'r difrod mewn achosion o'r fath yn anodd ei gyfrifo, ond roedd tua channoedd o filiynau o ddoleri'r UD. Fel y gallwch weld, mae un gorchymyn anghywir yn ddigon i analluogi gwasanaeth y platfform cwmwl mwyaf. Nid yw hwn yn achos ynysig; ar Fai 16, 2019, yn ystod gwaith cynnal a chadw, gwasanaeth Yandex.Cloud dileu peiriannau rhithwir defnyddwyr yn y parth ru-central1-c a oedd yn y statws ATAL o leiaf unwaith. Mae data cleientiaid eisoes wedi'i ddifrodi yma, a chafodd rhywfaint ohono ei golli'n anadferadwy. Wrth gwrs, mae pobl yn amherffaith, ond mae systemau diogelwch gwybodaeth modern wedi gallu monitro gweithredoedd defnyddwyr breintiedig ers amser maith cyn gweithredu'r gorchmynion a roddwyd iddynt. Os gweithredir atebion o'r fath yn Yandex neu Amazon, gellir osgoi digwyddiadau o'r fath.

Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

Oeri wedi'i rewi

Ym mis Ionawr 2017, digwyddodd damwain fawr yng nghanolfan ddata Dmitrov y cwmni Megafon. Yna gostyngodd y tymheredd yn rhanbarth Moscow i -35 ° C, a arweiniodd at fethiant system oeri y cyfleuster. Ni siaradodd gwasanaeth y wasg y gweithredwr yn arbennig am y rhesymau dros y digwyddiad - mae cwmnïau o Rwsia yn gyndyn iawn i siarad am ddamweiniau yn y cyfleusterau y maent yn berchen arnynt; o ran cyhoeddusrwydd, rydym ymhell y tu ôl i'r Gorllewin. Roedd fersiwn yn cylchredeg ar rwydweithiau cymdeithasol am rewi oerydd mewn pibellau a osodwyd ar hyd y stryd a gollyngiadau ethylene glycol. Yn ôl iddi, nid oedd y gwasanaeth llawdriniaeth yn gallu cael 30 tunnell o oerydd yn gyflym oherwydd gwyliau hir a mynd allan gan ddefnyddio dulliau byrfyfyr, gan drefnu oeri rhad ac am ddim byrfyfyr yn groes i'r rheolau ar gyfer gweithredu'r system. Gwaethygodd oerfel difrifol y broblem - ym mis Ionawr, fe darodd y gaeaf Rwsia yn sydyn, er nad oedd neb yn ei ddisgwyl. O ganlyniad, bu'n rhaid i'r staff ddiffodd pŵer i ran o raciau'r gweinydd, a dyna pam nad oedd rhai gwasanaethau gweithredwr ar gael am ddau ddiwrnod.

Prif achos damweiniau mewn canolfannau data yw'r gasged rhwng y cyfrifiadur a'r gadair

Yn ôl pob tebyg, gallwn siarad am anghysondeb tywydd yma, ond nid yw rhew o'r fath yn rhywbeth anarferol i'r brifddinas. Gall tymheredd y gaeaf yn rhanbarth Moscow ostwng i lefelau is, felly mae canolfannau data yn cael eu hadeiladu gyda'r disgwyliad o weithrediad sefydlog ar -42 ° C. Yn fwyaf aml, mae systemau oeri yn methu mewn tywydd oer oherwydd crynodiad annigonol o glycolau a gormod o ddŵr yn yr hydoddiant oerydd. Mae yna hefyd broblemau gyda gosod pibellau neu gyda chamgyfrifiadau wrth ddylunio a phrofi'r system, sy'n gysylltiedig yn bennaf â'r awydd i arbed arian. O ganlyniad, mae damwain ddifrifol yn digwydd allan o'r glas, y gellid bod wedi'i hatal.

Trychinebau naturiol

Yn fwyaf aml, mae stormydd mellt a/neu gorwyntoedd yn amharu ar seilwaith peirianyddol canolfan ddata, gan arwain at ymyriadau gwasanaeth a/neu ddifrod ffisegol i offer. Mae digwyddiadau a achosir gan dywydd gwael yn digwydd yn eithaf aml. Yn 2012, ysgubodd Corwynt Sandy ar draws Arfordir Gorllewinol yr Unol Daleithiau gyda glaw trwm. Wedi'i leoli mewn adeilad uchel yn Manhattan Isaf, canolfan ddata Peer 1 colli cyflenwad pŵer allanol, ar ôl i ddŵr môr hallt orlifo'r isloriau. Roedd generaduron brys y cyfleuster wedi'u lleoli ar y 18fed llawr, ac roedd eu cyflenwad tanwydd yn gyfyngedig - mae rheolau a gyflwynwyd yn Efrog Newydd ar ôl ymosodiadau terfysgol 9/11 yn gwahardd storio llawer iawn o danwydd ar y lloriau uchaf.

Methodd y pwmp tanwydd hefyd, felly treuliodd y staff sawl diwrnod yn cludo disel i'r generaduron â llaw. Arbedodd arwriaeth y tîm y ganolfan ddata rhag damwain ddifrifol, ond a oedd yn wirioneddol angenrheidiol? Rydyn ni'n byw ar blaned sydd ag awyrgylch nitrogen-ocsigen a llawer o ddŵr. Mae stormydd a tharanau a chorwyntoedd yn gyffredin yma (yn enwedig mewn ardaloedd arfordirol). Mae'n debyg y byddai dylunwyr yn gwneud yn dda i ystyried y risgiau dan sylw ac adeiladu system cyflenwad pŵer di-dor priodol. Neu o leiaf dewiswch leoliad mwy addas ar gyfer y ganolfan ddata na safle uchel ar ynys.

Popeth arall

Mae Uptime Institute yn nodi amrywiaeth o ddigwyddiadau yn y categori hwn, ac ymhlith y rhain mae'n anodd dewis un nodweddiadol. Dwyn ceblau copr, ceir yn cwympo i mewn i ganolfannau data, cynhalwyr llinellau pŵer ac is-orsafoedd trawsnewid, tanau, gweithredwyr cloddio yn niweidio opteg, llygod (llygod mawr, cwningod a hyd yn oed wombats, sydd mewn gwirionedd yn marsupials), yn ogystal â'r rhai sy'n hoffi ymarfer saethu yn gwifrau - mae'r fwydlen yn helaeth . Gall methiannau pŵer hyd yn oed achosi dwyn planhigfa marijuana anghyfreithlon trydan. Yn y rhan fwyaf o achosion, mae pobl benodol yn dod yn dramgwyddwyr y digwyddiad, h.y. rydym eto’n delio â’r ffactor dynol, pan fydd gan y broblem enw a chyfenw. Hyd yn oed os yw'r ddamwain ar yr olwg gyntaf yn gysylltiedig â chamweithio technegol neu drychinebau naturiol, gellir ei osgoi ar yr amod bod y cyfleuster wedi'i ddylunio a'i weithredu'n gywir. Yr unig eithriadau yw achosion o ddifrod difrifol i seilwaith y ganolfan ddata neu ddinistrio adeiladau a strwythurau oherwydd trychineb naturiol. Mae'r rhain yn wirioneddol amgylchiadau force majeure, ac mae'r holl broblemau eraill yn cael eu hachosi gan y gasged rhwng y cyfrifiadur a'r gadair - efallai mai dyma'r rhan fwyaf annibynadwy o unrhyw system gymhleth.

Ffynhonnell: hab.com

Ychwanegu sylw