Het onderwerp zware ongelukken in moderne datacenters roept vragen op die in het eerste artikel niet zijn beantwoord - we hebben besloten het te ontwikkelen.
Volgens statistieken van het Uptime Institute houdt het merendeel van de incidenten in datacenters verband met storingen in het stroomvoorzieningssysteem; zij zijn verantwoordelijk voor 39% van de incidenten. Ze worden gevolgd door de menselijke factor, die verantwoordelijk is voor nog eens 24% van de ongevallen. De derde belangrijkste reden (15%) was het falen van het airconditioningsysteem, en op de vierde plaats (12%) waren natuurrampen. Het totale aandeel van andere problemen bedraagt slechts 10%. Zonder de gegevens van een gerespecteerde organisatie in twijfel te trekken, zullen we iets gebruikelijks bij verschillende ongevallen onder de aandacht brengen en proberen te begrijpen of deze voorkomen hadden kunnen worden. Spoiler: het is in de meeste gevallen mogelijk.
De wetenschap van contacten
Simpel gezegd zijn er slechts twee problemen met de stroomvoorziening: óf er is geen contact waar het zou moeten zijn, óf er is contact waar er geen contact zou moeten zijn. Je kunt lang praten over de betrouwbaarheid van moderne ononderbroken stroomvoorzieningssystemen, maar ze redden je niet altijd. Neem het spraakmakende geval van het datacenter van British Airways, dat eigendom is van moederbedrijf International Airlines Group. Er zijn twee van dergelijke accommodaties in de buurt van de luchthaven Heathrow: Boadicea House en Comet House. Bij de eerste hiervan vond op 27 mei 2017 een accidentele stroomstoring plaats, wat leidde tot overbelasting en uitval van het UPS-systeem. Als gevolg hiervan raakte een deel van de IT-apparatuur fysiek beschadigd en duurde het drie dagen om de laatste ramp op te lossen.
De luchtvaartmaatschappij moest meer dan duizend vluchten annuleren of herplannen, ongeveer 75 duizend passagiers konden niet op tijd vliegen - $ 128 miljoen werd uitgegeven aan het betalen van compensatie, nog afgezien van de kosten die nodig zijn om de functionaliteit van datacenters te herstellen. De geschiedenis van de redenen voor de black-out is onduidelijk. Als je de resultaten van het interne onderzoek, aangekondigd door Willie Walsh, CEO van de International Airlines Group, mag geloven, was dit te wijten aan een fout van ingenieurs. Het ononderbroken stroomvoorzieningssysteem moest echter zo'n uitschakeling weerstaan - daarom werd het geïnstalleerd. Het datacenter werd beheerd door specialisten van het outsourcingbedrijf CBRE Managed Services, dus British Airways probeerde het bedrag van de schade via een Londense rechtbank te verhalen.
Stroomuitval doet zich in vergelijkbare scenario's voor: eerst is er sprake van een black-out door een fout van de elektriciteitsleverancier, soms door slecht weer of interne problemen (waaronder menselijke fouten), en dan kan het ononderbroken stroomvoorzieningssysteem de belasting niet aan of kan er kortsluiting optreden. -Termijnonderbreking van de sinusgolf veroorzaakt uitval van veel diensten, waardoor herstel veel tijd en geld kost. Is het mogelijk om dergelijke ongelukken te voorkomen? Ongetwijfeld. Als je het systeem correct ontwerpt, zijn zelfs de makers van grote datacenters niet immuun voor fouten.
Menselijke factor
Wanneer de directe oorzaak van een incident het onjuiste handelen van het datacenterpersoneel is, hebben de problemen meestal (maar niet altijd) invloed op het softwaregedeelte van de IT-infrastructuur. Dergelijke ongelukken komen zelfs in grote bedrijven voor. In februari 2017 werd door een verkeerd aangeworven teamlid van de technische operatiegroep van een van de datacenters een deel van de Amazon Web Services-servers uitgeschakeld. Er is een fout opgetreden bij het debuggen van het factureringsproces voor klanten van Amazon Simple Storage Service (S3) in de cloudopslag. Een medewerker probeerde een aantal virtuele servers te verwijderen die door het facturatiesysteem werden gebruikt, maar stuitte op een groter cluster.
Als gevolg van een technische fout zijn servers met belangrijke Amazon-softwaremodules voor cloudopslag verwijderd. Het eerste getroffen was het indexeringssubsysteem, dat informatie bevat over de metagegevens en locatie van alle S3-objecten in de Amerikaanse regio US-OOST-1. Het incident had ook gevolgen voor het subsysteem dat wordt gebruikt om gegevens te hosten en de beschikbare ruimte voor opslag te beheren. Na het verwijderen van de virtuele machines moesten deze twee subsystemen volledig opnieuw worden opgestart, en toen stonden de technici van Amazon voor een verrassing: de openbare cloudopslag kon lange tijd niet voldoen aan de verzoeken van klanten.
De impact was wijdverbreid, aangezien veel grote bronnen Amazon S3 gebruiken. De storingen troffen Trello, Coursera, IFTTT en, het meest onaangenaam, de diensten van grote Amazon-partners uit de S&P 500-lijst. De schade is in dergelijke gevallen moeilijk te berekenen, maar bedroeg in de buurt van honderden miljoenen Amerikaanse dollars. Zoals u kunt zien, is één verkeerd commando voldoende om de service van het grootste cloudplatform uit te schakelen. Dit is geen op zichzelf staand geval; op 16 mei 2019 werd tijdens onderhoudswerkzaamheden de Yandex.Cloud-service
Bevroren koeling
In januari 2017 vond een zwaar ongeval plaats in het Dmitrov-datacenter van het bedrijf Megafon. Vervolgens daalde de temperatuur in de regio Moskou tot −35 °C, wat leidde tot het uitvallen van het koelsysteem van de faciliteit. De persdienst van de exploitant sprak niet specifiek over de redenen voor het incident - Russische bedrijven zijn uiterst terughoudend om te praten over ongelukken in de faciliteiten die zij bezitten; in termen van publiciteit lopen we ver achter op het Westen. Er circuleerde een versie op sociale netwerken over het bevriezen van koelvloeistof in langs de straat aangelegde leidingen en het lekken van ethyleenglycol. Volgens haar kon de operatiedienst vanwege lange vakanties niet snel 30 ton koelvloeistof verkrijgen en stapte ze uit met geïmproviseerde middelen, waarbij ze geïmproviseerde vrije koeling organiseerde in strijd met de regels voor de bediening van het systeem. De strenge kou verergerde het probleem: in januari werd Rusland plotseling getroffen door de winter, hoewel niemand dat had verwacht. Als gevolg hiervan moest het personeel de stroom naar een deel van de serverracks uitschakelen, waardoor sommige operatordiensten twee dagen niet beschikbaar waren.
Waarschijnlijk kunnen we hier praten over een weersafwijking, maar dergelijke vorst is niet ongebruikelijk voor de hoofdstedelijke regio. In de winter kunnen de temperaturen in de regio Moskou naar lagere niveaus dalen, dus worden datacenters gebouwd met de verwachting van een stabiele werking bij -42°C. Meestal falen koelsystemen bij koud weer vanwege een onvoldoende hoge concentratie glycolen en overtollig water in de koelvloeistofoplossing. Er zijn ook problemen met de installatie van leidingen of met misrekeningen bij het ontwerpen en testen van het systeem, voornamelijk in verband met de wens om geld te besparen. Hierdoor ontstaat er uit het niets een ernstig ongeval dat voorkomen had kunnen worden.
Natuurrampen
Meestal verstoren onweersbuien en/of orkanen de technische infrastructuur van een datacenter, wat leidt tot serviceonderbrekingen en/of fysieke schade aan apparatuur. Incidenten veroorzaakt door slecht weer komen vrij vaak voor. In 2012 raasde orkaan Sandy met hevige regenval over de westkust van de Verenigde Staten. Het Peer 1-datacenter is gevestigd in een hoogbouwgebouw in Lower Manhattan
De brandstofpomp viel ook uit, dus het personeel was een aantal dagen bezig met het handmatig naar de generatoren slepen van diesel. De heldenmoed van het team heeft het datacenter van een ernstig ongeval gered, maar was dat echt nodig? We leven op een planeet met een stikstof-zuurstofatmosfeer en veel water. Onweersbuien en orkanen komen hier vaak voor (vooral in kustgebieden). Ontwerpers doen er waarschijnlijk goed aan om de risico's in overweging te nemen en een geschikt ononderbroken stroomvoorzieningssysteem te bouwen. Of kies in ieder geval een geschiktere locatie voor het datacenter dan een hoogbouw op een eiland.
Al de rest
Uptime Institute identificeert een verscheidenheid aan incidenten in deze categorie, waarvan het moeilijk is om er een typisch voorbeeld uit te kiezen. Diefstal van koperkabels, auto's die tegen datacentra, elektriciteitskabelsteunen en transformatorstations botsen, branden, graafmachinebestuurders die de optiek beschadigen, knaagdieren (ratten, konijnen en zelfs wombats, die eigenlijk buideldieren zijn), maar ook degenen die graag oefenen met schieten op draden - het menu is uitgebreid. Stroomstoringen kunnen er zelfs voor zorgen
Bron: www.habr.com