Modern veri merkezlerindeki büyük kazalar konusu, ilk makalede yanıtlanmayan soruları gündeme getiriyor - biz bunu geliştirmeye karar verdik.
Uptime Institute'un istatistiklerine göre, veri merkezlerindeki olayların çoğunluğu güç kaynağı sistemi arızalarıyla ilgili; vakaların %39'unu oluşturuyorlar. Bunları, kazaların %24'ünü oluşturan insan faktörü takip ediyor. Üçüncü sırada (%15) klima sisteminin arızalanması yer alırken, dördüncü sırada (%12) doğal afetler yer aldı. Diğer sorunların toplam payı sadece %10'dur. Saygın bir kuruluşun verilerini sorgulamadan, farklı kazalarda ortak olan bir noktayı vurgulayacağız ve bunların önlenip önlenemeyeceğini anlamaya çalışacağız. Spoiler: Çoğu durumda mümkündür.
Temas Bilimi
Basitçe söylemek gerekirse, güç kaynağında yalnızca iki sorun var: Ya olması gereken yerde temas yok ya da temasın olmaması gereken yerde temas var. Modern kesintisiz güç kaynağı sistemlerinin güvenilirliği hakkında uzun süre konuşabilirsiniz ancak bunlar sizi her zaman kurtarmaz. Ana şirket International Airlines Group'a ait olan British Airways tarafından kullanılan veri merkezinin yüksek profilli örneğini ele alalım. Heathrow Havaalanı yakınında Boadicea Evi ve Comet Evi olmak üzere iki tesis bulunmaktadır. Bunlardan ilki 27 Mayıs 2017 tarihinde kazara meydana gelen elektrik kesintisi UPS sisteminin aşırı yüklenmesine ve arızalanmasına neden olmuştur. Sonuç olarak, bazı BT ekipmanları fiziksel olarak hasar gördü ve son felaketin çözülmesi üç gün sürdü.
Havayolu binden fazla uçuşu iptal etmek veya yeniden planlamak zorunda kaldı, yaklaşık 75 bin yolcu zamanında uçamadı - veri merkezlerinin işlevselliğini yeniden sağlamak için gereken maliyetler hariç, tazminat ödemeye 128 milyon dolar harcandı. Kesintinin nedenlerinin geçmişi belirsizdir. International Airlines Group CEO'su Willie Walsh'un açıkladığı iç soruşturmanın sonuçlarına inanıyorsanız, bunun mühendislerin bir hatasından kaynaklandığını söyleyebiliriz. Ancak kesintisiz güç kaynağı sisteminin böyle bir kapanmaya dayanması gerekiyordu - bu yüzden kuruldu. Veri merkezi, dış kaynak kullanan CBRE Managed Services şirketinin uzmanları tarafından yönetiliyordu, bu nedenle British Airways, bir Londra mahkemesi aracılığıyla hasar miktarını telafi etmeye çalıştı.
Elektrik kesintileri de benzer senaryolarda meydana gelir: önce elektrik tedarikçisinin hatası nedeniyle, bazen kötü hava koşulları veya dahili sorunlar (insan hataları dahil) nedeniyle elektrik kesintisi olur ve ardından kesintisiz güç kaynağı sistemi yükle veya kısa devreyle baş edemez. Sinüs dalgasının süreli olarak kesintiye uğraması birçok hizmetin arızalanmasına neden olur ve bu da restorasyonunun çok fazla zaman ve para gerektirmesine neden olur. Bu tür kazaların önüne geçmek mümkün mü? Şüphesiz. Sistemi doğru tasarlarsanız büyük veri merkezlerinin yaratıcıları bile hatalardan muaf değildir.
İnsan Faktörü
Bir olayın acil nedeni veri merkezi personelinin yanlış eylemleri olduğunda, sorunlar çoğunlukla (ancak her zaman değil) BT altyapısının yazılım bölümünü etkiler. Bu tür kazalar büyük şirketlerde bile yaşanıyor. Şubat 2017'de, veri merkezlerinden birinin teknik operasyon grubundaki ekip üyesinin hatalı bir şekilde işe alınması nedeniyle Amazon Web Hizmetleri sunucularının bir kısmı devre dışı bırakıldı. Amazon Simple Storage Service (S3) bulut depolama müşterileri için faturalandırma sürecinde hata ayıklanırken bir hata oluştu. Bir çalışan, faturalandırma sistemi tarafından kullanılan bir dizi sanal sunucuyu silmeye çalıştı ancak daha büyük bir kümeyle karşılaştı.
Bir mühendis hatası sonucunda önemli Amazon bulut depolama yazılımı modüllerini çalıştıran sunucular silindi. Etkilenen ilk sistem, ABD-DOĞU-3 Amerika bölgesindeki tüm S1 nesnelerinin meta verileri ve konumları hakkında bilgi içeren indeksleme alt sistemiydi. Olay aynı zamanda verileri barındırmak ve depolama için kullanılabilir alanı yönetmek için kullanılan alt sistemi de etkiledi. Sanal makineleri sildikten sonra bu iki alt sistemin tamamen yeniden başlatılması gerekti ve ardından Amazon mühendisleri bir sürprizle karşılaştı: genel bulut depolama alanı uzun bir süre müşteri isteklerine hizmet edemedi.
Birçok büyük kaynak Amazon S3 kullandığından etkisi oldukça geniş oldu. Kesintiler Trello, Coursera, IFTTT'yi ve en kötüsü S&P 500 listesindeki büyük Amazon ortaklarının hizmetlerini etkiledi.Bu gibi durumlarda hasarın hesaplanması zor, ancak yüz milyonlarca ABD doları civarındaydı. Gördüğünüz gibi en büyük bulut platformunun hizmetini devre dışı bırakmak için tek bir yanlış komut yeterlidir. Bu münferit bir durum değil; 16 Mayıs 2019'da bakım çalışmaları sırasında Yandex.Cloud hizmeti
Dondurulmuş soğutma
Ocak 2017'de Megafon şirketinin Dmitrov veri merkezinde büyük bir kaza meydana geldi. Daha sonra Moskova bölgesindeki sıcaklık -35 °C'ye düştü ve bu durum tesisin soğutma sisteminin arızalanmasına neden oldu. Operatörün basın servisi olayın nedenleri hakkında özellikle konuşmadı - Rus şirketleri sahip oldukları tesislerdeki kazalar hakkında konuşmak konusunda son derece isteksizler; tanıtım açısından Batı'nın çok gerisindeyiz. Sosyal ağlarda cadde boyunca döşenen borulardaki soğutma sıvısının donması ve etilen glikolün sızmasıyla ilgili bir versiyon dolaşıyordu. Ona göre, operasyon servisi uzun tatiller nedeniyle hızlı bir şekilde 30 ton soğutma sıvısı elde edemedi ve doğaçlama yöntemler kullanarak, sistemi çalıştırma kurallarına aykırı olarak doğaçlama serbest soğutma düzenleyerek dışarı çıktı. Şiddetli soğuk sorunu daha da kötüleştirdi - Ocak ayında kış aniden Rusya'yı vurdu, ancak kimse beklemiyordu. Sonuç olarak personel, sunucu raflarının bir kısmının gücünü kapatmak zorunda kaldı, bu nedenle bazı operatör hizmetleri iki gün boyunca kullanılamadı.
Muhtemelen burada bir hava anomalisinden söz edebiliriz ama bu tür donlar başkent bölgesi için alışılmadık bir durum değil. Moskova bölgesinde kış aylarında sıcaklıklar daha düşük seviyelere düşebildiği için veri merkezleri -42°C'de stabil çalışma beklentisiyle inşa ediliyor. Çoğu zaman, soğutma sistemleri, soğutma sıvısı çözeltisindeki yeterince yüksek glikol konsantrasyonu ve fazla su nedeniyle soğuk havalarda arızalanır. Ayrıca boruların kurulumunda veya sistemin tasarımında ve test edilmesinde yanlış hesaplamalarla ilgili sorunlar da vardır, bunlar esas olarak paradan tasarruf etme arzusuyla ilişkilidir. Bunun sonucunda birdenbire önlenebilecek ciddi bir kaza meydana gelir.
Doğal afetler
Çoğunlukla fırtınalar ve/veya kasırgalar veri merkezinin mühendislik altyapısını bozarak hizmet kesintilerine ve/veya ekipmanda fiziksel hasara neden olur. Kötü hava koşullarından kaynaklanan olaylar oldukça sık meydana gelir. 2012 yılında Sandy Kasırgası, şiddetli yağışlarla Amerika Birleşik Devletleri'nin Batı Kıyısını kasıp kavurdu. Aşağı Manhattan'da yüksek katlı bir binada yer alan Peer 1 veri merkezi
Yakıt pompası da arızalandı, bu yüzden personel birkaç gün boyunca dizeli jeneratörlere elle taşıdı. Ekibin kahramanlığı veri merkezini ciddi bir kazadan kurtardı ama bu gerçekten gerekli miydi? Azot-oksijen atmosferine ve bol suya sahip bir gezegende yaşıyoruz. Burada fırtınalar ve kasırgalar yaygındır (özellikle kıyı bölgelerinde). Tasarımcıların muhtemelen ilgili riskleri dikkate alması ve uygun bir kesintisiz güç kaynağı sistemi kurması iyi olur. Veya en azından veri merkezi için adadaki yüksek bir binadan daha uygun bir yer seçin.
Diğer her Şey
Uptime Institute, bu kategoride, aralarından tipik olanı seçmenin zor olduğu çeşitli olaylar tespit ediyor. Bakır kabloların çalınması, veri merkezlerine çarpan arabalar, elektrik hattı destekleri ve trafo merkezlerine çarpma, yangınlar, optiklere zarar veren ekskavatör operatörleri, kemirgenler (fareler, tavşanlar ve hatta aslında keseli olan vombatlar) ve ayrıca ateş etme alıştırması yapmaktan hoşlananlar teller - menü kapsamlıdır. Elektrik kesintileri bile neden olabilir
Kaynak: habr.com