Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Modern veri merkezlerindeki büyük kazalar konusu, ilk makalede yanıtlanmayan soruları gündeme getiriyor - biz bunu geliştirmeye karar verdik.

Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Uptime Institute'un istatistiklerine göre, veri merkezlerindeki olayların çoğunluğu güç kaynağı sistemi arızalarıyla ilgili; vakaların %39'unu oluşturuyorlar. Bunları, kazaların %24'ünü oluşturan insan faktörü takip ediyor. Üçüncü sırada (%15) klima sisteminin arızalanması yer alırken, dördüncü sırada (%12) doğal afetler yer aldı. Diğer sorunların toplam payı sadece %10'dur. Saygın bir kuruluşun verilerini sorgulamadan, farklı kazalarda ortak olan bir noktayı vurgulayacağız ve bunların önlenip önlenemeyeceğini anlamaya çalışacağız. Spoiler: Çoğu durumda mümkündür.

Temas Bilimi

Basitçe söylemek gerekirse, güç kaynağında yalnızca iki sorun var: Ya olması gereken yerde temas yok ya da temasın olmaması gereken yerde temas var. Modern kesintisiz güç kaynağı sistemlerinin güvenilirliği hakkında uzun süre konuşabilirsiniz ancak bunlar sizi her zaman kurtarmaz. Ana şirket International Airlines Group'a ait olan British Airways tarafından kullanılan veri merkezinin yüksek profilli örneğini ele alalım. Heathrow Havaalanı yakınında Boadicea Evi ve Comet Evi olmak üzere iki tesis bulunmaktadır. Bunlardan ilki 27 Mayıs 2017 tarihinde kazara meydana gelen elektrik kesintisi UPS sisteminin aşırı yüklenmesine ve arızalanmasına neden olmuştur. Sonuç olarak, bazı BT ekipmanları fiziksel olarak hasar gördü ve son felaketin çözülmesi üç gün sürdü.

Havayolu binden fazla uçuşu iptal etmek veya yeniden planlamak zorunda kaldı, yaklaşık 75 bin yolcu zamanında uçamadı - veri merkezlerinin işlevselliğini yeniden sağlamak için gereken maliyetler hariç, tazminat ödemeye 128 milyon dolar harcandı. Kesintinin nedenlerinin geçmişi belirsizdir. International Airlines Group CEO'su Willie Walsh'un açıkladığı iç soruşturmanın sonuçlarına inanıyorsanız, bunun mühendislerin bir hatasından kaynaklandığını söyleyebiliriz. Ancak kesintisiz güç kaynağı sisteminin böyle bir kapanmaya dayanması gerekiyordu - bu yüzden kuruldu. Veri merkezi, dış kaynak kullanan CBRE Managed Services şirketinin uzmanları tarafından yönetiliyordu, bu nedenle British Airways, bir Londra mahkemesi aracılığıyla hasar miktarını telafi etmeye çalıştı.

Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Elektrik kesintileri de benzer senaryolarda meydana gelir: önce elektrik tedarikçisinin hatası nedeniyle, bazen kötü hava koşulları veya dahili sorunlar (insan hataları dahil) nedeniyle elektrik kesintisi olur ve ardından kesintisiz güç kaynağı sistemi yükle veya kısa devreyle baş edemez. Sinüs dalgasının süreli olarak kesintiye uğraması birçok hizmetin arızalanmasına neden olur ve bu da restorasyonunun çok fazla zaman ve para gerektirmesine neden olur. Bu tür kazaların önüne geçmek mümkün mü? Şüphesiz. Sistemi doğru tasarlarsanız büyük veri merkezlerinin yaratıcıları bile hatalardan muaf değildir.

İnsan Faktörü

Bir olayın acil nedeni veri merkezi personelinin yanlış eylemleri olduğunda, sorunlar çoğunlukla (ancak her zaman değil) BT altyapısının yazılım bölümünü etkiler. Bu tür kazalar büyük şirketlerde bile yaşanıyor. Şubat 2017'de, veri merkezlerinden birinin teknik operasyon grubundaki ekip üyesinin hatalı bir şekilde işe alınması nedeniyle Amazon Web Hizmetleri sunucularının bir kısmı devre dışı bırakıldı. Amazon Simple Storage Service (S3) bulut depolama müşterileri için faturalandırma sürecinde hata ayıklanırken bir hata oluştu. Bir çalışan, faturalandırma sistemi tarafından kullanılan bir dizi sanal sunucuyu silmeye çalıştı ancak daha büyük bir kümeyle karşılaştı.

Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Bir mühendis hatası sonucunda önemli Amazon bulut depolama yazılımı modüllerini çalıştıran sunucular silindi. Etkilenen ilk sistem, ABD-DOĞU-3 Amerika bölgesindeki tüm S1 nesnelerinin meta verileri ve konumları hakkında bilgi içeren indeksleme alt sistemiydi. Olay aynı zamanda verileri barındırmak ve depolama için kullanılabilir alanı yönetmek için kullanılan alt sistemi de etkiledi. Sanal makineleri sildikten sonra bu iki alt sistemin tamamen yeniden başlatılması gerekti ve ardından Amazon mühendisleri bir sürprizle karşılaştı: genel bulut depolama alanı uzun bir süre müşteri isteklerine hizmet edemedi.

Birçok büyük kaynak Amazon S3 kullandığından etkisi oldukça geniş oldu. Kesintiler Trello, Coursera, IFTTT'yi ve en kötüsü S&P 500 listesindeki büyük Amazon ortaklarının hizmetlerini etkiledi.Bu gibi durumlarda hasarın hesaplanması zor, ancak yüz milyonlarca ABD doları civarındaydı. Gördüğünüz gibi en büyük bulut platformunun hizmetini devre dışı bırakmak için tek bir yanlış komut yeterlidir. Bu münferit bir durum değil; 16 Mayıs 2019'da bakım çalışmaları sırasında Yandex.Cloud hizmeti silindi ru-central1-c bölgesindeki en az bir kez ASKIYA ALINDI durumunda olan kullanıcıların sanal makineleri. Müşteri verileri burada zaten hasar gördü ve bunların bir kısmı geri alınamayacak şekilde kayboldu. Elbette insanlar kusurludur, ancak modern bilgi güvenliği sistemleri, ayrıcalıklı kullanıcıların girdikleri komutları yerine getirmeden önce eylemlerini uzun süredir izleyebilmektedir. Bu tür çözümlerin Yandex ya da Amazon'da uygulanması halinde bu tür olayların önüne geçilebilir.

Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Dondurulmuş soğutma

Ocak 2017'de Megafon şirketinin Dmitrov veri merkezinde büyük bir kaza meydana geldi. Daha sonra Moskova bölgesindeki sıcaklık -35 °C'ye düştü ve bu durum tesisin soğutma sisteminin arızalanmasına neden oldu. Operatörün basın servisi olayın nedenleri hakkında özellikle konuşmadı - Rus şirketleri sahip oldukları tesislerdeki kazalar hakkında konuşmak konusunda son derece isteksizler; tanıtım açısından Batı'nın çok gerisindeyiz. Sosyal ağlarda cadde boyunca döşenen borulardaki soğutma sıvısının donması ve etilen glikolün sızmasıyla ilgili bir versiyon dolaşıyordu. Ona göre, operasyon servisi uzun tatiller nedeniyle hızlı bir şekilde 30 ton soğutma sıvısı elde edemedi ve doğaçlama yöntemler kullanarak, sistemi çalıştırma kurallarına aykırı olarak doğaçlama serbest soğutma düzenleyerek dışarı çıktı. Şiddetli soğuk sorunu daha da kötüleştirdi - Ocak ayında kış aniden Rusya'yı vurdu, ancak kimse beklemiyordu. Sonuç olarak personel, sunucu raflarının bir kısmının gücünü kapatmak zorunda kaldı, bu nedenle bazı operatör hizmetleri iki gün boyunca kullanılamadı.

Veri merkezlerindeki kazaların ana nedeni bilgisayar ile sandalye arasındaki contadır

Muhtemelen burada bir hava anomalisinden söz edebiliriz ama bu tür donlar başkent bölgesi için alışılmadık bir durum değil. Moskova bölgesinde kış aylarında sıcaklıklar daha düşük seviyelere düşebildiği için veri merkezleri -42°C'de stabil çalışma beklentisiyle inşa ediliyor. Çoğu zaman, soğutma sistemleri, soğutma sıvısı çözeltisindeki yeterince yüksek glikol konsantrasyonu ve fazla su nedeniyle soğuk havalarda arızalanır. Ayrıca boruların kurulumunda veya sistemin tasarımında ve test edilmesinde yanlış hesaplamalarla ilgili sorunlar da vardır, bunlar esas olarak paradan tasarruf etme arzusuyla ilişkilidir. Bunun sonucunda birdenbire önlenebilecek ciddi bir kaza meydana gelir.

Doğal afetler

Çoğunlukla fırtınalar ve/veya kasırgalar veri merkezinin mühendislik altyapısını bozarak hizmet kesintilerine ve/veya ekipmanda fiziksel hasara neden olur. Kötü hava koşullarından kaynaklanan olaylar oldukça sık meydana gelir. 2012 yılında Sandy Kasırgası, şiddetli yağışlarla Amerika Birleşik Devletleri'nin Batı Kıyısını kasıp kavurdu. Aşağı Manhattan'da yüksek katlı bir binada yer alan Peer 1 veri merkezi harici güç kaynağı kaybıTuzlu deniz suyunun bodrumları sular altında bırakmasının ardından. Tesisin acil durum jeneratörleri 18. katta bulunuyordu ve yakıt tedarikleri sınırlıydı; 9 Eylül terörist saldırılarından sonra New York'ta getirilen kurallar, üst katlarda büyük miktarlarda yakıt depolanmasını yasaklıyordu.

Yakıt pompası da arızalandı, bu yüzden personel birkaç gün boyunca dizeli jeneratörlere elle taşıdı. Ekibin kahramanlığı veri merkezini ciddi bir kazadan kurtardı ama bu gerçekten gerekli miydi? Azot-oksijen atmosferine ve bol suya sahip bir gezegende yaşıyoruz. Burada fırtınalar ve kasırgalar yaygındır (özellikle kıyı bölgelerinde). Tasarımcıların muhtemelen ilgili riskleri dikkate alması ve uygun bir kesintisiz güç kaynağı sistemi kurması iyi olur. Veya en azından veri merkezi için adadaki yüksek bir binadan daha uygun bir yer seçin.

Diğer her Şey

Uptime Institute, bu kategoride, aralarından tipik olanı seçmenin zor olduğu çeşitli olaylar tespit ediyor. Bakır kabloların çalınması, veri merkezlerine çarpan arabalar, elektrik hattı destekleri ve trafo merkezlerine çarpma, yangınlar, optiklere zarar veren ekskavatör operatörleri, kemirgenler (fareler, tavşanlar ve hatta aslında keseli olan vombatlar) ve ayrıca ateş etme alıştırması yapmaktan hoşlananlar teller - menü kapsamlıdır. Elektrik kesintileri bile neden olabilir çalmak elektrik yasadışı esrar ekimi. Çoğu durumda olayın suçlusu belirli kişiler oluyor, yani sorunun adı ve soyadı varken yine insan faktörüyle karşı karşıya kalıyoruz. Kaza ilk bakışta teknik bir arıza ya da doğal afetle ilişkilendirilse bile tesisin doğru tasarlanması ve doğru işletilmesi koşuluyla önlenebilir. Bunun tek istisnası, veri merkezi altyapısının kritik hasar görmesi veya doğal afet nedeniyle binaların ve yapıların tahrip olması durumlarıdır. Bunlar gerçekten mücbir sebep durumlarıdır ve diğer tüm sorunlara bilgisayar ile sandalye arasındaki conta neden olur - belki de bu, herhangi bir karmaşık sistemin en güvenilmez kısmıdır.

Kaynak: habr.com

Yorum ekle