Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Topik kemalangan besar di pusat data moden menimbulkan persoalan yang tidak dijawab dalam artikel pertama - kami memutuskan untuk membangunkannya.

Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Menurut statistik dari Institut Uptime, majoriti insiden di pusat data berkaitan dengan kegagalan sistem bekalan kuasaβ€”ia menyumbang 39% daripada insiden. Mereka diikuti oleh faktor manusia, yang menyumbang 24% lagi kemalangan. Sebab ketiga paling penting (15%) adalah kegagalan sistem penghawa dingin, dan di tempat keempat (12%) adalah bencana alam. Jumlah bahagian masalah lain hanya 10%. Tanpa mempersoalkan data organisasi yang dihormati, kami akan menyerlahkan sesuatu yang biasa dalam kemalangan yang berbeza dan cuba memahami sama ada ia boleh dielakkan. Spoiler: ia mungkin dalam kebanyakan kes.

Sains Kenalan

Ringkasnya, hanya terdapat dua masalah dengan bekalan kuasa: sama ada tiada hubungan di mana ia sepatutnya, atau ada hubungan di mana tidak sepatutnya ada sentuhan. Anda boleh bercakap untuk masa yang lama tentang kebolehpercayaan sistem bekalan kuasa tanpa gangguan moden, tetapi mereka tidak selalu menyelamatkan anda. Ambil kes berprofil tinggi pusat data yang digunakan oleh British Airways, yang dimiliki oleh syarikat induk International Airlines Group. Terdapat dua hartanah sedemikian terletak berhampiran Lapangan Terbang Heathrow - Boadicea House dan Comet House. Pada yang pertama, pada 27 Mei 2017, gangguan bekalan elektrik berlaku secara tidak sengaja, yang membawa kepada beban berlebihan dan kegagalan sistem UPS. Akibatnya, beberapa peralatan IT telah rosak secara fizikal, dan bencana terbaru mengambil masa tiga hari untuk diselesaikan.

Syarikat penerbangan itu terpaksa membatalkan atau menjadualkan semula lebih daripada seribu penerbangan, kira-kira 75 ribu penumpang tidak dapat terbang tepat pada masanya - $128 juta telah dibelanjakan untuk membayar pampasan, tidak mengira kos yang diperlukan untuk memulihkan fungsi pusat data. Sejarah sebab-sebab pemadaman tidak jelas. Jika anda percaya hasil penyiasatan dalaman yang diumumkan oleh Ketua Pegawai Eksekutif Kumpulan International Airlines Willie Walsh, ia disebabkan oleh kesilapan jurutera. Walau bagaimanapun, sistem bekalan kuasa yang tidak terganggu terpaksa menahan penutupan sedemikian - itulah sebabnya ia dipasang. Pusat data itu diuruskan oleh pakar dari syarikat penyumberan luar CBRE Managed Services, jadi British Airways cuba memulihkan jumlah kerosakan melalui mahkamah London.

Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Gangguan bekalan elektrik berlaku dalam senario yang sama: mula-mula berlaku pemadaman disebabkan oleh kesalahan pembekal elektrik, kadangkala disebabkan oleh cuaca buruk atau masalah dalaman (termasuk kesilapan manusia), dan kemudian sistem bekalan kuasa yang tidak terganggu tidak dapat menampung beban atau pendek. -gangguan jangka gelombang sinus menyebabkan kegagalan banyak perkhidmatan, menyebabkan pemulihan yang memerlukan banyak masa dan wang. Adakah mungkin untuk mengelakkan kemalangan seperti itu? Tidak dinafikan. Jika anda mereka bentuk sistem dengan betul, walaupun pencipta pusat data yang besar tidak terlepas daripada kesilapan.

Faktor manusia

Apabila punca segera insiden adalah tindakan salah kakitangan pusat data, masalah yang paling kerap (tetapi tidak selalu) menjejaskan bahagian perisian infrastruktur IT. Kemalangan sedemikian berlaku walaupun dalam syarikat besar. Pada Februari 2017, disebabkan ahli pasukan kumpulan operasi teknikal salah satu pusat data yang diambil secara salah, sebahagian daripada pelayan Perkhidmatan Web Amazon telah dilumpuhkan. Ralat berlaku semasa menyahpepijat proses pengebilan untuk pelanggan storan awan Amazon Simple Storage Service (S3). Seorang pekerja cuba memadamkan beberapa pelayan maya yang digunakan oleh sistem pengebilan, tetapi memukul kelompok yang lebih besar.

Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Akibat ralat jurutera, pelayan yang menjalankan modul perisian penyimpanan awan Amazon yang penting telah dipadamkan. Yang pertama terjejas ialah subsistem pengindeksan, yang mengandungi maklumat tentang metadata dan lokasi semua objek S3 di rantau AS-EAST-1 Amerika. Insiden itu turut menjejaskan subsistem yang digunakan untuk mengehoskan data dan mengurus ruang yang tersedia untuk storan. Selepas memadamkan mesin maya, kedua-dua subsistem ini memerlukan permulaan semula sepenuhnya, dan kemudian jurutera Amazon terkejut - untuk masa yang lama, storan awan awam tidak dapat melayani permintaan pelanggan.

Kesannya meluas, kerana banyak sumber besar menggunakan Amazon S3. Gangguan itu menjejaskan Trello, Coursera, IFTTT dan, yang paling tidak menyenangkan, perkhidmatan rakan kongsi Amazon utama dari senarai S&P 500. Kerosakan dalam kes sedemikian sukar untuk dikira, tetapi ia berada dalam lingkungan ratusan juta dolar AS. Seperti yang anda lihat, satu arahan yang salah sudah cukup untuk melumpuhkan perkhidmatan platform awan terbesar. Ini bukan kes terpencil; pada 16 Mei 2019, semasa kerja penyelenggaraan, perkhidmatan Yandex.Cloud dipadamkan mesin maya pengguna dalam zon ru-central1-c yang berada dalam status DIGANTUNG sekurang-kurangnya sekali. Data pelanggan telah pun rosak di sini, sebahagian daripadanya telah hilang tanpa dapat dikembalikan. Sudah tentu, orang tidak sempurna, tetapi sistem keselamatan maklumat moden telah lama dapat memantau tindakan pengguna istimewa sebelum melaksanakan arahan yang mereka masukkan. Jika penyelesaian sedemikian dilaksanakan dalam Yandex atau Amazon, insiden sedemikian boleh dielakkan.

Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Penyejukan beku

Pada Januari 2017, kemalangan besar berlaku di pusat data Dmitrov syarikat Megafon. Kemudian suhu di rantau Moscow turun kepada -35 Β°C, yang membawa kepada kegagalan sistem penyejukan kemudahan. Perkhidmatan akhbar pengendali tidak bercakap secara khusus tentang sebab kejadian itu - syarikat Rusia sangat keberatan untuk bercakap tentang kemalangan di kemudahan yang mereka miliki; dari segi publisiti, kami ketinggalan jauh di belakang Barat. Terdapat versi yang beredar di rangkaian sosial tentang pembekuan penyejuk dalam paip yang diletakkan di sepanjang jalan dan kebocoran etilena glikol. Menurutnya, perkhidmatan operasi tidak dapat dengan cepat mendapatkan 30 tan penyejuk kerana cuti panjang dan keluar menggunakan cara improvisasi, menganjurkan penyejukan percuma buatan sendiri yang melanggar peraturan untuk mengendalikan sistem. Sejuk yang teruk memburukkan lagi masalah - pada bulan Januari, musim sejuk tiba-tiba melanda Rusia, walaupun tiada siapa yang menjangkakannya. Akibatnya, kakitangan terpaksa mematikan kuasa ke sebahagian daripada rak pelayan, itulah sebabnya beberapa perkhidmatan operator tidak tersedia selama dua hari.

Punca utama kemalangan di pusat data ialah gasket antara komputer dan kerusi

Mungkin, kita boleh bercakap tentang anomali cuaca di sini, tetapi fros seperti itu bukanlah sesuatu yang luar biasa untuk wilayah ibu kota. Suhu pada musim sejuk di rantau Moscow boleh turun ke tahap yang lebih rendah, jadi pusat data dibina dengan jangkaan operasi yang stabil pada -42Β°C. Selalunya, sistem penyejukan gagal dalam cuaca sejuk kerana kepekatan glikol yang tidak cukup tinggi dan air yang berlebihan dalam larutan penyejuk. Terdapat juga masalah dengan pemasangan paip atau dengan salah pengiraan dalam reka bentuk dan ujian sistem, terutamanya dikaitkan dengan keinginan untuk menjimatkan wang. Akibatnya, kemalangan serius berlaku secara tiba-tiba, yang boleh dicegah.

Bencana alam

Selalunya, ribut petir dan/atau taufan mengganggu infrastruktur kejuruteraan pusat data, yang membawa kepada gangguan perkhidmatan dan/atau kerosakan fizikal pada peralatan. Kejadian yang disebabkan oleh cuaca buruk berlaku agak kerap. Pada 2012, Taufan Sandy melanda Pantai Barat Amerika Syarikat dengan hujan lebat. Terletak di bangunan bertingkat tinggi di Lower Manhattan, pusat data Peer 1 kehilangan bekalan kuasa luaran, selepas air laut masin membanjiri ruang bawah tanah. Penjana kecemasan kemudahan itu terletak di tingkat 18, dan bekalan bahan apinya terhad - peraturan yang diperkenalkan di New York selepas serangan pengganas 9/11 melarang menyimpan bahan api dalam kuantiti yang banyak di tingkat atas.

Pam bahan api juga gagal, jadi kakitangan menghabiskan beberapa hari mengangkut diesel ke generator dengan tangan. Kepahlawanan pasukan menyelamatkan pusat data daripada kemalangan yang serius, tetapi adakah ia benar-benar perlu? Kita hidup di planet dengan atmosfera nitrogen-oksigen dan banyak air. Ribut petir dan taufan adalah perkara biasa di sini (terutamanya di kawasan pantai). Pereka bentuk mungkin patut mempertimbangkan risiko yang terlibat dan membina sistem bekalan kuasa tanpa gangguan yang sesuai. Atau sekurang-kurangnya pilih lokasi yang lebih sesuai untuk pusat data daripada bangunan tinggi di pulau.

Semua yang lain

Uptime Institute mengenal pasti pelbagai insiden dalam kategori ini, antaranya adalah sukar untuk memilih yang biasa. Kecurian kabel tembaga, kereta merempuh pusat data, penyokong talian kuasa dan pencawang transformer, kebakaran, operator jengkaut merosakkan optik, tikus (tikus, arnab dan juga wombat, yang sebenarnya marsupial), serta mereka yang suka berlatih menembak di wayar - menunya luas. Kegagalan kuasa juga boleh menyebabkan mencuri elektrik ladang ganja haram. Dalam kebanyakan kes, orang tertentu menjadi punca kejadian, iaitu kita sekali lagi berurusan dengan faktor manusia, apabila masalah itu mempunyai nama dan nama keluarga. Walaupun pada pandangan pertama kemalangan itu dikaitkan dengan kerosakan teknikal atau bencana alam, ia boleh dielakkan dengan syarat kemudahan itu direka bentuk dan dikendalikan dengan betul. Satu-satunya pengecualian ialah kes kerosakan kritikal pada infrastruktur pusat data atau kemusnahan bangunan dan struktur akibat bencana alam. Ini benar-benar keadaan force majeure, dan semua masalah lain disebabkan oleh gasket antara komputer dan kerusi - mungkin ini adalah bahagian yang paling tidak boleh dipercayai dari mana-mana sistem yang kompleks.

Sumber: www.habr.com

Tambah komen