Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Topik kecelakaan besar di pusat data modern menimbulkan pertanyaan yang belum terjawab di artikel pertama - kami memutuskan untuk mengembangkannya.

Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Menurut statistik dari Uptime Institute, sebagian besar insiden di pusat data terkait dengan kegagalan sistem pasokan listrik—kegagalan ini menyebabkan 39% insiden. Diikuti oleh faktor manusia, yang menyumbang 24% kecelakaan lainnya. Alasan terpenting ketiga (15%) adalah kegagalan sistem pendingin udara, dan alasan keempat (12%) adalah bencana alam. Total bagian dari masalah lainnya hanya 10%. Tanpa mempertanyakan data dari organisasi terkemuka, kami akan menyoroti kesamaan dalam berbagai kecelakaan dan mencoba memahami apakah kecelakaan tersebut dapat dihindari. Spoiler: itu mungkin terjadi dalam banyak kasus.

Ilmu Kontak

Sederhananya, hanya ada dua masalah dengan catu daya: tidak ada kontak di tempat yang seharusnya, atau ada kontak di tempat yang tidak seharusnya ada kontak. Anda dapat berbicara panjang lebar tentang keandalan sistem catu daya modern yang tidak pernah terputus, tetapi hal itu tidak selalu menyelamatkan Anda. Ambil contoh pusat data yang digunakan oleh British Airways, yang dimiliki oleh perusahaan induk International Airlines Group. Ada dua properti yang terletak di dekat Bandara Heathrow - Boadicea House dan Comet House. Yang pertama, pada tanggal 27 Mei 2017, terjadi pemadaman listrik yang tidak disengaja, yang menyebabkan kelebihan beban dan kegagalan sistem UPS. Akibatnya, beberapa peralatan TI rusak secara fisik, dan penyelesaian bencana terakhir membutuhkan waktu tiga hari.

Maskapai ini harus membatalkan atau menjadwal ulang lebih dari seribu penerbangan, sekitar 75 ribu penumpang tidak dapat terbang tepat waktu - $128 juta dihabiskan untuk membayar kompensasi, belum termasuk biaya yang diperlukan untuk memulihkan fungsi pusat data. Sejarah alasan pemadaman listrik tidak jelas. Jika Anda yakin dengan hasil penyelidikan internal yang diumumkan oleh CEO International Airlines Group Willie Walsh, hal itu disebabkan oleh kesalahan para insinyur. Namun, sistem catu daya yang tidak pernah terputus harus tahan terhadap pemadaman seperti itu - itulah sebabnya sistem ini dipasang. Pusat data dikelola oleh spesialis dari perusahaan outsourcing CBRE Managed Services, sehingga British Airways mencoba memulihkan jumlah kerusakan melalui pengadilan London.

Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Pemadaman listrik terjadi dalam skenario yang serupa: pertama terjadi pemadaman listrik karena kesalahan pemasok listrik, terkadang karena cuaca buruk atau masalah internal (termasuk kesalahan manusia), dan kemudian sistem catu daya yang tidak pernah terputus tidak dapat mengatasi beban atau korsleting. -gangguan jangka panjang gelombang sinus menyebabkan kegagalan banyak layanan, menyebabkan pemulihan yang membutuhkan banyak waktu dan uang. Mungkinkah menghindari kecelakaan seperti itu? Niscaya. Jika Anda merancang sistem dengan benar, bahkan pembuat pusat data besar pun tidak kebal dari kesalahan.

Faktor manusia

Ketika penyebab langsung dari suatu insiden adalah tindakan yang salah dari personel pusat data, masalah yang paling sering (tetapi tidak selalu) mempengaruhi bagian perangkat lunak dari infrastruktur TI. Kecelakaan seperti ini terjadi bahkan di perusahaan besar. Pada bulan Februari 2017, karena anggota tim kelompok operasi teknis salah satu pusat data yang salah direkrut, sebagian dari server Amazon Web Services dinonaktifkan. Terjadi kesalahan saat men-debug proses penagihan untuk pelanggan penyimpanan cloud Amazon Simple Storage Service (S3). Seorang karyawan mencoba menghapus sejumlah server virtual yang digunakan oleh sistem penagihan, namun mengenai cluster yang lebih besar.

Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Akibat kesalahan insinyur, server yang menjalankan modul perangkat lunak penyimpanan cloud Amazon yang penting telah dihapus. Yang pertama terpengaruh adalah subsistem pengindeksan, yang berisi informasi tentang metadata dan lokasi semua objek S3 di wilayah US-EAST-1 Amerika. Insiden tersebut juga memengaruhi subsistem yang digunakan untuk menampung data dan mengelola ruang yang tersedia untuk penyimpanan. Setelah menghapus mesin virtual, kedua subsistem ini memerlukan restart total, dan kemudian para insinyur Amazon terkejut - untuk waktu yang lama, penyimpanan cloud publik tidak dapat melayani permintaan pelanggan.

Dampaknya meluas, karena banyak sumber daya besar menggunakan Amazon S3. Pemadaman listrik berdampak pada Trello, Coursera, IFTTT dan, yang paling tidak menyenangkan, layanan mitra utama Amazon dari daftar S&P 500. Kerugian dalam kasus seperti ini sulit dihitung, tetapi kerugiannya mencapai ratusan juta dolar AS. Seperti yang Anda lihat, satu perintah yang salah sudah cukup untuk menonaktifkan layanan platform cloud terbesar. Ini bukan kasus yang terisolasi; pada 16 Mei 2019, selama pekerjaan pemeliharaan, layanan Yandex.Cloud dihapus mesin virtual pengguna di zona ru-central1-c yang berada dalam status SUSPENDED setidaknya sekali. Data klien telah rusak di sini, beberapa di antaranya hilang dan tidak dapat diperbaiki lagi. Tentu saja, manusia tidak sempurna, tetapi sistem keamanan informasi modern telah lama mampu memantau tindakan pengguna yang memiliki hak istimewa sebelum menjalankan perintah yang mereka masukkan. Jika solusi tersebut diterapkan di Yandex atau Amazon, insiden seperti itu dapat dihindari.

Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Pendinginan beku

Pada bulan Januari 2017, kecelakaan besar terjadi di pusat data Dmitrov perusahaan Megafon. Kemudian suhu di wilayah Moskow turun hingga −35 °C, yang menyebabkan kegagalan sistem pendingin fasilitas tersebut. Layanan pers operator tidak secara khusus membicarakan alasan insiden tersebut - perusahaan-perusahaan Rusia sangat enggan membicarakan kecelakaan di fasilitas yang mereka miliki; dalam hal publisitas, kami tertinggal jauh di belakang Barat. Ada versi yang beredar di jejaring sosial tentang pembekuan cairan pendingin di pipa-pipa yang dipasang di sepanjang jalan dan kebocoran etilen glikol. Menurutnya, pihak operasional tidak bisa mendapatkan 30 ton cairan pendingin dengan cepat karena libur panjang dan keluar dengan cara seadanya, menyelenggarakan pendinginan gratis secara dadakan yang melanggar aturan pengoperasian sistem. Cuaca dingin yang parah memperburuk masalah - pada bulan Januari, musim dingin tiba-tiba melanda Rusia, meskipun tidak ada yang menduganya. Akibatnya, staf harus mematikan aliran listrik ke sebagian rak server, yang menyebabkan beberapa layanan operator tidak tersedia selama dua hari.

Penyebab utama kecelakaan di pusat data adalah adanya gasket antara komputer dan kursi

Mungkin kita bisa membicarakan anomali cuaca di sini, tapi cuaca beku seperti itu bukanlah sesuatu yang aneh di wilayah ibu kota. Suhu di musim dingin di wilayah Moskow bisa turun ke tingkat yang lebih rendah, sehingga pusat data dibangun dengan harapan pengoperasian yang stabil pada suhu −42°C. Paling sering, sistem pendingin gagal dalam cuaca dingin karena konsentrasi glikol yang tidak mencukupi dan kelebihan air dalam larutan pendingin. Ada juga masalah dengan pemasangan pipa atau kesalahan perhitungan dalam desain dan pengujian sistem, terutama terkait dengan keinginan untuk menghemat uang. Akibatnya, kecelakaan serius terjadi secara tiba-tiba, yang sebenarnya bisa dicegah.

Bencana alam

Seringkali, badai petir dan/atau angin topan mengganggu infrastruktur teknik pusat data, sehingga menyebabkan gangguan layanan dan/atau kerusakan fisik pada peralatan. Insiden akibat cuaca buruk cukup sering terjadi. Pada tahun 2012, Badai Sandy melanda Pantai Barat Amerika Serikat dengan curah hujan yang tinggi. Terletak di gedung bertingkat tinggi di Lower Manhattan, pusat data Peer 1 kehilangan pasokan listrik eksternal, setelah air laut yang asin membanjiri ruang bawah tanah. Generator darurat fasilitas tersebut terletak di lantai 18, dan pasokan bahan bakarnya terbatas - peraturan yang diberlakukan di New York setelah serangan teroris 9/11 melarang penyimpanan bahan bakar dalam jumlah besar di lantai atas.

Pompa bahan bakar juga rusak, sehingga staf menghabiskan beberapa hari untuk mengangkut solar ke generator dengan tangan. Kepahlawanan tim menyelamatkan pusat data dari kecelakaan serius, tapi apakah itu benar-benar diperlukan? Kita hidup di planet dengan atmosfer nitrogen-oksigen dan banyak air. Badai petir dan angin topan biasa terjadi di sini (terutama di wilayah pesisir). Para perancang mungkin sebaiknya mempertimbangkan risiko yang ada dan membangun sistem pasokan listrik yang tidak pernah terputus. Atau setidaknya pilih lokasi yang lebih cocok untuk pusat data daripada gedung bertingkat di pulau.

Yang lainnya

Uptime Institute mengidentifikasi beragam insiden dalam kategori ini, di antaranya sulit untuk memilih satu insiden yang umum. Pencurian kabel tembaga, mobil menabrak pusat data, penyangga saluran listrik dan gardu trafo, kebakaran, operator ekskavator merusak optik, hewan pengerat (tikus, kelinci bahkan wombat yang sebenarnya hewan berkantung), serta mereka yang suka berlatih menembak di kabel - menunya luas. Kegagalan listrik bahkan dapat menyebabkan pencurian listrik perkebunan ganja ilegal. Dalam kebanyakan kasus, pelakunya adalah orang-orang tertentu, mis. kita kembali berhadapan dengan faktor manusia, ketika masalahnya memiliki nama dan nama keluarga. Sekalipun sekilas kecelakaan itu disebabkan oleh kerusakan teknis atau bencana alam, hal ini dapat dihindari asalkan fasilitas tersebut dirancang dan dioperasikan dengan baik. Satu-satunya pengecualian adalah kasus kerusakan kritis pada infrastruktur pusat data atau kehancuran bangunan dan struktur akibat bencana alam. Ini benar-benar keadaan force majeure, dan semua masalah lainnya disebabkan oleh adanya paking antara komputer dan kursi - mungkin ini adalah bagian yang paling tidak dapat diandalkan dari sistem kompleks mana pun.

Sumber: www.habr.com

Tambah komentar