Kecelakaan besar di pusat data: penyebab dan konsekuensi

Pusat data modern dapat diandalkan, namun peralatan apa pun rusak dari waktu ke waktu. Dalam artikel singkat ini kami telah mengumpulkan insiden paling signifikan tahun 2018.

Kecelakaan besar di pusat data: penyebab dan konsekuensi

Pengaruh teknologi digital terhadap perekonomian semakin meningkat, volume informasi yang diproses semakin meningkat, fasilitas-fasilitas baru sedang dibangun, dan ini bagus selama semuanya berjalan baik. Sayangnya, dampak ekonomi dari kegagalan pusat data juga semakin meningkat sejak masyarakat mulai menghosting infrastruktur TI yang penting bagi bisnis sebagai konsekuensi digitalisasi yang tidak dapat dihindari. Kami menerbitkan beberapa kecelakaan paling terkenal yang terjadi di berbagai negara pada tahun lalu.

AS

Negara ini adalah pemimpin yang diakui dalam bidang pembangunan pusat data. Amerika Serikat mempunyai jumlah pusat data komersial dan korporat terbesar yang melayani layanan global, sehingga dampak insiden di sana sangatlah signifikan. Pada awal Maret, empat fasilitas Equinix mengalami pemadaman listrik akibat topan yang dahsyat. Ruang tersebut digunakan untuk peralatan Amazon Web Services (AWS); kecelakaan tersebut menyebabkan tidak tersedianya banyak layanan populer: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio dan mCapital One, serta asisten virtual Amazon Alexa, terpengaruh.

Pada bulan September, anomali cuaca melanda pusat data Microsoft yang berlokasi di Texas. Kemudian, akibat badai petir, sistem pasokan listrik di seluruh wilayah terganggu, dan di pusat data yang beralih ke daya dari genset diesel, tidak diketahui alasannya. pendinginan dimatikan. Butuh beberapa hari untuk menghilangkan konsekuensi dari kecelakaan tersebut, dan meskipun, berkat penyeimbangan beban, kegagalan ini tidak menjadi kritis, sedikit perlambatan dalam pengoperasian layanan cloud Microsoft diketahui oleh pengguna di seluruh dunia.

Rusia

Kecelakaan paling serius terjadi pada 20 Agustus di salah satu pusat data Rostelecom. Karena itu, server Daftar Real Estat Negara Bersatu berhenti selama 66 jam, dan oleh karena itu server tersebut harus ditransfer ke situs cadangan. Rosreestr dapat memulihkan pemrosesan aplikasi yang diterima melalui semua saluran hanya pada tanggal 3 September - organisasi pemerintah sedang mencoba memulihkan sejumlah besar uang dari Rostelecom karena melanggar perjanjian tingkat layanan.

Pada tanggal 16 Februari, karena masalah pada jaringan Lenenergo, sistem catu daya cadangan di pusat data Xelnet (St. Petersburg) dihidupkan. Gangguan jangka pendek pada gelombang sinus menyebabkan gangguan dalam pengoperasian banyak layanan: khususnya, penyedia cloud besar 1cloud terkena dampaknya, namun masalah yang paling mencolok bagi pemirsa Internet Rusia adalah ketidakmampuan untuk mengakses situs jejaring sosial VKontakte . Hal yang paling menarik adalah dibutuhkan waktu sekitar 12 jam untuk sepenuhnya menghilangkan akibat dari pemadaman listrik jangka pendek.

Uni Eropa

Beberapa insiden serius tercatat di UE pada tahun 2018. Pada bulan Maret, terjadi kegagalan di pusat data maskapai KLM: pasokan listrik terputus selama 10 menit, dan daya genset diesel tidak mencukupi untuk mengoperasikan peralatan. Beberapa server mati, dan maskapai penerbangan harus membatalkan atau menjadwal ulang beberapa lusin penerbangan.

Ini bukan satu-satunya insiden terkait perjalanan udara - pada bulan April, terjadi kegagalan pada sistem catu daya pusat data Eurocontrol. Organisasi tersebut mengendalikan pergerakan pesawat di Uni Eropa, dan sementara para spesialis menghabiskan waktu 5 jam untuk menghilangkan konsekuensi kecelakaan tersebut, penumpang kembali harus mengalami penundaan dan penjadwalan ulang penerbangan.

Masalah yang sangat serius muncul akibat kecelakaan di pusat data yang melayani sektor keuangan. Biaya gangguan transaksi di sini biasanya tinggi, dan tingkat keandalan fasilitasnya sesuai, namun hal ini tidak mencegah terjadinya insiden. Pada tanggal 18 April, bursa saham Nordic NASDAQ (Helsinki, Finlandia) tidak dapat melakukan perdagangan di seluruh Eropa Utara pada siang hari karena aktivasi tidak sah dari sistem pemadam kebakaran gas di pusat data komersial DigiPlex, yang tiba-tiba dimatikan energinya.

Pada tanggal 7 Juni, pemadaman pusat data memaksa London Stock Exchange (LSE) menunda dimulainya perdagangan selama satu jam. Selain itu, pada bulan Juni, di Eropa, karena kegagalan pusat data, layanan sistem pembayaran internasional VISA dinonaktifkan sepanjang hari, dan rincian kejadian tersebut tidak pernah diungkapkan.

Jepang

Pada musim panas tahun 2018, kebakaran terjadi di lantai bawah tanah pusat data Amazon yang sedang dibangun di pinggiran kota Tokyo, menewaskan 5 pekerja dan melukai sedikitnya 50 orang. Kebakaran tersebut merusak sekitar 5000 m2 fasilitas tersebut. Penyelidikan menunjukkan bahwa penyebab kebakaran adalah kesalahan manusia: karena penanganan obor asetilen yang ceroboh, insulasi terbakar.

Alasan kegagalan

Daftar insiden di atas masih jauh dari lengkap; karena kecelakaan di pusat data, klien bank dan operator telekomunikasi menderita, layanan penyedia cloud menjadi offline, dan bahkan pekerjaan layanan darurat terganggu. Pemadaman layanan dalam jumlah kecil dapat menyebabkan kerugian besar, dan sebagian besar pemadaman (39%) berkaitan dengan sistem kelistrikan, menurut Uptime Institute. Di urutan kedua (24%) adalah faktor manusia, dan di urutan ketiga (15%) adalah sistem pendingin udara. Hanya 12% kecelakaan di pusat data yang disebabkan oleh fenomena alam, dan hanya 10% di antaranya terjadi karena alasan selain yang disebutkan di atas.

Meskipun memiliki standar keandalan dan keselamatan yang ketat, tidak ada fasilitas yang kebal dari insiden. Kebanyakan dari masalah ini terjadi karena pemadaman listrik atau kesalahan manusia. Pemilik pusat data dan ruang server pertama-tama harus memperhatikan kedua faktor ini, dan pelanggan harus memahami: bahkan pemimpin pasar pun tidak dapat menjamin keandalan mutlak. Jika peralatan atau layanan cloud melayani proses penting bagi bisnis, Anda harus memikirkan situs cadangan.

Sumber foto: telecombloger.ru

Sumber: www.habr.com

Tambah komentar