Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Topik kacilakan utama ing pusat data modern nimbulake pitakonan sing ora dijawab ing artikel pisanan - kita mutusake kanggo ngembangake.

Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Miturut statistik saka Institut Uptime, mayoritas kedadean ing pusat data ana hubungane karo kegagalan sistem pasokan listrik-iku 39% saka kedadeyan. Dheweke diterusake dening faktor manungsa, sing nyebabake 24% kacilakan liyane. Alasan paling penting nomer telu (15%) yaiku kegagalan sistem AC, lan ing posisi kaping papat (12%) yaiku bencana alam. Jumlah total masalah liyane mung 10%. Tanpa takon data saka organisasi sing dihormati, kita bakal nyorot soko umum ing macem-macem kacilakan lan nyoba kanggo mangerteni apa padha bisa nyingkiri. Spoiler: iku bisa ing paling kasus.

Ilmu Kontak

Kanthi prasaja, mung ana rong masalah karo sumber daya: ora ana kontak ing ngendi wae, utawa ana kontak sing ora ana kontak. Sampeyan bisa ngomong kanggo dangu babagan linuwih sistem sumber daya uninterruptible modern, nanging padha ora tansah nyimpen. Njupuk kasus dhuwur ing pusat data sing digunakake dening British Airways, sing diduweni dening perusahaan induk International Airlines Group. Ana rong properti sing ana ing cedhak Bandara Heathrow - Boadicea House lan Comet House. Kaping pisanan, tanggal 27 Mei 2017, ana gangguan listrik sing ora disengaja, sing nyebabake kakehan lan gagal sistem UPS. AkibatΓ©, sawetara saka peralatan IT rusak fisik, lan bilai paling anyar njupuk telung dina kanggo ngatasi.

Maskapai kasebut kudu mbatalake utawa njadwal maneh luwih saka sewu penerbangan, kira-kira 75 ewu penumpang ora bisa mabur ing wektu - $ 128 yuta dibuwang kanggo mbayar ganti rugi, ora ngetung biaya sing dibutuhake kanggo mulihake fungsi pusat data. Sejarah sebab-sebab pemadaman ora jelas. Yen sampeyan yakin asil investigasi internal sing diumumake dening CEO International Airlines Group Willie Walsh, iki amarga kesalahan para insinyur. Nanging, sistem sumber daya sing ora bisa diganggu kudu tahan mati - mulane dipasang. Pusat data dikelola dening spesialis saka perusahaan outsourcing CBRE Managed Services, mula British Airways nyoba mbalekake jumlah karusakan liwat pengadilan London.

Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Pemadaman listrik dumadi ing skenario sing padha: pisanan ana pemadaman amarga kesalahan pemasok listrik, kadhangkala amarga cuaca sing ala utawa masalah internal (kalebu kesalahan manungsa), banjur sistem pasokan listrik sing ora bisa diganggu ora bisa ngatasi beban utawa kekurangan. -interupsi jangka gelombang sinus nyebabake kegagalan akeh layanan, nyebabake pemugaran sing mbutuhake wektu lan dhuwit akeh. Apa bisa nyingkiri kacilakan kaya ngono? temtunipun. Yen sampeyan ngrancang sistem kanthi bener, malah sing nggawe pusat data gedhe ora kebal saka kesalahan.

Faktor manungsa

Nalika panyebab langsung kedadeyan yaiku tumindak salah saka personel pusat data, masalah sing paling asring (nanging ora mesthi) mengaruhi bagean piranti lunak infrastruktur IT. Kacilakan kasebut kedadeyan sanajan ing perusahaan gedhe. Ing Februari 2017, amarga anggota tim sing direkrut kanthi salah saka grup operasi teknis salah sawijining pusat data, bagean saka server Layanan Web Amazon dipateni. Ana kesalahan nalika debugging proses tagihan kanggo pelanggan panyimpenan awan Amazon Simple Storage Service (S3). Pegawe nyoba mbusak sawetara server virtual sing digunakake dening sistem tagihan, nanging kenek kluster luwih gedhe.

Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Minangka asil kesalahan insinyur, server sing nganggo modul piranti lunak panyimpenan maya Amazon sing penting wis dibusak. Sing kena pengaruh pisanan yaiku subsistem indeksasi, sing ngemot informasi babagan metadata lan lokasi kabeh obyek S3 ing wilayah AS-EAST-1 Amerika. Kedadeyan kasebut uga mengaruhi subsistem sing digunakake kanggo host data lan ngatur papan sing kasedhiya kanggo panyimpenan. Sawise mbusak mesin virtual, loro subsistem kasebut mbutuhake wiwitan maneh, banjur insinyur Amazon kaget - suwene, panyimpenan awan umum ora bisa nglayani panjaluk pelanggan.

Dampak kasebut nyebar, amarga akeh sumber daya gedhe nggunakake Amazon S3. Pemadaman kasebut kena pengaruh Trello, Coursera, IFTTT lan, sing paling ora nyenengake, layanan mitra Amazon utama saka dhaptar S & P 500. Kerusakan ing kasus kaya mengkono angel dietung, nanging ana ing wilayah atusan yuta dolar AS. Kaya sing sampeyan ngerteni, prentah sing salah cukup kanggo mateni layanan platform maya paling gedhe. Iki dudu kasus sing terisolasi; ing 16 Mei 2019, sajrone karya pangopènan, layanan Yandex.Cloud dibusak mesin virtual pangguna ing zona ru-central1-c sing ana ing status SUSPENDED ing paling sapisan. Data klien wis rusak ing kene, sawetara sing ilang ora bisa dipulihake. Mesthi, wong ora sampurna, nanging sistem keamanan informasi modern wis suwe bisa ngawasi tumindak pangguna sing duwe hak istimewa sadurunge nglakokake prentah sing dilebokake. Yen solusi kasebut ditindakake ing Yandex utawa Amazon, kedadeyan kasebut bisa dihindari.

Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Pendinginan beku

Ing Januari 2017, kacilakan gedhe dumadi ing pusat data Dmitrov saka perusahaan Megafon. Banjur suhu ing wilayah Moskow mudhun nganti -35 Β°C, sing nyebabake kegagalan sistem pendinginan fasilitas kasebut. Layanan pers operator ora ngomong babagan alasan kedadeyan kasebut - perusahaan Rusia banget wegah ngomong babagan kacilakan ing fasilitas sing diduweni; ing babagan publisitas, kita ketinggalan adoh saka Kulon. Ana versi sing nyebar ing jaringan sosial babagan pembekuan coolant ing pipa sing dipasang ing dalan lan bocor etilena glikol. Miturut dheweke, layanan operasi ora bisa cepet entuk 30 ton saka coolant amarga preian dawa lan metu nggunakake sarana improvised, ngatur improvised free-cooling ing nglanggar aturan kanggo operasi sistem. Kadhemen sing parah nambah masalah - ing wulan Januari, musim dingin tiba-tiba nyerang Rusia, sanajan ora ana sing ngarepake. AkibatΓ©, staf kudu mateni daya menyang bagean saka rak server, mula sawetara layanan operator ora kasedhiya sajrone rong dina.

Penyebab utama kacilakan ing pusat data yaiku gasket ing antarane komputer lan kursi

Mbokmenawa, kita bisa ngomong babagan anomali cuaca ing kene, nanging frosts kasebut ora aneh kanggo wilayah ibukutha. Suhu ing musim dingin ing wilayah Moskow bisa mudhun nganti tingkat sing luwih murah, mula pusat data dibangun kanthi pangarep-arep operasi stabil ing βˆ’42Β°C. Paling asring, sistem pendinginan gagal ing cuaca sing adhem amarga konsentrasi glikol sing ora cukup dhuwur lan keluwihan banyu ing larutan coolant. Ana uga masalah karo instalasi pipo utawa miscalculations ing desain lan testing saka sistem, utamanΓ© gadhah kepinginan kanggo nyimpen dhuwit. AkibatΓ©, ana kacilakan serius, sing bisa dicegah.

Bencana alam

Paling asring, badai petir lan/utawa angin topan ngganggu infrastruktur teknik pusat data, nyebabake gangguan layanan lan/utawa karusakan fisik kanggo peralatan. Kedadeyan sing disebabake dening cuaca sing ora becik kedadeyan cukup kerep. Ing 2012, Hurricane Sandy nyabrang pesisir Kulon ing Amerika Serikat kanthi udan deres. Dumunung ing bangunan dhuwur ing Lower Manhattan, pusat data Peer 1 ilang sumber daya external, sawise banyu segara asin mbanjiri ruang paling ngisor. Generator darurat fasilitas kasebut ana ing lantai 18, lan pasokan bahan bakar diwatesi - aturan sing diidinake ing New York sawise serangan teroris 9/11 nglarang nyimpen bahan bakar akeh ing lantai ndhuwur.

Pompa bahan bakar uga gagal, mula para staf ngenteni sawetara dina kanggo ngeterake diesel menyang generator kanthi tangan. Kepahlawanan tim nylametake pusat data saka kacilakan serius, nanging pancen perlu? Kita manggon ing planet kanthi atmosfer nitrogen-oksigen lan akeh banyu. Badai petir lan angin topan umum ing kene (utamane ing wilayah pesisir). Desainer bisa uga mikir babagan risiko lan mbangun sistem pasokan listrik sing ora bisa diganggu. Utawa paling ora milih lokasi sing luwih cocok kanggo pusat data tinimbang bangunan dhuwur ing sawijining pulo.

Kabeh liyane

Uptime Institute ngenali macem-macem kedadean ing kategori iki, antarane kang angel kanggo milih sing khas. Maling kabel tembaga, mobil nabrak pusat data, saluran listrik ndhukung lan gardu trafo, kebakaran, operator excavator ngrusak optik, rodents (tikus, terwelu lan malah wombat, sing sejatine marsupial), uga sing seneng latihan shooting ing. kabel - menu iku ekstensif. Gagal daya malah bisa nyebabake nyolong listrik perkebunan ganja ilegal. Umume kasus, wong tartamtu dadi panyebab kedadeyan kasebut, yaiku kita lagi ngatasi faktor manungsa, nalika masalah kasebut duwe jeneng lan jenenge. Sanajan sepisanan, kacilakan kasebut ana gandhengane karo kerusakan teknis utawa bencana alam, bisa dihindari yen fasilitas kasebut dirancang lan dioperasikake kanthi bener. Pengecualian mung kasus karusakan kritis ing infrastruktur pusat data utawa karusakan bangunan lan struktur amarga bencana alam. Iki pancene kahanan force majeure, lan kabeh masalah liyane disebabake gasket antarane komputer lan dhingklik - mbok menawa iki minangka bagΓ©an paling ora bisa dipercaya saka sistem Komplek.

Source: www.habr.com

Add a comment