Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Ketua jabatan operasi naik ke pintu masuk kemudahan penyimpanan bahan api bawah tanah untuk menunjukkan tanda pada injap solenoid.

Pada awal Februari, pusat data Tahap III terbesar kami NORD-4 Diperakui semula oleh Uptime Institute (UI) kepada standard Kelestarian Operasi. Hari ini kami akan memberitahu anda apa yang juruaudit sedang lihat dan hasil yang kami selesaikan.

Bagi mereka yang biasa dengan pusat data, mari kita lihat perkakasan secara ringkas. Piawaian Peringkat menilai dan memperakui pusat data pada tiga peringkat:

  • projek (Reka Bentuk): pakej dokumentasi projek disemak Di sini yang terkenal Tahap. Terdapat 4 daripadanya secara keseluruhan: Peringkat I–IV. Yang terakhir adalah, oleh itu, yang tertinggi.
  • kemudahan yang dibina (Kemudahan): infrastruktur kejuruteraan pusat data diperiksa dan pematuhannya dengan projek. Pusat data diperiksa di bawah beban reka bentuk penuh menggunakan pelbagai ujian dengan lebih kurang kandungan berikut: salah satu UPS (DGS, penyejuk, penghawa dingin ketepatan, kabinet pengedaran, bar bas, dll.) dikeluarkan daripada perkhidmatan untuk penyelenggaraan atau pembaikan. , dan bekalan kuasa bandar dimatikan. . Pusat data Tahap III dan ke atas seharusnya dapat menangani keadaan tanpa sebarang kesan ke atas muatan IT.

    Kemudahan boleh diambil jika pusat data telah lulus pensijilan Reka bentuk.
    NORD-4 menerima sijil Reka Bentuknya pada 2015, dan Fasiliti pada 2016.

  • Kelestarian Operasi. Malah, pensijilan yang paling penting dan kompleks. Ia menilai secara menyeluruh proses dan kecekapan pengendali dalam menyelenggara dan mengurus pusat data dengan tahap Tahap yang mantap (untuk lulus Kelestarian Operasi, anda mesti sudah mempunyai sijil Kemudahan). Lagipun, tanpa proses operasi yang tersusun dengan betul dan pasukan yang berkelayakan, pusat data Tahap IV pun boleh bertukar menjadi bangunan yang tidak berguna dengan peralatan yang sangat mahal.

    Terdapat juga tahap di sini: Gangsa, Perak dan Emas. Pada pensijilan semula terakhir kami selesai dengan skor 88,95 daripada 100 mata yang mungkin, dan ini adalah Perak. Ia hanya kurang daripada Emas - 1,05 mata. 

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Bagaimana untuk menyemak bahawa proses yang diperlukan dibina dan berfungsi sebagaimana mestinya? Selain itu, cara melakukannya dalam dua hari - itulah tempoh masa yang diperlukan untuk pensijilan semula. Ringkasnya, pensijilan adalah berdasarkan perbandingan yang teliti tentang apa yang tertulis dalam peraturan, cerita tentang "bagaimana semuanya berfungsi" dan amalan sebenar. Maklumat tentang yang terakhir ini diperolehi daripada berjalan-jalan pusat data dan perbualan dengan jurutera pusat data - "konfrontasi", seperti yang kita mesra memanggil mereka. Itulah yang mereka lihat.

Pasukan

Pertama sekali, juruaudit UI menyemak sama ada pusat data mempunyai kakitangan sokongan yang mencukupi. Mereka mengambil jadual kakitangan, jadual bertugas dan menyemaknya secara terpilih dengan laporan syif dan data kawalan akses untuk memastikan bilangan jurutera yang diperlukan benar-benar berada di tapak pada hari itu.

Juruaudit juga melihat dengan teliti bilangan jam kerja lebih masa. Ini kadangkala berlaku apabila pelanggan besar masuk dan berpuluh-puluh rak perlu dipasang pada masa yang sama. Pada saat seperti itu, lelaki dari syif lain datang untuk menyelamatkan, dan mereka dibayar wang tambahan untuk ini.

Terdapat 4 jurutera yang bekerja di NORD-7 setiap syif: 6 bertugas dan seorang jurutera kanan. Mereka inilah yang memantau pemantauan 24x7, bertemu pelanggan, membantu pemasangan peralatan dan permintaan rutin lain. Ini adalah barisan pertama sokongan teknikal pelanggan. Tanggungjawab mereka termasuk merekod situasi kecemasan dan meningkatkannya kepada jurutera khusus. Kerja infrastruktur kejuruteraan dipantau oleh individu individu - pegawai tugas infrastruktur. Juga 24x7.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Pengarah pengeluaran dan pengurus tapak NORD memberitahu juruaudit bilangan orang yang bekerja di tapak sekarang.

Apabila nombor disusun, kelayakan pasukan disemak. Juruaudit menyemak fail kakitangan jurutera secara rawak untuk memastikan bahawa mereka mempunyai diploma, sijil dan dokumen kebenaran yang diperlukan (contohnya, sijil keselamatan elektrik) untuk bekerja dalam jawatan tertentu.

Mereka juga menyemak cara kami melatih kakitangan kami. Walaupun semasa audit terakhir, sistem kami untuk melatih jurutera tugas baharu telah menarik perhatian pakar UI. Kami menghabiskan tiga bulan untuk mereka kursus latihan sebagai latihan amali berbayar, di mana kami memperkenalkan mereka kepada proses dan prinsip kerja di pusat data kami.

Jurutera yang sudah bekerja juga mesti menjalani latihan tetap, termasuk bekerja dalam situasi kecemasan. Juruaudit pasti akan menyemak program latihan dan bahan latihan tersebut, dan juga memeriksa jurutera secara rawak. Tiada siapa yang akan diminta untuk menukar kepada set penjana diesel, tetapi mereka akan diminta untuk memberitahu anda langkah demi langkah perkara yang perlu dilakukan apabila bekalan kuasa bandar dimatikan. Berdasarkan keputusan audit, kami akan membawa semua program latihan dan pendidikan kepada satu standard supaya ia tidak berbeza untuk pasukan yang berbeza.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Kami menunjukkan kepada juruaudit ruang rehat untuk jurutera syif.

Operasi dan penyelenggaraan sistem kejuruteraan 

Dalam bahagian besar audit ini, kami menunjukkan bahawa semua peralatan dan sistem kejuruteraan menerima penyelenggaraan berkala mengikut jadual yang disyorkan oleh vendor, gudang mempunyai alat ganti yang diperlukan, perjanjian perkhidmatan yang sah dengan kontraktor, dan setiap operasi dengan peralatan mempunyai peralatan sendiri. prosedur dan algoritma untuk bekerja pada kes yang berbeza.

MMS. Apabila anda mengendalikan berpuluh-puluh UPS, set penjana diesel, penghawa dingin dan lain-lain, anda perlu mengumpul semua maklumat tentang kemudahan ini di suatu tempat. Kami membuat kira-kira dokumen berikut untuk setiap peralatan:

  • model dan nombor siri;
  • menandakan;
  • ciri teknikal dan tetapan;
  • tapak pemasangan;
  • tarikh pengeluaran, pentauliahan, tamat tempoh waranti;
  • kontrak perkhidmatan;
  • jadual penyelenggaraan dan sejarah;
  • dan keseluruhan "sejarah perubatan" - kerosakan, pembaikan.

Bagaimana dan di mana untuk mengumpul semua maklumat ini terpulang kepada setiap pengendali pusat data untuk memutuskan sendiri. UI tidak terhad dalam alatan. Ini boleh menjadi Excel mudah (kita mulakan dengan ini) atau Sistem Pengurusan Penyelenggaraan (MMS) yang ditulis sendiri, seperti yang kita ada sekarang. By the way, meja perkhidmatan, perakaunan gudang, log dalam talian, pemantauan juga ditulis sendiri.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Terdapat "fail peribadi" sedemikian untuk setiap peralatan.

Kami menunjukkan amalan kami dalam hal ini, termasuk menggunakan contoh UPS infrastruktur ini (gambar), yang menyumbangkan salah satu bahagiannya kepada UPS yang menyediakan beban IT. Ya, mengikut piawaian, "derma" sedemikian hanya boleh dilakukan oleh peralatan infrastruktur yang memberi kuasa kepada penghawa dingin dan lampu kecemasan, tetapi bukan beban IT.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Selepas itu, juruaudit meminta untuk menunjukkan tiket yang sepadan di Meja Perkhidmatan:

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Dan profil UPS dalam MMS:

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Alat ganti Untuk penyelenggaraan tepat pada masanya dan pembaikan kecemasan peralatan kejuruteraan, kami menyimpan alat ganti dan aksesori kami sendiri. Terdapat gudang am dengan alat ganti yang besar untuk peralatan dan kabinet kecil dengan alat ganti di dalam bilik kejuruteraan (supaya anda tidak perlu berlari jauh).

Dalam foto: kami sedang menyemak ketersediaan alat ganti untuk set penjana diesel. Kami mengira 12 penapis. Kemudian kami menyemak data dalam MMS.  

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Latihan serupa telah dijalankan di gudang utama, di mana alat ganti besar disimpan: pemampat, pengawal, automasi, kipas, pelembap wap dan ratusan barang lain. Kami secara selektif menulis semula tanda dan "menebuk"nya melalui MMS.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Data inventori alat ganti. merah - Inilah yang hilang dan perlu dibeli.

Penyelenggaraan pencegahan. Selain penyelenggaraan dan pembaikan, UI mengesyorkan melakukan penyelenggaraan pencegahan. Ia membantu mengubah kemungkinan kemalangan menjadi pembaikan yang dirancang. Untuk setiap parameter, kami mengkonfigurasi nilai ambang dalam pemantauan. Jika melebihi, mereka yang bertanggungjawab menerima penggera dan mengambil tindakan yang perlu. Sebagai contoh, kami:

  • Kami menyemak panel elektrik dengan pengimejan terma untuk mengesan kecacatan pada pemasangan elektrik dengan cepat: sentuhan yang lemah, terlalu panas setempat pada konduktor atau pemutus litar. 
  • Kami memantau penunjuk getaran dan penggunaan semasa pam sistem penyejukan. Ini membolehkan anda mengenal pasti penyelewengan dalam masa dan merancang alat ganti tanpa tergesa-gesa.
  • Kami melakukan analisis bahan api dan minyak bagi set penjana diesel dan pemampat.
  • Kami menguji glikol dalam sistem penyejukan untuk kepekatan.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Gambar rajah getaran pam sebelum dan selepas pembaikan.

Bekerja dengan kontraktor. Penyelenggaraan dan pembaikan peralatan dijalankan oleh kontraktor luar. Di pihak kami, terdapat pakar berasingan dalam set penjana diesel, penghawa dingin dan UPS yang mengawal operasinya. Mereka menyemak sama ada kontraktor mempunyai alat dan bahan yang diperlukan untuk kerja pembaikan/penyelenggaraan, sijil profesional, sijil keselamatan elektrik dan permit. Mereka menerima semua kerja.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Inilah rupa senarai semak untuk menerima kerja penyelenggaraan penghawa dingin.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Di pejabat pas, kami menyemak sama ada pas dikeluarkan kepada wakil kontraktor yang diberi kuasa, sama ada mereka menjalani penyelenggaraan pada masa yang ditetapkan dan sama ada mereka telah membaca peraturan.

Dokumentasi. Proses yang ditetapkan untuk menyelenggara sistem dan peralatan adalah separuh daripada pertempuran. Semua prosedur yang dilakukan oleh manusia di pusat data mesti didokumenkan. Tujuannya adalah mudah: supaya semuanya tidak terhad kepada satu orang tertentu, dan sekiranya berlaku kemalangan, mana-mana jurutera boleh mengambil arahan yang jelas dan melakukan semua operasi yang diperlukan untuk menghapuskannya.

UI mempunyai metodologi tersendiri untuk dokumentasi tersebut.

Untuk aktiviti mudah dan berulang, prosedur operasi standard (SOP) diwujudkan. Sebagai contoh, terdapat SOP untuk menghidupkan/mematikan penyejuk dan menetapkan UPS untuk memintas.

Untuk penyelenggaraan atau operasi yang kompleks, seperti menggantikan bateri dalam UPS, prosedur penyelenggaraan (Kaedah Prosedur, MOP) dicipta. Ini mungkin termasuk SOP. Setiap jenis peralatan kejuruteraan mesti mempunyai MOP sendiri.

Akhir sekali, terdapat Prosedur Operasi Kecemasan (EOP)β€”arahan sekiranya berlaku kecemasan. Senarai situasi kecemasan khusus disusun dan arahan ditulis untuk mereka. Berikut ialah sebahagian daripada senarai situasi kecemasan, yang memperincikan tanda-tanda kemalangan, tindakan, orang yang bertanggungjawab dan orang yang perlu diberitahu:

  • penutupan bekalan kuasa bandar: set penjana diesel dimulakan/tidak dimulakan;
  • kemalangan UPS; 
  • kemalangan pada sistem pemantauan pusat data;
  • terlalu panas bilik mesin;
  • kebocoran sistem penyejukan;
  • kegagalan pada rangkaian dan peralatan pengkomputeran;

dan sebagainya.

Menyusun jumlah dokumentasi sedemikian adalah tugas intensif buruh itu sendiri. Lebih sukar untuk memastikannya dikemas kini (secara langsung, juruaudit juga menyemak perkara ini). Dan yang paling penting, kakitangan mesti tahu arahan ini, bekerja mengikutnya dan membuat penambahbaikan jika perlu.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Ya, arahan harus tersedia di tempat yang mungkin diperlukan, dan bukan hanya mengumpulkan habuk dalam arkib.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
Nota mengenai perubahan dalam peraturan penyelenggaraan untuk sistem kejuruteraan pusat data.

Semasa audit, mereka juga melihat dokumentasi teknikal mengenai sistem, dokumentasi eksekutif dan kerja, dan tindakan melaksanakan sistem. 

Menandakan. Semasa berjalan di sekitar pusat data, mereka menyemaknya di mana-mana yang mereka boleh capai. Di mana mereka tidak dapat mencapai, mereka sampai dari tangga :). Kami melihat kehadirannya pada setiap papan suis, mesin dan injap. Kami menyemak keunikan, ketidakjelasan dan pematuhan dengan skim semasa dokumentasi yang dibina. Dalam foto di bawah: kami berada di bilik pam simpanan bahan api membandingkan tanda pada injap solenoid dengan gambar rajah dokumentasi yang dibina. 

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Segala-galanya bersetuju dengannya, tetapi dengan gambarajah aksonometrik "hiasan" tempatan di dinding dalam satu parameter ia tidak bertepatan.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Gambar rajah sistem yang terletak di situ juga perlu disiarkan di premis pusat data. Sekiranya berlaku kemalangan, mereka membantu anda mengetahui dengan cepat di mana segala-galanya dan membuat keputusan termaklum. Foto, sebagai contoh, menunjukkan gambar rajah satu baris dalam bilik papan suis utama.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Perkaitan gambar rajah telah disemak dengan cara berikut: mereka menamakan tanda elemen pada rajah dan diminta untuk menunjukkannya "dalam kehidupan sebenar". 

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Di sinilah juruaudit mengambil gambar tetapan (tetapan) pemutus litar input papan suis utama, untuk membandingkannya kemudian dengan penunjuk pada rajah satu baris dalam salinan kertas dan elektronik. Pada salah satu mesin, QF-3, penunjuk tidak sepadan dengan gambar rajah kertas, dan kami memperoleh mata penalti. Kini dua jurutera akan menyemak sama ada tanda dalam rajah satu baris sesuai dengan fakta.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Ini bukan semua yang diperiksa oleh juruaudit dari segi proses perkhidmatan. Berikut ialah perkara lain dalam agenda:

  • sistem pemantauan. Di sini kami memperoleh faedah karma dengan visualisasi yang baik, kehadiran aplikasi mudah alih dan skrin situasi yang diletakkan di koridor pusat data. Di sini kami menulis secara terperinci tentang cara kami bekerja pemantauan.

    Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute
    Ini ialah MCC dengan maklumat visual tentang status sistem kejuruteraan utama NORD-4 dan pusat data kami yang lain yang berfungsi di tapak.

  • perancangan kitaran hayat peralatan kejuruteraan;
  • pengurusan kapasiti (pengurusan kapasiti);
  • belanjawan (bercakap sedikit di sini);
  • prosedur analisis kemalangan;
  • proses penerimaan, pentauliahan dan ujian peralatan (kami menulis tentang ujian di sini).

Apa lagi yang UI lihat?

Keselamatan dan kawalan akses. Audit juga menyemak operasi sistem keselamatan dan keselamatan. Sebagai contoh, juruaudit cuba masuk ke salah satu premis di mana dia tidak mempunyai akses, dan kemudian menyemak sama ada ini ditunjukkan dalam sistem kawalan akses dan sama ada keselamatan telah dimaklumkan mengenai perkara ini (spoiler - itu).

Jika di pusat data kami pintu ke mana-mana bilik kekal terbuka selama lebih daripada dua minit, maka amaran akan dicetuskan di pos keselamatan. Untuk menguji ini, juruaudit membuka salah satu pintu dengan alat pemadam api. Benar, kami tidak pernah mendapat siren - keselamatan melihat sesuatu yang tidak kena melalui kamera video dan tiba di "tempat kejadian jenayah" lebih awal.

Ketenteraman dan kebersihan. Juruaudit mencari habuk, kotak peralatan bergelimpangan, dan kekerapan premis dibersihkan. Di sini, sebagai contoh, juruaudit mula berminat dengan objek yang tidak dikenali di koridor pengudaraan. Ini adalah blok dari sistem pengudaraan, yang sudah bersedia untuk menggantikannya. Tetapi mereka masih meminta saya untuk menandatangani.

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Juga mengenai topik pesanan di pusat data - kabinet ini dengan semua alat yang diperlukan untuk kerja kecemasan pada peralatan terletak di bilik papan suis utama. 

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Lokasi Pusat data dinilai berdasarkan keadaan lokasi - sama ada terdapat pangkalan tentera, lapangan terbang, sungai, gunung berapi dan objek berbahaya lain yang berdekatan. Dalam foto, kami hanya menunjukkan bahawa sejak pensijilan terakhir pada 2017, tiada loji kuasa nuklear atau kemudahan penyimpanan minyak telah berkembang di sekitar pusat data. Tetapi di sana pusat data NORD-5 baharu sedang dibina, yang juga perlu lulus semua peringkat pensijilan Uptime Institute Tier III. Tetapi itu cerita yang sama sekali berbeza).

Dan tunjukkan, atau Bagaimana kami lulus audit Kelestarian Operasi di Uptime Institute

Sumber: www.habr.com

Tambah komen