Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Kepala departemen operasi naik ke pintu fasilitas penyimpanan bahan bakar bawah tanah untuk menunjukkan tanda pada katup solenoid.

Pada awal Februari, pusat data Tier III terbesar kami UTARA-4 Disertifikasi ulang oleh Uptime Institute (UI) dengan standar Keberlanjutan Operasional. Hari ini kami akan memberi tahu Anda apa yang dilihat oleh auditor dan hasil apa yang kami peroleh.

Bagi yang familiar dengan pusat data, mari kita bahas secara singkat perangkat kerasnya. Standar Tingkat mengevaluasi dan mensertifikasi pusat data pada tiga tahap:

  • proyek (Desain): paket dokumentasi proyek diperiksa. Ini yang terkenal tingkat. Totalnya ada 4: Tingkat I–IV. Oleh karena itu, yang terakhir adalah yang tertinggi.
  • fasilitas yang dibangun (Fasilitas): infrastruktur teknik pusat data diperiksa dan kepatuhannya dengan proyek. Pusat data diperiksa di bawah beban desain penuh menggunakan berbagai pengujian dengan konten kira-kira sebagai berikut: salah satu UPS (DGS, pendingin, AC presisi, lemari distribusi, busbar, dll.) tidak dapat digunakan untuk pemeliharaan atau perbaikan , dan pasokan listrik kota dimatikan. . Pusat data Tier III dan di atasnya harus mampu menangani situasi ini tanpa berdampak pada muatan TI.

    Fasilitas dapat diambil jika data center telah lulus sertifikasi Desain.
    NORD-4 menerima sertifikat Desain pada tahun 2015, dan Fasilitas pada tahun 2016.

  • Keberlanjutan Operasional. Padahal, sertifikasi paling penting dan kompleks. Ini mengevaluasi secara komprehensif proses dan kompetensi operator dalam memelihara dan mengelola pusat data dengan tingkat Tier yang ditetapkan (untuk lulus Keberlanjutan Operasional, Anda harus sudah memiliki sertifikat Fasilitas). Lagi pula, tanpa proses operasional yang terstruktur dengan baik dan tim yang berkualitas, bahkan pusat data Tier IV pun dapat berubah menjadi bangunan tidak berguna dengan peralatan yang sangat mahal.

    Ada juga level di sini: Perunggu, Perak, dan Emas. Pada sertifikasi ulang terakhir kami menyelesaikannya dengan skor 88,95 dari 100 kemungkinan poin, dan ini adalah Perak. Nilainya kurang dari Emas - 1,05 poin. 

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Bagaimana cara memeriksa apakah proses yang diperlukan telah dibangun dan berfungsi sebagaimana mestinya? Apalagi caranya dalam dua hari - itulah waktu yang dibutuhkan untuk sertifikasi ulang. Singkatnya, sertifikasi didasarkan pada perbandingan yang cermat atas apa yang tertulis dalam peraturan, cerita tentang “cara kerja” dan praktik nyata. Informasi tentang hal terakhir ini diperoleh dari penelusuran pusat data dan percakapan dengan teknisi pusat data - “konfrontasi”, begitu kami menyebutnya. Itulah yang mereka lihat.

Tim

Pertama-tama, auditor UI memeriksa apakah pusat data memiliki staf pendukung yang cukup. Mereka mengambil tabel kepegawaian, jadwal tugas dan secara selektif memeriksanya dengan laporan shift dan data kontrol akses untuk memastikan bahwa jumlah insinyur yang dibutuhkan benar-benar ada di lokasi pada hari itu.

Auditor juga mencermati jumlah jam lembur. Hal ini terkadang terjadi ketika klien besar datang dan lusinan rak perlu dipasang pada saat yang bersamaan. Pada saat seperti itu, orang-orang dari shift lain datang untuk menyelamatkan, dan mereka dibayar uang ekstra untuk ini.

Ada 4 insinyur yang mengerjakan NORD-7 per shift: 6 bertugas dan satu insinyur senior. Merekalah yang memantau pemantauan 24x7, bertemu klien, membantu pemasangan peralatan dan permintaan rutin lainnya. Ini adalah lini pertama dukungan teknis pelanggan. Tanggung jawab mereka termasuk mencatat situasi darurat dan meneruskannya ke teknisi khusus. Pekerjaan infrastruktur teknik dipantau oleh individu - petugas jaga infrastruktur. Juga 24x7.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Direktur produksi dan manajer lokasi NORD memberi tahu auditor berapa banyak orang yang bekerja di lokasi saat ini.

Ketika nomor diurutkan, kualifikasi tim diperiksa. Auditor secara acak meninjau arsip personel insinyur untuk memastikan bahwa mereka memiliki ijazah, sertifikat, dan dokumen otorisasi yang diperlukan (misalnya, sertifikat keselamatan kelistrikan) untuk bekerja di posisi tertentu.

Mereka juga memeriksa cara kami melatih staf kami. Bahkan selama audit terakhir, sistem kami untuk melatih teknisi tugas baru telah mengesankan para spesialis UI. Kami menghabiskan tiga bulan untuk mereka kursus pelatihan sebagai magang berbayar, di mana kami memperkenalkan mereka pada proses dan prinsip kerja di pusat data kami.

Insinyur yang sudah bekerja juga harus menjalani pelatihan rutin, termasuk bekerja dalam situasi darurat. Auditor pasti akan memeriksa program pelatihan dan materi pelatihan tersebut, serta memeriksa para insinyur secara acak. Tidak seorang pun akan diminta untuk beralih ke genset diesel, namun mereka akan diminta untuk memberi tahu Anda langkah demi langkah apa yang perlu dilakukan ketika pasokan listrik kota dimatikan. Berdasarkan hasil audit, kami akan membawa semua program pelatihan dan pendidikan ke dalam satu standar sehingga tidak berbeda untuk tim yang berbeda.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Kami menunjukkan kepada auditor ruang istirahat untuk shift engineer.

Pengoperasian dan pemeliharaan sistem rekayasa 

Dalam audit bagian besar ini, kami menunjukkan bahwa semua peralatan dan sistem teknik menerima perawatan rutin sesuai dengan jadwal yang direkomendasikan oleh vendor, gudang memiliki suku cadang yang diperlukan, perjanjian layanan yang valid dengan kontraktor, dan setiap operasi dengan peralatan memiliki miliknya sendiri. prosedur dan algoritma untuk mengerjakan kasus yang berbeda.

mms. Saat Anda mengoperasikan lusinan UPS, genset diesel, AC, dan lainnya, Anda perlu mengumpulkan semua informasi tentang fasilitas ini di suatu tempat. Kami membuat kira-kira berkas berikut untuk setiap peralatan:

  • model dan nomor seri;
  • menandai;
  • karakteristik dan pengaturan teknis;
  • lokasi pemasangan;
  • tanggal produksi, commissioning, berakhirnya garansi;
  • kontrak layanan;
  • jadwal dan riwayat pemeliharaan;
  • dan keseluruhan "riwayat kesehatan" - kerusakan, perbaikan.

Bagaimana dan di mana mengumpulkan semua informasi ini terserah masing-masing operator pusat data untuk memutuskan sendiri. UI tidak terbatas pada alat. Ini bisa berupa Excel sederhana (kami memulainya dengan ini) atau Sistem Manajemen Pemeliharaan (MMS) yang ditulis sendiri, seperti yang kami miliki sekarang. Omong-omong, meja pelayanan, akuntansi gudang, log online, pemantauan juga ditulis sendiri.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Ada “file pribadi” untuk setiap peralatan.

Kami mendemonstrasikan praktik kami dalam hal ini, termasuk menggunakan contoh infrastruktur UPS (gambar), yang mendonasikan salah satu bagiannya ke UPS yang melayani beban TI. Ya, sesuai standar, “donasi” tersebut hanya dapat dilakukan oleh peralatan infrastruktur yang menggerakkan AC dan penerangan darurat, tetapi tidak dapat dilakukan oleh beban IT.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Setelah itu, auditor diminta untuk menunjukkan tiket terkait di Service Desk:

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Dan profil UPS di MMS:

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Suku cadang Untuk pemeliharaan tepat waktu dan perbaikan darurat peralatan teknik, kami menyimpan suku cadang dan aksesori kami sendiri. Terdapat gudang umum dengan suku cadang peralatan yang besar dan lemari kecil dengan suku cadang di ruang teknik (sehingga tidak perlu lari jauh).

Foto: kami sedang mengecek ketersediaan spare part genset diesel. Kami menghitung 12 filter. Kemudian mereka memeriksa data di MMS.  

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Latihan serupa dilakukan di gudang utama, tempat penyimpanan suku cadang berukuran besar: kompresor, pengontrol, otomatisasi, kipas angin, pelembab uap, dan ratusan item lainnya. Kami secara selektif menulis ulang penandaannya dan “menerobosnya” melalui MMS.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Data persediaan suku cadang. Merah - Inilah yang hilang dan perlu dibeli.

Pemeliharaan preventif. Selain pemeliharaan dan perbaikan, UI menyarankan untuk melakukan pemeliharaan preventif. Ini membantu mengubah potensi kecelakaan menjadi perbaikan terencana. Untuk setiap parameter, kami mengonfigurasi nilai ambang batas dalam pemantauan. Jika terlampaui, pihak yang bertanggung jawab akan menerima peringatan dan mengambil tindakan yang diperlukan. Misalnya, kami:

  • Kami memeriksa panel listrik dengan pencitraan termal untuk segera mendeteksi cacat pada instalasi listrik: kontak yang buruk, panas berlebih pada konduktor atau pemutus arus. 
  • Kami memantau indikator getaran dan konsumsi pompa sistem pendingin saat ini. Hal ini memungkinkan Anda mengidentifikasi penyimpangan waktu dan merencanakan penggantian suku cadang tanpa tergesa-gesa.
  • Kami melakukan analisis bahan bakar dan oli pada genset diesel dan kompresor.
  • Kami menguji glikol dalam sistem pendingin untuk mengetahui konsentrasinya.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Diagram getaran pompa sebelum dan sesudah perbaikan.

Bekerja dengan kontraktor. Pemeliharaan dan perbaikan peralatan dilakukan oleh kontraktor eksternal. Di pihak kami, terdapat spesialis terpisah di bidang genset diesel, AC, dan UPS yang mengontrol pengoperasiannya. Mereka memeriksa apakah kontraktor memiliki alat dan bahan yang diperlukan untuk pekerjaan perbaikan/pemeliharaan, sertifikat profesional, sertifikat keselamatan kelistrikan, dan izin. Mereka menerima semua pekerjaan.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Seperti inilah checklist penerimaan pekerjaan perawatan AC.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Di kantor izin, kami memeriksa apakah izin tersebut dikeluarkan untuk perwakilan resmi kontraktor, apakah mereka menjalani pemeliharaan pada waktu yang ditentukan dan apakah mereka telah membaca peraturan.

Dokumentasi. Proses yang ditetapkan untuk memelihara sistem dan peralatan adalah setengah dari perjuangan. Semua prosedur yang dilakukan oleh manusia di pusat data harus didokumentasikan. Tujuannya sederhana: agar semuanya tidak terbatas pada satu orang tertentu, dan jika terjadi kecelakaan, insinyur mana pun dapat mengambil instruksi yang jelas dan melakukan semua operasi yang diperlukan untuk menghilangkannya.

UI mempunyai metodologi sendiri untuk dokumentasi tersebut.

Untuk kegiatan yang sederhana dan berulang, ditetapkan prosedur operasi standar (SOP). Misalnya, ada SOP untuk menghidupkan/mematikan chiller dan mengatur UPS agar bypass.

Untuk pemeliharaan atau pengoperasian yang kompleks, seperti penggantian baterai pada UPS, prosedur pemeliharaan (Metode Prosedur, MOP) dibuat. Ini mungkin termasuk SOP. Setiap jenis peralatan teknik pasti memiliki MOP masing-masing.

Terakhir, ada Prosedur Operasi Darurat (EOP)—instruksi jika terjadi keadaan darurat. Daftar situasi darurat tertentu disusun dan instruksi ditulis untuk situasi tersebut. Berikut adalah bagian dari daftar situasi darurat, yang merinci tanda-tanda kecelakaan, tindakan, orang yang bertanggung jawab, dan orang yang harus diberitahukan:

  • penutupan pasokan listrik kota: genset diesel menyala/tidak menyala;
  • kecelakaan UPS; 
  • kecelakaan pada sistem pemantauan pusat data;
  • ruang mesin terlalu panas;
  • kebocoran sistem pendingin;
  • kegagalan pada jaringan dan peralatan komputasi;

dan seterusnya.

Mengumpulkan dokumentasi sebanyak itu merupakan tugas yang memakan banyak tenaga. Bahkan lebih sulit lagi untuk selalu memperbaruinya (omong-omong, auditor juga memeriksanya). Dan yang paling penting, staf harus mengetahui instruksi ini, bekerja sesuai dengan instruksi tersebut dan melakukan perbaikan jika diperlukan.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Ya, instruksi harus tersedia jika diperlukan, dan tidak hanya mengumpulkan debu di arsip.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
Catatan tentang perubahan peraturan pemeliharaan sistem rekayasa pusat data.

Selama audit, mereka juga melihat dokumentasi teknis pada sistem, dokumentasi eksekutif dan kerja, serta tindakan dalam mengoperasikan sistem. 

Menandai Sambil berjalan di sekitar pusat data, mereka memeriksanya di mana pun yang bisa mereka jangkau. Dimana mereka tidak dapat mencapainya, mereka mencapainya dari tangga :). Kami melihat keberadaannya di setiap switchboard, mesin, dan katup. Kami memeriksa keunikan, ketidakjelasan, dan kesesuaian dengan skema terkini dari dokumentasi yang dibuat. Pada foto di bawah: kami berada di ruang pompa penyimpanan bahan bakar membandingkan tanda pada katup solenoid dengan diagram dokumentasi yang dibuat. 

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Semuanya setuju dengannya, tetapi dengan diagram aksonometri “dekoratif” lokal di dinding dalam satu parameter, itu tidak sesuai.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Diagram sistem yang terletak di sana juga harus dipasang di lokasi pusat data. Jika terjadi kecelakaan, mereka membantu Anda dengan cepat mengetahui di mana segala sesuatunya berada dan membuat keputusan yang tepat. Foto, misalnya, menunjukkan diagram garis tunggal di ruang switchboard utama.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Relevansi diagram diperiksa dengan cara berikut: mereka menamai elemen yang menandai diagram dan meminta untuk menunjukkannya “dalam kehidupan nyata”. 

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Di sinilah auditor mengambil foto pengaturan (setting) pemutus sirkuit input switchboard utama, untuk kemudian membandingkannya dengan indikator pada diagram garis tunggal dalam salinan kertas dan elektronik. Di salah satu mesin, QF-3, indikatornya tidak sesuai dengan diagram kertas, dan kami mendapat poin penalti. Sekarang dua orang insinyur akan memeriksa apakah penandaan pada diagram garis tunggal sesuai dengan fakta.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Bukan hanya itu saja yang diperiksa auditor dalam kaitannya dengan proses pelayanan. Berikut agenda lainnya:

  • sistem pemantauan. Di sini kami memperoleh manfaat karma dengan visualisasi yang baik, kehadiran aplikasi seluler, dan layar situasional yang ditempatkan di koridor pusat data. Di sini kami menulis secara rinci tentang cara kami bekerja pemantauan.

    Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute
    Ini adalah PKS dengan informasi visual tentang status sistem rekayasa utama NORD-4 dan pusat data kami lainnya yang bekerja di lokasi.

  • perencanaan siklus hidup peralatan teknik;
  • manajemen kapasitas (manajemen kapasitas);
  • penganggaran (berbicara sedikit di sini);
  • prosedur analisis kecelakaan;
  • proses penerimaan, commissioning, dan pengujian peralatan (kami menulis tentang pengujian di sini).

Apa lagi yang dilihat UI?

Keamanan dan kontrol akses. Audit tersebut juga memeriksa pengoperasian sistem keselamatan dan keamanan. Misalnya, auditor mencoba masuk ke salah satu ruangan di mana dia tidak memiliki akses, dan kemudian memeriksa apakah hal ini tercermin dalam sistem kontrol akses dan apakah pihak keamanan diberitahu tentang hal ini (spoiler - memang demikian).

Jika di pusat data kami pintu ke ruangan mana pun tetap terbuka selama lebih dari dua menit, maka peringatan akan dipicu di pos keamanan. Untuk mengujinya, auditor membuka salah satu pintu dengan alat pemadam kebakaran. Benar, kami tidak pernah mendapat sirene - petugas keamanan melihat ada yang tidak beres melalui kamera video dan tiba di “TKP” lebih awal.

Ketertiban dan kebersihan. Auditor mencari debu, kotak peralatan yang berserakan, dan seberapa sering ruangan dibersihkan. Di sini, misalnya, auditor menjadi tertarik pada objek tak dikenal di koridor ventilasi. Ini adalah blok dari sistem ventilasi, yang sudah bersiap untuk menggantikannya. Tapi mereka tetap meminta saya untuk menandatanganinya.

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Juga mengenai topik ketertiban di pusat data - lemari dengan semua peralatan yang diperlukan untuk pekerjaan darurat pada peralatan terletak di ruang switchboard utama. 

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Lokasi Pusat data dinilai berdasarkan kondisi lokasi - apakah terdapat pangkalan militer, bandara, sungai, gunung berapi, dan objek berbahaya lainnya di dekatnya. Dalam foto tersebut kami hanya menunjukkan bahwa sejak sertifikasi terakhir pada tahun 2017, tidak ada pembangkit listrik tenaga nuklir atau fasilitas penyimpanan minyak yang tumbuh di sekitar pusat data. Namun di sana, pusat data NORD-5 baru sedang dibangun, yang juga harus lulus semua tingkat sertifikasi Uptime Institute Tier III. Tapi itu cerita yang sama sekali berbeda).

Dan tunjukkan, atau Bagaimana kami lulus audit Keberlanjutan Operasional di Uptime Institute

Sumber: www.habr.com

Tambah komentar