Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3

Kami melanjutkan cerita kami tentang bagaimana kami mengubah sistem BMS di pusat data kami (Bagian 1, Bagian 2). Pada saat yang sama, kami tidak hanya menukar solusi dari satu vendor dengan vendor lainnya, namun mengembangkan sistem dari awal untuk memenuhi kebutuhan kami. Di akhir cerita kami, kami membagikan hasil kerja yang telah dilakukan dan solusi menarik yang mungkin berguna bagi Anda.

Antarmuka baru

Di sini, seperti kata mereka, lebih baik melihatnya sekali.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3Rak.

Mari kita lihat perbedaannya.

  • Pertama, itu adalah красиво обно. Perhatikan betapa mudahnya melacak beban pada modul PDU (“Bank” atau hanya “Bank”) dan jumlah beban paralel dari modul berpasangan. Pada model rak dari BMS baru, kita segera melihat bahwa modul PDU berpasangan bawah kelebihan beban (arus total lebih tinggi dari 16A yang diizinkan - pemberitahuan "biru"), dan modul atas kekurangan beban. Jika salah satu input terputus, seluruh beban akan berpindah ke input kedua, dan modul bawah yang tetap diberi energi akan mati karena kelebihan beban. Untuk mencegah hal ini terjadi, layanan dukungan pusat data akan memperingatkan klien terlebih dahulu dan mengirimkan rekomendasi tentang cara mendistribusikan ulang beban.
  • Penambahan peralatan yang mudah. Pada BMS baru, sensor virtual untuk jumlah arus modul dan daya rak telah ditambahkan ke templat rak standar dan dibuat secara otomatis setelah menambahkan PDU ke rak. Di BMS lama, mereka harus dibuat secara manual dan kemudian diseret ke peta, yang meningkatkan kemungkinan kesalahan karena “faktor manusia”.
  • Ruang lingkup tak terbatas untuk kreativitas. Sekarang kami tidak memiliki batasan saat membuat sensor virtual. Anda benar-benar dapat membuat model matematika apa pun dari variabel apa pun. Ini berarti kami memiliki kemampuan untuk membuat sensor virtual yang kompleks (sebelumnya kami hanya dapat menambahkan nilai) dan menganalisis statistik dan tren kinerja sistem rekayasa dengan lebih baik. Hal ini meningkatkan kualitas keputusan yang dibuat mengenai konfigurasi sistem, penggantian peralatan, dan manajemen sumber daya. 
  • Antarmuka yang intuitif. Pada antarmuka baru tidak ada ikon yang berantakan, kipas berputar, tombol “klik”. Dan hal yang paling nyaman adalah kemampuan untuk menunjukkan status PDU Line A/B di dalam rak. Kami mencoba melakukan hal serupa di BMS lama, tetapi jumlah ikon yang digabungkan per sentimeter persegi peta memaksa kami untuk mengabaikannya.

Sekarang menyenangkan untuk dilihat:

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
pelayan.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
Fragmen switchboard utama.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
Panel kontrol ventilasi.

Dan BMS baru bisa dihias untuk Tahun Baru :)
Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3

Satu halaman – saling pengertian tanpa sepatah kata pun dan tanpa spesifikasi teknis

Untuk waktu yang sangat lama kami ingin menerapkan “trik” lain di BMS: mengkompilasi parameter utama pusat data dalam satu halaman, sehingga satu pandangan ke layar sudah cukup untuk menilai status sistem utama. Namun, kami tidak sepenuhnya memahami seperti apa tampilannya.

Bahkan sebelum pengembangan BMS baru dimulai, kami mengunjungi selusin pusat data di Belanda untuk bertamasya. Salah satu tujuannya adalah untuk melihat contoh penerapan halaman tersebut.

Dan tidak ada satu pun pusat data yang menunjukkannya kepada kami - di beberapa pusat data tidak ada, di pusat data lainnya "sedang dikembangkan sekarang", di pusat data lainnya merupakan "rahasia dagang besar". Oleh karena itu, dalam kerangka acuan kami untuk pembuatan BMS baru, tidak ada gambaran pasti tentang halaman yang sangat penting ini bagi kami.

Hasilnya, kami menciptakannya secara harfiah “dengan cepat.” Tepat pada saat itu saya harus berkonsultasi dari jarak jauh dengan rekan-rekan di pusat data. Sangat merepotkan untuk menelusuri halaman BMS di ponsel untuk mencari data yang tersebar, dan nyatanya versi pertama dibuat sketsa di atas serbet. Satu halaman. Itu diterapkan oleh pengembang berdasarkan foto. 

Mengikuti contoh rekan-rekan Belanda kami yang berhati-hati, kami tidak akan mendemonstrasikan versi final halaman utama kami, terutama karena setiap pusat data adalah unik dan tidak ada gunanya menyalinnya. Namun mari kita uraikan dua prinsip utama pembentukannya:

  1. Ini adalah tabel yang dirancang agar sesuai dengan format layar ponsel cerdas vertikal (atau monitor, tetapi mempertahankan tata letak vertikal), dengan semua informasi penting ditampilkan pada satu layar. Di atas tabel terdapat “ringkasan” insiden aktif, jadi akan lebih mudah untuk menempatkannya bersama-sama dalam format vertikal. 
  2. Susunan sel dalam tabel mengikuti arsitektur pusat data (fisik atau logis). Kami mengabaikan susunan sistem dalam urutan abjad, seperti yang diinginkan pada pandangan pertama. Urutannya mencerminkan asosiasi visual personel pusat data - seolah-olah mereka secara fisik memantau semua ruangan dan sistem. Hal ini memudahkan dalam mencari informasi.

Faktanya, sekarang semua karakteristik utama dari pusat data dikelompokkan dan disajikan pada satu layar ponsel cerdas/monitor dari insinyur dan manajer yang bertanggung jawab, sementara tautan ke topografi fisik dan logis dari pusat data diterapkan. 

Ini adalah foto draf pertama tersebut, meskipun, tentu saja, versi ini telah dipikirkan ulang dan diselesaikan.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3

Pengakuan dan ringkasan kejadian

Mari kita bicara tentang konsep baru lainnya bagi kita, yang muncul sebagai hasil dari proyek pembaruan sistem pemantauan.

Jabat tangan adalah istilah yang agak langka yang diajukan oleh pengembang BMS baru. Artinya konfirmasi bahwa operator melihat kejadian tersebut, mengakuinya dan menerima tanggung jawab untuk menyelesaikannya.  

Kata-kata tersebut telah melekat, dan sekarang kita “mengakui” kejadian-kejadian tersebut.

Algoritme yang disertakan dalam versi dasar BMS baru tidak cocok untuk kami. Faktanya, ini adalah komentar pada log peristiwa, yaitu, insiden yang diselesaikan tidak hilang dari log, dan insiden yang diterima (“diakui”) tidak diurutkan dari yang baru.

Hasilnya, sebuah jendela yang disebut “ringkasan” dikembangkan, di mana:

  1. Hanya insiden aktif dan perangkat dalam mode layanan yang ditampilkan (tidak ada pemberitahuan biru komersial).
  2. Ada perbedaan yang jelas antara insiden BARU dan DITERIMA.
  3. Diindikasikan siapa yang menerima kejadian tersebut.

Algoritma kerja petugas jaga di BMS baru adalah sebagai berikut:

  1. Insiden baru dimasukkan dalam laporan dan menunggu pengakuan. Mereka tidak bisa berlama-lama di bagian ini, petugas yang bertugas di bagian peralatan harus segera mengambil alih kejadian tersebut.
  2. Karyawan bertanggung jawab atas kejadian tersebut dengan mengklik tanda centang di sebelah kanan. Karena semua karyawan berada di bawah akun unik, maka secara otomatis ditampilkan siapa yang menerima insiden tersebut. Jika perlu, tinggalkan komentar.
  3. Insiden tersebut dipindahkan ke bagian “Diakui”, petugas jaga lainnya dan manajer memahami bahwa insiden tersebut ditangani oleh karyawan yang bertanggung jawab.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
Contoh jendela ringkasan dengan pesan baru dan sudah diakui.

Dengan menghubungkan jendela ringkasan dengan tabel Satu halaman, kami mendapatkan hasil yang lengkap layar utama Sistem BMS, di mana Anda dapat langsung melihat: 

  • kondisi sistem pusat data utama;
  • adanya insiden baru yang belum diproses;
  • adanya insiden yang diterima dan informasi tentang siapa yang secara spesifik menghilangkannya.

Akses browser dan peringatan pop-up telepon

Antarmuka web, yang dapat diakses dari perangkat apa pun di mana pun di dunia, sangat kontras dengan klien “tebal”, yang sepenuhnya tertutup untuk pengguna eksternal. 

Pendekatan lama membawa sejumlah ketidaknyamanan, mulai dari masalah dalam mengatur pekerjaan jarak jauh untuk memantau karyawan layanan hingga kebutuhan untuk menginstal klien “tebal” dari kit distribusi pada stasiun kerja staf di pusat data.

Kini halaman mana pun di BMS memiliki alamat unik, yang memungkinkan Anda berbagi tidak hanya alamat langsung halaman atau perangkat, namun juga tautan ke grafik/laporan unik. 

Akses ke sistem kini dilakukan melalui otentikasi LDAP melalui Active Directory, yang meningkatkan tingkat keamanannya. 

Mobilitas saat ini merupakan faktor kunci dalam kualitas pekerjaan para insinyur yang bertugas. Selain memantau pemantauan di ruang shift tugas, para insinyur melakukan putaran, melakukan pekerjaan rutin di luar “ruang tugas” dan, berkat layar utama BMS yang dioptimalkan untuk layar seluler, bahkan tidak kehilangan kendali atas apa yang terjadi di ruang turbin untuk sesaat. 

Kualitas kontrol juga ditingkatkan berkat fungsionalitas obrolan kerja. Mereka mempercepat proses kerja dengan memungkinkan korespondensi teknisi yang bertugas “dihubungkan” ke BMS. Misalnya, kami menggunakan aplikasi Teams, yang memungkinkan Anda melakukan korespondensi internal dan menerima semua pesan dari BMS di ponsel Anda dalam bentuk pemberitahuan Push pop-up, sehingga petugas jaga tidak perlu terus-menerus melihat telepon. layar.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
 Pemberitahuan push di layar ponsel pintar.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
Beginilah tampilan notifikasi di aplikasi Teams.

При этом всплывающие уведомления настроены только на сообщения о появлении инцидентов, тем самым минимизирован отвлекающий фактор, персонал знает: если на экране смартфона появилось Push-уведомление Teams, то надо зайти на страницу BMS и принять инцидент. Сообщения об устранении инцидентов отслеживаются уже на странице BMS.

Pemantauan di pusat data: bagaimana kami mengganti BMS lama dengan yang baru. Bagian 3
Foto menunjukkan antarmuka BMS di smartphone.

Menyimpulkan

Meskipun biaya memperbarui BMS dari vendor lama kami sebanding dengan mengembangkan sistem baru dari awal (sekitar $100), perbedaan dalam fungsi produk ternyata sangat besar. Kami menerima sistem fleksibel yang dioptimalkan untuk tugas dan proses bisnis kami. Kami juga telah mencapai penghematan yang signifikan dalam dukungan sistem berkelanjutan dan biaya peningkatan. 

Namun tentu saja ada kesulitan. 

  • Pertama, kami meremehkan jumlah perubahan yang perlu dilakukan pada versi dasar PASI baru dan tidak memenuhi tenggat waktu yang telah disepakati sebelumnya. Bagi kami, ini bukanlah masalah kritis, karena kami diasuransikan hingga menit terakhir dan bekerja pada sistem lama, dan prosesnya kreatif, rumit sehingga terkadang berjalan lebih lambat dari yang diharapkan. Selain itu, kami selalu melihat bahwa pengembang kami melakukan segala upaya untuk mencapai hasil terbaik. Namun kenyataannya, ceritanya ternyata sangat panjang, dan spesialis utama kami menghabiskan lebih banyak tenaga dan waktu daripada yang mereka rencanakan. 
  • Kedua, kami memerlukan beberapa tahap pengujian untuk men-debug algoritma pemesanan mesin virtual dan saluran komunikasi. Awalnya, terjadi kegagalan baik di sisi sistem BMS maupun di sisi pengaturan mesin virtual dan jaringan. Proses debug ini juga membutuhkan waktu. Untungnya, kontraktor diberikan platform pengujian dalam bentuk layanan cloud, tempat semua pengaturan dan inovasi diuji pada awalnya.
  • Ketiga, sistem yang dihasilkan ternyata lebih sulit untuk diedit oleh pengguna akhir. Jika sebelumnya peta terdiri dari latar belakang (file grafik) dan ikon yang mudah diubah atau dipindahkan, kini menjadi antarmuka grafis yang kompleks dengan animasi yang memerlukan keterampilan pengeditan tertentu.

Pembaruan radikal pada sistem BMS kami dapat disebut sebagai proyek terpenting tahun lalu, yang akan berdampak serius pada kualitas pengelolaan operasional situs kami di masa depan. 

Kami, tentu saja, tidak membuang server besi lama, tetapi “meringankannya”: kami membersihkannya dari ribuan sensor virtual dan PDU “komersial” dan hanya menyisakan beberapa lusin perangkat paling penting di dalamnya, seperti diesel. genset, UPS, AC, pompa, sensor kebocoran dan suhu Dalam mode ini, kecepatannya yang dulu telah kembali, dan dia bisa menjadi “cadangan cadangan”. Ngomong-ngomong, setelah menghapus PDU dari BMS lama, kami membebaskan sekitar 1000 lisensi yang sekarang tidak diperlukan, tahukah Anda apa yang harus dilakukan dengan lisensi tersebut?

Sumber: www.habr.com

Tambah komentar