Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3

Kami meneruskan kisah kami tentang cara kami menukar sistem BMS di pusat data kami (bahagian 1, bahagian 2). Pada masa yang sama, kami tidak hanya menukar penyelesaian satu vendor dengan yang lain, tetapi membangunkan sistem dari awal untuk memenuhi keperluan kami. Di penghujung cerita kami, kami berkongsi hasil kerja yang dilakukan dan penyelesaian menarik yang mungkin berguna kepada anda.

Antara muka baharu

Di sini, seperti yang mereka katakan, lebih baik untuk melihat sekali.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3Rak.

Mari kita lihat perbezaannya.

  • Pertama, ia adalah красиво dengan mudah. Perhatikan betapa mudahnya untuk menjejaki beban pada modul PDU (β€œBank” atau ringkasnya β€œBank”) dan jumlah muatan selari modul berpasangan. Pada model rak dari BMS baharu, kami serta-merta melihat bahawa modul PDU berpasangan yang lebih rendah dibebankan (jumlah arus lebih tinggi daripada pemberitahuan 16A - "biru") yang dibenarkan), dan yang atas kurang dimuatkan. Jika salah satu input diputuskan sambungan, keseluruhan beban akan dipindahkan ke yang kedua, dan modul yang lebih rendah yang kekal bertenaga akan dimatikan kerana beban berlebihan. Untuk mengelakkan perkara ini berlaku, perkhidmatan sokongan pusat data akan memberi amaran kepada pelanggan terlebih dahulu dan menghantar cadangan tentang cara mengagihkan semula beban.
  • Penambahan peralatan yang mudah. Dalam BMS baharu, penderia maya untuk jumlah arus modul dan kuasa rak sudah ditambahkan pada templat rak standard dan dibuat secara automatik selepas menambahkan PDU pada rak. Dalam BMS lama, mereka perlu dibuat secara manual dan kemudian diseret ke peta, yang meningkatkan kemungkinan ralat disebabkan oleh "faktor manusia".
  • Skop terhad untuk kreativiti. Kini kami tidak mempunyai sekatan apabila mencipta penderia maya. Anda boleh membina sebarang model matematik bagi sebarang pembolehubah. Ini bermakna kami mempunyai keupayaan untuk mencipta penderia maya yang kompleks (sebelum ini kami hanya boleh menambah nilai) dan menganalisis statistik dan aliran dengan lebih baik dalam prestasi sistem kejuruteraan. Ini meningkatkan kualiti keputusan yang dibuat berkenaan konfigurasi sistem, penggantian peralatan dan pengurusan sumber. 
  • Antara muka intuitif. Dalam antara muka baharu tidak ada ikon yang berantakan, kipas berputar, suis "klik." Dan perkara yang paling mudah ialah keupayaan untuk menunjukkan status PDU Line A/B di dalam rak. Kami cuba melakukan sesuatu yang serupa dalam BMS lama, tetapi bilangan ikon yang digabungkan bagi setiap sentimeter persegi peta memaksa kami untuk meninggalkannya.

Sekarang ia bagus untuk melihat:

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
pelayan.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
Serpihan papan suis utama.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
Panel kawalan pengudaraan.

Dan BMS baru boleh dihias untuk Tahun Baru :)
Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3

Satu halaman – saling memahami tanpa sepatah kata dan tanpa spesifikasi teknikal

Untuk masa yang sangat lama kami ingin melaksanakan satu lagi "helah" dalam BMS: untuk menyusun parameter utama pusat data pada satu halaman, supaya satu pandangan pada skrin akan mencukupi untuk menilai status sistem utama. Walau bagaimanapun, kami tidak memahami sepenuhnya bagaimana ia sepatutnya kelihatan.

Malah sebelum pembangunan BMS baharu bermula, kami melawat sedozen pusat data di Belanda untuk lawatan. Salah satu matlamatnya adalah untuk melihat contoh pelaksanaan halaman sedemikian.

Dan tiada satu pun pusat data menunjukkannya kepada kami - dalam sesetengahnya ia tidak ada di sana, dalam yang lain ia "sedang dibangunkan sekarang", yang lain ia adalah "rahsia perdagangan besar". Oleh itu, dalam terma rujukan kami untuk penciptaan BMS baharu, tiada penerangan yang tepat tentang halaman yang sangat penting ini untuk kami.

Akibatnya, kami menghasilkannya secara literal "dengan cepat." Pada masa itu saya terpaksa berunding dengan rakan sekerja dari jauh di pusat data. Sangat menyusahkan untuk menatal melalui halaman BMS pada telefon untuk mencari data yang berselerak, dan sebenarnya versi pertama dilakarkan pada serbet. Satu halaman. Ia telah dilaksanakan oleh pemaju berdasarkan foto. 

Mengikuti contoh rakan sekerja Belanda yang berhati-hati, kami tidak akan menunjukkan versi akhir halaman utama kami, terutamanya kerana setiap pusat data adalah unik dan tiada gunanya menyalinnya. Tetapi mari kita terangkan dua prinsip utama pembentukannya:

  1. Ini ialah jadual yang direka bentuk agar sesuai dengan format skrin telefon pintar menegak (atau monitor, tetapi mengekalkan reka letak menegak), dengan semua maklumat penting dipaparkan pada satu skrin. Di atas jadual adalah "ringkasan" insiden aktif, jadi adalah paling mudah untuk meletakkannya bersama dalam format menegak. 
  2. Susunan sel dalam jadual mengikut seni bina pusat data (fizikal atau logik). Kami meninggalkan susunan sistem dalam susunan abjad, seperti yang diingini pada pandangan pertama. Urutan itu mencerminkan persatuan visual kakitangan pusat data - seolah-olah mereka memantau secara fizikal semua bilik dan sistem. Ini memudahkan pencarian maklumat.

Malah, kini benar-benar semua ciri utama pusat data dikumpulkan dan dibentangkan pada satu skrin telefon pintar/monitor jurutera dan pengurus yang bertanggungjawab, sambil memautkan kepada topografi fizikal dan logik pusat data dilaksanakan. 

Berikut ialah foto draf pertama itu, walaupun, sudah tentu, versi ini telah difikirkan semula dan dimuktamadkan.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3

Pengakuan dan ringkasan kejadian

Mari kita bercakap tentang satu lagi konsep baru untuk kita, yang muncul hasil daripada projek untuk mengemas kini sistem pemantauan.

Jabat tangan ialah istilah yang agak jarang dicadangkan oleh pembangun BMS baharu. Ini bermakna pengesahan bahawa pengendali melihat kejadian itu, mengakuinya dan menerima tanggungjawab untuk menyelesaikannya.  

Perkataan itu telah tersekat, dan kini kami "mengakui" insiden.

Algoritma yang disertakan dalam versi asas BMS baharu tidak sesuai dengan kami. Sebenarnya, ini adalah ulasan kepada log peristiwa, iaitu, insiden yang diselesaikan tidak hilang daripada log, dan yang diterima ("diakui") tidak diisih daripada yang baharu.

Akibatnya, tetingkap yang dipanggil "ringkasan" telah dibangunkan, di mana:

  1. Hanya insiden aktif dan peranti dalam mod perkhidmatan dipaparkan (tiada pemberitahuan biru komersial).
  2. Terdapat perbezaan yang jelas antara kejadian BARU dan DITERIMA.
  3. Ia ditunjukkan siapa yang menerima kejadian itu.

Algoritma kerja untuk pegawai bertugas dalam BMS baharu adalah seperti berikut:

  1. Insiden baru dimasukkan dalam laporan dan menunggu pengakuan. Mereka tidak boleh tinggal di bahagian ini untuk masa yang lama; orang yang bertugas untuk peralatan mesti segera bertanggungjawab ke atas kejadian itu.
  2. Pekerja bertanggungjawab atas kejadian itu dengan mengklik pada tanda semak di sebelah kanan. Memandangkan semua pekerja berada di bawah akaun unik, ia dipaparkan secara automatik siapa yang menerima insiden tersebut. Jika perlu, tinggalkan komen.
  3. Insiden itu dipindahkan ke bahagian "Diakui", pegawai bertugas yang lain dan pengurus memahami bahawa insiden itu dikendalikan oleh pekerja yang bertanggungjawab.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
Contoh tetingkap ringkasan dengan mesej baharu dan telah pun diakui.

Dengan menyambungkan tetingkap ringkasan dengan jadual Satu halaman, kami mendapat tetingkap penuh skrin utama Sistem BMS, di mana anda boleh melihat dengan segera: 

  • keadaan sistem pusat data utama;
  • kehadiran insiden baru yang belum diproses;
  • kehadiran insiden yang diterima dan maklumat tentang siapa yang secara khusus menghapuskannya.

Akses penyemak imbas dan makluman pop timbul telefon

Antara muka web, boleh diakses dari mana-mana peranti dari mana-mana sahaja di dunia, adalah berbeza dengan pelanggan "tebal", yang tertutup sepenuhnya kepada pengguna luaran. 

Pendekatan lama melibatkan pelbagai kesulitan, daripada masalah dalam mengatur kerja jauh untuk memantau pekerja perkhidmatan kepada keperluan untuk memasang pelanggan "tebal" daripada kit pengedaran pada stesen kerja kakitangan di pusat data.

Kini mana-mana halaman dalam BMS mempunyai alamat unik, yang membolehkan anda berkongsi bukan sahaja alamat langsung halaman atau peranti, tetapi juga memaut ke graf/laporan unik. 

Akses kepada sistem kini dijalankan melalui pengesahan LDAP melalui Active Directory, yang meningkatkan tahap keselamatannya. 

Mobiliti hari ini merupakan faktor utama dalam kualiti kerja jurutera bertugas. Di samping memantau pemantauan di bilik syif bertugas, jurutera membuat pusingan, melakukan kerja rutin di luar "bilik bertugas" dan, terima kasih kepada skrin utama BMS yang dioptimumkan untuk skrin mudah alih, jangan kehilangan kawalan terhadap apa yang berlaku di bilik turbin walaupun sekejap. 

Kualiti kawalan juga dipertingkatkan berkat kefungsian sembang kerja. Mereka mempercepatkan proses kerja dengan membenarkan surat-menyurat jurutera bertugas untuk "dipautkan" kepada BMS. Sebagai contoh, kami menggunakan aplikasi Teams, yang membolehkan anda menjalankan surat-menyurat dalaman dan menerima semua mesej daripada BMS pada telefon anda dalam bentuk pemberitahuan Push pop timbul, yang menghapuskan keperluan untuk pegawai bertugas sentiasa melihat telefon. skrin.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
 Pemberitahuan tolak pada skrin telefon pintar.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
Beginilah rupa pemberitahuan dalam apl Pasukan.

Pada masa yang sama, pemberitahuan pop timbul dikonfigurasikan hanya untuk mesej tentang kejadian insiden, dengan itu meminimumkan faktor gangguan; kakitangan tahu: jika Pemberitahuan Tolak Pasukan muncul pada skrin telefon pintar, maka mereka perlu pergi ke halaman BMS dan menerima kejadian itu. Mesej penyelesaian insiden dijejaki pada halaman BMS.

Pemantauan di pusat data: cara kami menggantikan BMS lama dengan yang baharu. Bahagian 3
Foto menunjukkan antara muka BMS dalam telefon pintar.

Merumuskan

Walaupun kos mengemas kini BMS daripada vendor lama kami adalah setanding dengan membangunkan sistem baharu dari awal (kira-kira $100), perbezaan dalam kefungsian produk ternyata sangat besar. Kami menerima sistem fleksibel yang dioptimumkan untuk tugas dan proses perniagaan kami. Kami juga telah mencapai penjimatan yang ketara dalam sokongan sistem yang berterusan dan kos naik taraf. 

Tetapi, sudah tentu, terdapat kesukaran. 

  • Pertama, kami memandang rendah jumlah perubahan yang perlu dibuat pada versi asas BMS baharu dan tidak memenuhi tarikh akhir yang telah dipersetujui sebelumnya. Bagi kami, ini bukan masalah kritikal, kerana kami diinsuranskan sehingga saat akhir dan bekerja pada sistem lama, dan prosesnya adalah kreatif, kompleks dan oleh itu kadangkala berjalan lebih perlahan daripada yang dijangkakan. Di samping itu, kami sentiasa melihat bahawa pembangun kami berusaha sedaya upaya untuk mencapai hasil yang terbaik. Tetapi sebenarnya, cerita itu ternyata sangat panjang, dan pakar utama kami menghabiskan lebih banyak usaha dan masa untuk itu daripada yang mereka rancangkan. 
  • Kedua, kami memerlukan beberapa peringkat ujian untuk menyahpepijat algoritma untuk menempah mesin maya dan saluran komunikasi. Pada mulanya, terdapat kegagalan di sisi sistem BMS dan di sisi penyediaan mesin maya dan rangkaian. Penyahpepijatan ini juga mengambil masa. Nasib baik, kontraktor dibekalkan dengan platform ujian dalam bentuk perkhidmatan awan, di mana semua tetapan dan inovasi pada mulanya diuji.
  • Ketiga, sistem yang terhasil ternyata lebih sukar untuk diedit oleh pengguna akhir. Jika sebelum ini peta terdiri daripada latar belakang (fail grafik) dan ikon yang mudah diubah atau dialihkan, kini ia merupakan antara muka grafik yang kompleks dengan animasi yang memerlukan kemahiran penyuntingan tertentu.

Kemas kini radikal sistem BMS kami sudah boleh dipanggil projek paling penting pada tahun lalu, yang akan menjejaskan kualiti pengurusan operasi tapak kami secara serius pada masa hadapan. 

Kami, sudah tentu, tidak membuang pelayan besi lama, tetapi "meringankannya": kami membersihkannya daripada beribu-ribu penderia maya dan PDU "komersial" dan meninggalkan di dalamnya hanya beberapa dozen peranti yang paling kritikal, seperti diesel set penjana, UPS, penghawa dingin, pam, penderia kebocoran dan suhu Dalam mod ini, kelajuan sebelumnya telah kembali, dan dia boleh menjadi "rizab simpanan". Ngomong-ngomong, selepas mengeluarkan PDU daripada BMS lama, kami membebaskan kira-kira 1000 lesen yang kini tidak diperlukan, adakah anda tahu apa yang perlu dilakukan dengannya?

Sumber: www.habr.com

Tambah komen