Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Γεια σε όλους!

Η εταιρεία μας ασχολείται με την ανάπτυξη λογισμικού και την επακόλουθη τεχνική υποστήριξη. Η τεχνική υποστήριξη δεν απαιτεί απλώς τη διόρθωση σφαλμάτων, αλλά και την παρακολούθηση της απόδοσης των εφαρμογών μας.

Για παράδειγμα, εάν μία από τις υπηρεσίες έχει διακοπεί, τότε πρέπει να καταγράψετε αυτόματα αυτό το πρόβλημα και να αρχίσετε να το λύνετε και να μην περιμένετε από τους δυσαρεστημένους χρήστες να επικοινωνήσουν με την τεχνική υποστήριξη.

Έχουμε μια μικρή εταιρεία, δεν έχουμε τους πόρους να μελετήσουμε και να διατηρήσουμε σύνθετες λύσεις για την παρακολούθηση εφαρμογών, χρειαζόμασταν να βρούμε μια απλή και αποτελεσματική λύση.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Στρατηγική παρακολούθησης

Δεν είναι εύκολο να ελέγξετε τη λειτουργικότητα μιας εφαρμογής· αυτή η εργασία δεν είναι ασήμαντη, θα μπορούσε να πει κανείς ακόμη και δημιουργική. Είναι ιδιαίτερα δύσκολο να επαληθευτεί ένα πολύπλοκο σύστημα πολλαπλών συνδέσμων.

Πώς μπορείς να φας έναν ελέφαντα; Μόνο σε μέρη! Χρησιμοποιούμε αυτήν την προσέγγιση για την παρακολούθηση εφαρμογών.

Η ουσία της στρατηγικής παρακολούθησης:

Αναλύστε την εφαρμογή σας σε στοιχεία.
Δημιουργήστε ελέγχους ελέγχου για κάθε στοιχείο.

Ένα εξάρτημα θεωρείται λειτουργικό εάν όλοι οι έλεγχοι ελέγχου του εκτελούνται χωρίς σφάλματα. Μια εφαρμογή θεωρείται υγιής εάν όλα τα συστατικά της είναι λειτουργικά.

Έτσι, οποιοδήποτε σύστημα μπορεί να αναπαρασταθεί ως ένα δέντρο συστατικών. Τα σύνθετα στοιχεία αναλύονται σε απλούστερα. Τα απλά εξαρτήματα έχουν ελέγχους.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Τα σημεία αναφοράς δεν προορίζονται για την εκτέλεση λειτουργικών δοκιμών, δεν είναι δοκιμές μονάδας. Οι έλεγχοι ελέγχου πρέπει να ελέγχουν πώς αισθάνεται το εξάρτημα την τρέχουσα χρονική στιγμή, εάν υπάρχουν όλοι οι απαραίτητοι πόροι για τη λειτουργία του και εάν υπάρχουν προβλήματα.

Δεν υπάρχουν θαύματα· οι περισσότεροι έλεγχοι θα πρέπει να αναπτυχθούν ανεξάρτητα. Αλλά μην φοβάστε, γιατί στις περισσότερες περιπτώσεις ένας έλεγχος απαιτεί 5-10 γραμμές κώδικα, αλλά μπορείτε να εφαρμόσετε οποιαδήποτε λογική και θα καταλάβετε ξεκάθαρα πώς λειτουργεί ο έλεγχος.

Σύστημα παρακολούθησης

Ας υποθέσουμε ότι χωρίσαμε την εφαρμογή σε στοιχεία, καταλήξαμε και εφαρμόσαμε ελέγχους για κάθε στοιχείο, αλλά τι να κάνουμε με τα αποτελέσματα αυτών των ελέγχων; Πώς γνωρίζουμε εάν κάποιος έλεγχος απέτυχε;

Θα χρειαστούμε ένα σύστημα παρακολούθησης. Θα εκτελέσει τις ακόλουθες εργασίες:

  • Λάβετε αποτελέσματα δοκιμών και χρησιμοποιήστε τα για να προσδιορίσετε την κατάσταση των εξαρτημάτων.
    Οπτικά, αυτό μοιάζει με την επισήμανση του δέντρου συστατικού. Τα λειτουργικά εξαρτήματα γίνονται πράσινα, τα προβληματικά γίνονται κόκκινα.
  • Πραγματοποιήστε γενικούς ελέγχους από το κουτί.
    Το σύστημα παρακολούθησης μπορεί να εκτελέσει κάποιους ελέγχους μόνο του. Γιατί να εφεύρουμε ξανά τον τροχό, ας τους χρησιμοποιήσουμε. Για παράδειγμα, μπορείτε να ελέγξετε ότι μια σελίδα ιστότοπου ανοίγει ή ότι ο διακομιστής κάνει ping.
  • Αποστολή ειδοποιήσεων για προβλήματα σε ενδιαφερόμενα μέρη.
  • Οπτικοποίηση δεδομένων παρακολούθησης, παροχή αναφορών, γραφημάτων και στατιστικών.

Σύντομη περιγραφή του συστήματος ASMO

Είναι καλύτερο να εξηγηθεί με ένα παράδειγμα. Ας δούμε πώς είναι οργανωμένη η παρακολούθηση της απόδοσης του συστήματος ASMO.

Το ASMO είναι ένα αυτοματοποιημένο σύστημα μετεωρολογικής υποστήριξης. Το σύστημα βοηθά τους ειδικούς του οδικού σέρβις να κατανοήσουν πού και πότε είναι απαραίτητο να επεξεργαστούν το δρόμο με υλικά αφαίρεσης πάγου. Το σύστημα συλλέγει δεδομένα από σημεία οδικού ελέγχου. Σημείο οδικού ελέγχου είναι ένα μέρος στο δρόμο όπου είναι εγκατεστημένος εξοπλισμός: μετεωρολογικός σταθμός, βιντεοκάμερα κ.λπ. Για την πρόβλεψη επικίνδυνων καταστάσεων, το σύστημα λαμβάνει προγνώσεις καιρού από εξωτερικές πηγές.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Έτσι, η σύνθεση του συστήματος είναι αρκετά τυπική: ιστότοπος, πράκτορας, εξοπλισμός. Ας αρχίσουμε την παρακολούθηση.

Σπάζοντας το σύστημα σε εξαρτήματα

Τα ακόλουθα στοιχεία μπορούν να διακριθούν στο σύστημα ASMO:

1. Προσωπικός λογαριασμός
Αυτή είναι μια διαδικτυακή εφαρμογή. Τουλάχιστον, πρέπει να ελέγξετε ότι η εφαρμογή είναι διαθέσιμη στο Διαδίκτυο.

2. Βάση δεδομένων
Η βάση δεδομένων αποθηκεύει δεδομένα που είναι σημαντικά για την αναφορά και πρέπει να διασφαλίσετε ότι τα αντίγραφα ασφαλείας της βάσης δεδομένων δημιουργούνται με επιτυχία.

3. Διακομιστής
Με τον όρο διακομιστή εννοούμε το υλικό στο οποίο εκτελούνται οι εφαρμογές. Είναι απαραίτητο να ελέγξετε την κατάσταση του HDD, RAM, CPU.

4. Πράκτορας
Αυτή είναι μια υπηρεσία των Windows που εκτελεί πολλές διαφορετικές εργασίες σε ένα χρονοδιάγραμμα. Τουλάχιστον, πρέπει να ελέγξετε ότι η υπηρεσία εκτελείται.

5. Καθήκον πράκτορα
Το να γνωρίζεις μόνο ότι ένας πράκτορας εργάζεται δεν αρκεί. Ένας πράκτορας μπορεί να λειτουργεί, αλλά να μην εκτελεί τις εργασίες που του έχουν ανατεθεί. Ας χωρίσουμε το στοιχείο πράκτορα σε εργασίες και ας ελέγξουμε αν κάθε εργασία του πράκτορα λειτουργεί με επιτυχία.

6. Σημεία οδικού ελέγχου (κοντέινερ όλων των MPC)
Υπάρχουν πολλά σημεία οδικού ελέγχου, οπότε ας συνδυάσουμε όλα τα MPC σε ένα εξάρτημα. Αυτό θα κάνει πιο βολική την ανάγνωση δεδομένων παρακολούθησης. Κατά την προβολή της κατάστασης του στοιχείου "ASMO system", θα είναι αμέσως σαφές πού βρίσκονται τα προβλήματα: σε εφαρμογές, υλικό ή στο μέγιστο σύστημα ελέγχου.

7. Σημείο οδικού ελέγχου (ένα μέγιστο όριο)
Θα θεωρήσουμε ότι αυτό το εξάρτημα μπορεί να επισκευαστεί εάν όλες οι συσκευές σε αυτό το MPC είναι επισκευάσιμα.

8. Συσκευή
Πρόκειται για βιντεοκάμερα ή μετεωρολογικό σταθμό που είναι εγκατεστημένος στο μέγιστο όριο συγκέντρωσης. Είναι απαραίτητο να ελέγξετε ότι η συσκευή λειτουργεί σωστά.

Στο σύστημα παρακολούθησης, το δέντρο συστατικών θα μοιάζει με αυτό:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Παρακολούθηση διαδικτυακών εφαρμογών

Έτσι, έχουμε χωρίσει το σύστημα σε στοιχεία, τώρα πρέπει να βρούμε ελέγχους για κάθε στοιχείο.

Για την παρακολούθηση μιας διαδικτυακής εφαρμογής χρησιμοποιούμε τους ακόλουθους ελέγχους:

1. Έλεγχος ανοίγματος της κύριας σελίδας
Αυτός ο έλεγχος πραγματοποιείται από το σύστημα παρακολούθησης. Για να το εκτελέσουμε, υποδεικνύουμε τη διεύθυνση της σελίδας, το αναμενόμενο τμήμα απόκρισης και τον μέγιστο χρόνο εκτέλεσης του αιτήματος.

2. Έλεγχος της προθεσμίας πληρωμής τομέα
Ένας πολύ σημαντικός έλεγχος. Όταν ένας τομέας παραμένει απλήρωτος, οι χρήστες δεν μπορούν να ανοίξουν τον ιστότοπο. Η επίλυση του προβλήματος μπορεί να διαρκέσει αρκετές ημέρες, επειδή... Οι αλλαγές στο DNS δεν εφαρμόζονται αμέσως.

3. Έλεγχος του πιστοποιητικού SSL
Σήμερα, σχεδόν όλοι οι ιστότοποι χρησιμοποιούν το πρωτόκολλο https για πρόσβαση. Για να λειτουργήσει σωστά το πρωτόκολλο, χρειάζεστε ένα έγκυρο πιστοποιητικό SSL.

Ακολουθεί το στοιχείο «Προσωπικός Λογαριασμός» στο σύστημα παρακολούθησης:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Όλοι οι παραπάνω έλεγχοι θα λειτουργήσουν για τις περισσότερες εφαρμογές και δεν απαιτούν κωδικοποίηση. Αυτό είναι πολύ ωραίο γιατί μπορείτε να αρχίσετε να παρακολουθείτε οποιαδήποτε εφαρμογή web σε 5 λεπτά. Ακολουθούν πρόσθετοι έλεγχοι που μπορούν να πραγματοποιηθούν για μια εφαρμογή Ιστού, αλλά η υλοποίησή τους είναι πιο περίπλοκη και αφορά συγκεκριμένες εφαρμογές, επομένως δεν θα τους καλύψουμε σε αυτό το άρθρο.

Τι άλλο μπορείτε να ελέγξετε;

Για να παρακολουθείτε πληρέστερα την εφαρμογή Ιστού σας, μπορείτε να εκτελέσετε τους ακόλουθους ελέγχους:

  • Αριθμός σφαλμάτων JavaScript ανά περίοδο
  • Αριθμός σφαλμάτων στην πλευρά της εφαρμογής web (back-end) για την περίοδο
  • Αριθμός ανεπιτυχών απαντήσεων εφαρμογής web (κωδικός απόκρισης 404, 500, κ.λπ.)
  • Μέσος χρόνος εκτέλεσης ερωτήματος

Παρακολούθηση υπηρεσίας Windows (πράκτορας)

Στο σύστημα ASMO, ο πράκτορας παίζει το ρόλο ενός προγραμματιστή εργασιών, ο οποίος εκτελεί προγραμματισμένες εργασίες στο παρασκήνιο.

Εάν όλες οι εργασίες του πράκτορα ολοκληρωθούν με επιτυχία, ο πράκτορας λειτουργεί σωστά. Αποδεικνύεται ότι για να παρακολουθείτε έναν πράκτορα, πρέπει να παρακολουθείτε τα καθήκοντά του. Επομένως, χωρίζουμε το στοιχείο "Agent" σε εργασίες. Για κάθε εργασία, θα δημιουργήσουμε ένα ξεχωριστό στοιχείο στο σύστημα παρακολούθησης, όπου το στοιχείο "Agent" θα είναι το "γονικό".

Διαχωρίζουμε το στοιχείο Agent σε θυγατρικά στοιχεία (εργασίες):

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Έτσι, έχουμε αναλύσει ένα σύνθετο στοιχείο σε αρκετά απλά. Τώρα πρέπει να καταλήξουμε σε ελέγχους για κάθε απλό στοιχείο. Λάβετε υπόψη ότι το μητρικό στοιχείο "Agent" δεν θα έχει κανέναν έλεγχο, επειδή το σύστημα παρακολούθησης θα υπολογίσει την κατάστασή του ανεξάρτητα με βάση την κατάσταση των θυγατρικών εξαρτημάτων του. Με άλλα λόγια, εάν όλες οι εργασίες ολοκληρωθούν με επιτυχία, τότε ο πράκτορας εκτελείται με επιτυχία.

Υπάρχουν περισσότερες από εκατό εργασίες στο σύστημα ASMO, είναι πραγματικά απαραίτητο να βρείτε μοναδικούς ελέγχους για κάθε εργασία; Φυσικά, ο έλεγχος θα είναι καλύτερος εάν καταλήξουμε και εφαρμόσουμε τους δικούς μας ειδικούς ελέγχους για κάθε εργασία αντιπροσώπου, αλλά στις περισσότερες περιπτώσεις αρκεί να χρησιμοποιήσουμε καθολικούς ελέγχους.

Το σύστημα ASMO χρησιμοποιεί μόνο καθολικούς ελέγχους για εργασίες και αυτό αρκεί για την παρακολούθηση της απόδοσης του συστήματος.

Έλεγχος προόδου
Ο πιο απλός και αποτελεσματικός έλεγχος είναι ο έλεγχος εκτέλεσης. Ο έλεγχος επαληθεύει ότι η εργασία ολοκληρώθηκε χωρίς σφάλματα. Όλες οι εργασίες έχουν αυτόν τον έλεγχο.

Αλγόριθμος επαλήθευσης

Μετά από κάθε εκτέλεση εργασίας, πρέπει να στέλνετε το αποτέλεσμα του ελέγχου SUCCESS στο σύστημα παρακολούθησης εάν η εκτέλεση της εργασίας ήταν επιτυχής ή ERROR εάν η εκτέλεση ολοκληρώθηκε με σφάλμα.

Αυτός ο έλεγχος μπορεί να εντοπίσει τα ακόλουθα προβλήματα:

  1. Η εργασία εκτελείται αλλά αποτυγχάνει με ένα σφάλμα.
  2. Η εργασία έχει σταματήσει να εκτελείται, για παράδειγμα, έχει παγώσει.

Ας δούμε πώς επιλύονται αυτά τα προβλήματα με περισσότερες λεπτομέρειες.

Θέμα 1 – Η εργασία εκτελείται αλλά αποτυγχάνει με ένα σφάλμα
Παρακάτω είναι μια περίπτωση όπου η εργασία εκτελείται αλλά αποτυγχάνει μεταξύ 14:00 και 16:00.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Το σχήμα δείχνει ότι όταν μια εργασία αποτυγχάνει, στέλνεται αμέσως ένα σήμα στο σύστημα παρακολούθησης και η κατάσταση του αντίστοιχου ελέγχου στο σύστημα παρακολούθησης γίνεται συναγερμός.

Λάβετε υπόψη ότι στο σύστημα παρακολούθησης, η κατάσταση του στοιχείου εξαρτάται από την κατάσταση επαλήθευσης. Η κατάσταση συναγερμού του ελέγχου θα αλλάξει όλα τα εξαρτήματα υψηλότερου επιπέδου σε συναγερμό, δείτε την παρακάτω εικόνα.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Πρόβλημα 2 - Η εργασία σταμάτησε να εκτελείται (παγωμένη)
Πώς θα καταλάβει το σύστημα παρακολούθησης ότι μια εργασία έχει κολλήσει;

Το αποτέλεσμα του ελέγχου έχει περίοδο ισχύος, για παράδειγμα, 1 ώρα. Εάν περάσει μία ώρα και δεν υπάρξει νέο αποτέλεσμα δοκιμής, το σύστημα παρακολούθησης θα ρυθμίσει την κατάσταση της δοκιμής σε συναγερμό.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Στην παραπάνω εικόνα, τα φώτα έσβησαν στις 14:00 μ.μ. Στις 15:00, το σύστημα παρακολούθησης θα εντοπίσει ότι το αποτέλεσμα της δοκιμής (από τις 14:00) είναι σάπιο, επειδή Ο χρόνος συνάφειας έχει λήξει (μία ώρα), αλλά δεν υπάρχει νέο αποτέλεσμα και θα αλλάξει τον έλεγχο σε κατάσταση συναγερμού.

Στις 16:00 τα φώτα άναψαν ξανά, το πρόγραμμα θα ολοκληρώσει την εργασία και θα στείλει το αποτέλεσμα εκτέλεσης στο σύστημα παρακολούθησης, η κατάσταση της δοκιμής θα γίνει ξανά επιτυχής.

Ποιος χρόνος συνάφειας ελέγχου πρέπει να χρησιμοποιήσω;

Ο χρόνος συνάφειας πρέπει να είναι μεγαλύτερος από την περίοδο εκτέλεσης της εργασίας. Συνιστώ να ορίσετε το χρόνο συνάφειας 2-3 φορές μεγαλύτερο από την περίοδο εκτέλεσης της εργασίας. Αυτό είναι απαραίτητο για να αποφύγετε τη λήψη ψευδών ειδοποιήσεων όταν, για παράδειγμα, μια εργασία χρειάστηκε περισσότερο από το συνηθισμένο ή όταν κάποιος φορτώσει ξανά το πρόγραμμα.

Έλεγχος προόδου

Το σύστημα ASMO έχει μια εργασία «Πρόβλεψη φόρτωσης», η οποία προσπαθεί να κατεβάσει μια νέα πρόβλεψη από μια εξωτερική πηγή μία φορά την ώρα. Η ακριβής ώρα εμφάνισης μιας νέας πρόβλεψης στο εξωτερικό σύστημα δεν είναι γνωστή, αλλά είναι γνωστό ότι αυτό συμβαίνει 2 φορές την ημέρα. Αποδεικνύεται ότι εάν δεν υπάρχει νέα πρόβλεψη για αρκετές ώρες, τότε αυτό είναι φυσιολογικό, αλλά εάν δεν υπάρχει νέα πρόβλεψη για περισσότερο από μία ημέρα, τότε κάτι έχει σπάσει κάπου. Για παράδειγμα, η μορφή δεδομένων σε ένα εξωτερικό σύστημα πρόβλεψης μπορεί να αλλάξει, γι' αυτό η ASMO δεν θα δει μια νέα έκδοση πρόβλεψης.

Αλγόριθμος επαλήθευσης

Η εργασία στέλνει το αποτέλεσμα του ελέγχου ΕΠΙΤΥΧΙΑΣ στο σύστημα παρακολούθησης όταν επιτύχει να σημειώσει πρόοδο (λήψη νέας πρόγνωσης καιρού). Εάν δεν σημειωθεί πρόοδος ή παρουσιαστεί σφάλμα, τότε τίποτα δεν αποστέλλεται στο σύστημα παρακολούθησης.

Ο έλεγχος πρέπει να έχει ένα διάστημα συνάφειας τέτοιο ώστε κατά τη διάρκεια αυτού του χρόνου να είναι εγγυημένο ότι θα λάβει νέα πρόοδο.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Λάβετε υπόψη ότι θα μάθουμε για το πρόβλημα με καθυστέρηση, επειδή το σύστημα παρακολούθησης περιμένει μέχρι να λήξει η περίοδος ισχύος του τελευταίου αποτελέσματος σάρωσης. Επομένως, η περίοδος ισχύος του ελέγχου δεν χρειάζεται να είναι υπερβολικά μεγάλη.

Παρακολούθηση βάσης δεδομένων

Για τον έλεγχο της βάσης δεδομένων στο σύστημα ASMO, πραγματοποιούμε τους ακόλουθους ελέγχους:

  1. Επαλήθευση δημιουργίας αντιγράφων ασφαλείας
  2. Έλεγχος ελεύθερου χώρου στο δίσκο

Επαλήθευση δημιουργίας αντιγράφων ασφαλείας
Στις περισσότερες εφαρμογές, είναι σημαντικό να έχετε ενημερωμένα αντίγραφα ασφαλείας της βάσης δεδομένων, έτσι ώστε, εάν ο διακομιστής αποτύχει, να μπορείτε να αναπτύξετε το πρόγραμμα σε έναν νέο διακομιστή.

Η ASMO δημιουργεί ένα αντίγραφο ασφαλείας μία φορά την εβδομάδα και το στέλνει στο χώρο αποθήκευσης. Όταν αυτή η διαδικασία ολοκληρωθεί με επιτυχία, το αποτέλεσμα του ελέγχου επιτυχίας αποστέλλεται στο σύστημα παρακολούθησης. Το αποτέλεσμα επαλήθευσης ισχύει για 9 ημέρες. Εκείνοι. Για τον έλεγχο της δημιουργίας αντιγράφων ασφαλείας, χρησιμοποιείται ο μηχανισμός «έλεγχος προόδου», τον οποίο συζητήσαμε παραπάνω.

Έλεγχος ελεύθερου χώρου στο δίσκο
Εάν δεν υπάρχει αρκετός ελεύθερος χώρος στο δίσκο, η βάση δεδομένων δεν θα μπορεί να λειτουργήσει σωστά, επομένως είναι σημαντικό να ελέγχετε την ποσότητα του ελεύθερου χώρου.

Είναι βολικό να χρησιμοποιείτε μετρήσεις για τον έλεγχο αριθμητικών παραμέτρων.

Μετρήσεις είναι μια αριθμητική μεταβλητή, η τιμή της οποίας μεταδίδεται στο σύστημα παρακολούθησης. Το σύστημα παρακολούθησης ελέγχει τις τιμές κατωφλίου και υπολογίζει τη μετρική κατάσταση.

Παρακάτω είναι μια εικόνα της εμφάνισης του στοιχείου "Βάση δεδομένων" στο σύστημα παρακολούθησης:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Παρακολούθηση διακομιστή

Για την παρακολούθηση του διακομιστή χρησιμοποιούμε τους ακόλουθους ελέγχους και μετρήσεις:

1. Ελεύθερος χώρος στο δίσκο
Εάν εξαντληθεί ο χώρος στο δίσκο, η εφαρμογή δεν θα μπορεί να λειτουργήσει. Χρησιμοποιούμε 2 τιμές κατωφλίου: το πρώτο επίπεδο είναι ΠΡΟΕΙΔΟΠΟΙΗΣΗ, το δεύτερο επίπεδο είναι ALARM.

2. Μέση τιμή RAM σε ποσοστό ανά ώρα
Χρησιμοποιούμε τον ωριαίο μέσο όρο επειδή... δεν μας ενδιαφέρουν σπάνιες φυλές.

3. Μέσο ποσοστό CPU ανά ώρα
Χρησιμοποιούμε τον ωριαίο μέσο όρο επειδή... δεν μας ενδιαφέρουν σπάνιες φυλές.

4. Έλεγχος ping
Ελέγχει ότι ο διακομιστής είναι συνδεδεμένος. Το σύστημα παρακολούθησης μπορεί να εκτελέσει αυτόν τον έλεγχο· δεν χρειάζεται να γράψετε κώδικα.

Παρακάτω είναι μια εικόνα του πώς φαίνεται το στοιχείο "Διακομιστής" στο σύστημα παρακολούθησης:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Παρακολούθηση εξοπλισμού

Θα σας πω πώς λαμβάνονται τα δεδομένα. Για κάθε σημείο οδικού ελέγχου (MPC) υπάρχει μια εργασία στον προγραμματιστή εργασιών, για παράδειγμα, "Survey MPC M2 km 200". Η εργασία λαμβάνει δεδομένα από όλες τις συσκευές MPC κάθε 30 λεπτά.

Πρόβλημα στο κανάλι επικοινωνίας
Το μεγαλύτερο μέρος του εξοπλισμού βρίσκεται εκτός πόλης· για τη μετάδοση δεδομένων χρησιμοποιείται ένα δίκτυο GSM, το οποίο δεν λειτουργεί σταθερά (υπάρχει δίκτυο ή δεν υπάρχει).

Λόγω συχνών αστοχιών δικτύου, αρχικά, ο έλεγχος της έρευνας MPC στην παρακολούθηση φαινόταν ως εξής:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Κατέστη σαφές ότι αυτή δεν ήταν μια λειτουργική επιλογή, επειδή υπήρχαν πολλές ψευδείς ειδοποιήσεις σχετικά με προβλήματα. Στη συνέχεια αποφασίστηκε να χρησιμοποιηθεί ένας «έλεγχος προόδου» για κάθε συσκευή, π.χ. Μόνο το σήμα επιτυχίας αποστέλλεται στο σύστημα παρακολούθησης όταν η συσκευή ελέγχεται χωρίς σφάλμα. Ο χρόνος συνάφειας ορίστηκε σε 5 ώρες.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Τώρα η παρακολούθηση στέλνει ειδοποιήσεις για προβλήματα μόνο όταν η συσκευή δεν μπορεί να μετρηθεί για περισσότερες από 5 ώρες. Με υψηλό βαθμό πιθανότητας, δεν πρόκειται για ψευδείς συναγερμούς, αλλά για πραγματικά προβλήματα.

Παρακάτω είναι μια εικόνα του πώς φαίνεται ο εξοπλισμός στο σύστημα παρακολούθησης:

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Σημαντικό!
Όταν το δίκτυο GSM σταματήσει να λειτουργεί, δεν ελέγχονται όλες οι συσκευές MDC. Για να μειώσουν τον αριθμό των email από το σύστημα παρακολούθησης, οι μηχανικοί μας εγγράφονται σε ειδοποιήσεις σχετικά με προβλήματα εξαρτημάτων με τον τύπο "MPC" και όχι "Συσκευή". Αυτό σας επιτρέπει να λαμβάνετε μία ειδοποίηση για κάθε MPC, αντί να λαμβάνετε ξεχωριστή ειδοποίηση για κάθε συσκευή.

Τελικό πρόγραμμα παρακολούθησης ASMO

Ας συνδυάσουμε τα πάντα και ας δούμε τι είδους σύστημα παρακολούθησης έχουμε.

Τρώμε τον ελέφαντα τμηματικά. Εφαρμογή στρατηγική παρακολούθησης υγείας με παραδείγματα

Συμπέρασμα

Ας συνοψίσουμε.
Τι μας έδωσε η παρακολούθηση της απόδοσης της ASMO;

1. Ο χρόνος εξάλειψης του ελαττώματος έχει μειωθεί
Έχουμε ακούσει στο παρελθόν για ελαττώματα από χρήστες, αλλά δεν αναφέρουν όλοι οι χρήστες ελαττώματα. Έτυχε να μάθουμε για μια δυσλειτουργία ενός στοιχείου συστήματος μια εβδομάδα μετά την εμφάνισή του. Τώρα το σύστημα παρακολούθησης μας ειδοποιεί για προβλήματα μόλις εντοπιστεί κάποιο πρόβλημα.

2. Η σταθερότητα του συστήματος έχει αυξηθεί
Δεδομένου ότι τα ελαττώματα άρχισαν να εξαλείφονται νωρίτερα, το σύστημα στο σύνολό του άρχισε να λειτουργεί πολύ πιο σταθερά.

3. Μείωση του αριθμού των κλήσεων προς την τεχνική υποστήριξη
Πολλά προβλήματα έχουν πλέον επιλυθεί προτού καν οι χρήστες τα μάθουν. Οι χρήστες άρχισαν να επικοινωνούν με την τεχνική υποστήριξη λιγότερο συχνά. Όλα αυτά έχουν καλή επίδραση στη φήμη μας.

4. Αύξηση της αφοσίωσης πελατών και χρηστών
Ο πελάτης παρατήρησε θετικές αλλαγές στη σταθερότητα του συστήματος. Οι χρήστες αντιμετωπίζουν λιγότερα προβλήματα κατά τη χρήση του συστήματος.

5. Μειώστε το κόστος τεχνικής υποστήριξης
Έχουμε σταματήσει να πραγματοποιούμε χειροκίνητους ελέγχους. Τώρα όλοι οι έλεγχοι είναι αυτοματοποιημένοι. Προηγουμένως, μαθαίναμε για προβλήματα από τους χρήστες· συχνά ήταν δύσκολο να καταλάβουμε για ποιο πρόβλημα μιλούσε ο χρήστης. Τώρα, τα περισσότερα προβλήματα αναφέρονται από το σύστημα παρακολούθησης· οι ειδοποιήσεις περιέχουν τεχνικά δεδομένα, τα οποία καθιστούν πάντα σαφές τι πήγε στραβά και πού.

Σημαντικό!
Δεν μπορείτε να εγκαταστήσετε το σύστημα παρακολούθησης στον ίδιο διακομιστή όπου εκτελούνται οι εφαρμογές σας. Εάν ο διακομιστής πέσει, οι εφαρμογές θα σταματήσουν να λειτουργούν και δεν θα υπάρχει κανένας που να ειδοποιεί σχετικά.

Το σύστημα παρακολούθησης πρέπει να εκτελείται σε ξεχωριστό διακομιστή σε άλλο κέντρο δεδομένων.

Εάν δεν θέλετε να χρησιμοποιήσετε έναν αποκλειστικό διακομιστή σε ένα νέο κέντρο δεδομένων, μπορείτε να χρησιμοποιήσετε ένα σύστημα παρακολούθησης cloud. Η εταιρεία μας χρησιμοποιεί το σύστημα παρακολούθησης cloud Zidium, αλλά μπορείτε να χρησιμοποιήσετε οποιοδήποτε άλλο σύστημα παρακολούθησης. Το κόστος ενός συστήματος παρακολούθησης cloud είναι χαμηλότερο από την ενοικίαση ενός νέου διακομιστή.

συστάσεις:

  1. Αναλύστε τις εφαρμογές και τα συστήματα με τη μορφή ενός δέντρου εξαρτημάτων με όσο το δυνατόν περισσότερες λεπτομέρειες, έτσι θα είναι βολικό να κατανοήσετε πού και τι έχει σπάσει και ο έλεγχος θα είναι πιο ολοκληρωμένος.
  2. Για να ελέγξετε τη λειτουργικότητα ενός στοιχείου, χρησιμοποιήστε δοκιμές. Είναι καλύτερο να χρησιμοποιείτε πολλούς απλούς ελέγχους παρά έναν σύνθετο.
  3. Διαμορφώστε τα κατώφλια μέτρησης στο πλάι του συστήματος παρακολούθησης, αντί να τα γράψετε σε κώδικα. Αυτό θα σας γλιτώσει από το να χρειαστεί να κάνετε εκ νέου μεταγλώττιση, επαναρύθμιση ή επανεκκίνηση της εφαρμογής.
  4. Για προσαρμοσμένους ελέγχους, χρησιμοποιήστε ένα περιθώριο χρόνου συνάφειας για να αποφύγετε τη λήψη ψευδών ειδοποιήσεων, επειδή κάποιος έλεγχος χρειάστηκε λίγο περισσότερο χρόνο για να ολοκληρωθεί από το συνηθισμένο.
  5. Προσπαθήστε να κάνετε τα εξαρτήματα στο σύστημα παρακολούθησης να γίνονται κόκκινα μόνο όταν υπάρχει σίγουρα πρόβλημα. Αν γίνουν κόκκινα για τίποτα, τότε θα σταματήσετε να δίνετε προσοχή στις ειδοποιήσεις του συστήματος παρακολούθησης, το νόημά του θα χαθεί.

Εάν δεν χρησιμοποιείτε ακόμη σύστημα παρακολούθησης, ξεκινήστε! Δεν είναι τόσο δύσκολο όσο φαίνεται. Απολαύστε μια ματιά στο δέντρο των πράσινων συστατικών που καλλιεργήσατε μόνοι σας.

Καλή τύχη.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο