Μέθοδος CASE: ανθρώπινη παρακολούθηση

Μέθοδος CASE: ανθρώπινη παρακολούθηση
Τζιιιιιν! Είναι 3 το πρωί, βλέπεις ένα υπέροχο όνειρο και ξαφνικά ακούγεται ένα τηλεφώνημα. Είσαι σε υπηρεσία αυτή την εβδομάδα και προφανώς κάτι συνέβη. Το αυτοματοποιημένο σύστημα καλεί για να μάθει τι φταίει. Αυτή είναι μια σημαντική πτυχή της διαχείρισης των σύγχρονων συστημάτων υπολογιστών, αλλά ας δούμε πώς να κάνουμε τις ειδοποιήσεις καλύτερες για τους ανθρώπους.

Εξοικειωθείτε με τη φιλοσοφία παρακολούθησης, που γεννήθηκε εδώ και πολλές δεκαετίες των καθηκόντων μου σε διαφορετικές ομάδες παρακολούθησης. Επηρεάστηκε σε μεγάλο βαθμό από την πραγματική Βίβλο από τον Rob Evashchuk My Philosophy on Alerting (My Notification Philosophy) που περιλαμβάνεται στο βιβλίο για Google SRE, και βιβλίο του John Alspaugh Θεωρήσεις για το σχεδιασμό προειδοποιήσεων (Σημειώσεις για τη ρύθμιση ειδοποιήσεων).

Κέλλυ Νταν, Arijit Mukheryi и Maxim Petazzoni — ευχαριστώ για τη βοήθειά σας στην επεξεργασία της ανάρτησης.

Τι είναι CASE;

Αποφάσισα να καταλήξω σε μια όμορφη συντομογραφία όπως Μέθοδος ΧΡΗΣΗΣ του Brendan Gregg ή Η ΚΟΚΚΙΝΗ μέθοδος του Tom Wilkie. το αποκαλώ μέθοδος CASE. Περιγράφει τέσσερα σημεία που πρέπει να προσέξετε όταν εργάζεστε με αυτόματη παρακολούθηση:

Εάν χρησιμοποιείτε το CASE, αντιμετωπίζετε τις ειδοποιήσεις με μια υγιή αδιαφορία και δεν ξυπνάτε τους ανθρώπους τη νύχτα. Η παρακολούθηση θα πρέπει να αξιολογείται τακτικά ως προς τη χρησιμότητα και την αποτελεσματικότητα. Όταν ένα άτομο λάβει την ειδοποίηση, θα έχει καλύτερα ψυχικά μοντέλα και περισσότερη αυτοπεποίθηση.

Για να είναι πιο εύκολο να θυμάστε, φανταστείτε ότι χρειάζεστε μια ΠΕΡΙΠΤΩΣΗ [δηλαδή μια υπόθεση, έναν λόγο - σημείωμα του μεταφραστή] για να δικαιολογήσει κάθε ειδοποίηση. :γυαλιά ηλίου:

Και γιατί είναι όλα αυτά;

Το να είσαι σε υπηρεσία μπορεί να είναι πόνος. Για ΠΟΛΛΟΥΣ λογους. Και το CASE δεν θα τα εξαλείψει όλα. Αλλά με αυτό, θα ξυπνάτε το βράδυ για καλύτερες ειδοποιήσεις. Αυτή η μέθοδος καλύπτει διάφορες οργανωτικές διαδικασίες που θα βοηθήσουν επίσης σε αυτό το θέμα.

Η ομορφιά των μεθόδων RED και USE είναι ότι με τη βοήθειά τους όχι μόνο ξέρουμε πώς να δουλεύουμε, αλλά και μιλάμε την ίδια γλώσσα μεταξύ μας. Ελπίζω ότι η μέθοδος CASE θα διευκολύνει τη συζήτηση ειδοποιήσεων που προστατεύουν τα συστήματά μας αλλά κρατούν απασχολημένους τους συναδέλφους μας.

Το θέμα είναι ότι πρέπει να δημιουργήσετε μια κουλτούρα στον οργανισμό σας όπου οι ειδοποιήσεις αντιμετωπίζονται με υγιή αδιαφορία. Οι ειδοποιήσεις μπορούν να δημιουργηθούν για συγκεκριμένο σκοπό, αλλά δεν είναι γεγονός ότι δεν θα χάσουν την αξία τους αργότερα. Γιατί ρυθμίσαμε αυτήν την ειδοποίηση; Πριν από πόσο καιρό έχουν αναθεωρηθεί τα κριτήριά του; Με το CASE, αυτές οι ερωτήσεις μπορούν να απαντηθούν.

Context-Heavy - δέσμευση περιβάλλοντος

Οι 3 το πρωί δεν είναι η καλύτερη ώρα για να διαβάσετε μηνύματα που περιέχουν πολλές έξυπνες λέξεις. Για να ανταποκριθείτε αποτελεσματικά, χρειάζεστε πληροφορίες. Στην ιδανική περίπτωση, αυτές θα πρέπει να είναι πληροφορίες σχετικά με ένα συγκεκριμένο ζήτημα, για το οποίο το πλαίσιο είναι άμεσα σαφές και οι ειδοποιήσεις θα πρέπει να διαμορφώνονται έτσι ώστε να είναι δυνατό. Αυτό είναι "παρατήρηση" και "προσανατολισμός" από Βρόχος OODA. Δεν είναι κρίμα να ξοδεύετε χρόνο σε αυτή τη ρύθμιση, γιατί η διαρκής απόσπαση της προσοχής ενός ατόμου είναι ακόμη πιο ακριβή. Ας σεβόμαστε ο ένας τον άλλον.

Μέθοδος CASE: ανθρώπινη παρακολούθηση
Τα προβλήματα έχουν πολλές πηγές. Ειδικά τα φαντάσματα.

Πώς μπορώ να βοηθήσω τον αξιωματικό υπηρεσίας; Το πρώτο πράγμα που βλέπει ο αξιωματικός υπηρεσίας είναι μια ειδοποίηση, οπότε χτίζει όλες τις υποθέσεις στη βάση της. Μετά κοιτάζει οδηγίες και πίνακες εργαλείων, αλλά υπάρχουν πάντα δεδομένα για μια συγκεκριμένη ειδοποίηση και όχι μόνο γενικές πληροφορίες; Ο Alspaugh συμβουλεύει "να σκεφτείτε πώς μπορείτε να ερμηνεύσετε ή να απαντήσετε στην ειδοποίηση" (διαφάνεια 29)1. Μια καλή ειδοποίηση εστιάζεται στο άτομο που είναι σε υπηρεσία και δεν διαμορφώνεται απλώς από ένα όριο.

Ακολουθούν λοιπόν μερικές ιδέες για το πώς να βελτιώσετε το πλαίσιο ειδοποιήσεων:

  • Δείξτε στον χρήστη κάτι χρήσιμο και ειδικά δημιουργημένο, και όχι απλώς συνηθισμένες οδηγίες ή έναν πίνακα εργαλείων. Προηγουμένως, τα παιδιά και εγώ χρησιμοποιούσαμε ερευνητικούς πίνακες εργαλείων που είχαν διαμορφωθεί για συγκεκριμένες ειδοποιήσεις. Αυτό θα βοηθήσει εάν το πρόβλημα είναι γνωστό, αλλά μόνο θα μπερδέψει τους άλλους. Πρέπει να βρούμε μια ισορροπία εδώ.
  • Πείτε μας για το ιστορικό της ειδοποίησης: είναι νέα; Λειτουργεί συχνά; Είναι εποχιακό;
  • Εμφάνιση πρόσφατων αλλαγών στην κατάσταση του συστήματος. Έχει αλλάξει κάτι πρόσφατα; (Για παράδειγμα, ανάπτυξη ή ενεργοποίηση/απενεργοποίηση λειτουργικότητας.)
  • Δείξτε τις σχέσεις και παρέχετε πληροφορίες για το νοητικό μοντέλο: οι εξαρτήσεις του συστήματος πρέπει να είναι ευδιάκριτα, κατά προτίμηση με ένδειξη λειτουργικότητας.
  • Συνδέστε γρήγορα τον χρήστη με την ομάδα: μπορούν να δουν συνεχόμενα περιστατικά ή μπορούν να ανακαλύψουν ποιος άλλος στην εταιρεία έχει λάβει ειδοποίηση; Πρόγραμμα διαχείριση περιστατικών ενεργοποιημένο;

Στην ιδανική περίπτωση, ένα πρόγραμμα διαχείρισης συμβάντων θα παρέχει συμβουλές σχετικά με τον τρόπο βελτίωσης του πλαισίου κοινοποίησης των ερευνών συμβάντων. Πάντα υπάρχει κάτι να δουλέψεις!

Ενεργή - πρακτική αξία

Πρέπει να κάνει κάτι ο αξιωματικός υπηρεσίας ως απάντηση στην ειδοποίηση; Εάν δεν χρειάζεται να κάνετε τίποτα ή δεν είναι σαφές τι να κάνετε, γιατί τον ξυπνήσατε; Πρέπει να αποφύγετε ειδοποιήσεις που ενοχλούν όσους βρίσκονται σε υπηρεσία και δεν απαιτούν ενέργειες.

Δείτε ανάρτηση στο imgur.com

Τι πρέπει να κάνω? Εσυ τι θελεις?

Στο παρελθόν, όταν τα συστήματα ήταν απλά και οι ομάδες μικρές, ρυθμίζαμε την παρακολούθηση μόνο και μόνο για να είμαστε ενήμεροι. Η ειδοποίηση ότι το φορτίο στο σωρό έχει αυξηθεί θα μας δώσει το πλαίσιο εάν η υπηρεσία δυσλειτουργήσει στη συνέχεια. Σε μεγάλη κλίμακα, τέτοιες ειδοποιήσεις θα δημιουργήσουν μόνο σύγχυση επειδή τα συστήματά μας λειτουργούν πάντα σε κατάσταση υποβάθμισης ποικίλης σοβαρότητας. Αυτό οδηγεί γρήγορα σε κούραση από ειδοποιήσεις και, φυσικά, σε απώλεια ευαισθησίας. Επομένως, ο αξιωματικός υπηρεσίας αγνοεί ή ακόμη και φιλτράρει τέτοιες ειδοποιήσεις και δεν ανταποκρίνεται πάντα σε αυτές όπως χρειάζεται. Μην πέσετε σε αυτή την παγίδα! Μην ρυθμίζετε όλες τις ειδοποιήσεις στη σειρά και, στη συνέχεια, στείλτε τις μέσω email σε κάποιον παρατημένο φάκελο.

Δείτε πώς φαίνεται μια ειδοποίηση με πρακτική αξία:

  • Μια ειδοποίηση απαιτεί δράση και όχι απλή αναφορά ειδήσεων.
  • Αυτή η ενέργεια είναι δύσκολο ή επικίνδυνο να αυτοματοποιηθεί. Εάν μια ενέργεια μπορεί να αυτοματοποιηθεί, τότε αυτοματοποιήστε την, σταματήστε να ενοχλείτε τους ανθρώπους!
  • Η ειδοποίηση περιέχει επείγουσες συστάσεις στο έντυπο συμφωνίες επιπέδου υπηρεσιών (SLA) ή στόχος χρόνου αποκατάστασης (RTO). Ο αξιωματικός υπηρεσίας μπορεί στη συνέχεια να ενεργοποιήσει το πρόγραμμα διαχείρισης συμβάντων του οργανισμού.

Θέλω να διευκρινίσω: Δεν λέω ότι οι ειδοποιήσεις πρέπει να έρχονται μόνο για τα πιο σημαντικά SLO (στόχοι σε επίπεδο υπηρεσίας) για το API. Η παρακολούθηση SLO είναι συνεχώς κατακερματισμένη και διχασμένη και απαιτεί την ίδια προσέγγιση σε όλες τις υπηρεσίες. Είναι σαφές ότι θα παρακολουθείτε τα πιο σημαντικά SLO για τους πελάτες που σας πληρώνουν. Ωστόσο, οι SLO υποδομής, όπως οι βάσεις δεδομένων, πρέπει επίσης να παρακολουθούνται. Σύντομα θα πρέπει να αντιμετωπίσετε εσωτερικούς πελάτες και να τους υποστηρίξετε. Και ούτω καθεξής επί άπειρον.

Με βάση τα συμπτώματα - έμφαση στα συμπτώματα

Είτε σας αρέσει είτε όχι, εργάζεστε σε ένα κατανεμημένο σύστημα (Kavaj)2. Ως αποτέλεσμα, χρησιμοποιείτε διαφορετικές τακτικές για να απομονώσετε τις υπηρεσίες και να τις προστατέψετε από αποτυχία (Trainor et al.)3. Και παρόλο που μια καθυστερημένη συλλογή σκουπιδιών ή ένα ερώτημα σε στάσιμη βάση δεδομένων υποδεικνύει προβλήματα, δεν χρειάζεται να βιαστείτε να τα διορθώσετε εάν οι χρήστες δεν αντιμετωπίσουν προβλήματα στο εγγύς μέλλον.

Αυτά είναι σημαντικά σήματα και μπορεί να έχουν πρακτική αξία, αλλά αν δεν ενοχλούν τους χρήστες, τότε δεν είναι επείγον να αποσπάσει την προσοχή του συνοδού. Οι ειδοποιήσεις βάσει αιτιών είναι στιγμιότυπα των νοητικών μοντέλων μας σχετικά με μια αποτυχία συστήματος. Είναι καλύτερο να παρακολουθείτε σημαντικά συμπτώματα παρά να προσπαθείτε να απαριθμήσετε όλες τις πιθανές αιτίες μιας αποτυχίας.

Για να έχουν νόημα οι ειδοποιήσεις, εστιάστε στο δείκτες απόδοσης, σημαντικό για τους χρήστες. Ο Evashchuk το αποκαλεί "παρακολούθηση για χρήστες". Να θυμάστε ότι αυτή η φιλοσοφία πρέπει να εφαρμόζεται σε όλο τον οργανισμό. Εάν κάποια υπηρεσία έχει επείγοντα προβλήματα κάπου βαθιά στην υποδομή, η κατάλληλη ομάδα θα τα φροντίσει. Η προστασία συστημάτων από τέτοιες αστοχίες είναι ένα εντελώς ξεχωριστό θέμα (Trainer et al., ενότητα για στρατηγικές για την ελαχιστοποίηση κρίσιμων εξαρτήσεων)3.

Τα συμπτώματα δεν είναι τόσο μεταβλητά

Ο Richard Cook μας υπενθυμίζει ότι τα πολύπλοκα συστήματα είναι γεμάτα ελαττώματα, ελλείψεις και προβλήματα4. Το να προσπαθείς να απαριθμήσεις όλους τους πιθανούς λόγους είναι ένα Σισύφειο έργο. Προσπαθείς να περιγράψεις προβλήματα, αλλά αλλάζουν συνεχώς. Η Cindy Sridharan πιστεύει ότι «τα συστήματα δεν χρειάζεται να είναι σε τέλεια κατάσταση κάθε δευτερόλεπτο» και είναι προτιμότερο να χρησιμοποιείται μια πιο ανθρώπινη προσέγγιση ("Παρατηρησιμότητα κατανεμημένων συστημάτων" ("Παρακολούθηση κατανεμημένων συστημάτων"), 7)5.

Αποφύγετε τις ειδοποιήσεις μετά από ένα περιστατικό

Συνήθως, οι ειδοποιήσεις για αιτίες διαμορφώνονται για τη διόρθωση περιστατικών. Και αυτές οι περιορισμένες ειδοποιήσεις σχετικά με το γεγονός του τι συνέβη δημιουργούν μια λανθασμένη αίσθηση ασφάλειας, επειδή το σύστημα κάθε φορά βρίσκει νέους τρόπους για να σπάσει.

Μην ξεγελιέστε από ειδοποιήσεις αιτιών. Σκέψου καλύτερα:

  • Γιατί η ειδοποίηση βάσει συμπτωμάτων δεν παρατήρησε το πρόβλημα;
  • Θα ήταν χρήσιμο να βελτιωθεί το πλαίσιο για τον χρήστη;
  • Πώς μπορούν να βελτιωθούν τα εργαλεία παρακολούθησης για να γίνει μια διάγνωση πιο γρήγορα, αντί να συγκεντρωθούν ειδοποιήσεις για το τι συνέβη;

Τα εργαλεία παρακολούθησης για τη διάγνωση θα βοηθήσουν μόνο εάν τα σκεφτείτε ως τρόπο μετάβασης από σύμπτωμα σε λύση. Χωρίς αυτήν την ανατροφοδότηση, απλά θα βομβαρδιστείτε με καθυστερημένες ειδοποιήσεις και γραφήματα σχετικά με προηγούμενες αποτυχίες — και ούτε λέξη για μελλοντικές. Αυτή είναι μια μεγάλη ευκαιρία για έναν οργανισμό να περάσει από την άμυνα στην επίθεση. Και οι προγραμματιστές και οι διαχειριστές προϊόντων θα έχουν τις ίδιες προσδοκίες και ξεκάθαρους στόχους. Η υπόθεση - CASE (:wink:) - είναι ξεκάθαρη για κάθε ειδοποίηση.

Οι ειδοποιήσεις που βασίζονται σε λόγους είναι ανεκτές με μέτρο

Μερικές φορές το σύστημά μας δεν μας αφήνει πολλές επιλογές όσον αφορά τις ειδοποιήσεις που βασίζονται στην αιτία. Και μερικές φορές όσοι είναι σε υπηρεσία καταλαβαίνουν πολύ καλά ότι ένα σύμπτωμα σίγουρα θα οδηγήσει σε αποτυχία και επομένως έχει πρακτική αξία. Ίσως απλά δεν είστε σίγουροι για το τι συμβαίνει και ρυθμίζετε τις ειδοποιήσεις ώστε να είστε ασφαλείς. Ας ελπίσουμε ότι αυτή η ενέργεια είναι προσωρινή έως ότου μπορέσουμε να αλλάξουμε το σύστημα για να επιλύσουμε το πρόβλημα απόδοσης.
Λάβετε υπόψη σας τα άλλα στοιχεία του CASE όταν αντιμετωπίζετε αυτές τις καταστάσεις. Ακριβώς επειδή είναι προσωρινό δεν σημαίνει ότι μπορείτε να σταματήσετε να σκέφτεστε με το κεφάλι σας.

Αξιολογήθηκε - αξιολόγηση

Οποιεσδήποτε αλλαγές στο σύστημα (νέος κωδικός, νέα υποδομή, οτιδήποτε νέο) διευρύνουν το εύρος των αστοχιών (Cook, 3).4 Αυτή η ειδοποίηση εξακολουθεί να λειτουργεί όπως αναμένεται; Σαφή και τρέχοντα νοητικά μοντέλα συστημάτων και εμπειρία απόκρισης σε ορισμένες ειδοποιήσεις υποστήριξης προληπτική προσέγγιση - αυτά είναι τα βασικά χαρακτηριστικά οργάνωση με προσανατολισμό στη μάθηση. Τα ελαττώματα στα συστήματα εξελίσσονται συνεχώς και πρέπει να συμβαδίζουμε με αυτά.

Πρέπει να αξιολογείτε συνεχώς την ποιότητα κάθε ειδοποίησης για να βεβαιωθείτε ότι λειτουργούν όπως αναμένεται. Αγαπητοί ηγέτες! Θα είναι πολύ πιο εύκολο για τις ομάδες σας αν τις βοηθήσετε να δημιουργήσουν αυτή τη διαδικασία! Ακολουθούν μερικές ιδέες αξιολόγησης:

  • χρήση μηχανική χάους, ημέρες παιχνιδιού ή άλλες μεθόδους δοκιμής ειδοποίησης. Η ομάδα μπορεί να το κάνει μόνη της χωρίς να χρειάζεται να βασίζεται σε ένα σύστημα διαχείρισης βαρέων περιστατικών!
  • Ενσωματώστε τη συλλογή όλων των ειδοποιήσεων που σχετίζονται με περιστατικά στο πρόγραμμα διαχείρισης συμβάντων. Σημειώστε χρήσιμο, επιβλαβές, ακατάλληλο, ασαφές κ.λπ. Χρησιμοποιήστε τα ως ανατροφοδότηση.
  • Οι σωστές ειδοποιήσεις ενεργοποιούνται σπάνια και ελέγχονται προσεκτικά. Βεβαιωθείτε ότι όλοι οι σύνδεσμοι λειτουργούν, δείχνουν στο σωστό περιβάλλον κ.λπ.
  • Εάν μια ειδοποίηση δεν ενεργοποιείται ποτέ ή ενεργοποιείται πολύ συχνά, κάτι δεν πάει καλά. Επισκευάστε το ή αφαιρέστε το. Προσοχή στην υπερβολική παθητικότητα ή δραστηριότητα!
  • Ορίστε χρονικές σημάνσεις ειδοποίησης με ημερομηνίες λήξης. Εάν η ημερομηνία λήξης έχει λήξει, αξιολογήστε την ειδοποίηση χρησιμοποιώντας τη μέθοδο CASE και ενημερώστε τη χρονική σήμανση. Όπως και τα τρόφιμα, ελέγχετε τακτικά την ημερομηνία λήξης.
  • Απλοποιήστε τη διαδικασία βελτίωσης των ειδοποιήσεων. Χρησιμοποιήστε την παρακολούθηση ως κώδικα και αποθηκεύστε ειδοποιήσεις σε ένα αποθετήριο Git. Τα αιτήματα έλξης βοηθούν στην αλληλεπίδραση της ομάδας και σας δίνουν ένα ιστορικό προηγούμενων ειδοποιήσεων. Και δεν θα φοβάστε πλέον να αλλάξετε τις ειδοποιήσεις ή να ζητήσετε άδεια από τους υπεύθυνους για αυτές.
  • Ρυθμίστε σχόλια για ειδοποιήσεις, ακόμα κι αν είναι απλό Φόρμα Google, ώστε οι αξιωματικοί υπηρεσίας να επισημαίνουν τις ειδοποιήσεις ως άχρηστες ή παρεμβατικές. Ενσωματώστε έναν σύνδεσμο ή μια παρότρυνση για δράση στην ίδια την ειδοποίηση και ελέγχετε τακτικά τα σχόλιά σας.
  • Καθιερώστε έναν κανόνα στην ομάδα - αφήστε αυτούς που είναι σε υπηρεσία να εργαστούν για να απλοποιήσουν το καθήκον όταν υπάρχει λίγη δουλειά. Μακάρι όλα μετά από σένα να είναι λίγο καλύτερα από πριν.

Συμπέρασμα

Πιστεύω ότι η μέθοδος CASE βοηθά τους προγραμματιστές και τους οργανισμούς να συζητήσουν τη ρύθμιση και την αποστολή αυτοματοποιημένων ειδοποιήσεων. Ένας προγραμματιστής μπορεί να αρχίσει να αξιολογεί τις ειδοποιήσεις χρησιμοποιώντας τη μέθοδο CASE και, στη συνέχεια, ολόκληρος ο οργανισμός θα συμμετάσχει με άλλους προγραμματιστές, προγράμματα διαχείρισης και διαχείρισης συμβάντων για να διατηρεί τις ειδοποιήσεις σε καλή κατάσταση. Αυτό δεν απαιτεί ειδικά εργαλεία ή πολύπλοκες διαδικασίες.

Ολόκληρος ο κλάδος πρέπει να σκεφτεί τον ανθρώπινο παράγοντα ενώ βρίσκεται σε υπηρεσία χωρίς να θυσιάζει την κορυφαία εξυπηρέτηση πελατών. Όλα αυτά τα εργαλεία και πρακτικές μπορούν και πρέπει να βελτιωθούν. Ελπίζω ότι η μέθοδος CASE θα βοηθήσει σε αυτό.

Απολαύστε βελτιωμένες ειδοποιήσεις!
Μέθοδος CASE: ανθρώπινη παρακολούθηση

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο