Πώς μια εταιρεία μπορεί να επιλέξει εργαλεία για μηχανικούς δεδομένων και να μην μετατρέψει τα πάντα σε ζωολογικό κήπο τεχνολογίας: εμπειρία PROFI.RU

Ο συντάκτης του Netology μίλησε με τον επικεφαλής της ομάδας της ομάδας BI στο Profi.ru Ο Pavel Sayapin σχετικά με τα προβλήματα που επιλύουν οι μηχανικοί δεδομένων στην ομάδα του, τι είδους εργαλεία χρησιμοποιούν για αυτό και πώς να επιλέξουν τα σωστά εργαλεία για την επίλυση προβλημάτων δεδομένων, συμπεριλαμβανομένων των άτυπων. Ο Πάβελ είναι δάσκαλος στο μάθημα"Μηχανικός δεδομένων». 

Τι κάνουν οι μηχανικοί δεδομένων στο Profi.ru

Το Profi.ru είναι μια υπηρεσία που βοηθά πελάτες και ειδικούς από διάφορους τομείς να συναντηθούν. Η βάση δεδομένων υπηρεσιών περιλαμβάνει περισσότερους από 900 χιλιάδες ειδικούς σε 700 τύπους υπηρεσιών: δασκάλους, επισκευαστές, εκπαιδευτές, ειδικούς ομορφιάς, καλλιτέχνες και άλλους. Περισσότερες από 10 χιλιάδες νέες παραγγελίες καταχωρούνται καθημερινά - όλα αυτά δίνουν περίπου 100 εκατομμύρια συμβάντα την ημέρα. Είναι αδύνατο να διατηρηθεί η τάξη σε μια τέτοια ποσότητα δεδομένων χωρίς επαγγελματίες μηχανικούς δεδομένων.  

Στην ιδανική περίπτωση, ένας Μηχανικός Δεδομένων αναπτύσσει μια κουλτούρα δεδομένων μέσω της οποίας μια εταιρεία μπορεί να δημιουργήσει πρόσθετα κέρδη ή να μειώσει το κόστος. Προσφέρει αξία στην επιχείρηση δουλεύοντας σε μια ομάδα και ενεργώντας ως σημαντικός σύνδεσμος μεταξύ διαφόρων συμμετεχόντων - από προγραμματιστές έως επιχειρηματίες καταναλωτές της αναφοράς. Αλλά οι εργασίες μπορεί να διαφέρουν σε κάθε εταιρεία, οπότε ας τις δούμε χρησιμοποιώντας το Profi.ru ως παράδειγμα.

Συλλέξτε δεδομένα για λήψη αποφάσεων και παρέχετε στον τελικό χρήστη - κορυφαίο διευθυντή, διευθυντή προϊόντων, αναλυτή 

Τα δεδομένα πρέπει να είναι σαφή για τη λήψη αποφάσεων και εύχρηστα. Δεν χρειάζεται να αγωνίζεστε για να βρείτε μια περιγραφή ή να γράψετε ένα σύνθετο ερώτημα SQL που λαμβάνει υπόψη πολλούς διαφορετικούς παράγοντες. Μια ιδανική εικόνα - ο χρήστης κοιτάζει το ταμπλό και είναι ικανοποιημένος με τα πάντα. Και αν δεν υπάρχουν αρκετά δεδομένα σε κάποια ενότητα, τότε πηγαίνει στη βάση δεδομένων και, χρησιμοποιώντας ένα απλό ερώτημα SQL, παίρνει αυτό που χρειάζεται.

Πώς μια εταιρεία μπορεί να επιλέξει εργαλεία για μηχανικούς δεδομένων και να μην μετατρέψει τα πάντα σε ζωολογικό κήπο τεχνολογίας: εμπειρία PROFI.RU
Θέση της διαδικασίας Ποιότητας Δεδομένων στη συνολική δομή της αποθήκης δεδομένων

Η επεξηγηματική τεκμηρίωση για την εργασία με δεδομένα είναι σημαντική. Αυτό απλοποιεί τη δουλειά τόσο του μηχανικού δεδομένων (δεν αποσπάται από ερωτήσεις) όσο και του χρήστη δεδομένων (μπορεί να βρει μόνος του τις απαντήσεις στις ερωτήσεις του). Στο Profi.ru, τέτοια έγγραφα συλλέγονται στο εσωτερικό φόρουμ.

Ευκολία σημαίνει επίσης ταχύτητα απόκτησης δεδομένων. Ταχύτητα = προσβασιμότητα σε ένα βήμα, κλικ - ταμπλό. Αλλά στην πράξη όλα είναι πιο περίπλοκα. 

Το ίδιο Tableau, από την πλευρά του τελικού χρήστη του ταμπλό, δεν επιτρέπει την εμφάνιση όλων των πιθανών μετρήσεων. Ο χρήστης είναι ικανοποιημένος με τα φίλτρα που έχει δημιουργήσει ο προγραμματιστής του πίνακα ελέγχου. Αυτό οδηγεί σε δύο σενάρια: 

  • Ο προγραμματιστής κάνει πολλές περικοπές για τον πίνακα εργαλείων ⟶ ο αριθμός των σελίδων αυξάνεται πολύ. Αυτό μειώνει τη διαθεσιμότητα των δεδομένων: καθίσταται δύσκολο να καταλάβουμε πού βρίσκονται τα πάντα. 
  • Ο προγραμματιστής δημιουργεί μόνο περικοπές κλειδιών. Είναι πιο εύκολο να βρείτε πληροφορίες, αλλά για μια ελαφρώς λιγότερο τυπική ενότητα πρέπει να πάτε είτε στη βάση δεδομένων είτε σε αναλυτές. Κάτι που έχει επίσης άσχημη επίδραση στην προσβασιμότητα. 

Η προσβασιμότητα είναι μια ευρεία έννοια. Αυτό περιλαμβάνει τη διαθεσιμότητα των δεδομένων στην κατάλληλη μορφή και τη δυνατότητα λήψης πληροφοριών στους πίνακες εργαλείων, καθώς και την απαραίτητη διατομή δεδομένων.

Συγκεντρώστε δεδομένα από όλες τις πηγές σε ένα μέρος

Οι πηγές δεδομένων μπορεί να είναι εσωτερικές ή εξωτερικές. Για παράδειγμα, η επιχείρηση κάποιου εξαρτάται από δελτία καιρού που πρέπει να συλλεχθούν και να αποθηκευτούν - από εξωτερικές πηγές. 

Οι πληροφορίες πρέπει να αποθηκεύονται με την υποδεικνυόμενη πηγή, καθώς και έτσι ώστε τα δεδομένα να μπορούν να βρεθούν εύκολα. Στο Profi.ru αυτό το πρόβλημα επιλύεται χρησιμοποιώντας αυτοματοποιημένη τεκμηρίωση. Τα αρχεία YML χρησιμοποιούνται ως τεκμηρίωση σχετικά με εσωτερικές πηγές δεδομένων.

Φτιάχνουν ταμπλό

Η οπτικοποίηση δεδομένων γίνεται καλύτερα σε ένα επαγγελματικό εργαλείο - για παράδειγμα, Tableau. 

Οι περισσότεροι άνθρωποι παίρνουν αποφάσεις συναισθηματικά· η σαφήνεια και η αισθητική είναι σημαντικές. Το Excel, παρεμπιπτόντως, δεν είναι πολύ κατάλληλο για οπτικοποίηση: δεν καλύπτει όλες τις ανάγκες των χρηστών δεδομένων. Για παράδειγμα, ένας διαχειριστής προϊόντων θέλει να θάβει τον εαυτό του σε αριθμούς, αλλά με τρόπο που το κάνει βολικό. Αυτό του επιτρέπει να λύνει τα προβλήματά του, αντί να σκέφτεται πώς να λαμβάνει πληροφορίες και να συλλέγει μετρήσεις.

Η οπτικοποίηση δεδομένων υψηλής ποιότητας καθιστά ευκολότερη και ταχύτερη τη λήψη αποφάσεων.

 
Όσο υψηλότερη είναι η θέση ενός ατόμου, τόσο μεγαλύτερη είναι η ανάγκη να έχει διαθέσιμα συγκεντρωτικά δεδομένα στο τηλέφωνο. Τα κορυφαία στελέχη δεν χρειάζονται λεπτομέρειες - είναι σημαντικό να ελέγχετε την κατάσταση στο σύνολό της και το BI είναι ένα καλό εργαλείο για αυτό.

Πώς μια εταιρεία μπορεί να επιλέξει εργαλεία για μηχανικούς δεδομένων και να μην μετατρέψει τα πάντα σε ζωολογικό κήπο τεχνολογίας: εμπειρία PROFI.RU
Παράδειγμα πίνακα ελέγχου προϊόντος Profi.ru (ένα από τα φύλλα). Για την εμπιστευτικότητα των πληροφοριών, τα ονόματα των μετρήσεων και των αξόνων είναι κρυμμένα

Παραδείγματα πραγματικών προβλημάτων 

Εργασία 1 - Μεταφέρετε δεδομένα από συστήματα πηγής (λειτουργικά) σε μια αποθήκη δεδομένων ή ETL

Ένα από τα συνηθισμένα καθήκοντα ενός μηχανικού δεδομένων. 

Για αυτό μπορούν να χρησιμοποιηθούν τα ακόλουθα:

  • αυτογραφικά σενάρια που κυκλοφόρησαν μέσω του cron ή χρησιμοποιώντας έναν ειδικό ενορχηστρωτή όπως το Airflow ή το Prefect. 
  • Λύσεις ETL ανοιχτού κώδικα: Pentaho Data Integration, Talend Data Studio και άλλα.
  • αποκλειστικές λύσεις: Informatica PowerCenter, SSIS και άλλα.
  • λύσεις cloud: Matillion, Panoply και άλλα. 

Σε μια απλή υλοποίηση, το πρόβλημα λύνεται γράφοντας ένα αρχείο YML με 20 γραμμές.Αυτό διαρκεί περίπου 5 λεπτά. 

Στην πιο περίπλοκη περίπτωση, όταν χρειάζεται να προσθέσετε μια νέα πηγή - για παράδειγμα, μια νέα βάση δεδομένων - μπορεί να χρειαστούν έως και αρκετές ημέρες. 

Στο Profi, αυτή η απλή εργασία - με μια απλοποιημένη διαδικασία - αποτελείται από τα ακόλουθα βήματα:

  • Μάθετε από τον πελάτη ποια δεδομένα χρειάζονται και πού βρίσκονται.
  • Κατανοήστε εάν υπάρχει πρόσβαση σε αυτά τα δεδομένα.
  • Εάν δεν υπάρχει πρόσβαση, ρωτήστε τους διαχειριστές.
  • Προσθέστε ένα νέο υποκατάστημα στο Git με τον κωδικό έκδοσης στο Jira.
  • Δημιουργήστε μια μετεγκατάσταση για να προσθέσετε δεδομένα στο μοντέλο αγκύρωσης μέσω ενός διαδραστικού σεναρίου Python.
  • Προσθέστε αρχεία λήψης (αρχείο YML που περιγράφει από πού προέρχονται τα δεδομένα και σε ποιον πίνακα είναι γραμμένα).
  • Δοκιμάστε το στη βάση.
  • Ανεβάστε δεδομένα στο αποθετήριο.
  • Δημιουργήστε ένα αίτημα έλξης.
  • Πραγματοποιήστε έλεγχο κώδικα.
  • Αφού περάσει ο έλεγχος κώδικα, τα δεδομένα μεταφορτώνονται στον κύριο κλάδο και διατίθενται αυτόματα στην παραγωγή (CI/CD).

Εργασία 2 - τοποθετήστε εύκολα τα δεδομένα που έχετε λάβει

Μια άλλη κοινή εργασία είναι η διευθέτηση των φορτωμένων δεδομένων έτσι ώστε ο τελικός χρήστης (ή το εργαλείο BI) να μπορεί να εργαστεί εύκολα μαζί τους και να μην χρειάζεται να κάνει περιττές κινήσεις για να ολοκληρώσει τις περισσότερες εργασίες. Δηλαδή, δημιουργήστε ή ενημερώστε ένα Dimension Data Store (DDS). 

Για αυτό, μπορούν να χρησιμοποιηθούν λύσεις από την εργασία 1, καθώς αυτή είναι επίσης μια διαδικασία ETL. Στην απλούστερη έκδοση, το DDS ενημερώνεται χρησιμοποιώντας δέσμες ενεργειών SQL.

Η εργασία 3 είναι μία από τις άτυπες εργασίες

Τα αναλυτικά στοιχεία ροής εμφανίζονται στο Profi. Ένας μεγάλος αριθμός συμβάντων δημιουργείται από ομάδες προϊόντων - τα καταγράφουμε στο ClickHouse. Αλλά δεν μπορείτε να εισάγετε εγγραφές μία κάθε φορά σε μεγάλους αριθμούς, επομένως πρέπει να συνδυάσετε τις εγγραφές σε παρτίδες. Δηλαδή, δεν μπορείτε να γράψετε απευθείας - χρειάζεστε έναν ενδιάμεσο επεξεργαστή.

Χρησιμοποιούμε έναν κινητήρα που βασίζεται στο Apache Flink. Μέχρι στιγμής, η διαδικασία είναι η εξής: ο κινητήρας επεξεργάζεται την εισερχόμενη ροή συμβάντων ⟶ τα τοποθετεί σε παρτίδες στο ClickHouse ⟶ μετράει τον αριθμό των συμβάντων σε 15 λεπτά εν κινήσει ⟶ τα μεταφέρει στην υπηρεσία, η οποία καθορίζει εάν υπάρχουν ανωμαλίες - τα συγκρίνει με τις τιμές για τα ίδια 15 λεπτά με βάθος 3 μηνών ⟶ αν υπάρχει, στέλνει ειδοποίηση στο Slack.

Πώς μια εταιρεία μπορεί να επιλέξει εργαλεία για μηχανικούς δεδομένων και να μην μετατρέψει τα πάντα σε ζωολογικό κήπο τεχνολογίας: εμπειρία PROFI.RU
Σχηματικό για αναλυτικά στοιχεία πρώτης γραμμής (μέρος της λήψης)

Το πλαίσιο Apache Flink εγγυάται την παράδοση τουλάχιστον μία φορά. Ωστόσο, υπάρχει πιθανότητα διπλότυπων. Στην περίπτωση του RabbitMQ, αυτό μπορεί να λυθεί χρησιμοποιώντας το Αναγνωριστικό συσχέτισης. Τότε είναι εγγυημένη η μονή παράδοση ⟶ η ακεραιότητα των δεδομένων.

Μετράμε τον αριθμό των συμβάντων, χρησιμοποιώντας ξανά το Apache Flink, τον εμφανίζουμε μέσω ενός προσαρμοσμένου πίνακα εργαλείων γραμμένο στο NodeJS + μπροστά στο ReactJS. Μια γρήγορη αναζήτηση δεν έδωσε παρόμοιες λύσεις. Και ο ίδιος ο κώδικας αποδείχθηκε απλός - η συγγραφή δεν χρειάστηκε πολύ χρόνο.

Η παρακολούθηση είναι μάλλον τεχνική. Αναζητούμε ανωμαλίες για να αποτρέψουμε προβλήματα στα αρχικά στάδια. Ορισμένες σημαντικές παγκόσμιες μετρήσεις της εταιρείας δεν περιλαμβάνονται ακόμη στην παρακολούθηση, καθώς η κατεύθυνση των αναλύσεων ροής βρίσκεται στο στάδιο της διαμόρφωσης.

Βασικά εργαλεία για μηχανικούς δεδομένων

Τα καθήκοντα των μηχανικών δεδομένων είναι λίγο πολύ ξεκάθαρα, τώρα λίγο για τα εργαλεία που χρησιμοποιούνται για την επίλυσή τους. Φυσικά, τα εργαλεία σε διαφορετικές εταιρείες μπορούν (και πρέπει) να διαφέρουν - όλα εξαρτώνται από τον όγκο των δεδομένων, την ταχύτητα λήψης και την ετερογένειά τους. Μπορεί επίσης να εξαρτάται από την προκατάληψη του ειδικού προς ένα συγκεκριμένο όργανο μόνο επειδή έχει δουλέψει με αυτό και το γνωρίζει καλά. Το Profi.ru αρκέστηκε σε αυτές τις επιλογές →

Για οπτικοποίηση δεδομένων - Tableau, Metabase

Το Tableau επιλέχθηκε εδώ και πολύ καιρό. Αυτό το σύστημα σάς επιτρέπει να αναλύετε γρήγορα μεγάλες ποσότητες δεδομένων χωρίς να απαιτείται δαπανηρή εφαρμογή. Για εμάς είναι βολικό, όμορφο και οικείο - συχνά δουλεύουμε σε αυτό.

Λίγοι γνωρίζουν για το Metabase, αλλά είναι πολύ καλό για πρωτότυπα. 

Μεταξύ των εργαλείων οπτικοποίησης, μπορούμε επίσης να μιλήσουμε για το Superset από την Airbnb. Το ιδιαίτερο χαρακτηριστικό του είναι οι πολλές συνδέσεις του με βάσεις δεδομένων και οι δυνατότητες οπτικοποίησης. Ωστόσο, για τον μέσο χρήστη είναι λιγότερο βολικό από το Metabase - δεν μπορεί να ενώσει πίνακες· για αυτό πρέπει να δημιουργήσετε ξεχωριστές προβολές. 

Στο Metabase, μπορείτε να συνδέσετε πίνακες· επιπλέον, η υπηρεσία το κάνει από μόνη της, λαμβάνοντας υπόψη το σχήμα της βάσης δεδομένων. Και η διεπαφή του Metabase είναι απλούστερη και πιο ευχάριστη.

Υπάρχουν πολλά εργαλεία - απλά βρείτε τα δικά σας.

Για αποθήκευση δεδομένων – ClickHouse, Vertica

Το ClickHouse είναι ένα δωρεάν, γρήγορο εργαλείο για την αποθήκευση συμβάντων προϊόντων. Σε αυτό, οι ίδιοι οι αναλυτές κάνουν ξεχωριστές αναλύσεις (αν έχουν αρκετά δεδομένα) ή οι μηχανικοί δεδομένων παίρνουν συγκεντρωτικά στοιχεία και τα ανεβάζουν ξανά στο Vertica για να δημιουργήσουν εκθέσεις.

Το Vertica είναι ένα δροσερό, φιλικό προς τον χρήστη προϊόν για την προβολή τελικών βιτρινών. 

Για να διαχειριστείτε τις ροές δεδομένων και να εκτελέσετε υπολογισμούς - Ροή αέρα

Φορτώνουμε δεδομένα μέσω εργαλείων κονσόλας. Για παράδειγμα, μέσω ενός πελάτη που συνοδεύεται από MySQL - αυτό είναι πιο γρήγορο. 

Το πλεονέκτημα των εργαλείων της κονσόλας είναι η ταχύτητα. Τα δεδομένα δεν αντλούνται μέσω της μνήμης της ίδιας διεργασίας Python. Το μειονέκτημα είναι ότι υπάρχει λιγότερος έλεγχος των δεδομένων που μεταφέρονται από τη μια βάση δεδομένων στην άλλη.

Η κύρια γλώσσα προγραμματισμού είναι η Python

Η Python έχει πολύ χαμηλότερο όριο εισόδου + η εταιρεία έχει ικανότητες σε αυτήν τη γλώσσα. Ένας άλλος λόγος είναι ότι τα Airflow DAG είναι γραμμένα σε Python. Αυτά τα σενάρια είναι απλώς ένα περιτύλιγμα πάνω από τις λήψεις· η κύρια εργασία γίνεται μέσω σεναρίων κονσόλας. 

Χρησιμοποιούμε Java για την ανάπτυξη αναλυτικών στοιχείων σε πραγματικό χρόνο.

Προσέγγιση επιλογής εργαλείων δεδομένων - τι πρέπει να κάνετε για να αποφύγετε τη δημιουργία τεχνολογικού ζωολογικού κήπου

Υπάρχουν πολλά εργαλεία στην αγορά για την εργασία με δεδομένα σε κάθε στάδιο: από την εμφάνισή τους έως την εμφάνισή τους σε ένα ταμπλό για το διοικητικό συμβούλιο. Δεν αποτελεί έκπληξη το γεγονός ότι ορισμένες εταιρείες μπορεί να καταλήξουν σε μια σειρά άσχετων λύσεων - έναν λεγόμενο ζωολογικό κήπο τεχνολογίας.

Ένας τεχνολογικός ζωολογικός κήπος αποτελείται από εργαλεία που εκτελούν τις ίδιες λειτουργίες. Για παράδειγμα, Kafka και RabbitMQ για ανταλλαγή μηνυμάτων ή Grafana και Zeppelin για οπτικοποίηση. 

Πώς μια εταιρεία μπορεί να επιλέξει εργαλεία για μηχανικούς δεδομένων και να μην μετατρέψει τα πάντα σε ζωολογικό κήπο τεχνολογίας: εμπειρία PROFI.RU
Χάρτης δεδομένων και τεχνολογιών και εταιρειών AI — μπορείτε να δείτε πόσες διπλές λύσεις μπορεί να υπάρχουν

Επίσης, πολλοί άνθρωποι μπορούν να χρησιμοποιήσουν διαφορετικά εργαλεία ETL για προσωπικούς σκοπούς. Αυτή ακριβώς είναι η κατάσταση στο Profi. Το κύριο ETL είναι στο Airflow, αλλά μερικοί άνθρωποι χρησιμοποιούν το Pentaho για προσωπικές λήψεις. Δοκιμάζουν υποθέσεις και δεν χρειάζεται να τρέξουν αυτά τα δεδομένα μέσω μηχανικών. Βασικά, τα εργαλεία "self-service" χρησιμοποιούνται από αρκετά έμπειρους ειδικούς που ασχολούνται με ερευνητικές δραστηριότητες - μελετώντας νέους τρόπους ανάπτυξης προϊόντων. Το σύνολο δεδομένων τους για ανάλυση τους ενδιαφέρει κυρίως και, επιπλέον, αλλάζει συνεχώς. Συνεπώς, δεν έχει νόημα η προσθήκη αυτών των φορτίων στην κύρια πλατφόρμα. 

Επιστροφή στον ζωολογικό κήπο. Συχνά η χρήση διπλών τεχνολογιών συνδέεται με τον ανθρώπινο παράγοντα. Οι αποσπασμένες εσωτερικές ομάδες συνηθίζουν να εργάζονται με το ένα ή το άλλο εργαλείο που μια άλλη ομάδα ενδέχεται να μην χρησιμοποιεί. Και μερικές φορές η αυτονομία είναι ο μόνος τρόπος επίλυσης ειδικών προβλημάτων. Για παράδειγμα, η ομάδα Ε&Α πρέπει να δοκιμάσει κάτι χρησιμοποιώντας ένα συγκεκριμένο εργαλείο - είναι απλώς βολικό, κάποιος από την ομάδα το έχει ήδη χρησιμοποιήσει ή υπάρχει άλλος λόγος. Είναι μεγάλη αναμονή για τους διαχειριστές συστήματος να εγκαταστήσουν και να ρυθμίσουν αυτό το εργαλείο. Ταυτόχρονα, οι στοχαστικοί και σχολαστικοί διαχειριστές πρέπει ακόμη να αποδείξουν ότι αυτό είναι πραγματικά απαραίτητο. Έτσι, η ομάδα εγκαθιστά το εργαλείο στις εικονικές μηχανές της και λύνει τα συγκεκριμένα προβλήματά της.

Οι λύσεις του Zoo δεν αποτελούν πρόβλημα μόνο εάν δεν απαιτείται σημαντική προσπάθεια του διαχειριστή συστήματος για την υποστήριξη του εργαλείου. Πρέπει να εξετάσετε πώς η χρήση του εργαλείου επηρεάζει τους πόρους υποστήριξης. 

Ένας άλλος συνηθισμένος λόγος για την εμφάνιση νέων εργαλείων είναι η επιθυμία να δοκιμάσετε ένα άγνωστο προϊόν σε μια αρκετά νέα περιοχή όπου δεν έχουν ακόμη διαμορφωθεί πρότυπα ή δεν υπάρχουν αποδεδειγμένες συστάσεις. Ένας μηχανικός δεδομένων, όπως ένας προγραμματιστής, θα πρέπει πάντα να εξερευνά νέα εργαλεία με την ελπίδα να βρει μια καλύτερη λύση σε ένα τρέχον πρόβλημα ή να συμβαδίσει με αυτό που έχει να προσφέρει η αγορά.

Ο πειρασμός να δοκιμάσετε νέα εργαλεία είναι πραγματικά μεγάλος. Αλλά για να κάνετε μια κατάλληλη επιλογή, χρειάζεστε πρώτα αυτοπειθαρχία. Θα σας βοηθήσει να μην ενδώσετε πλήρως στις ερευνητικές παρορμήσεις, αλλά να λάβετε υπόψη τις δυνατότητες της εταιρείας για την υποστήριξη της υποδομής για ένα νέο εργαλείο. 

Μην χρησιμοποιείτε την τεχνολογία για χάρη της τεχνολογίας. Είναι καλύτερο να προσεγγίσετε το ζήτημα με ρεαλισμό: μια εργασία ⟶ ένα σύνολο εργαλείων που μπορούν να λύσουν αυτό το πρόβλημα.

 Και στη συνέχεια αξιολογήστε το καθένα από αυτά και επιλέξτε το βέλτιστο. Για παράδειγμα, αυτό το εργαλείο μπορεί να λύσει ένα πρόβλημα πιο αποτελεσματικά, αλλά δεν υπάρχει καμία αρμοδιότητα σε αυτό, και αυτό είναι ελαφρώς λιγότερο αποτελεσματικό, αλλά υπάρχουν άνθρωποι στην εταιρεία που ξέρουν πώς να το δουλέψουν. Αυτό το εργαλείο πληρώνεται, αλλά είναι εύκολο στην υποστήριξη και στη χρήση, και αυτό είναι ένα μοντέρνο ανοιχτό κώδικα, αλλά απαιτεί ένα προσωπικό διαχειριστών για να το υποστηρίξει. Προκύπτουν τέτοιες διχογνωμίες, η λύση των οποίων απαιτεί ψυχραιμία.

Η επιλογή ενός οργάνου είναι μισό άλμα πίστης, μισό προσωπική εμπειρία. Δεν υπάρχει απόλυτη βεβαιότητα ότι το εργαλείο θα ταιριάζει.

Για παράδειγμα, η Profi ξεκίνησε με το Pentaho επειδή είχε εξειδίκευση σε αυτό το εργαλείο, αλλά τελικά αποδείχθηκε ότι ήταν λάθος απόφαση. Καθώς το έργο μεγάλωνε, το εσωτερικό αποθετήριο του Pentaho άρχισε να επιβραδύνεται σημαντικά. Παρεμπιπτόντως, χρειάστηκε ένα λεπτό για να αποθηκεύσετε τα δεδομένα και αν έχετε τη συνήθεια να αποθηκεύετε συνεχώς την εργασία σας, τότε ο χρόνος απλά γλίστρησε μέσα από τα δάχτυλά σας. Σε αυτό προστέθηκε μια περίπλοκη εκκίνηση και προγραμματισμένες εργασίες - ο υπολογιστής πάγωσε. 

Τα βάσανα τελείωσαν μετά τη μετάβαση στο Airflow, ένα δημοφιλές εργαλείο με μια μεγάλη κοινότητα. 

Η παρουσία μιας κοινοτικής υπηρεσίας ή εργαλείου είναι σημαντική για την επίλυση σύνθετων προβλημάτων - μπορείτε να ζητήσετε συμβουλές από τους συναδέλφους σας.

Εάν η εταιρεία είναι ώριμη και διαθέτει τους πόρους, είναι λογικό να σκεφτείτε να αγοράσετε τεχνική υποστήριξη. Αυτό θα σας βοηθήσει να αντιμετωπίσετε γρήγορα προβλήματα και να λάβετε συστάσεις σχετικά με τον τρόπο χρήσης του προϊόντος.

Αν μιλάμε για την προσέγγιση της επιλογής, το Profi τηρεί τις ακόλουθες αρχές:

  • Μην παίρνετε αποφάσεις μόνοι σας. Όταν κάποιος επιλέγει κάτι, αυτόματα πείθεται ότι έχει δίκιο. Είναι άλλο θέμα να πείσεις τους άλλους όταν χρειάζεται να κάνεις μια σοβαρή άμυνα. Αυτό βοηθά επίσης να δείτε τις αδυναμίες του οργάνου.
  • Συμβουλευτείτε τον επικεφαλής επιστήμονα δεδομένων (κάθετος διάλογος). Αυτός θα μπορούσε να είναι ο Chief Data Engineer, ο επικεφαλής της ομάδας BI. Οι κορυφαίοι βλέπουν την κατάσταση ευρύτερα. 
  • Επικοινωνία με άλλες ομάδες (οριζόντιος διάλογος). Τι εργαλεία χρησιμοποιούν και πόσο καλά; Ίσως το εργαλείο των συναδέλφων σας μπορεί επίσης να λύσει τα προβλήματά σας και δεν θα χρειαστεί να δημιουργήσετε έναν ζωολογικό κήπο λύσεων.

Οι εσωτερικές ικανότητες ως αποτελεσματική αντικατάσταση ενός εξωτερικού παρόχου υπηρεσιών

Η χρήση των εσωτερικών ικανοτήτων της εταιρείας μπορεί επίσης να θεωρηθεί ως προσέγγιση επιλογής εργαλείων. 

Αρκετά συχνά υπάρχουν περιπτώσεις όπου μια επιχείρηση έχει ένα πολύπλοκο έργο, αλλά δεν υπάρχουν χρήματα για να το υλοποιήσει. Το έργο είναι μεγάλο και σημαντικό και είναι καλύτερο να εμπλακεί ένας εξωτερικός πάροχος υπηρεσιών που έχει τη σχετική εμπειρία. Επειδή όμως δεν υπάρχει τέτοια ευκαιρία (χρήματα), ανατίθεται στην εσωτερική ομάδα να λύσει το πρόβλημα. Επιπλέον, οι επιχειρήσεις συνήθως εμπιστεύονται περισσότερο τους υπαλλήλους τους εάν έχουν ήδη αποδείξει την αποτελεσματικότητά τους.

Παραδείγματα τέτοιων εργασιών όταν αναπτύσσεται μια νέα κατεύθυνση από τους υπαλλήλους περιλαμβάνουν τη δοκιμή φόρτωσης και τη δημιουργία μιας αποθήκης δεδομένων. Ειδικά η αποθήκη δεδομένων καθώς είναι μια μοναδική ιστορία για κάθε επιχείρηση. Η εγκατάσταση αποθήκευσης δεν μπορεί να αγοραστεί· μπορείτε να προσλάβετε μόνο εξωτερικούς ειδικούς που θα την κατασκευάσουν με την υποστήριξη μιας εσωτερικής ομάδας.  

Παρεμπιπτόντως, καθώς αναπτύσσεται η νέα κατεύθυνση, η ομάδα μπορεί να συνειδητοποιήσει ότι η ανάγκη για εξωτερικό πάροχο υπηρεσιών δεν είναι πλέον απαραίτητη.

Στο Profi, η υλοποίηση του BI ήταν εσωτερική. Η κύρια δυσκολία ήταν ότι η επιχείρηση ήθελε να ξεκινήσει γρήγορα το BI. Αλλά η δημιουργία ενός τέτοιου έργου χρειάστηκε χρόνο: δημιουργία ικανοτήτων, ανέβασμα δεδομένων, δημιουργία μιας βολικής διάταξης αποθήκευσης, επιλογή εργαλείων και κατάκτησή τους.

Η κύρια -καυτή- φάση, που όλα χτίζονταν και αποκρυσταλλώνονταν, κράτησε περίπου ένα χρόνο. Και το έργο εξακολουθεί να αναπτύσσεται. 

Όταν χτίζετε μια εταιρική αποθήκη δεδομένων, είναι σημαντικό να τηρείτε υψηλά πρότυπα, να υπερασπίζεστε τις θέσεις σας και να μην κάνετε πράγματα για να ευχαριστήσετε την επιχείρηση. 

Με πολύ πόνο, ξαναδουλέψαμε το μεγαλύτερο μέρος του έργου, το οποίο στη συνέχεια έπρεπε να γίνει γρήγορα.

 Αλλά μερικές φορές μια προσέγγιση γρήγορης επιδιόρθωσης είναι κατάλληλη. Έτσι, στην ανάπτυξη προϊόντων μπορεί να είναι και το μόνο σωστό. Πρέπει να προχωρήσουμε γρήγορα, να δοκιμάσουμε υποθέσεις προϊόντων και πολλά άλλα. Αλλά η αποθήκευση πρέπει να βασίζεται σε μια ισχυρή αρχιτεκτονική, διαφορετικά δεν θα μπορεί να προσαρμοστεί γρήγορα στην αναπτυσσόμενη επιχείρηση και το έργο θα σταματήσει.

Ο διευθυντής μας ήταν πολύ χρήσιμος σε αυτό το πολύπλοκο έργο, υπερασπιζόμενος την πρόοδο της εργασίας, εξηγώντας στη διοίκηση τι κάναμε, εξάγοντας πόρους και απλώς υπερασπιζόταν εμάς. Χωρίς αυτή την υποστήριξη, δεν είμαι σίγουρος ότι θα μπορούσαμε να ξεκινήσουμε το έργο.

Σε τέτοιες ιστορίες, σημαντικό ρόλο παίζουν οι λεγόμενοι πρώιμοι χρήστες - αυτοί που είναι έτοιμοι να δοκιμάσουν νέα πράγματα - ανάμεσα σε κορυφαία στελέχη, αναλυτές και διευθυντές προϊόντων. Για να απογειωθεί ένα ακατέργαστο θέμα, χρειαζόμαστε πρωτοπόρους που θα επιβεβαιώσουν ότι όλα λειτουργούν και είναι βολικά στη χρήση.

Αν κάποιος θέλει να μοιραστεί τη λύση στο τρίτο πρόβλημα που περιγράφεται παραπάνω, καλώς ορίσατε :)

Πηγή: www.habr.com

Αγοράστε αξιόπιστη φιλοξενία για ιστότοπους με προστασία DDoS, διακομιστές VPS VDS 🔥 Αγοράστε αξιόπιστη φιλοξενία ιστοσελίδων με προστασία DDoS, διακομιστές VPS VDS | ProHoster