Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale
Αυτό το άρθρο μιλά για το απλούστερο και ταχύτερο εργαλείο ανακάλυψης δεδομένων, το έργο του οποίου βλέπετε στο KDPV. Είναι ενδιαφέρον ότι το whale έχει σχεδιαστεί για να φιλοξενείται σε έναν απομακρυσμένο διακομιστή git. Λεπτομέρειες κάτω από το κόψιμο.

Πώς το Εργαλείο Ανακάλυψης Δεδομένων της Airbnb άλλαξε τη ζωή μου

Στην καριέρα μου, είχα την τύχη να δουλέψω σε μερικά διασκεδαστικά προβλήματα: σπούδασα μαθηματικά ροής ενώ έκανα το πτυχίο μου στο MIT, δούλεψα σε αυξητικά μοντέλα και με ένα έργο ανοιχτού κώδικα πυλώνας στην Wayfair και εφάρμοσε νέα μοντέλα στόχευσης αρχικής σελίδας και βελτιώσεις CUPED στην Airbnb. Αλλά όλη αυτή η δουλειά δεν ήταν ποτέ λαμπερή — στην πραγματικότητα, συχνά περνούσα τον περισσότερο χρόνο μου ψάχνοντας, ερευνώντας και επικυρώνοντας δεδομένα. Παρόλο που αυτή ήταν μια σταθερή κατάσταση στην εργασία, δεν μου πέρασε από το μυαλό ότι αυτό ήταν ένα ζήτημα μέχρι να φτάσουν στην Airbnb όπου επιλύθηκε με ένα εργαλείο ανακάλυψης δεδομένων − πύλη δεδομένων.

Πού μπορώ να βρω τα {{data}}; πύλη δεδομένων.
Τι σημαίνει αυτή η στήλη; πύλη δεδομένων.
Πώς είναι η κατάσταση {{metric}} σήμερα; πύλη δεδομένων.
Τι είναι η αίσθηση της ζωής; ΣΕ πύλη δεδομένων, πιθανώς.

Εντάξει, παρουσίασες την εικόνα. Η εύρεση δεδομένων και η κατανόηση του τι σημαίνει, πώς δημιουργήθηκε και πώς να τα χρησιμοποιήσετε όλα χρειάζονται λίγα μόνο λεπτά, όχι ώρες. Θα μπορούσα να ξοδέψω τον χρόνο μου βγάζοντας απλά συμπεράσματα ή νέους αλγόριθμους (… ή απαντώντας σε τυχαίες ερωτήσεις σχετικά με τα δεδομένα), αντί να σκάβω σημειώσεις, να γράφω επαναλαμβανόμενα ερωτήματα SQL και να αναφέρω συναδέλφους στο Slack για να προσπαθήσω να δημιουργήσω ξανά το πλαίσιο. είχε.

Ποιο είναι το πρόβλημα?

Συνειδητοποίησα ότι οι περισσότεροι φίλοι μου δεν είχαν πρόσβαση σε ένα τέτοιο εργαλείο. Λίγες εταιρείες είναι πρόθυμες να αφιερώσουν τεράστιους πόρους για τη δημιουργία και τη συντήρηση ενός εργαλείου πλατφόρμας όπως το Dataportal. Και ενώ υπάρχουν μερικές λύσεις ανοιχτού κώδικα, τείνουν να σχεδιάζονται σε κλίμακα, γεγονός που καθιστά δύσκολη τη ρύθμιση και τη συντήρηση χωρίς έναν ειδικό μηχανικό DevOps. Έτσι αποφάσισα να δημιουργήσω κάτι νέο.

Φάλαινα: Ένα ανόητα απλό εργαλείο ανακάλυψης δεδομένων

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale

Και ναι, λέγοντας ανόητα απλό εννοώ ανόητα απλό. Η φάλαινα έχει μόνο δύο συστατικά:

  1. Μια βιβλιοθήκη Python που συλλέγει μεταδεδομένα και τα μορφοποιεί στο MarkDown.
  2. Διεπαφή γραμμής εντολών Rust για αναζήτηση σε αυτά τα δεδομένα.

Από την άποψη της εσωτερικής υποδομής για συντήρηση, υπάρχουν μόνο πολλά αρχεία κειμένου και ένα πρόγραμμα που ενημερώνει το κείμενο. Αυτό ήταν, οπότε η φιλοξενία σε διακομιστή git όπως το Github είναι ασήμαντη. Δεν υπάρχει νέα γλώσσα ερωτημάτων για εκμάθηση, καμία υποδομή διαχείρισης, κανένα αντίγραφο ασφαλείας. Όλοι γνωρίζουν το Git, επομένως ο συγχρονισμός και η συνεργασία είναι δωρεάν. Ας ρίξουμε μια πιο προσεκτική ματιά στη λειτουργικότητα Φάλαινα v1.0.

Πλήρες χαρακτηριστικό GUI βασισμένο σε git

Το Whale έχει σχεδιαστεί για να κολυμπάει στον ωκεανό ενός απομακρυσμένου διακομιστή git. Αυτός πολύ εύκολο με δυνατότητα διαμόρφωσης: ορίστε ορισμένες συνδέσεις, αντιγράψτε το σενάριο Github Actions (ή γράψτε ένα για την επιλεγμένη πλατφόρμα CI/CD) και θα έχετε αμέσως ένα εργαλείο ιστού εντοπισμού δεδομένων. Θα μπορείτε να κάνετε αναζήτηση, προβολή, τεκμηρίωση και κοινή χρήση των υπολογιστικών φύλλων σας απευθείας στο Github.

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale
Ένα παράδειγμα ενός πίνακα στέλεχος που δημιουργήθηκε με χρήση Github Actions. Πλήρης λειτουργία επίδειξης δείτε σε αυτή την ενότητα.

Αστραπιαία αναζήτηση CLI για το αποθετήριο σας

Η φάλαινα ζει και αναπνέει στη γραμμή εντολών, παρέχοντας ισχυρές αναζητήσεις χιλιοστών του δευτερολέπτου στα τραπέζια σας. Ακόμη και με εκατομμύρια τραπέζια, καταφέραμε να κάνουμε τη φάλαινα απίστευτα αποδοτική χρησιμοποιώντας κάποιους έξυπνους μηχανισμούς προσωρινής αποθήκευσης και επίσης αναδημιουργώντας το backend στο Rust. Δεν θα παρατηρήσετε καθυστέρηση αναζήτησης [γεια Google DS].

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale
Επίδειξη φαλαινών, αναζήτηση εκατομμυρίων τραπεζιών.

Αυτόματος υπολογισμός μετρήσεων [σε beta]

Ένα από τα λιγότερο αγαπημένα μου πράγματα ως επιστήμονας δεδομένων είναι να εκτελώ τα ίδια ερωτήματα ξανά και ξανά για να ελέγξω την ποιότητα των δεδομένων που χρησιμοποιούνται. Το Whale υποστηρίζει τη δυνατότητα ορισμού μετρήσεων σε απλή SQL που θα προγραμματιστεί να εκτελούνται μαζί με τους αγωγούς καθαρισμού μεταδεδομένων. Καθορίστε ένα μπλοκ μετρήσεων YAML μέσα στον πίνακα stub και το Whale θα εκτελείται αυτόματα σε ένα χρονοδιάγραμμα και θα εκτελεί ερωτήματα που είναι ένθετα στις μετρήσεις.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale
Σε συνδυασμό με το Github, αυτή η προσέγγιση σημαίνει ότι η φάλαινα μπορεί να χρησιμεύσει ως μια εύκολη κεντρική πηγή αλήθειας για μετρικούς ορισμούς. Το Whale αποθηκεύει ακόμη και τις τιμές μαζί με τη χρονική σήμανση στο "~/. whale/metrics" αν θέλετε να κάνετε κάποια χαρτογράφηση ή πιο εμπεριστατωμένη έρευνα.

Το μέλλον

Αφού μιλήσαμε με χρήστες των εκδόσεων του whale πριν από την κυκλοφορία, συνειδητοποιήσαμε ότι οι άνθρωποι χρειάζονταν περισσότερη λειτουργικότητα. Γιατί ένα εργαλείο αναζήτησης πίνακα; Γιατί όχι ένα εργαλείο αναζήτησης μετρήσεων; Γιατί όχι παρακολούθηση; Γιατί όχι ένα εργαλείο εκτέλεσης ερωτημάτων SQL; Ενώ το whale v1 σχεδιάστηκε αρχικά ως ένα απλό συνοδευτικό εργαλείο CLI Dataportal/Amundsen, έχει ήδη εξελιχθεί σε μια πλήρως εξοπλισμένη αυτόνομη πλατφόρμα και ελπίζουμε ότι θα γίνει αναπόσπαστο μέρος της εργαλειοθήκης του Data Scientist.

Εάν υπάρχει κάτι που θέλετε να δείτε στη διαδικασία ανάπτυξης, γίνετε μέλος μας στην κοινότητα του Slack, ανοίξτε Θέματα στο Githubή ακόμα και να επικοινωνήσετε απευθείας LinkedIn. Έχουμε ήδη μια σειρά από συναρπαστικές λειτουργίες - πρότυπα Jinja, σελιδοδείκτες, φίλτρα αναζήτησης, ειδοποιήσεις Slack, ενσωμάτωση Jupyter, ακόμη και έναν πίνακα ελέγχου CLI για μετρήσεις - αλλά θα θέλαμε πολύ τη συμβολή σας.

Συμπέρασμα

Το Whale αναπτύσσεται και συντηρείται από την Dataframe, μια startup που πρόσφατα είχα τη χαρά να συνιδρύσω με άλλους ανθρώπους. Ενώ το whale είναι φτιαγμένο για επιστήμονες δεδομένων, το Dataframe είναι φτιαγμένο για επιστήμονες δεδομένων. Για όσους από εσάς θέλετε να συνεργαστείτε πιο στενά, μη διστάσετε να το κάνετε διεύθυνσηθα σας προσθέσουμε στη λίστα αναμονής.

Πώς να αναζητήσετε δεδομένα γρήγορα και εύκολα με το Whale
Και με κωδικό προσφοράς HABR, μπορείτε να λάβετε επιπλέον 10% στην έκπτωση που αναγράφεται στο banner.

Περισσότερα μαθήματα

Επιλεγμένα άρθρα

Πηγή: www.habr.com