So durchsuchen Sie Daten schnell und einfach mit Whale

So durchsuchen Sie Daten schnell und einfach mit Whale
In diesem Artikel geht es um das einfachste und schnellste Datenerkennungstool, dessen Funktionsweise Sie auf KDPV sehen können. Interessanterweise ist Whale so konzipiert, dass es auf einem Remote-Git-Server gehostet wird. Details unter dem Schnitt.

Wie das Data Discovery Tool von Airbnb mein Leben veränderte

Im Laufe meiner Karriere hatte ich das Glück, an einigen lustigen Problemen zu arbeiten: Ich habe während meines Studiums am MIT Strömungsmathematik studiert, an inkrementellen Modellen und an einem Open-Source-Projekt gearbeitet Pylift bei Wayfair und implementierte neue Homepage-Targeting-Modelle und CUPED-Verbesserungen bei Airbnb. Aber all diese Arbeit war nie glamourös – tatsächlich verbrachte ich oft die meiste Zeit damit, Daten zu suchen, zu recherchieren und zu validieren. Obwohl dies bei der Arbeit ein ständiger Zustand war, wurde mir erst klar, dass dies ein Problem war, als ich zu Airbnb kam, wo es mit einem Datenerkennungstool behoben wurde − Datenportal.

Wo finde ich {{data}}? Datenportal.
Was bedeutet diese Spalte? Datenportal.
Wie geht es {{metric}} heute? Datenportal.
Was ist ein Lebensgefühl? IN Datenportal, wahrscheinlich.

Okay, Sie haben das Bild präsentiert. Daten zu finden und zu verstehen, was sie bedeuten, wie sie erstellt wurden und wie man sie nutzt, dauert nur wenige Minuten, nicht Stunden. Ich könnte meine Zeit damit verbringen, einfache Schlussfolgerungen oder neue Algorithmen zu ziehen (… oder zufällige Fragen zu den Daten zu beantworten), anstatt Notizen durchzuwühlen, sich wiederholende SQL-Abfragen zu schreiben und Kollegen auf Slack zu erwähnen, um zu versuchen, den Kontext wiederherzustellen. Das ist schon jemand anderes hatte.

Und was ist das Problem?

Mir wurde klar, dass die meisten meiner Freunde keinen Zugang zu einem solchen Tool hatten. Nur wenige Unternehmen sind bereit, enorme Ressourcen für den Aufbau und die Wartung eines Plattformtools wie Dataportal aufzuwenden. Und obwohl es einige Open-Source-Lösungen gibt, sind diese in der Regel auf Skalierung ausgelegt, was die Einrichtung und Wartung ohne einen dedizierten DevOps-Ingenieur erschwert. Also beschloss ich, etwas Neues zu schaffen.

Whale: Ein unglaublich einfaches Datenerkennungstool

So durchsuchen Sie Daten schnell und einfach mit Whale

Und ja, mit dumm einfach meine ich dumm einfach. Der Wal besteht nur aus zwei Komponenten:

  1. Eine Python-Bibliothek, die Metadaten sammelt und in MarkDown formatiert.
  2. Rust-Befehlszeilenschnittstelle zum Durchsuchen dieser Daten.

Aus Sicht der internen Infrastruktur für die Wartung gibt es lediglich viele Textdateien und ein Programm, das den Text aktualisiert. Das war's, also ist das Hosten auf einem Git-Server wie Github trivial. Keine neue Abfragesprache zu erlernen, keine Verwaltungsinfrastruktur, keine Backups. Jeder kennt Git, daher ist die Synchronisierung und Zusammenarbeit kostenlos. Schauen wir uns die Funktionalität genauer an Wal v1.0.

Voll ausgestattete Git-basierte GUI

Whale ist so konzipiert, dass es im Ozean eines Remote-Git-Servers schwimmt. Er sehr einfach konfigurierbar: Definieren Sie einige Verbindungen, kopieren Sie das Github Actions-Skript (oder schreiben Sie eines für die von Ihnen gewählte CI/CD-Plattform) und Sie erhalten sofort ein Datenerkennungs-Webtool. Sie können Ihre Tabellenkalkulationen direkt auf Github durchsuchen, anzeigen, dokumentieren und teilen.

So durchsuchen Sie Daten schnell und einfach mit Whale
Ein Beispiel für eine Stub-Tabelle, die mit Github-Aktionen generiert wurde. Voll funktionsfähige Demo siehe in diesem Abschnitt.

Blitzschnelle CLI-Suche nach Ihrem Repository

Whale lebt und atmet in der Befehlszeile und bietet leistungsstarke Suchvorgänge im Millisekundenbereich über Ihre Tabellen hinweg. Selbst bei Millionen von Tabellen ist es uns gelungen, Whale durch den Einsatz einiger cleverer Caching-Mechanismen und auch durch den Neuaufbau des Backends in Rust unglaublich leistungsfähig zu machen. Sie werden keine Suchverzögerung bemerken [Hallo Google DS].

So durchsuchen Sie Daten schnell und einfach mit Whale
Whale-Demo, Millionentabellensuche.

Automatische Berechnung von Metriken [in Beta]

Eine meiner unbeliebtesten Aufgaben als Datenwissenschaftler ist es, immer wieder dieselben Abfragen auszuführen, nur um die Qualität der verwendeten Daten zu überprüfen. Whale unterstützt die Möglichkeit, Metriken in einfachem SQL zu definieren, deren Ausführung zusammen mit Ihren Pipelines zur Metadatenbereinigung geplant wird. Definieren Sie einen YAML-Metrikblock innerhalb der Stub-Tabelle, und Whale wird automatisch nach einem Zeitplan ausgeführt und führt in Metriken verschachtelte Abfragen aus.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

So durchsuchen Sie Daten schnell und einfach mit Whale
In Kombination mit Github bedeutet dieser Ansatz, dass Whale als einfache zentrale Wahrheitsquelle für Metrikdefinitionen dienen kann. Whale speichert die Werte sogar zusammen mit dem Zeitstempel in der Datei „~/. Whale/Metrics“, wenn Sie Diagramme erstellen oder tiefergehende Recherchen durchführen möchten.

Die Zukunft

Nachdem wir mit Benutzern unserer Vorabversionen von Whale gesprochen hatten, stellten wir fest, dass die Leute mehr Funktionalität benötigten. Warum ein Tabellensuchtool? Warum nicht ein Tool zur Metriksuche? Warum nicht überwachen? Warum nicht ein SQL-Abfrageausführungstool? Während Whale v1 ursprünglich als einfaches CLI-Begleittool konzipiert war Dataportal/Amundsen, es hat sich bereits zu einer eigenständigen Plattform mit vollem Funktionsumfang entwickelt und wir hoffen, dass es ein integraler Bestandteil des Toolkits des Data Scientist wird.

Wenn Sie etwas im Entwicklungsprozess sehen möchten, nehmen Sie an unserem teil an die Slack-Community, offene Probleme unter Githuboder wenden Sie sich direkt an uns LinkedIn. Wir haben bereits eine Reihe cooler Funktionen – Jinja-Vorlagen, Lesezeichen, Suchfilter, Slack-Benachrichtigungen, Jupyter-Integration und sogar ein CLI-Dashboard für Metriken – aber wir würden uns über Ihren Input freuen.

Abschluss

Whale wird von Dataframe entwickelt und verwaltet, einem Startup, das ich vor Kurzem gemeinsam mit anderen Leuten gründen durfte. Während Whale für Datenwissenschaftler gemacht ist, ist Dataframe für Datenwissenschaftler gemacht. Diejenigen unter Ihnen, die enger zusammenarbeiten möchten, können dies gerne tun AdresseWir nehmen Sie auf die Warteliste auf.

So durchsuchen Sie Daten schnell und einfach mit Whale
Und per Promo-Code Hainbucheerhalten Sie zusätzlich zu dem auf dem Banner angegebenen Rabatt 10 %.

Weitere Kurse

Ausgewählte Artikel

Source: habr.com