Wéi sicht Daten séier an einfach mat Whale

Wéi sicht Daten séier an einfach mat Whale
Dësen Artikel schwätzt iwwer dat einfachst a séierst Date Entdeckungsinstrument, d'Aarbecht vun deem Dir op KDPV gesitt. Interessanterweis ass de Wal entwéckelt fir op engem Remote Git Server gehost ze ginn. Detailer ënner dem Schnëtt.

Wéi Airbnb's Date Entdeckungstool mäi Liewen geännert huet

A menger Karriär hat ech Gléck genuch fir un e puer lëschteg Probleemer ze schaffen: Ech hunn Flow Mathematik studéiert wärend ech mäi Grad um MIT gemaach hunn, un inkrementelle Modeller geschafft a mat engem Open Source Projet pylft bei Wayfair, an nei Homepage-Targetmodeller a CUPED Verbesserunge bei Airbnb implementéiert. Awer all dës Aarbecht war ni glamourös - tatsächlech hunn ech dacks déi meescht vun menger Zäit verbruecht fir Daten ze sichen, ze fuerschen an ze validéieren. Och wann dëst e konstante Zoustand op der Aarbecht war, ass et mir net opgetrueden datt dëst en Thema war bis ech op Airbnb ukomm sinn, wou et mat engem Date Entdeckungsinstrument geléist gouf - datenportal.

Wou kann ech {{Daten}} fannen? datenportal.
Wat heescht dës Kolonn? datenportal.
Wéi geet et haut mat {{metric}}? datenportal.
Wat ass e Sënn vum Liewen? IN datenportal, wahrscheinlech.

Ok, du hues d'Bild virgestallt. Daten ze fannen an ze verstoen wat et heescht, wéi et erstallt gouf a wéi et alles benotzt dauert just e puer Minutten, net Stonnen. Ech kéint meng Zäit verbréngen fir einfach Conclusiounen ze zéien, oder nei Algorithmen, (... oder zoufälleg Froen iwwer d'Donnéeën ze beäntweren) anstatt duerch Noten ze graven, repetitive SQL Ufroen ze schreiwen, a Kollegen op Slack ze ernimmen fir ze probéieren de Kontext nei ze kreéieren. .

Wat ass de Problem?

Ech hu gemierkt datt déi meescht vu menge Frënn keen Zougang zu sou engem Tool hunn. Puer Firme si gewëllt enorm Ressourcen ze widmen fir e Plattforminstrument wéi Dataportal ze bauen an z'erhalen. A wann et e puer Open Source Léisunge sinn, si se éischter entworf fir ze skaléieren, wat et schwéier mécht ouni en engagéierten DevOps Ingenieur opzestellen an z'erhalen. Also hunn ech beschloss eppes Neies ze kreéieren.

Whale: En domm einfachen Date Entdeckungsinstrument

Wéi sicht Daten séier an einfach mat Whale

An jo, mat domm einfach mengen ech domm einfach. De Wal huet nëmmen zwee Komponenten:

  1. Eng Python-Bibliothéik déi Metadaten sammelt an se am MarkDown formatéiert.
  2. Rust Kommandozeil Interface fir duerch dës Donnéeën ze sichen.

Aus der Siicht vun der interner Infrastruktur fir Ënnerhalt ginn et nëmme vill Textdateien an e Programm deen den Text aktualiséiert. Dat ass et, also Hosting op engem Git Server wéi Github ass trivial. Keng nei Ufrosprooch ze léieren, keng Gestiounsinfrastruktur, keng Backups. Jidderee kennt Git, also Synchroniséierung an Zesummenaarbecht ass gratis. Loosst eis d'Funktionalitéit méi no kucken Wale v1.0.

Voll Feature git-baséiert GUI

Whale ass entwéckelt fir am Ozean vun engem Remote Git Server ze schwammen. Hien ganz einfach konfiguréierbar: definéiert e puer Verbindungen, kopéiert de Github Actions Skript (oder schreift een fir Är gewielt CI / CD Plattform) an Dir hutt direkt en Date Entdeckungsweb Tool. Dir kënnt Är Spreadsheets direkt op Github sichen, kucken, dokumentéieren an deelen.

Wéi sicht Daten séier an einfach mat Whale
E Beispill vun enger Stubbtabell generéiert mat Github Actions. Voll schaffen Demo gesinn an dëser Rubrik.

Blitzschnell CLI Sich no Ärem Repository

Whale lieft an otemt op der Kommandozeil, bitt mächteg, Millisekonnen Lookups iwwer Är Dëscher. Och mat Millioune vun Dëscher hu mir et fäerdeg bruecht Wale onheemlech performant ze maachen andeems mir e puer clever Caching Mechanismen benotzen an och duerch d'Rekonstruktioun vum Backend am Rust. Dir mierkt keng Sichverzögerung [Moien Google DS].

Wéi sicht Daten séier an einfach mat Whale
Wale Demo, Milliounen Dësch Lookup.

Automatesch Berechnung vu Metriken [an Beta]

Eng vu menge mannst Liiblingssaachen als Datewëssenschaftler leeft déiselwecht Ufroen ëmmer erëm fir just d'Qualitéit vun den Daten ze kontrolléieren déi benotzt ginn. Whale ënnerstëtzt d'Fäegkeet Metriken an einfacher SQL ze definéieren déi geplangt sinn zesumme mat Äre Metadatenreinigungspipelines ze lafen. Definéiert e YAML Metrikblock bannent der Stubbtabell, a Whale leeft automatesch op engem Zäitplang a laaft Ufroen, déi an Metriken nestéiert sinn.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Wéi sicht Daten séier an einfach mat Whale
Kombinéiert mat Github, heescht dës Approche Wale kann als einfach zentrale Quell vun der Wourecht fir metresch Definitiounen déngen. Whale späichert souguer d'Wäerter zesumme mam Zäitstempel am "~/. whale / Metrics" wann Dir e puer Charting oder méi déif Fuerschung maache wëllt.

D'Zukunft

Nodeems mir mat de Benotzer vun eise Pre-Release Versioune vu Wal geschwat hunn, hu mir gemierkt datt d'Leit méi Funktionalitéit brauche. Firwat en Dësch Lookup Tool? Firwat net e Metrik Sichinstrument? Firwat net iwwerwaachen? Firwat net e SQL Ufro Ausféierungsinstrument? Whale Whale v1 war ursprénglech als einfach CLI Begleeder Tool konzipéiert Dataportal/Amundsen, et huet sech schonn zu enger vollstänneger Standalone Plattform entwéckelt, a mir hoffen datt et en integralen Deel vum Toolkit vum Data Scientist gëtt.

Wann et eppes ass wat Dir wëllt am Entwécklungsprozess gesinn, da maacht mat bei eis an d'Slack Gemeinschaft, oppen Emissiounen um Githuboder souguer direkt kontaktéieren LinkedIn. Mir hu schonn eng Rei vu coolen Features - Jinja Templates, Lieszeechen, Sichfilter, Slack Alarmer, Jupyter Integratioun, souguer e CLI Dashboard fir Metriken - awer mir géifen Ären Input gär hunn.

Konklusioun

Whale gëtt vun Dataframe entwéckelt an ënnerhal, e Startup deen ech viru kuerzem d'Freed hat mat anere Leit ze grënnen. Wärend Wal fir Datewëssenschaftler gemaach gëtt, ass Dataframe fir Datewëssenschaftler gemaach. Fir déi vun iech, déi méi enk zesummeschaffen wëllen, fille sech gratis Adressmir addéieren Iech op d'Waardelëscht.

Wéi sicht Daten séier an einfach mat Whale
An duerch Promo Code HABR, Dir kënnt zousätzlech 10% op d'Remise kréien, déi op de Banner uginn ass.

Méi Coursen

Featured Artikelen

Source: will.com