Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével
Ez a cikk a legegyszerűbb és leggyorsabb adatfeltáró eszközről szól, amelynek működését a KDPV-n láthatja. Érdekes módon a whale-t úgy tervezték, hogy egy távoli git-kiszolgálón tárolják. Részletek a vágás alatt.

Hogyan változtatta meg az életemet az Airbnb adatfeltáró eszköze

Karrierem során örömömre szolgált, hogy néhány szórakoztató problémán dolgozhattam: flow matematikát tanultam, miközben diplomámat szereztem az MIT-n, dolgoztam inkrementális modelleken és egy nyílt forráskódú projektben. pillift a Wayfairnél, az Airbnb-nél pedig új kezdőlap-célzási modelleket és CUPED fejlesztéseket vezetett be. De ez a munka soha nem volt elbűvölő – sőt, időm nagy részét gyakran az adatok keresésével, kutatásával és érvényesítésével töltöttem. Bár ez egy állandó munkaállapot volt, nem jutott eszembe, hogy ez probléma lenne, amíg el nem jutottam az Airbnb-hez, ahol egy adatfeltáró eszközzel megoldódott – adatportál.

Hol találom a(z) {{data}} szolgáltatást? adatportál.
Mit jelent ez az oszlop? adatportál.
Hogy áll ma a {{metric}}? adatportál.
Mi az életérzés? BAN BEN adatportál, valószínűleg.

Oké, bemutattad a képet. Az adatok megtalálása és annak megértése, hogy mit jelentenek, hogyan jöttek létre és hogyan kell használni mindezt, mindössze néhány percet vesz igénybe, nem órákat. Az időmet azzal tölthetem, hogy egyszerű következtetéseket vagy új algoritmusokat vonjak le (… vagy véletlenszerű kérdésekre válaszoljak az adatokkal kapcsolatban), ahelyett, hogy jegyzetek között ásnék, ismétlődő SQL-lekérdezéseket írnék, és a Slack-en dolgozó kollégákat emlegetném, hogy megpróbáljam újra létrehozni a kontextust. volt.

Mi a baj?

Rájöttem, hogy a legtöbb barátom nem fér hozzá ilyen eszközhöz. Kevés vállalat hajlandó hatalmas erőforrásokat fordítani egy olyan platformeszköz felépítésére és karbantartására, mint a Dataportal. És bár van néhány nyílt forráskódú megoldás, ezeket általában méretre tervezték, ami megnehezíti a beállítást és a karbantartást dedikált DevOps-mérnök nélkül. Ezért úgy döntöttem, hogy valami újat alkotok.

Bálna: Egy ostobán egyszerű adatfeltáró eszköz

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével

És igen, a hülyén egyszerű alatt azt értem, hogy ostobán egyszerű. A bálnának csak két összetevője van:

  1. Egy Python-könyvtár, amely metaadatokat gyűjt, és MarkDown-ban formázza azokat.
  2. Rust parancssori felület az adatok kereséséhez.

A karbantartás belső infrastruktúrája szempontjából csak nagyon sok szöveges fájl és a szöveget frissítő program van. Ennyi, tehát egy olyan git szerveren, mint a Github, triviális a tárhely. Nincs új megtanulandó lekérdezési nyelv, nincs felügyeleti infrastruktúra, nincs biztonsági mentés. Mindenki ismeri a Git-et, így a szinkronizálás és az együttműködés ingyenes. Nézzük meg közelebbről a funkcionalitást Bálna v1.0.

Teljes funkcionalitású git-alapú GUI

A Whale-t úgy tervezték, hogy egy távoli git-szerver óceánjában ússzon. Ő nagyon könnyű konfigurálható: definiáljon néhány kapcsolatot, másolja ki a Github Actions szkriptet (vagy írjon egyet a választott CI/CD platformhoz), és azonnal rendelkezésére áll egy adatfeltáró webeszköz. Közvetlenül a Githubon kereshet, tekinthet meg, dokumentálhat és megoszthat táblázatait.

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével
Példa a Github Actions segítségével létrehozott csonktáblázatra. Teljesen működő demo lásd ebben a részben.

Villámgyors CLI-keresés az adattárhoz

A bálna a parancssorban él és lélegzik, hatékony, ezredmásodperces keresést biztosítva az asztalokon. Még több millió tábla mellett is hihetetlenül teljesítőképessé tudtuk tenni a bálnát néhány okos gyorsítótárazási mechanizmus használatával, valamint a háttérrendszer átépítésével a Rustban. Nem fog késni a keresést [hello Google DS].

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével
Bálna bemutató, milliós asztalkeresés.

A mutatók automatikus számítása [béta]

Adattudósként az egyik legkevésbé kedvelt dolog, hogy ugyanazokat a lekérdezéseket futtatom újra és újra, csak hogy ellenőrizzem a felhasznált adatok minőségét. A Whale támogatja a metrikák egyszerű SQL-ben történő meghatározását, amelyek a metaadat-tisztító folyamatokkal együtt lesznek ütemezve. Határozzon meg egy YAML-metrikablokkot a csonktáblázaton belül, és a Whale automatikusan ütemezetten fut, és lekérdezéseket fog futtatni a metrikákba ágyazottan.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével
A Githubbal kombinálva ez a megközelítés azt jelenti, hogy a bálna könnyen központi igazságforrásként szolgálhat a metrikus meghatározásokhoz. A Whale még az értékeket is elmenti az időbélyeggel együtt a "~/"-ben. bálna/metrikák”, ha térképezést vagy alaposabb kutatást szeretne végezni.

a jövőben

Miután beszéltünk a bálna kiadás előtti verzióinak felhasználóival, rájöttünk, hogy az embereknek több funkcióra van szükségük. Miért érdemes táblázatkereső eszközt használni? Miért nem mérőszámkereső eszköz? Miért nem figyelik? Miért nem egy SQL lekérdezés-végrehajtó eszköz? Míg a whale v1 eredetileg egy egyszerű CLI segédeszköznek készült Dataportal/Amundsen, máris egy teljes funkcionalitású önálló platformmá fejlődött, és reméljük, hogy a Data Scientist eszköztárának szerves részévé válik.

Ha van valami, amit látni szeretne a fejlesztési folyamatban, csatlakozzon hozzánk a Slack közösségnek, Nyissa meg az Issues címet GitHubvagy akár közvetlenül is kapcsolatba léphet LinkedIn. Már számos nagyszerű funkcióval rendelkezünk – Jinja sablonok, könyvjelzők, keresési szűrők, Slack figyelmeztetések, Jupyter integráció, még egy CLI irányítópult is a mérőszámokhoz –, de szívesen vennénk a véleményét.

Következtetés

A Whale-t a Dataframe fejleszti és tartja karban, egy startup, amelyet nemrégiben volt szerencsém másokkal együtt alapítani. Míg a bálna az adatkutatóknak készült, a Dataframe az adatkutatóknak készült. Azok számára, akik szeretnének szorosabban együttműködni, nyugodtan címfelvesszük a várólistára.

Hogyan kereshet gyorsan és egyszerűen adatokat a Whale segítségével
És promóciós kóddal GYERTYÁNFÉNY, a banneren feltüntetett kedvezményhez további 10%-ot kaphat.

További tanfolyamok

Kiemelt cikkek

Forrás: will.com