Hvernig á að leita að gögnum fljótt og auðveldlega með Whale

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale
Þessi grein fjallar um einfaldasta og fljótlegasta gagnauppgötvunartækið, verkið sem þú sérð á KDPV. Athyglisvert er að hvalur er hannaður til að vera hýstur á ytri git netþjóni. Upplýsingar undir klippingu.

Hvernig gagnauppgötvunartól Airbnb breytti lífi mínu

Á ferli mínum hef ég haft ánægju af að vinna að skemmtilegum vandamálum: Ég lærði flæðisstærðfræði á meðan ég stundaði gráðu mína við MIT, vann að stigvaxandi líkönum og með opinn uppspretta verkefni. pylift hjá Wayfair, og innleitt ný miðunarlíkön á heimasíðum og endurbætur á CUPED hjá Airbnb. En öll þessi vinna var aldrei glæsileg - reyndar eyddi ég oft mestum tíma mínum í að leita, rannsaka og sannreyna gögn. Þó þetta væri stöðugt ástand í vinnunni hvarflaði ekki að mér að þetta væri vandamál fyrr en ég kom á Airbnb þar sem það var leyst með gagnauppgötvunartæki − gagnagátt.

Hvar get ég fundið {{gögn}}? gagnagátt.
Hvað þýðir þessi dálkur? gagnagátt.
Hvernig gengur {{metric}} í dag? gagnagátt.
Hvað er tilfinning fyrir lífinu? IN gagnagátt, líklega.

Allt í lagi, þú hefur kynnt myndina. Að finna gögn og skilja hvað þau þýðir, hvernig þau voru búin til og hvernig á að nota þau allt tekur aðeins nokkrar mínútur, ekki klukkustundir. Ég gæti eytt tíma mínum í að draga einfaldar ályktanir eða nýjar reiknirit (...eða svara handahófi spurningum um gögnin) frekar en að grafa í gegnum glósur, skrifa endurteknar SQL fyrirspurnir og minnast á samstarfsmenn á Slack til að reyna að endurskapa samhengi. sem einhver annar hafði þegar .

Hvað er vandamálið?

Ég áttaði mig á því að flestir vinir mínir höfðu ekki aðgang að slíku tæki. Fá fyrirtæki eru tilbúin að verja miklu fjármagni til að byggja og viðhalda vettvangsverkfæri eins og Dataportal. Og þó að það séu nokkrar opinn uppspretta lausnir, hafa þær tilhneigingu til að vera hannaðar til að skala, sem gerir það erfitt að setja upp og viðhalda án sérstakrar DevOps verkfræðings. Svo ég ákvað að búa til eitthvað nýtt.

Hvalur: Heimskulega einfalt gagnauppgötvunartæki

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale

Og já, með heimskulega einfalt meina ég heimskulega einfalt. Hvalurinn hefur aðeins tvo þætti:

  1. Python bókasafn sem safnar lýsigögnum og forsníða þau í MarkDown.
  2. Ryð skipanalínuviðmót til að leita í þessum gögnum.

Frá sjónarhóli innri innviða fyrir viðhald er aðeins mikið af textaskrám og forriti sem uppfærir textann. Það er það, svo hýsing á git netþjóni eins og Github er léttvæg. Ekkert nýtt fyrirspurnarmál til að læra, engin stjórnunarinnviði, engin afrit. Allir þekkja Git, svo samstilling og samvinna er ókeypis. Við skulum skoða virknina nánar Hvalur v1.0.

Git-undirstaða GUI með fullri lögun

Whale er hannaður til að synda í sjónum á ytri git netþjóni. Hann mjög auðvelt stillanlegt: skilgreindu nokkrar tengingar, afritaðu Github Actions handritið (eða skrifaðu eitt fyrir valinn CI/CD vettvang) og þú munt fá gagnauppgötvun vefverkfæri strax. Þú munt geta leitað, skoðað, skjalfest og deilt töflureiknunum þínum beint á Github.

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale
Dæmi um stubbatöflu sem er búin til með Github Actions. Full vinnandi kynningu sjá í þessum kafla.

Eldingarhröð CLI leit að geymslunni þinni

Hvalur lifir og andar á skipanalínunni og veitir öfluga millisekúndna uppflettingu yfir borðin þín. Jafnvel með milljónir borða tókst okkur að gera hvali ótrúlega afkastamikinn með því að nota snjöll skyndiminni og einnig með því að endurbyggja bakendann í Rust. Þú munt ekki taka eftir neinni seinkun á leit [halló Google DS].

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale
Hvalsýni, milljón töfluleit.

Sjálfvirkur útreikningur á mælingum [í beta]

Eitt af því sem minnst er í uppáhaldi hjá mér sem gagnafræðingur er að keyra sömu fyrirspurnirnar aftur og aftur bara til að athuga gæði gagnanna sem eru notuð. Whale styður getu til að skilgreina mælikvarða í látlausri SQL sem á að keyra ásamt lýsigagnahreinsunarleiðslum þínum. Skilgreindu YAML mælikvarðablokk inni í stubbtöflunni og Whale mun sjálfkrafa keyra samkvæmt áætlun og keyra fyrirspurnir sem eru hreiðar í mæligildum.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale
Ásamt Github þýðir þessi nálgun að hvalur geti þjónað sem auðveld uppspretta sannleika fyrir mælikvarðaskilgreiningar. Whale vistar meira að segja gildin ásamt tímastimplinum í „~/. hvali/mælingar“ ef þú vilt gera smá kort eða ítarlegri rannsóknir.

Framtíðin

Eftir að hafa talað við notendur á forútgáfuútgáfum okkar af hval komumst við að því að fólk þyrfti meiri virkni. Hvers vegna töfluleitartæki? Af hverju ekki mælikvarðaleitartæki? Af hverju ekki eftirlit? Af hverju ekki SQL fyrirspurnarframkvæmdartól? Þó að hvalur v1 hafi upphaflega verið hugsaður sem einfalt CLI fylgiverkfæri Dataportal/Amundsen, það hefur þegar þróast í fullkominn sjálfstæðan vettvang og við vonum að það verði óaðskiljanlegur hluti af verkfærakistu gagnafræðingsins.

Ef það er eitthvað sem þú vilt sjá í þróunarferlinu, taktu þátt í okkar til Slack samfélagsins, opin tölublöð kl GitHubeða jafnvel hafa samband beint LinkedIn. Við höfum nú þegar marga flotta eiginleika - Jinja sniðmát, bókamerki, leitarsíur, slaka viðvaranir, Jupyter samþættingu, jafnvel CLI mælaborð fyrir mælikvarða - en við viljum gjarnan leggja þitt inn.

Ályktun

Whale er þróað og viðhaldið af Dataframe, sprotafyrirtæki sem ég hafði nýlega ánægju af að stofna með öðru fólki. Á meðan hvalur er gerður fyrir gagnafræðinga er Dataframe gerður fyrir gagnafræðinga. Fyrir þá ykkar sem viljið vinna nánara samstarf, ekki hika við heimilisfangvið bætum þér á biðlistann.

Hvernig á að leita að gögnum fljótt og auðveldlega með Whale
Og með kynningarkóða HABR, þú getur fengið 10% til viðbótar við afsláttinn sem tilgreindur er á borðanum.

Fleiri námskeið

Valdar greinar

Heimild: www.habr.com