Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale
Tha an stuth seo a 'toirt cunntas air an inneal lorg dàta as sìmplidh agus as luaithe, a chì thu air KDPV. Gu inntinneach, tha muc-mhara air a dhealbhadh airson a bhith air aoigheachd air frithealaiche git iomallach. Mion-fhiosrachadh fon ghearradh.

Mar a dh’ atharraich inneal lorg dàta Airbnb mo bheatha

Tha mi air a bhith fortanach a bhith ag obair air cuid de dhuilgheadasan spòrsail nam chùrsa-beatha: rinn mi sgrùdadh air matamataig snàithlean fhad ‘s a fhuair mi mo cheum aig MIT, dh’ obraich mi air modalan mean air mhean agus pròiseact stòr fosgailte piobaireachd aig Wayfair, a bharrachd air a bhith a’ buileachadh duilleag-dachaigh ùr ag amas air modalan agus leasachaidhean CUPED aig Airbnb. Ach cha robh a h-uile obair seo a-riamh glamourous - gu dearbh, gu tric chuir mi seachad a 'mhòr-chuid den ùine agam a' rannsachadh, a 'sgrùdadh agus a' dearbhadh dàta. Ged a b’ e suidheachadh seasmhach a bha seo aig an obair, cha do thachair e rium gur e duilgheadas a bha seo gus an do ràinig mi Airbnb, far an deach fhuasgladh le bhith a’ cleachdadh inneal lorg dàta - Stòr-dàta.

Càite am faigh mi {{data}}? Stòr-dàta.
Dè tha an colbh seo a’ ciallachadh? Stòr-dàta.
Ciamar a tha {{metric}} a’ dol an-diugh? Stòr-dàta.
Dè a th’ ann am mothachadh air beatha? ANNS Stòr-dàta, is dòcha.

Ceart gu leòr, tha an dealbh agad. Bheir lorg dàta agus tuigsinn dè tha e a’ ciallachadh, mar a chaidh a chruthachadh, agus mar a chleachdas e e uile mionaidean, chan e uairean. B’ urrainn dhomh m’ ùine a chaitheamh a’ dèanamh co-dhùnaidhean sìmplidh, no algoirmean ùra, (... no a’ freagairt cheistean air thuaiream mun dàta) seach a bhith a’ rummaging tro notaichean, a’ sgrìobhadh cheistean ath-aithris SQL, agus a’ toirt iomradh air co-obraichean air Slack gus feuchainn ri co-theacs ath-chruthachadh , a tha cuideigin eile bha cheana.

Dè an duilgheadas a th’ ann?

Thuig mi nach robh cothrom aig a’ mhòr-chuid de mo charaidean air inneal mar seo. Is e glè bheag de chompanaidhean a tha airson goireasan mòra a chaitheamh gus inneal àrd-ùrlar leithid Dataportal a chruthachadh agus a chumail suas. Agus ged a tha grunn fhuasglaidhean stòr fosgailte rim faighinn, mar as trice bidh iad air an dealbhadh gu sgèile, a’ dèanamh suidheachadh agus cumail suas duilich às aonais innleadair sònraichte DevOps. Mar sin chuir mi romham rudeigin ùr a chruthachadh.

Muc-mhara: inneal lorg dàta gu math sìmplidh

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale

Agus tha, gu sìmplidh gu ìre gòrach, tha mi a’ ciallachadh sìmplidh gu ìre gòrach. Chan eil ach dà phàirt aig muc-mhara:

  1. Leabharlann Python a bhios a’ cruinneachadh meata-dàta agus ga chruth ann am MarkDown.
  2. Eadar-aghaidh loidhne-àithne Rust airson an dàta seo a rannsachadh.

Bho thaobh a’ bhun-structair a-staigh airson cumail suas, chan eil ann ach tòrr fhaidhlichean teacsa agus prògram a bhios ag ùrachadh an teacsa. Sin agad e, agus mar sin tha aoigheachd air frithealaiche git mar Github gu math beag. Chan eil cànan ceist ùr ri ionnsachadh, gun bhun-structar riaghlaidh, gun chùl-taic. Tha Git aithnichte don h-uile duine, agus mar sin thig sioncronadh agus co-obrachadh an-asgaidh. Bheir sinn sùil nas mionaidiche air an comas-gnìomh muc-mhara v1.0.

GUI làn-nochdadh stèidhichte air git

Tha muc-mhara air a dhealbhadh gus cuan frithealaiche git iomallach a sheòladh. Tha e gu math furasta customizable: mìnich cuid de cheanglaichean, dèan lethbhreac den sgriobt Github Actions (no sgrìobh fear airson an àrd-ùrlar CI / CD as fheàrr leat) agus bidh inneal lorg dàta stèidhichte air an lìon agad ann an ùine sam bith. Bidh e comasach dhut na duilleagan-clèithe agad a sgrùdadh, fhaicinn, a chlàradh agus a cho-roinn gu dìreach air Github.

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale
Eisimpleir de chlàr stub air a chruthachadh a’ cleachdadh Github Actions. Demo làn-obrach seall anns an earrainn seo.

Rannsachadh CLI luath-dealanach air an stòr agad

Bidh muc-mhara a’ fuireach agus a’ toirt anail air an loidhne-àithne, a’ toirt seachad rannsachaidhean cumhachdach, millisecond thairis air na bùird agad. Eadhon le milleanan de bhùird, chaidh againn air muc-mhara a dhèanamh air leth soirbheachail le bhith a’ cleachdadh cuid de dh’ innealan tasgaidh ciallach, a bharrachd air a bhith ag ath-thogail an backend ann an Rust. Chan fhaic thu dàil rannsachaidh sam bith [hello, Google DS].

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale
Taisbeanadh muc-mhara, rannsaich tro mhillean clàr.

Àireamhachadh fèin-ghluasadach de mheatraigean [ann am beta]

Is e aon de na rudan as fheàrr leam mar neach-saidheans dàta a bhith a’ ruith na h-aon cheistean a-rithist agus a-rithist dìreach gus càileachd an dàta a thathar a’ cleachdadh a sgrùdadh. Bidh muc-mhara a 'toirt taic don chomas a bhith a' mìneachadh meatrach ann an SQL sìmplidh a bhios air a chlàradh airson ruith còmhla ris na pìoban sgrìobadh meata-dàta agad. Mìnich bloc metrics ann an cruth YAML taobh a-staigh clàr stub, agus ruithidh Whale gu fèin-ghluasadach air clàr-ama agus ruithidh e ceistean a tha neadachadh taobh a-staigh meatrach.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale
Còmhla ri Github, tha an dòigh-obrach seo a’ ciallachadh gum faod muc-mhara a bhith na phrìomh thùs fìrinn airson mìneachaidhean meatrach. Bidh muc-mhara fiù 's a' stòradh nan luachan cuide ri stampa-ama san "~/" eòlaire. muc-mhara/metrics" ma tha thu airson graf air choireigin no rannsachadh nas doimhne a dhèanamh.

An àm ri teachd

Às deidh dhuinn bruidhinn ri luchd-cleachdaidh na dreachan ro-sgaoilidh againn de mhuc-mhara, thuig sinn gu robh feum aig daoine air comas-gnìomh nas fharsainge. Carson inneal sgrùdaidh bùird? Carson nach e inneal sgrùdaidh meatrach a th’ ann? Carson nach dèan thu sgrùdadh? Carson nach eil inneal ceist SQL ann? Ged a bhathas an dùil an toiseach mu mhuc-mhara v1 a bhith na inneal companach CLI sìmplidh Dataportal/Amundsen, tha e mar-thà air fàs gu bhith na àrd-ùrlar làn-ghnìomhach leis fhèin, agus tha sinn an dòchas gum bi e na phàirt riatanach de ghoireas an neach-saidheans dàta.

Ma tha rudeigin a tha thu airson fhaicinn san leasachadh, thig còmhla rinn Coimhearsnachd sgoinneil, fosgailte Cùisean aig GitHub, no eadhon cuir fios gu dìreach Dèan. Tha grunn fheartan fionnar againn mu thràth - teamplaidean Jinja, comharran leabhraichean, sìoltachain sgrùdaidh, rabhaidhean Slack, amalachadh Jupyter, eadhon deas-bhòrd CLI airson meatrach - ach bu toil leinn do chuir a-steach.

co-dhùnadh

Tha muc-mhara air a leasachadh agus a’ faighinn taic bho Dataframe, companaidh tòiseachaidh a fhuair mi o chionn ghoirid toilichte a bhith air a stèidheachadh le feadhainn eile. Fhad ‘s a tha muc-mhara air a dhealbhadh airson luchd-saidheans dàta, tha Dataframe air a dhealbhadh airson sgiobaidhean saidheans dàta. Dhaibhsan agaibhse a tha airson co-obrachadh nas dlùithe, na bi leisg seòladh, cuiridh sinn thu ris an liosta feitheimh.

Mar a nì thu sgrùdadh air dàta gu sgiobalta agus gu furasta le Whale
Agus le còd promo HABR, gheibh thu 10% a bharrachd ris an lasachadh a tha air a chomharrachadh air a’ bhratach.

Tuilleadh chùrsaichean

Artaigilean sònraichte

Source: www.habr.com