Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով
Այս հոդվածը խոսում է տվյալների հայտնաբերման ամենապարզ և ամենաարագ գործիքի մասին, որի աշխատանքը տեսնում եք KDPV-ում: Հետաքրքիր է, որ կետը նախատեսված է հեռավոր git սերվերի վրա տեղակայվելու համար: Մանրամասները կտրվածքի տակ։

Ինչպես Airbnb-ի տվյալների հայտնաբերման գործիքը փոխեց իմ կյանքը

Իմ կարիերայի ընթացքում ես բավականաչափ բախտ եմ ունեցել աշխատելու որոշ զվարճալի խնդիրների վրա. ես սովորել եմ հոսքային մաթեմատիկա՝ ավարտելով իմ աստիճանը MIT-ում, աշխատել եմ աստիճանական մոդելների վրա և բաց կոդով նախագծով: pylift Wayfair-ում և ներդրեց գլխավոր էջի թիրախավորման նոր մոդելներ և CUPED բարելավումներ Airbnb-ում: Բայց այս ամբողջ աշխատանքը երբեք դյութիչ չէր. իրականում, ես հաճախ ժամանակիս մեծ մասը ծախսում էի տվյալների որոնման, հետազոտման և վավերացման վրա: Թեև սա մշտական ​​վիճակ էր, մտքովս չէր անցնում, որ դա խնդիր էր, մինչև չհասա Airbnb, որտեղ այն լուծվեց տվյալների հայտնաբերման գործիքի միջոցով: տվյալների պորտալ.

Որտեղ կարող եմ գտնել {{տվյալներ}}: տվյալների պորտալ.
Ի՞նչ է նշանակում այս սյունակը: տվյալների պորտալ.
Ինչպե՞ս է այսօր գործում {{metric}}-ը: տվյալների պորտալ.
Ի՞նչ է կյանքի զգացումը: IN տվյալների պորտալ, հավանաբար.

Լավ, դուք ներկայացրել եք նկարը։ Տվյալներ գտնելը և հասկանալը, թե դրանք ինչ են նշանակում, ինչպես են դրանք ստեղծվել և ինչպես օգտագործել դրանք, տևում է ընդամենը մի քանի րոպե, ոչ թե ժամեր: Ես կարող էի ժամանակս ծախսել պարզ եզրակացությունների կամ նոր ալգորիթմների վրա (… կամ պատասխանելով պատահական հարցերին տվյալների վերաբերյալ), այլ ոչ թե գրառումներ փորփրելու, կրկնվող SQL հարցումներ գրելու և Slack-ում գործընկերներին նշելու համար՝ փորձելով վերստեղծել համատեքստը։ ուներ.

Ինչումն է խնդիրը?

Ես հասկացա, որ իմ ընկերներից շատերը նման գործիքի հասանելիություն չունեին: Քիչ ընկերություններ են պատրաստ հսկայական ռեսուրսներ հատկացնել Dataportal-ի նման հարթակի գործիքի ստեղծմանը և պահպանմանը: Եվ չնայած կան մի քանի բաց կոդով լուծումներ, դրանք հակված են նախագծված լինել մասշտաբային, ինչը դժվարացնում է առանց DevOps-ի հատուկ ինժեների տեղադրումն ու պահպանումը: Ուստի որոշեցի նոր բան ստեղծել:

Կետ. տվյալների հայտնաբերման հիմարորեն պարզ գործիք

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով

Եվ այո, հիմարորեն պարզ ասելով ես նկատի ունեմ հիմարորեն պարզ: Կետն ունի միայն երկու բաղադրիչ.

  1. Python գրադարան, որը հավաքում է մետատվյալներ և ձևավորում դրանք MarkDown-ում:
  2. Rust հրամանի տող ինտերֆեյս այս տվյալների միջով որոնելու համար:

Սպասարկման ներքին ենթակառուցվածքի տեսանկյունից կան միայն շատ տեքստային ֆայլեր և տեքստը թարմացնող ծրագիր։ Վերջ, այնպես որ Github-ի նման git սերվերի վրա հոսթինգը չնչին է: Ոչ մի նոր հարցման լեզու սովորելու, ոչ կառավարման ենթակառուցվածք, ոչ կրկնօրինակում: Բոլորը գիտեն Git-ը, ուստի համաժամացումը և համագործակցությունն անվճար են: Եկեք ավելի սերտ նայենք ֆունկցիոնալությանը Կետ v1.0.

Ամբողջովին ներկայացված git-ի վրա հիմնված GUI

Whale-ը նախատեսված է հեռավոր git սերվերի օվկիանոսում լողալու համար: Նա շատ հեշտ է կարգավորելի. սահմանեք որոշ կապեր, պատճենեք Github Actions սկրիպտը (կամ գրեք մեկը ձեր ընտրած CI/CD հարթակի համար) և դուք անմիջապես կունենաք տվյալների հայտնաբերման վեբ գործիք: Դուք կկարողանաք որոնել, դիտել, փաստաթղթավորել և համօգտագործել ձեր աղյուսակները անմիջապես Github-ում:

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով
Github Actions-ի միջոցով ստեղծված անավարտ աղյուսակի օրինակ: Ամբողջական աշխատանքային ցուցադրություն տես այս բաժնում.

Կայծակնային արագ CLI որոնեք ձեր պահեստը

Կետն ապրում և շնչում է հրամանի տողում՝ ապահովելով հզոր, միլիվայրկյանական որոնումներ ձեր սեղանների վրա: Նույնիսկ միլիոնավոր աղյուսակների առկայության դեպքում մենք կարողացանք կետին աներևակայելի արդյունավետ դարձնել՝ օգտագործելով որոշ խելացի քեշավորման մեխանիզմներ, ինչպես նաև վերականգնելով Ռաստի հետնամասը: Դուք չեք նկատի որոնման հետաձգում [բարև Google DS]:

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով
Կետի ցուցադրություն, միլիոն սեղանի որոնում:

Չափումների ավտոմատ հաշվարկ [բետա]

Որպես տվյալների գիտնական, իմ ամենաքիչ սիրած բաներից մեկը նույն հարցումները նորից ու նորից կատարելն է՝ պարզապես օգտագործվող տվյալների որակը ստուգելու համար: Whale-ն աջակցում է պարզ SQL-ում չափումներ սահմանելու կարողությանը, որոնք պլանավորվում են աշխատել ձեր մետատվյալների մաքրման խողովակաշարերի հետ միասին: Սահմանեք YAML չափումների բլոկ կոճղային աղյուսակի ներսում, և Whale-ն ավտոմատ կերպով կաշխատի ժամանակացույցով և կգործարկի հարցումները, որոնք տեղակայված են չափումների մեջ:

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով
Github-ի հետ համատեղ՝ այս մոտեցումը նշանակում է, որ կետը կարող է ծառայել որպես ճշմարտության հեշտ կենտրոնական աղբյուր մետրային սահմանումների համար: Whale-ը նույնիսկ պահում է արժեքները «~/»-ի ժամանակի դրոշմակնի հետ միասին: կետ/մետրիկա», եթե ցանկանում եք կատարել գծապատկերներ կամ ավելի խորը հետազոտություններ:

Ապագան

Կետի մեր նախնական թողարկման տարբերակների օգտատերերի հետ խոսելուց հետո մենք հասկացանք, որ մարդկանց ավելի շատ ֆունկցիոնալություն է պետք: Ինչու՞ սեղանի որոնման գործիք: Ինչու՞ ոչ չափումների որոնման գործիք: Ինչու՞ չվերահսկել: Ինչու՞ ոչ SQL հարցումների կատարման գործիք: Մինչդեռ whale v1-ն ի սկզբանե նախատեսված էր լինել պարզ CLI ուղեկից գործիք Dataportal/Amundsen, այն արդեն վերածվել է լիարժեք հնարավորություններով անկախ հարթակի, և մենք հուսով ենք, որ այն կդառնա Data Scientist-ի գործիքակազմի անբաժանելի մասը:

Եթե ​​կա ինչ-որ բան, որը ցանկանում եք տեսնել զարգացման գործընթացում, միացեք մեր Slack համայնքին, բացեք Issues at Githubկամ նույնիսկ ուղղակիորեն կապվեք LinkedIn. Մենք արդեն ունենք մի շարք հիանալի գործառույթներ՝ Jinja ձևանմուշներ, էջանիշներ, որոնման զտիչներ, Slack-ի ազդանշաններ, Jupyter-ի ինտեգրում, նույնիսկ չափումների համար նախատեսված CLI վահանակ, բայց մենք կցանկանայինք ձեր ներդրումը:

Ամփոփում

Whale-ը մշակվել և պահպանվում է Dataframe-ի կողմից՝ ստարտափ, որը ես վերջերս հաճույք եմ ստացել համահիմնել այլ մարդկանց հետ: Մինչ կետը ստեղծված է տվյալների գիտնականների համար, Dataframe-ը ստեղծված է տվյալների գիտնականների համար: Նրանց համար, ովքեր ցանկանում են ավելի սերտ համագործակցել, ազատ զգալ հասցենմենք ձեզ կավելացնենք սպասման ցուցակում:

Ինչպես արագ և հեշտությամբ որոնել տվյալներ Whale-ի միջոցով
Եվ պրոմո կոդով ՀԱԲՐ, բանների վրա նշված զեղչին կարող եք ստանալ հավելյալ 10%։

Ավելի շատ դասընթացներ

Առաջարկվող հոդվածներ

Source: www.habr.com