Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද
මෙම ද්රව්යය KDPV හි ඔබ දකින සරලම සහ වේගවත්ම දත්ත සොයාගැනීමේ මෙවලම විස්තර කරයි. සිත්ගන්නා කරුණ නම්, තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සත්කාරකත්වය සැපයීම සඳහා ය. කප්පාදුව යටතේ විස්තර.

Airbnb හි දත්ත සොයාගැනීමේ මෙවලම මගේ ජීවිතය වෙනස් කළ ආකාරය

මගේ වෘත්තීය ජීවිතයේ විනෝදාත්මක ගැටළු කිහිපයක් සඳහා වැඩ කිරීමට තරම් මම වාසනාවන්ත වීමි: මම MIT හි උපාධිය ලබා ගන්නා අතරතුර නූල් ගණිතය හැදෑරුවා, වර්ධක ආකෘති සහ විවෘත මූලාශ්‍ර ව්‍යාපෘතියක් මත වැඩ කළෙමි pylift Wayfair හිදී, මෙන්ම Airbnb හි නව මුල් පිටු ඉලක්කගත ආකෘති සහ CUPED වැඩිදියුණු කිරීම් ක්‍රියාත්මක කිරීම. නමුත් මෙම සියලු කාර්යයන් කිසි විටෙකත් ආකර්ෂණීය නොවීය - ඇත්ත වශයෙන්ම, මම බොහෝ විට මගේ කාලයෙන් වැඩි කාලයක් ගත කළේ දත්ත සෙවීමට, අධ්‍යයනය කිරීමට සහ සත්‍යාපනය කිරීමට ය. මෙය වැඩ කිරීමේදී නිරන්තර තත්වයක් වුවද, දත්ත සොයාගැනීමේ මෙවලමක් භාවිතයෙන් එය විසඳන ලද Airbnb වෙත පැමිණෙන තෙක් මෙය ගැටළුවක් බව මට නොපෙනී ගියේය. දත්ත ද්වාරය.

මට {{දත්ත}} සොයා ගත හැක්කේ කොතැනින්ද? දත්ත ද්වාරය.
මෙම තීරුවේ තේරුම කුමක්ද? දත්ත ද්වාරය.
අද {{metric}} කොහොමද? දත්ත ද්වාරය.
ජීවිතය පිළිබඳ හැඟීමක් යනු කුමක්ද? තුල දත්ත ද්වාරය, සමහරවිට.

හරි, ඔයාට පින්තූරය තියෙනවා. දත්ත සොයා ගැනීමට සහ එයින් අදහස් කරන්නේ කුමක්ද, එය නිර්මාණය කළ ආකාරය සහ එය භාවිතා කරන්නේ කෙසේද යන්න තේරුම් ගැනීමට පැය ගණනක් නොව මිනිත්තු කිහිපයක් ගතවේ. මට මගේ කාලය ගත කළ හැක්කේ සරල අනුමාන කිරීම් හෝ නව ඇල්ගොරිතම සෑදීමට (... හෝ දත්ත පිළිබඳ අහඹු ප්‍රශ්නවලට පිළිතුරු සැපයීමට) වඩා සටහන් හරහා රස්තියාදු කිරීම, පුනරාවර්තන SQL විමසුම් ලිවීම සහ වෙනත් අයෙකු සන්දර්භය ප්‍රතිනිර්මාණය කිරීමට උත්සාහ කිරීම සඳහා Slack හි සගයන් සඳහන් කිරීම වෙනුවට දැනටමත් තිබුණා.

මොකක්ද ප්රශ්නේ?

මගේ බොහෝ මිතුරන්ට එවැනි මෙවලමක් සඳහා ප්‍රවේශයක් නොමැති බව මට වැටහුණි. Dataportal වැනි වේදිකා මෙවලමක් නිර්මාණය කිරීම සහ නඩත්තු කිරීම සඳහා විශාල සම්පත් කැප කිරීමට සමාගම් කිහිපයකට අවශ්‍ය වේ. විවෘත මූලාශ්‍ර විසඳුම් කිහිපයක් පවතින අතර, ඒවා සාමාන්‍යයෙන් පරිමාණය සඳහා නිර්මාණය කර ඇති අතර, කැපවූ DevOps ඉංජිනේරුවෙකු නොමැතිව සැකසීම සහ නඩත්තු කිරීම අපහසු වේ. ඒ නිසා මම අලුත් දෙයක් නිර්මාණය කිරීමට තීරණය කළා.

Whale: මෝඩ සරල දත්ත සොයා ගැනීමේ මෙවලමක්

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද

ඔව්, මෝඩකම දක්වා සරලව, මම අදහස් කළේ මෝඩකම දක්වා සරලයි. තල්මසුන් සතුව ඇත්තේ සංරචක දෙකක් පමණි:

  1. පාර-දත්ත එකතු කර එය MarkDown හි සංයුති කරන පයිතන් පුස්තකාලයකි.
  2. මෙම දත්ත සෙවීම සඳහා Rust විධාන රේඛා අතුරු මුහුණතක්.

නඩත්තු කිරීම සඳහා අභ්යන්තර යටිතල ව්යුහයේ දෘෂ්ටි කෝණයෙන්, පෙළ ගොනු සහ පෙළ යාවත්කාලීන කරන වැඩසටහනක් පමණක් තිබේ. එච්චරයි, ඉතින් Github වගේ git server එකක Host කරන එක පොඩි වැඩක්. ඉගෙනීමට නව විමසුම් භාෂාවක් නැත, කළමනාකරණ යටිතල පහසුකම් නැත, උපස්ථ නැත. Git සෑම කෙනෙකුටම දන්නා බැවින් සමමුහුර්තකරණය සහ සහයෝගීතාවය නොමිලේ පැමිණේ. ක්‍රියාකාරීත්වය දෙස සමීපව බලමු තල්මසා v1.0.

සම්පූර්ණ විශේෂාංගගත git පදනම් වූ GUI

තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සාගරයේ පිහිනීමටය. ඔහු ඉතා පහසුයි අභිරුචිකරණය කළ හැකි: සමහර සම්බන්ධතා නිර්වචනය කරන්න, Github ක්‍රියා ස්ක්‍රිප්ට් පිටපත් කරන්න (හෝ ඔබේ තේරීමේ CI/CD වේදිකාව සඳහා එකක් ලියන්න) එවිට ඔබට කෙටි කාලයකින් වෙබ්-පාදක දත්ත සොයාගැනීමේ මෙවලමක් ලැබෙනු ඇත. ඔබට Github හි ඔබගේ පැතුරුම්පත් සෙවීමට, බැලීමට, ලේඛනගත කිරීමට සහ බෙදා ගැනීමට හැකි වනු ඇත.

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද
Github ක්‍රියා භාවිතයෙන් උත්පාදනය කරන ලද අංකුර වගුවක උදාහරණයක්. සම්පූර්ණ වැඩ demo මෙම කොටස බලන්න.

ඔබගේ ගබඩාවේ අකුණු-වේග CLI සෙවීම

Whale ජීවත් වන අතර විධාන රේඛාව ආශ්වාස කරයි, ඔබේ වගු හරහා බලවත්, මිලි තත්පර සෙවුම් සපයයි. මේස මිලියන ගණනක් තිබියදී පවා, සමහර දක්ෂ හැඹිලි යාන්ත්‍රණ භාවිතා කිරීමෙන් මෙන්ම රස්ට් හි පසුපෙළ නැවත ගොඩනඟමින් තල්මසුන් ඇදහිය නොහැකි ලෙස ක්‍රියාකාරී කිරීමට අපි සමත් විය. ඔබ සෙවුම් ප්‍රමාදයක් නොදකිනු ඇත [ආයුබෝවන්, Google DS].

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද
තල්මසුන්ගේ නිරූපණය, මේස මිලියනයක් හරහා සෙවීම.

ප්‍රමිතික ස්වයංක්‍රීයව ගණනය කිරීම [බීටා හි]

දත්ත විද්‍යාඥයෙකු ලෙස මගේ අඩුම ප්‍රියතම දෙයක් වන්නේ භාවිතා කරන දත්තවල ගුණාත්මක භාවය පරීක්ෂා කිරීම සඳහා එකම විමසුම් නැවත නැවතත් ධාවනය කිරීමයි. Whale ඔබේ පාරදත්ත සීරීම් නල මාර්ග සමඟ ධාවනය කිරීමට නියමිත සරල SQL හි ප්‍රමිතික නිර්වචනය කිරීමේ හැකියාවට සහාය දක්වයි. YAML ආකෘතියෙන් ප්‍රමිතික බ්ලොක් එකක් අංකුර වගුවක් තුළ නිර්වචනය කරන්න, සහ Whale ස්වයංක්‍රීයව කාලසටහනකට අනුව ක්‍රියාත්මක වන අතර ප්‍රමිතික තුළ ඇති විමසුම් ධාවනය කරයි.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද
Github සමඟ ඒකාබද්ධව, මෙම ප්‍රවේශය අදහස් කරන්නේ තල්මසුන්ට මෙට්‍රික් නිර්වචන සඳහා සත්‍යයේ පහසු මධ්‍ය ප්‍රභවයක් ලෙස සේවය කළ හැකි බවයි. තල්මසුන් "~/" නාමාවලියෙහි කාල මුද්‍රාවක් සමඟ අගයන් පවා ගබඩා කරයි. whale/metrics" ඔබට යම් ආකාරයක ප්‍රස්ථාරයක් හෝ ගැඹුරු පර්යේෂණයක් කිරීමට අවශ්‍ය නම්.

අනාගතය

තල්මසුන්ගේ අපගේ පූර්ව නිකුතු අනුවාද භාවිතා කරන්නන් සමඟ කතා කිරීමෙන් පසුව, මිනිසුන්ට පුළුල් ක්‍රියාකාරීත්වයක් අවශ්‍ය බව අපට වැටහුණි. වගු සෙවුම් මෙවලමක් ඇයි? ප්‍රමිතික සෙවුම් මෙවලමක් නොවන්නේ ඇයි? ඇයි නිරීක්ෂණය නොකරන්නේ? SQL විමසුම් මෙවලමක් නොවන්නේ ඇයි? whale v1 මුලින් අදහස් කළේ සරල CLI සහකාර මෙවලමක් වීමටය Dataportal/Amundsen, එය දැනටමත් සම්පුර්ණයෙන්ම ක්‍රියාකාරී ස්වාධීන වේදිකාවක් දක්වා වර්ධනය වී ඇති අතර, එය දත්ත විද්‍යාඥයාගේ මෙවලම් කට්ටලයේ අනිවාර්ය අංගයක් වනු ඇතැයි අපි බලාපොරොත්තු වෙමු.

සංවර්ධනයේදී ඔබට දැකීමට අවශ්‍ය යමක් ඇත්නම්, අප හා සම්බන්ධ වන්න ස්ලැක් ප්‍රජාව, ගැටළු විවෘත කරන්න Github, හෝ කෙලින්ම සම්බන්ධ කරගන්න LinkedIn. අපට දැනටමත් අපූරු විශේෂාංග ගණනාවක් තිබේ - Jinja සැකිලි, පිටුසන්, සෙවුම් පෙරහන්, Slack ඇඟවීම්, Jupyter ඒකාබද්ධ කිරීම, ප්‍රමිතික සඳහා CLI උපකරණ පුවරුවක් පවා - නමුත් අපි ඔබේ ආදානයට කැමතියි.

නිගමනය

තල්මසුන් සංවර්ධනය කර සහය දක්වනු ලබන්නේ Dataframe විසිනි, මම මෑතකදී වෙනත් අය සමඟ ආරම්භ කිරීමට සතුටු වූ ආරම්භක ආයතනයකි. තල්මසා දත්ත විද්‍යාඥයින් සඳහා නිර්මාණය කර ඇති අතර, Dataframe නිර්මාණය කර ඇත්තේ දත්ත විද්‍යා කණ්ඩායම් සඳහා ය. වඩාත් සමීපව සහයෝගයෙන් කටයුතු කිරීමට කැමති ඔබ සඳහා, නිදහස් වන්න ලිපිනය, අපි ඔබව පොරොත්තු ලේඛනයට එකතු කරන්නෙමු.

Whale සමඟ ඉක්මනින් සහ පහසුවෙන් දත්ත සොයන්නේ කෙසේද
සහ ප්‍රවර්ධන කේතය මගින් HABR, ඔබට බැනරයේ දක්වා ඇති වට්ටම් වලට අමතර 10%ක් ලබා ගත හැක.

තවත් පාඨමාලා

විශේෂාංග ලිපි

මූලාශ්රය: www.habr.com