මෙම ද්රව්යය KDPV හි ඔබ දකින සරලම සහ වේගවත්ම දත්ත සොයාගැනීමේ මෙවලම විස්තර කරයි. සිත්ගන්නා කරුණ නම්, තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සත්කාරකත්වය සැපයීම සඳහා ය. කප්පාදුව යටතේ විස්තර.
Airbnb හි දත්ත සොයාගැනීමේ මෙවලම මගේ ජීවිතය වෙනස් කළ ආකාරය
මගේ වෘත්තීය ජීවිතයේ විනෝදාත්මක ගැටළු කිහිපයක් සඳහා වැඩ කිරීමට තරම් මම වාසනාවන්ත වීමි: මම MIT හි උපාධිය ලබා ගන්නා අතරතුර නූල් ගණිතය හැදෑරුවා, වර්ධක ආකෘති සහ විවෘත මූලාශ්ර ව්යාපෘතියක් මත වැඩ කළෙමි Wayfair හිදී, මෙන්ම Airbnb හි නව මුල් පිටු ඉලක්කගත ආකෘති සහ CUPED වැඩිදියුණු කිරීම් ක්රියාත්මක කිරීම. නමුත් මෙම සියලු කාර්යයන් කිසි විටෙකත් ආකර්ෂණීය නොවීය - ඇත්ත වශයෙන්ම, මම බොහෝ විට මගේ කාලයෙන් වැඩි කාලයක් ගත කළේ දත්ත සෙවීමට, අධ්යයනය කිරීමට සහ සත්යාපනය කිරීමට ය. මෙය වැඩ කිරීමේදී නිරන්තර තත්වයක් වුවද, දත්ත සොයාගැනීමේ මෙවලමක් භාවිතයෙන් එය විසඳන ලද Airbnb වෙත පැමිණෙන තෙක් මෙය ගැටළුවක් බව මට නොපෙනී ගියේය. .
මට {{දත්ත}} සොයා ගත හැක්කේ කොතැනින්ද? දත්ත ද්වාරය.
මෙම තීරුවේ තේරුම කුමක්ද? දත්ත ද්වාරය.
අද {{metric}} කොහොමද? දත්ත ද්වාරය.
ජීවිතය පිළිබඳ හැඟීමක් යනු කුමක්ද? තුල දත්ත ද්වාරය, සමහරවිට.
හරි, ඔයාට පින්තූරය තියෙනවා. දත්ත සොයා ගැනීමට සහ එයින් අදහස් කරන්නේ කුමක්ද, එය නිර්මාණය කළ ආකාරය සහ එය භාවිතා කරන්නේ කෙසේද යන්න තේරුම් ගැනීමට පැය ගණනක් නොව මිනිත්තු කිහිපයක් ගතවේ. මට මගේ කාලය ගත කළ හැක්කේ සරල අනුමාන කිරීම් හෝ නව ඇල්ගොරිතම සෑදීමට (... හෝ දත්ත පිළිබඳ අහඹු ප්රශ්නවලට පිළිතුරු සැපයීමට) වඩා සටහන් හරහා රස්තියාදු කිරීම, පුනරාවර්තන SQL විමසුම් ලිවීම සහ වෙනත් අයෙකු සන්දර්භය ප්රතිනිර්මාණය කිරීමට උත්සාහ කිරීම සඳහා Slack හි සගයන් සඳහන් කිරීම වෙනුවට දැනටමත් තිබුණා.
මොකක්ද ප්රශ්නේ?
මගේ බොහෝ මිතුරන්ට එවැනි මෙවලමක් සඳහා ප්රවේශයක් නොමැති බව මට වැටහුණි. Dataportal වැනි වේදිකා මෙවලමක් නිර්මාණය කිරීම සහ නඩත්තු කිරීම සඳහා විශාල සම්පත් කැප කිරීමට සමාගම් කිහිපයකට අවශ්ය වේ. විවෘත මූලාශ්ර විසඳුම් කිහිපයක් පවතින අතර, ඒවා සාමාන්යයෙන් පරිමාණය සඳහා නිර්මාණය කර ඇති අතර, කැපවූ DevOps ඉංජිනේරුවෙකු නොමැතිව සැකසීම සහ නඩත්තු කිරීම අපහසු වේ. ඒ නිසා මම අලුත් දෙයක් නිර්මාණය කිරීමට තීරණය කළා.
Whale: මෝඩ සරල දත්ත සොයා ගැනීමේ මෙවලමක්

ඔව්, මෝඩකම දක්වා සරලව, මම අදහස් කළේ මෝඩකම දක්වා සරලයි. තල්මසුන් සතුව ඇත්තේ සංරචක දෙකක් පමණි:
- පාර-දත්ත එකතු කර එය MarkDown හි සංයුති කරන පයිතන් පුස්තකාලයකි.
- මෙම දත්ත සෙවීම සඳහා Rust විධාන රේඛා අතුරු මුහුණතක්.
නඩත්තු කිරීම සඳහා අභ්යන්තර යටිතල ව්යුහයේ දෘෂ්ටි කෝණයෙන්, පෙළ ගොනු සහ පෙළ යාවත්කාලීන කරන වැඩසටහනක් පමණක් තිබේ. එච්චරයි, ඉතින් Github වගේ git server එකක Host කරන එක පොඩි වැඩක්. ඉගෙනීමට නව විමසුම් භාෂාවක් නැත, කළමනාකරණ යටිතල පහසුකම් නැත, උපස්ථ නැත. Git සෑම කෙනෙකුටම දන්නා බැවින් සමමුහුර්තකරණය සහ සහයෝගීතාවය නොමිලේ පැමිණේ. ක්රියාකාරීත්වය දෙස සමීපව බලමු .
සම්පූර්ණ විශේෂාංගගත git පදනම් වූ GUI
තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සාගරයේ පිහිනීමටය. ඔහු අභිරුචිකරණය කළ හැකි: සමහර සම්බන්ධතා නිර්වචනය කරන්න, Github ක්රියා ස්ක්රිප්ට් පිටපත් කරන්න (හෝ ඔබේ තේරීමේ CI/CD වේදිකාව සඳහා එකක් ලියන්න) එවිට ඔබට කෙටි කාලයකින් වෙබ්-පාදක දත්ත සොයාගැනීමේ මෙවලමක් ලැබෙනු ඇත. ඔබට Github හි ඔබගේ පැතුරුම්පත් සෙවීමට, බැලීමට, ලේඛනගත කිරීමට සහ බෙදා ගැනීමට හැකි වනු ඇත.

Github ක්රියා භාවිතයෙන් උත්පාදනය කරන ලද අංකුර වගුවක උදාහරණයක්. සම්පූර්ණ වැඩ demo .
ඔබගේ ගබඩාවේ අකුණු-වේග CLI සෙවීම
Whale ජීවත් වන අතර විධාන රේඛාව ආශ්වාස කරයි, ඔබේ වගු හරහා බලවත්, මිලි තත්පර සෙවුම් සපයයි. මේස මිලියන ගණනක් තිබියදී පවා, සමහර දක්ෂ හැඹිලි යාන්ත්රණ භාවිතා කිරීමෙන් මෙන්ම රස්ට් හි පසුපෙළ නැවත ගොඩනඟමින් තල්මසුන් ඇදහිය නොහැකි ලෙස ක්රියාකාරී කිරීමට අපි සමත් විය. ඔබ සෙවුම් ප්රමාදයක් නොදකිනු ඇත [ආයුබෝවන්, Google DS].

තල්මසුන්ගේ නිරූපණය, මේස මිලියනයක් හරහා සෙවීම.
ප්රමිතික ස්වයංක්රීයව ගණනය කිරීම [බීටා හි]
දත්ත විද්යාඥයෙකු ලෙස මගේ අඩුම ප්රියතම දෙයක් වන්නේ භාවිතා කරන දත්තවල ගුණාත්මක භාවය පරීක්ෂා කිරීම සඳහා එකම විමසුම් නැවත නැවතත් ධාවනය කිරීමයි. Whale ඔබේ පාරදත්ත සීරීම් නල මාර්ග සමඟ ධාවනය කිරීමට නියමිත සරල SQL හි ප්රමිතික නිර්වචනය කිරීමේ හැකියාවට සහාය දක්වයි. YAML ආකෘතියෙන් ප්රමිතික බ්ලොක් එකක් අංකුර වගුවක් තුළ නිර්වචනය කරන්න, සහ Whale ස්වයංක්රීයව කාලසටහනකට අනුව ක්රියාත්මක වන අතර ප්රමිතික තුළ ඇති විමසුම් ධාවනය කරයි.
```metrics
metric-name:
sql: |
select count(*) from table
``` 
Github සමඟ ඒකාබද්ධව, මෙම ප්රවේශය අදහස් කරන්නේ තල්මසුන්ට මෙට්රික් නිර්වචන සඳහා සත්යයේ පහසු මධ්ය ප්රභවයක් ලෙස සේවය කළ හැකි බවයි. තල්මසුන් "~/" නාමාවලියෙහි කාල මුද්රාවක් සමඟ අගයන් පවා ගබඩා කරයි. whale/metrics" ඔබට යම් ආකාරයක ප්රස්ථාරයක් හෝ ගැඹුරු පර්යේෂණයක් කිරීමට අවශ්ය නම්.
අනාගතය
තල්මසුන්ගේ අපගේ පූර්ව නිකුතු අනුවාද භාවිතා කරන්නන් සමඟ කතා කිරීමෙන් පසුව, මිනිසුන්ට පුළුල් ක්රියාකාරීත්වයක් අවශ්ය බව අපට වැටහුණි. වගු සෙවුම් මෙවලමක් ඇයි? ප්රමිතික සෙවුම් මෙවලමක් නොවන්නේ ඇයි? ඇයි නිරීක්ෂණය නොකරන්නේ? SQL විමසුම් මෙවලමක් නොවන්නේ ඇයි? whale v1 මුලින් අදහස් කළේ සරල CLI සහකාර මෙවලමක් වීමටය Dataportal/Amundsen, එය දැනටමත් සම්පුර්ණයෙන්ම ක්රියාකාරී ස්වාධීන වේදිකාවක් දක්වා වර්ධනය වී ඇති අතර, එය දත්ත විද්යාඥයාගේ මෙවලම් කට්ටලයේ අනිවාර්ය අංගයක් වනු ඇතැයි අපි බලාපොරොත්තු වෙමු.
සංවර්ධනයේදී ඔබට දැකීමට අවශ්ය යමක් ඇත්නම්, අප හා සම්බන්ධ වන්න , ගැටළු විවෘත කරන්න , හෝ කෙලින්ම සම්බන්ධ කරගන්න . අපට දැනටමත් අපූරු විශේෂාංග ගණනාවක් තිබේ - Jinja සැකිලි, පිටුසන්, සෙවුම් පෙරහන්, Slack ඇඟවීම්, Jupyter ඒකාබද්ධ කිරීම, ප්රමිතික සඳහා CLI උපකරණ පුවරුවක් පවා - නමුත් අපි ඔබේ ආදානයට කැමතියි.
නිගමනය
තල්මසුන් සංවර්ධනය කර සහය දක්වනු ලබන්නේ Dataframe විසිනි, මම මෑතකදී වෙනත් අය සමඟ ආරම්භ කිරීමට සතුටු වූ ආරම්භක ආයතනයකි. තල්මසා දත්ත විද්යාඥයින් සඳහා නිර්මාණය කර ඇති අතර, Dataframe නිර්මාණය කර ඇත්තේ දත්ත විද්යා කණ්ඩායම් සඳහා ය. වඩාත් සමීපව සහයෝගයෙන් කටයුතු කිරීමට කැමති ඔබ සඳහා, නිදහස් වන්න , අපි ඔබව පොරොත්තු ලේඛනයට එකතු කරන්නෙමු.
සහ ප්රවර්ධන කේතය මගින් HABR, ඔබට බැනරයේ දක්වා ඇති වට්ටම් වලට අමතර 10%ක් ලබා ගත හැක.
තවත් පාඨමාලා
විශේෂාංග ලිපි
මූලාශ්රය: www.habr.com
