මෙම ද්රව්යය KDPV හි ඔබ දකින සරලම සහ වේගවත්ම දත්ත සොයාගැනීමේ මෙවලම විස්තර කරයි. සිත්ගන්නා කරුණ නම්, තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සත්කාරකත්වය සැපයීම සඳහා ය. කප්පාදුව යටතේ විස්තර.
Airbnb හි දත්ත සොයාගැනීමේ මෙවලම මගේ ජීවිතය වෙනස් කළ ආකාරය
මගේ වෘත්තීය ජීවිතයේ විනෝදාත්මක ගැටළු කිහිපයක් සඳහා වැඩ කිරීමට තරම් මම වාසනාවන්ත වීමි: මම MIT හි උපාධිය ලබා ගන්නා අතරතුර නූල් ගණිතය හැදෑරුවා, වර්ධක ආකෘති සහ විවෘත මූලාශ්ර ව්යාපෘතියක් මත වැඩ කළෙමි
මට {{දත්ත}} සොයා ගත හැක්කේ කොතැනින්ද? දත්ත ද්වාරය.
මෙම තීරුවේ තේරුම කුමක්ද? දත්ත ද්වාරය.
අද {{metric}} කොහොමද? දත්ත ද්වාරය.
ජීවිතය පිළිබඳ හැඟීමක් යනු කුමක්ද? තුල දත්ත ද්වාරය, සමහරවිට.
හරි, ඔයාට පින්තූරය තියෙනවා. දත්ත සොයා ගැනීමට සහ එයින් අදහස් කරන්නේ කුමක්ද, එය නිර්මාණය කළ ආකාරය සහ එය භාවිතා කරන්නේ කෙසේද යන්න තේරුම් ගැනීමට පැය ගණනක් නොව මිනිත්තු කිහිපයක් ගතවේ. මට මගේ කාලය ගත කළ හැක්කේ සරල අනුමාන කිරීම් හෝ නව ඇල්ගොරිතම සෑදීමට (... හෝ දත්ත පිළිබඳ අහඹු ප්රශ්නවලට පිළිතුරු සැපයීමට) වඩා සටහන් හරහා රස්තියාදු කිරීම, පුනරාවර්තන SQL විමසුම් ලිවීම සහ වෙනත් අයෙකු සන්දර්භය ප්රතිනිර්මාණය කිරීමට උත්සාහ කිරීම සඳහා Slack හි සගයන් සඳහන් කිරීම වෙනුවට දැනටමත් තිබුණා.
මොකක්ද ප්රශ්නේ?
මගේ බොහෝ මිතුරන්ට එවැනි මෙවලමක් සඳහා ප්රවේශයක් නොමැති බව මට වැටහුණි. Dataportal වැනි වේදිකා මෙවලමක් නිර්මාණය කිරීම සහ නඩත්තු කිරීම සඳහා විශාල සම්පත් කැප කිරීමට සමාගම් කිහිපයකට අවශ්ය වේ. විවෘත මූලාශ්ර විසඳුම් කිහිපයක් පවතින අතර, ඒවා සාමාන්යයෙන් පරිමාණය සඳහා නිර්මාණය කර ඇති අතර, කැපවූ DevOps ඉංජිනේරුවෙකු නොමැතිව සැකසීම සහ නඩත්තු කිරීම අපහසු වේ. ඒ නිසා මම අලුත් දෙයක් නිර්මාණය කිරීමට තීරණය කළා.
Whale: මෝඩ සරල දත්ත සොයා ගැනීමේ මෙවලමක්
ඔව්, මෝඩකම දක්වා සරලව, මම අදහස් කළේ මෝඩකම දක්වා සරලයි. තල්මසුන් සතුව ඇත්තේ සංරචක දෙකක් පමණි:
- පාර-දත්ත එකතු කර එය MarkDown හි සංයුති කරන පයිතන් පුස්තකාලයකි.
- මෙම දත්ත සෙවීම සඳහා Rust විධාන රේඛා අතුරු මුහුණතක්.
නඩත්තු කිරීම සඳහා අභ්යන්තර යටිතල ව්යුහයේ දෘෂ්ටි කෝණයෙන්, පෙළ ගොනු සහ පෙළ යාවත්කාලීන කරන වැඩසටහනක් පමණක් තිබේ. එච්චරයි, ඉතින් Github වගේ git server එකක Host කරන එක පොඩි වැඩක්. ඉගෙනීමට නව විමසුම් භාෂාවක් නැත, කළමනාකරණ යටිතල පහසුකම් නැත, උපස්ථ නැත. Git සෑම කෙනෙකුටම දන්නා බැවින් සමමුහුර්තකරණය සහ සහයෝගීතාවය නොමිලේ පැමිණේ. ක්රියාකාරීත්වය දෙස සමීපව බලමු
සම්පූර්ණ විශේෂාංගගත git පදනම් වූ GUI
තල්මසා නිර්මාණය කර ඇත්තේ දුරස්ථ git සේවාදායකයක සාගරයේ පිහිනීමටය. ඔහු
Github ක්රියා භාවිතයෙන් උත්පාදනය කරන ලද අංකුර වගුවක උදාහරණයක්. සම්පූර්ණ වැඩ demo
ඔබගේ ගබඩාවේ අකුණු-වේග CLI සෙවීම
Whale ජීවත් වන අතර විධාන රේඛාව ආශ්වාස කරයි, ඔබේ වගු හරහා බලවත්, මිලි තත්පර සෙවුම් සපයයි. මේස මිලියන ගණනක් තිබියදී පවා, සමහර දක්ෂ හැඹිලි යාන්ත්රණ භාවිතා කිරීමෙන් මෙන්ම රස්ට් හි පසුපෙළ නැවත ගොඩනඟමින් තල්මසුන් ඇදහිය නොහැකි ලෙස ක්රියාකාරී කිරීමට අපි සමත් විය. ඔබ සෙවුම් ප්රමාදයක් නොදකිනු ඇත [ආයුබෝවන්, Google DS].
තල්මසුන්ගේ නිරූපණය, මේස මිලියනයක් හරහා සෙවීම.
ප්රමිතික ස්වයංක්රීයව ගණනය කිරීම [බීටා හි]
දත්ත විද්යාඥයෙකු ලෙස මගේ අඩුම ප්රියතම දෙයක් වන්නේ භාවිතා කරන දත්තවල ගුණාත්මක භාවය පරීක්ෂා කිරීම සඳහා එකම විමසුම් නැවත නැවතත් ධාවනය කිරීමයි. Whale ඔබේ පාරදත්ත සීරීම් නල මාර්ග සමඟ ධාවනය කිරීමට නියමිත සරල SQL හි ප්රමිතික නිර්වචනය කිරීමේ හැකියාවට සහාය දක්වයි. YAML ආකෘතියෙන් ප්රමිතික බ්ලොක් එකක් අංකුර වගුවක් තුළ නිර්වචනය කරන්න, සහ Whale ස්වයංක්රීයව කාලසටහනකට අනුව ක්රියාත්මක වන අතර ප්රමිතික තුළ ඇති විමසුම් ධාවනය කරයි.
```metrics
metric-name:
sql: |
select count(*) from table
```
Github සමඟ ඒකාබද්ධව, මෙම ප්රවේශය අදහස් කරන්නේ තල්මසුන්ට මෙට්රික් නිර්වචන සඳහා සත්යයේ පහසු මධ්ය ප්රභවයක් ලෙස සේවය කළ හැකි බවයි. තල්මසුන් "~/" නාමාවලියෙහි කාල මුද්රාවක් සමඟ අගයන් පවා ගබඩා කරයි. whale/metrics" ඔබට යම් ආකාරයක ප්රස්ථාරයක් හෝ ගැඹුරු පර්යේෂණයක් කිරීමට අවශ්ය නම්.
අනාගතය
තල්මසුන්ගේ අපගේ පූර්ව නිකුතු අනුවාද භාවිතා කරන්නන් සමඟ කතා කිරීමෙන් පසුව, මිනිසුන්ට පුළුල් ක්රියාකාරීත්වයක් අවශ්ය බව අපට වැටහුණි. වගු සෙවුම් මෙවලමක් ඇයි? ප්රමිතික සෙවුම් මෙවලමක් නොවන්නේ ඇයි? ඇයි නිරීක්ෂණය නොකරන්නේ? SQL විමසුම් මෙවලමක් නොවන්නේ ඇයි? whale v1 මුලින් අදහස් කළේ සරල CLI සහකාර මෙවලමක් වීමටය Dataportal/Amundsen
, එය දැනටමත් සම්පුර්ණයෙන්ම ක්රියාකාරී ස්වාධීන වේදිකාවක් දක්වා වර්ධනය වී ඇති අතර, එය දත්ත විද්යාඥයාගේ මෙවලම් කට්ටලයේ අනිවාර්ය අංගයක් වනු ඇතැයි අපි බලාපොරොත්තු වෙමු.
සංවර්ධනයේදී ඔබට දැකීමට අවශ්ය යමක් ඇත්නම්, අප හා සම්බන්ධ වන්න
නිගමනය
තල්මසුන් සංවර්ධනය කර සහය දක්වනු ලබන්නේ Dataframe විසිනි, මම මෑතකදී වෙනත් අය සමඟ ආරම්භ කිරීමට සතුටු වූ ආරම්භක ආයතනයකි. තල්මසා දත්ත විද්යාඥයින් සඳහා නිර්මාණය කර ඇති අතර, Dataframe නිර්මාණය කර ඇත්තේ දත්ත විද්යා කණ්ඩායම් සඳහා ය. වඩාත් සමීපව සහයෝගයෙන් කටයුතු කිරීමට කැමති ඔබ සඳහා, නිදහස් වන්න
සහ ප්රවර්ධන කේතය මගින් HABR, ඔබට බැනරයේ දක්වා ඇති වට්ටම් වලට අමතර 10%ක් ලබා ගත හැක.
දත්ත විද්යාව ඔන්ලයින් ඇරඹුම් කඳවුර දත්ත විශ්ලේෂකගේ වෘත්තිය මුල සිටම පුහුණු කිරීම දත්ත විශ්ලේෂණ ඔන්ලයින් Bootcamp දත්ත විද්යාව පිළිබඳ වෘත්තිය මුල සිටම ඉගැන්වීම වෙබ් සංවර්ධන පාඨමාලාව සඳහා පයිතන්
තවත් පාඨමාලා
දත්ත විශ්ලේෂණ පාඨමාලාව DevOps පාඨමාලාව වෘත්තීය වෙබ් සංවර්ධක මුල සිටම රැකියාව iOS සංවර්ධක මුල සිටම වෘත්තීය Android සංවර්ධක මුල සිටම ජාවා සංවර්ධක වෘත්තිය JavaScript පාඨමාලාව යන්ත්ර ඉගෙනීමේ පාඨමාලාව පාඨමාලාව "දත්ත විද්යාව සඳහා ගණිතය සහ යන්ත්ර ඉගෙනීම" උසස් පාඨමාලාව "Machine Learning Pro + Deep Learning"
විශේෂාංග ලිපි
මාර්ගගත පාඨමාලා නොමැතිව දත්ත විද්යාඥයෙකු වන්නේ කෙසේද? නොමිලේ Ivy League පාඨමාලා 450ක් Machine Learning සතියකට දින 5 බැගින් මාස 9ක් එක දිගට පාඩම් කරන්නේ කෙසේද? දත්ත විශ්ලේෂකයෙකු කොපමණ මුදලක් උපයනවාද: 2020 දී රුසියාවේ සහ විදේශයන්හි වැටුප් සහ පුරප්පාඩු පිළිබඳ දළ විශ්ලේෂණයක් පතල් කර්මාන්තයේ යන්ත්ර ඉගෙනීම සහ පරිගණක දැක්ම
මූලාශ්රය: www.habr.com