திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது
இந்தக் கட்டுரை, KDPV இல் நீங்கள் பார்க்கும் எளிய மற்றும் வேகமான தரவுக் கண்டுபிடிப்பு கருவியைப் பற்றிப் பேசுகிறது. சுவாரஸ்யமாக, திமிங்கலம் ரிமோட் ஜிட் சர்வரில் ஹோஸ்ட் செய்ய வடிவமைக்கப்பட்டுள்ளது. வெட்டு கீழ் விவரங்கள்.

Airbnb இன் டேட்டா டிஸ்கவரி டூல் எப்படி என் வாழ்க்கையை மாற்றியது

எனது வாழ்க்கையில், சில வேடிக்கையான பிரச்சனைகளில் பணிபுரிவதில் மகிழ்ச்சி அடைந்துள்ளேன்: எம்ஐடியில் எனது பட்டப்படிப்பைப் படிக்கும்போது ஓட்டக் கணிதத்தைப் படித்தேன், அதிகரிக்கும் மாதிரிகளில் பணிபுரிந்தேன், மற்றும் திறந்த மூல திட்டத்துடன் பைலிஃப்ட் Wayfair இல், மற்றும் Airbnb இல் புதிய முகப்புப்பக்க இலக்கு மாதிரிகள் மற்றும் CUPED மேம்பாடுகளை செயல்படுத்தியது. ஆனால் இந்த வேலைகள் அனைத்தும் கவர்ச்சிகரமானதாக இல்லை-உண்மையில், நான் எனது பெரும்பாலான நேரத்தைத் தேடுதல், ஆராய்ச்சி செய்தல் மற்றும் தரவைச் சரிபார்ப்பதில் செலவிட்டேன். வேலையில் இது ஒரு நிலையான நிலையாக இருந்தாலும், நான் Airbnb க்கு வரும் வரை இது ஒரு பிரச்சனை என்று எனக்குத் தோன்றவில்லை, அங்கு தரவு கண்டுபிடிப்பு கருவி மூலம் தீர்வு காணப்பட்டது - தரவுத்தள.

நான் {{data}} எங்கே காணலாம்? தரவுத்தள.
இந்த பத்தியின் அர்த்தம் என்ன? தரவுத்தள.
இன்று {{மெட்ரிக்}} எப்படி இருக்கிறது? தரவுத்தள.
வாழ்க்கையின் உணர்வு என்றால் என்ன? IN தரவுத்தள, அநேகமாக.

சரி, படத்தைத் தந்துள்ளீர்கள். தரவைக் கண்டுபிடித்து, அதன் பொருள் என்ன, அது எவ்வாறு உருவாக்கப்பட்டது மற்றும் எப்படிப் பயன்படுத்துவது என்பதைப் புரிந்துகொள்வது சில நிமிடங்கள் ஆகும், மணிநேரங்கள் அல்ல. குறிப்புகளைத் தோண்டுவது, மீண்டும் மீண்டும் வரும் SQL வினவல்களை எழுதுவது மற்றும் ஸ்லாக்கில் சக ஊழியர்களைக் குறிப்பிடுவது போன்றவற்றைக் காட்டிலும் எளிமையான முடிவுகளை அல்லது புதிய வழிமுறைகளை (... அல்லது தரவு பற்றிய சீரற்ற கேள்விகளுக்கு பதிலளிப்பதில்) எனது நேரத்தை செலவிட முடியும். .

என்ன பிரச்சினை?

எனது பெரும்பாலான நண்பர்களுக்கு அத்தகைய கருவிக்கான அணுகல் இல்லை என்பதை உணர்ந்தேன். டேட்டாபோர்ட்டல் போன்ற இயங்குதளக் கருவியை உருவாக்குவதற்கும் பராமரிப்பதற்கும் பெரும் வளங்களை ஒதுக்க சில நிறுவனங்கள் தயாராக உள்ளன. சில ஓப்பன் சோர்ஸ் தீர்வுகள் இருக்கும்போது, ​​​​அவை அளவிடும் வகையில் வடிவமைக்கப்பட்டுள்ளன, அர்ப்பணிப்புள்ள DevOps பொறியாளர் இல்லாமல் அமைப்பது மற்றும் பராமரிப்பது கடினம். எனவே புதிதாக ஒன்றை உருவாக்க முடிவு செய்தேன்.

திமிங்கலம்: ஒரு முட்டாள்தனமான எளிய தரவு கண்டுபிடிப்பு கருவி

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது

ஆம், முட்டாள்தனமான எளிமையானது என்பதன் மூலம் நான் முட்டாள்தனமான எளிமையானவன். திமிங்கலத்தில் இரண்டு கூறுகள் மட்டுமே உள்ளன:

  1. மெட்டாடேட்டாவை சேகரித்து மார்க் டவுனில் வடிவமைக்கும் பைதான் நூலகம்.
  2. இந்த தரவு மூலம் தேட ரஸ்ட் கட்டளை வரி இடைமுகம்.

பராமரிப்புக்கான உள் உள்கட்டமைப்பின் பார்வையில், நிறைய உரை கோப்புகள் மற்றும் உரையைப் புதுப்பிக்கும் நிரல் மட்டுமே உள்ளன. அவ்வளவுதான், எனவே கிதுப் போன்ற கிட் சர்வரில் ஹோஸ்ட் செய்வது அற்பமானது. கற்றுக்கொள்ள புதிய வினவல் மொழி இல்லை, மேலாண்மை உள்கட்டமைப்பு இல்லை, காப்புப்பிரதிகள் இல்லை. அனைவருக்கும் Git தெரியும், எனவே ஒத்திசைவு மற்றும் ஒத்துழைப்பு இலவசம். செயல்பாட்டைக் கூர்ந்து கவனிப்போம் திமிங்கிலம் v1.0.

முழு அம்சமான ஜிட் அடிப்படையிலான GUI

ரிமோட் ஜிட் சர்வரின் கடலில் நீந்துவதற்காக திமிங்கலம் வடிவமைக்கப்பட்டுள்ளது. அவர் மிகவும் எளிதானது கட்டமைக்கக்கூடியது: சில இணைப்புகளை வரையறுத்து, கிதுப் ஆக்ஷன்ஸ் ஸ்கிரிப்டை நகலெடுக்கவும் (அல்லது நீங்கள் தேர்ந்தெடுத்த CI/CD இயங்குதளத்திற்கு ஒன்றை எழுதவும்) உடனே உங்களிடம் தரவுக் கண்டுபிடிப்பு இணையக் கருவி கிடைக்கும். உங்கள் விரிதாள்களை Github இல் நேரடியாகத் தேடலாம், பார்க்கலாம், ஆவணப்படுத்தலாம் மற்றும் பகிரலாம்.

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது
கிதுப் செயல்களைப் பயன்படுத்தி உருவாக்கப்பட்ட ஸ்டப் அட்டவணையின் எடுத்துக்காட்டு. முழு வேலை டெமோ இந்த பகுதியில் பார்க்கவும்.

உங்கள் களஞ்சியத்திற்கான மின்னல் வேக CLI தேடல்

திமிங்கலம் கட்டளை வரியில் வாழ்கிறது மற்றும் சுவாசிக்கிறது, உங்கள் அட்டவணைகள் முழுவதும் சக்திவாய்ந்த, மில்லி விநாடி தேடல்களை வழங்குகிறது. மில்லியன் கணக்கான அட்டவணைகள் இருந்தாலும், சில புத்திசாலித்தனமான கேச்சிங் பொறிமுறைகளைப் பயன்படுத்துவதன் மூலமும், ரஸ்டில் பின்தளத்தை மீண்டும் உருவாக்குவதன் மூலமும் திமிங்கலத்தை நம்பமுடியாத அளவிற்கு செயல்திறன் மிக்கதாக மாற்ற முடிந்தது. தேடல் தாமதத்தை நீங்கள் கவனிக்க மாட்டீர்கள் [ஹலோ Google DS].

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது
திமிங்கல டெமோ, மில்லியன் டேபிள் தேடல்.

அளவீடுகளின் தானியங்கு கணக்கீடு [பீட்டாவில்]

ஒரு தரவு விஞ்ஞானியாக எனக்கு மிகவும் பிடித்த விஷயங்களில் ஒன்று, பயன்படுத்தப்படும் தரவின் தரத்தை சரிபார்க்க ஒரே வினவல்களை மீண்டும் மீண்டும் இயக்குகிறது. உங்கள் மெட்டாடேட்டா க்ளீனப் பைப்லைன்களுடன் இணைந்து இயங்கத் திட்டமிடப்படும் எளிய SQL இல் அளவீடுகளை வரையறுக்கும் திறனை திமிங்கலம் ஆதரிக்கிறது. ஸ்டப் டேபிளுக்குள் YAML மெட்ரிக்ஸ் பிளாக்கை வரையறுத்து, திமிங்கலம் தானாகவே அட்டவணையில் இயங்கும் மற்றும் அளவீடுகளில் உள்ள வினவல்களை இயக்கும்.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது
Github உடன் இணைந்து, இந்த அணுகுமுறை திமிங்கலம் என்பது மெட்ரிக் வரையறைகளுக்கு உண்மையின் எளிதான மைய ஆதாரமாக செயல்படும் என்பதாகும். திமிங்கலம் "~/ இல் உள்ள நேர முத்திரையுடன் மதிப்புகளையும் கூட சேமிக்கிறது. வேல்

எதிர்கால

திமிங்கலத்தின் வெளியீட்டிற்கு முந்தைய பதிப்புகளைப் பயன்படுத்துபவர்களிடம் பேசிய பிறகு, மக்களுக்கு அதிக செயல்பாடு தேவை என்பதை உணர்ந்தோம். அட்டவணை தேடல் கருவி ஏன்? மெட்ரிக்ஸ் தேடல் கருவி ஏன் இல்லை? ஏன் கண்காணிக்கவில்லை? ஏன் ஒரு SQL வினவல் செயல்படுத்தும் கருவி இல்லை? திமிங்கலம் v1 முதலில் ஒரு எளிய CLI துணை கருவியாகக் கருதப்பட்டது Dataportal/Amundsen, இது ஏற்கனவே முழு அம்சங்களுடன் கூடிய தனித்த தளமாக உருவாகியுள்ளது, மேலும் இது தரவு விஞ்ஞானியின் கருவித்தொகுப்பின் ஒருங்கிணைந்த பகுதியாக மாறும் என நம்புகிறோம்.

வளர்ச்சிச் செயல்பாட்டில் நீங்கள் ஏதாவது பார்க்க விரும்பினால், எங்களுடன் சேரவும் ஸ்லாக் சமூகத்திற்கு, இல் சிக்கல்களைத் திறக்கவும் கிட்ஹப்அல்லது நேரடியாக தொடர்பு கொள்ளவும் லின்க்டு இன். எங்களிடம் ஏற்கனவே பல அருமையான அம்சங்கள் உள்ளன - ஜின்ஜா டெம்ப்ளேட்டுகள், புக்மார்க்குகள், தேடல் வடிப்பான்கள், ஸ்லாக் எச்சரிக்கைகள், ஜூபிடர் ஒருங்கிணைப்பு, அளவீடுகளுக்கான CLI டாஷ்போர்டு கூட - ஆனால் உங்கள் உள்ளீட்டை நாங்கள் விரும்புகிறோம்.

முடிவுக்கு

திமிங்கலத்தை டேட்டாஃப்ரேம் உருவாக்கி பராமரிக்கிறது, இது சமீபத்தில் நான் மற்றவர்களுடன் இணைந்து நிறுவியதில் மகிழ்ச்சி அடைந்தேன். திமிங்கலம் தரவு விஞ்ஞானிகளுக்காக உருவாக்கப்பட்டாலும், டேட்டாஃப்ரேம் தரவு விஞ்ஞானிகளுக்காக உருவாக்கப்பட்டது. உங்களில் இன்னும் நெருக்கமாக ஒத்துழைக்க விரும்புவோருக்கு, தயங்க வேண்டாம் முகவரிநாங்கள் உங்களை காத்திருப்பு பட்டியலில் சேர்ப்போம்.

திமிங்கலத்துடன் விரைவாகவும் எளிதாகவும் தரவை எவ்வாறு தேடுவது
மற்றும் விளம்பர குறியீடு மூலம் HABR, பேனரில் குறிப்பிடப்பட்டுள்ள தள்ளுபடியில் கூடுதலாக 10% பெறலாம்.

மேலும் படிப்புகள்

சிறப்புக் கட்டுரைகள்

ஆதாரம்: www.habr.com