தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

மீண்டும் வணக்கம்! கட்டுரையின் தலைப்பு தனக்குத்தானே பேசுகிறது. பாடநெறி தொடங்கும் முன் தரவு பொறியாளர் இந்த தரவு பொறியாளர்கள் யார் என்பதைக் கண்டறிய நாங்கள் வழங்குகிறோம். கட்டுரையில் பல பயனுள்ள இணைப்புகள் உள்ளன. மகிழ்ச்சியான வாசிப்பு.

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

டேட்டா இன்ஜினியரிங் அலைகளை எப்படிப் பிடிப்பது மற்றும் அது உங்களை படுகுழியில் இழுக்க விடாமல் இருப்பது எப்படி என்பதற்கான எளிய வழிகாட்டி.

இந்த நாட்களில் எல்லோரும் ஒரு தரவு விஞ்ஞானியாக இருக்க விரும்புவது போல் தெரிகிறது. ஆனால் தரவு பொறியியல் (தரவு பொறியியல்) பற்றி என்ன? உண்மையில், இது ஒரு தரவு ஆய்வாளர் மற்றும் தரவு விஞ்ஞானியின் கலப்பின வகையாகும்; ஒரு தரவு பொறியாளர் பொதுவாக பணிப்பாய்வுகளை நிர்வகித்தல், குழாய்வழிகளை செயலாக்குதல் மற்றும் ETL செயல்முறைகளை நிர்வகிப்பதற்குப் பொறுப்பாவார். இந்த அம்சங்களின் முக்கியத்துவம் காரணமாக, இது தற்போது மற்றொரு பிரபலமான தொழில்முறை வாசகமாகும், இது தீவிரமாக வேகத்தை பெறுகிறது.

அதிக சம்பளம் மற்றும் அதிக தேவை ஆகியவை இந்த வேலையை மிகவும் கவர்ச்சிகரமானதாக மாற்றுவதில் ஒரு சிறிய பகுதி மட்டுமே! நீங்கள் ஹீரோக்களின் வரிசையில் சேர விரும்பினால், கற்றுக்கொள்ளத் தொடங்குவதற்கு இது ஒருபோதும் தாமதமாகாது. இந்த இடுகையில், உங்கள் முதல் படிகளை எடுக்க உங்களுக்கு தேவையான அனைத்து தகவல்களையும் நான் சேகரித்துள்ளேன்.

எனவே தொடங்குவோம்!

டேட்டா இன்ஜினியரிங் என்றால் என்ன?

நேர்மையாக, இதை விட சிறந்த விளக்கம் இல்லை:

"ஒரு விஞ்ஞானி ஒரு புதிய நட்சத்திரத்தைக் கண்டுபிடிக்க முடியும், ஆனால் அவரால் ஒன்றை உருவாக்க முடியாது. அவர் ஒரு பொறியாளரிடம் அதைச் செய்யச் சொல்ல வேண்டும்."

-கார்டன் லிண்ட்சே க்ளெக்

எனவே, தரவு பொறியாளரின் பங்கு மிகவும் முக்கியமானது.

பெயரிலிருந்து தரவு பொறியியல் தரவுகளுடன் தொடர்புடையது, அதாவது அவற்றின் விநியோகம், சேமிப்பு மற்றும் செயலாக்கம். அதன்படி, பொறியாளர்களின் முக்கிய பணி தரவுகளுக்கான நம்பகமான உள்கட்டமைப்பை வழங்குவதாகும். தேவைகளின் AI படிநிலையைப் பார்த்தால், தரவு பொறியியல் முதல் 2-3 படிகளை எடுக்கும்: சேகரிப்பு, இயக்கம் மற்றும் சேமிப்பு, தரவு தயாரித்தல்.

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

தரவு பொறியாளர் என்ன செய்கிறார்?

பெரிய தரவுகளின் வருகையுடன், பொறுப்பின் நோக்கம் வியத்தகு முறையில் மாறிவிட்டது. முன்னதாக இந்த வல்லுநர்கள் பெரிய SQL வினவல்கள் மற்றும் Informatica ETL, Pentaho ETL, Talend போன்ற கருவிகளைப் பயன்படுத்தி தரவுகளை வடிகட்டியிருந்தால், இப்போது தரவுப் பொறியாளர்களுக்கான தேவைகள் அதிகரித்துள்ளன.

தரவு பொறியாளர் பதவிக்கான திறந்த காலியிடங்களைக் கொண்ட பெரும்பாலான நிறுவனங்கள் பின்வரும் தேவைகளைக் கொண்டுள்ளன:

  • SQL மற்றும் பைதான் பற்றிய சிறந்த அறிவு.
  • கிளவுட் இயங்குதளங்களில் அனுபவம், குறிப்பாக அமேசான் இணைய சேவைகள்.
  • ஜாவா/ஸ்கலா பற்றிய அறிவு விரும்பத்தக்கது.
  • SQL மற்றும் NoSQL தரவுத்தளங்கள் (தரவு மாடலிங், தரவு சேமிப்பு) பற்றிய நல்ல புரிதல்.

நினைவில் கொள்ளுங்கள், இது அத்தியாவசியமானவை மட்டுமே. இந்த பட்டியலிலிருந்து, தரவு பொறியாளர்கள் மென்பொருள் மேம்பாடு மற்றும் பின்தளத்தில் வல்லுநர்கள் என்று கருதலாம்.
எடுத்துக்காட்டாக, ஒரு நிறுவனம் பல்வேறு ஆதாரங்களில் இருந்து அதிக அளவிலான தரவை உருவாக்கத் தொடங்கினால், தரவுப் பொறியியலாளராக உங்கள் பணி, தகவல் சேகரிப்பு, அதன் செயலாக்கம் மற்றும் சேமிப்பகத்தை ஒழுங்கமைப்பதாகும்.

இந்த வழக்கில் பயன்படுத்தப்படும் கருவிகளின் பட்டியல் வேறுபடலாம், இவை அனைத்தும் இந்தத் தரவின் அளவு, அவற்றின் ரசீது மற்றும் பன்முகத்தன்மையின் வேகம் ஆகியவற்றைப் பொறுத்தது. பெரும்பாலான நிறுவனங்கள் பெரிய தரவைக் கையாள்வதில்லை, எனவே ஒரு மையப்படுத்தப்பட்ட களஞ்சியமாக, தரவுக் கிடங்கு என அழைக்கப்படும், நீங்கள் ஒரு SQL தரவுத்தளத்தை (PostgreSQL, MySQL, முதலியன) சிறிய ஸ்கிரிப்ட்களுடன் கிடங்கிற்கு அனுப்பலாம். .

கூகுள், அமேசான், பேஸ்புக் அல்லது டிராப்பாக்ஸ் போன்ற ஐடி ஜாம்பவான்களுக்கு அதிக தேவைகள் உள்ளன: பைதான், ஜாவா அல்லது ஸ்கலா பற்றிய அறிவு.

  • பெரிய தரவுகளுடன் அனுபவம்: ஹடூப், ஸ்பார்க், காஃப்கா.
  • அல்காரிதம்கள் மற்றும் தரவு கட்டமைப்புகள் பற்றிய அறிவு.
  • விநியோகிக்கப்பட்ட அமைப்புகளின் அடிப்படைகளைப் புரிந்துகொள்வது.
  • டேப்லோ அல்லது எலாஸ்டிக் தேடல் போன்ற தரவு காட்சிப்படுத்தல் கருவிகளின் அனுபவம் ஒரு பெரிய பிளஸ் ஆகும்.

அதாவது, பெரிய தரவுகளை நோக்கி ஒரு தெளிவான மாற்றம் உள்ளது, அதாவது அதிக சுமைகளின் கீழ் அவற்றின் செயலாக்கத்தில். இந்த நிறுவனங்கள் கணினி தவறு சகிப்புத்தன்மைக்கான தேவைகளை அதிகரித்துள்ளன.

தரவு பொறியாளர்கள் Vs. தரவு விஞ்ஞானிகள்

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?
சரி, இது ஒரு எளிய மற்றும் வேடிக்கையான ஒப்பீடு (தனிப்பட்ட எதுவும் இல்லை), ஆனால் அது உண்மையில் மிகவும் சிக்கலானது.

முதலில், தரவு விஞ்ஞானி மற்றும் தரவுப் பொறியாளரின் பாத்திரங்கள் மற்றும் திறன்களை வரையறுப்பதில் நிறைய தெளிவின்மை உள்ளது என்பதை நீங்கள் அறிந்திருக்க வேண்டும். அதாவது, ஒரு வெற்றிகரமான தரவுப் பொறியாளராக இருக்க என்ன திறன்கள் தேவை என்பதை நீங்கள் எளிதாகக் குழப்பலாம். நிச்சயமாக, இரண்டு பாத்திரங்களுடனும் ஒன்றுடன் ஒன்று சில திறன்கள் உள்ளன. ஆனால் முற்றிலும் எதிர்க்கும் திறன்கள் பல உள்ளன.

தரவு அறிவியல் என்பது தீவிரமான வணிகமாகும், ஆனால் பயிற்சியாளர்கள் தங்கள் சொந்த பகுப்பாய்வுகளைச் செய்யக்கூடிய செயல்பாட்டு தரவு அறிவியலின் உலகத்தை நோக்கி நகர்கிறோம். தரவு பைப்லைன்கள் மற்றும் ஒருங்கிணைந்த தரவு கட்டமைப்புகளை இயக்க, உங்களுக்கு தரவு பொறியாளர்கள் தேவை, விஞ்ஞானிகள் அல்ல.

தரவு விஞ்ஞானியை விட தரவு பொறியாளருக்கு அதிக தேவை உள்ளதா?

- ஆம், ஏனென்றால் நீங்கள் கேரட் கேக் தயாரிப்பதற்கு முன், நீங்கள் முதலில் கேரட்டை சேகரித்து, தோலுரித்து, சேமித்து வைக்க வேண்டும்!

தரவு பொறியாளர் எந்த தரவு விஞ்ஞானிகளையும் விட நிரலாக்கத்தை நன்கு புரிந்துகொள்கிறார், ஆனால் புள்ளிவிவரங்களுக்கு வரும்போது, ​​எல்லாமே நேர்மாறாக இருக்கும்.

ஆனால் இங்கே ஒரு தரவு பொறியாளரின் நன்மை:

அவன்/அவள் இல்லாமல், ஒரு முன்மாதிரி மாதிரியின் மதிப்பு, பெரும்பாலும் பைதான் கோப்பில் உள்ள பயங்கரமான தரக் குறியீட்டைக் கொண்டிருக்கும், தரவு விஞ்ஞானி ஒருவரிடம் இருந்து பெறப்பட்டு, எப்படியாவது முடிவை உருவாக்கினால், பூஜ்ஜியமாக இருக்கும்.

தரவுப் பொறியாளர் இல்லாமல், இந்தக் குறியீடு ஒருபோதும் திட்டமாக மாறாது மற்றும் எந்த வணிகப் பிரச்சனையும் திறம்பட தீர்க்கப்படாது. தரவு பொறியாளர் அனைத்தையும் ஒரு தயாரிப்பாக மாற்ற முயற்சிக்கிறார்.

தரவு பொறியாளர் தெரிந்து கொள்ள வேண்டிய அடிப்படை தகவல்

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

எனவே, இந்த வேலை உங்களுக்குள் ஒளியைத் தூண்டி, நீங்கள் உற்சாகம் நிறைந்தவராக இருந்தால் - நீங்கள் அதைக் கற்றுக் கொள்ள முடியும், தேவையான அனைத்து திறன்களையும் நீங்கள் தேர்ச்சி பெறலாம் மற்றும் தரவுச் செயலாக்கத் துறையில் உண்மையான ராக் ஸ்டாராக மாறலாம். மற்றும், ஆம், நீங்கள் நிரலாக்க திறன் அல்லது பிற தொழில்நுட்ப அறிவு இல்லாமல் கூட அதை செய்ய முடியும். இது கடினம், ஆனால் சாத்தியம்!

முதல் படிகள் என்ன?

என்ன என்பது பற்றிய பொதுவான யோசனை உங்களுக்கு இருக்க வேண்டும்.

முதலில், டேட்டா இன்ஜினியரிங் என்பது கணினி அறிவியலைக் குறிக்கிறது. மேலும் குறிப்பாக, திறமையான வழிமுறைகள் மற்றும் தரவு கட்டமைப்புகளை நீங்கள் புரிந்து கொள்ள வேண்டும். இரண்டாவதாக, தரவு பொறியாளர்கள் தரவுகளுடன் பணிபுரிவதால், தரவுத்தளங்கள் எவ்வாறு செயல்படுகின்றன மற்றும் அவற்றின் அடிப்படையிலான கட்டமைப்புகளைப் புரிந்துகொள்வது அவசியம்.

எடுத்துக்காட்டாக, வழக்கமான B-tree SQL தரவுத்தளங்கள் B-Tree தரவு கட்டமைப்பை அடிப்படையாகக் கொண்டவை, அத்துடன், நவீன விநியோகிக்கப்பட்ட களஞ்சியங்களில், LSM-Tree மற்றும் ஹாஷ் அட்டவணைகளின் பிற மாற்றங்கள்.

*இந்த படிகள் ஒரு சிறந்த கட்டுரையை அடிப்படையாகக் கொண்டவை ஆதில்யா கஷ்டமோவா. எனவே, உங்களுக்கு ரஷ்ய மொழி தெரிந்தால், இந்த ஆசிரியரை ஆதரித்து படிக்கவும் அவரது பதவி.

1. அல்காரிதம்கள் மற்றும் தரவு கட்டமைப்புகள்

சரியான தரவு கட்டமைப்பைப் பயன்படுத்துவது ஒரு அல்காரிதத்தின் செயல்திறனை பெரிதும் மேம்படுத்தும். வெறுமனே, நாம் அனைவரும் எங்கள் பள்ளிகளில் தரவு கட்டமைப்புகள் மற்றும் வழிமுறைகளைக் கற்றுக் கொள்ள வேண்டும், ஆனால் இது அரிதாகவே உள்ளடக்கப்பட்டது. எப்படியிருந்தாலும், கண்டுபிடிக்க மிகவும் தாமதமாகாது.
எனவே, தரவு கட்டமைப்புகள் மற்றும் அல்காரிதம்களைக் கற்க எனக்குப் பிடித்த இலவசப் படிப்புகள் இங்கே:

கூடுதலாக, தாமஸ் கோர்மனின் அல்காரிதம்களில் உன்னதமான வேலை பற்றி மறந்துவிடாதீர்கள் - அல்காரிதம் அறிமுகம். உங்கள் நினைவகத்தை நீங்கள் துலக்க வேண்டிய போது இது சரியான குறிப்பு.

  • உங்கள் திறன்களை மேம்படுத்த பயன்படுத்தவும் லீட்கோட்.

இந்த அற்புதமான Carnegie Mellon Youtube வீடியோக்களுடன் தரவுத்தளங்களின் உலகில் நீங்கள் முழுக்க முடியும்:

2. SQL கற்றல்

எங்கள் முழு வாழ்க்கையும் தரவு. தரவுத்தளத்திலிருந்து இந்தத் தரவை மீட்டெடுக்க, அதனுடன் அதே மொழியை "பேச" வேண்டும்.

SQL (கட்டமைக்கப்பட்ட வினவல் மொழி) என்பது தரவு களத்தில் உள்ள தொடர்பு மொழியாகும். யார் என்ன சொன்னாலும், SQL வாழ்ந்தது, உயிரோடு இருக்கிறது, மிக நீண்ட காலம் வாழும்.

நீங்கள் நீண்ட காலமாக வளர்ச்சியில் இருந்தால், SQL இன் உடனடி மரண வதந்திகள் அவ்வப்போது வெளிவருவதை நீங்கள் கவனித்திருக்கலாம். இந்த மொழி 70 களின் முற்பகுதியில் உருவாக்கப்பட்டது மற்றும் இன்னும் ஆய்வாளர்கள், டெவலப்பர்கள் மற்றும் ஆர்வலர்கள் மத்தியில் மிகவும் பிரபலமாக உள்ளது.
SQL பற்றிய அறிவு இல்லாமல், தரவு பொறியியலில் எதுவும் செய்ய முடியாது, ஏனெனில் நீங்கள் தவிர்க்க முடியாமல் தரவை மீட்டெடுக்க வினவல்களை உருவாக்க வேண்டியிருக்கும். அனைத்து நவீன பெரிய தரவு அங்காடிகளும் SQL ஐ ஆதரிக்கின்றன:

  • அமேசான் ரெட்ஷிஃப்ட்
  • ஹெச்பி வெர்டிகா
  • Oracle
  • SQL சர்வர்

… மற்றும் பலர்.

HDFS போன்ற விநியோகிக்கப்பட்ட அமைப்புகளில் சேமிக்கப்பட்ட ஒரு பெரிய அடுக்கு தரவை பகுப்பாய்வு செய்ய, SQL இன்ஜின்கள் கண்டுபிடிக்கப்பட்டன: அப்பாச்சி ஹைவ், இம்பாலா போன்றவை. பார், அது எங்கும் செல்லவில்லை.

SQL எவ்வாறு கற்றுக்கொள்வது? நடைமுறையில் மட்டும் செய்யுங்கள்.

இதைச் செய்ய, ஒரு சிறந்த டுடோரியலைப் பற்றி உங்களுக்குத் தெரிந்திருக்குமாறு நான் பரிந்துரைக்கிறேன், இது இலவசம். பயன்முறை பகுப்பாய்வு.

  1. இடைநிலை SQL
  2. SQL இல் தரவுகளை இணைத்தல்

இந்த படிப்புகளின் ஒரு தனித்துவமான அம்சம் என்னவென்றால், நீங்கள் உலாவியில் SQL வினவல்களை எழுதி இயக்கக்கூடிய ஊடாடும் சூழல் உள்ளது. வளம் நவீன SQL தேவையற்றதாக இருக்காது. இந்த அறிவை நீங்கள் பயன்படுத்தலாம் லீட்கோட் பணிகள் தரவுத்தள பிரிவில்.

3. பைதான் மற்றும் ஜாவா/ஸ்காலாவில் நிரலாக்கம்

பைதான் நிரலாக்க மொழியைக் கற்றுக்கொள்வது ஏன் மதிப்புக்குரியது, நான் ஏற்கனவே கட்டுரையில் எழுதினேன் Python vs R. AI, ML மற்றும் தரவு அறிவியலுக்கான சிறந்த கருவியைத் தேர்ந்தெடுப்பது. ஜாவா மற்றும் ஸ்கலாவைப் பொறுத்தவரை, பெரிய அளவிலான தரவைச் சேமித்து செயலாக்குவதற்கான பெரும்பாலான கருவிகள் இந்த மொழிகளில் எழுதப்பட்டுள்ளன. உதாரணத்திற்கு:

  • அப்பாச்சி காஃப்கா (ஸ்கலா)
  • ஹடூப், HDFS (ஜாவா)
  • அப்பாச்சி ஸ்பார்க் (ஸ்காலா)
  • அப்பாச்சி கசாண்ட்ரா (ஜாவா)
  • HBase (ஜாவா)
  • அப்பாச்சி ஹைவ் (ஜாவா)

இந்த கருவிகள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்து கொள்ள, அவை எழுதப்பட்ட மொழிகளை நீங்கள் அறிந்து கொள்ள வேண்டும். ஸ்கலாவின் செயல்பாட்டு அணுகுமுறை இணையான தரவு செயலாக்கத்தின் சிக்கல்களை திறம்பட தீர்க்க உங்களை அனுமதிக்கிறது. பைதான், துரதிர்ஷ்டவசமாக, வேகம் மற்றும் இணையான செயலாக்கத்தைப் பற்றி பெருமை கொள்ள முடியாது. பொதுவாக, பல மொழிகளின் அறிவு மற்றும் நிரலாக்க முன்னுதாரணங்கள் சிக்கலைத் தீர்ப்பதற்கான அணுகுமுறைகளின் அகலத்திற்கு நல்லது.

ஸ்கலா மொழியில் டைவ் செய்ய, நீங்கள் படிக்கலாம் ஸ்கலாவில் நிரலாக்கம் மொழியின் ஆசிரியரிடமிருந்து. மேலும், ட்விட்டர் ஒரு நல்ல அறிமுக வழிகாட்டியை வெளியிட்டுள்ளது - ஸ்கலா பள்ளி.

பைத்தானைப் பொறுத்த வரையில், நான் நம்புகிறேன் சரளமான மலைப்பாம்பு சிறந்த நடுத்தர புத்தகம்.

4. பெரிய தரவுகளுடன் வேலை செய்வதற்கான கருவிகள்

பெரிய தரவு உலகில் மிகவும் பிரபலமான கருவிகளின் பட்டியல் இங்கே:

  • அப்பாச்சி ஸ்பார்க்
  • அப்பாச்சி காஃப்கா
  • அப்பாச்சி ஹடூப் (HDFS, HBase, ஹைவ்)
  • அப்பாச்சி கசாண்ட்ரா

இந்த அற்புதமான தரவுகளின் பெரிய தொகுதிகளை உருவாக்குவது பற்றிய கூடுதல் தகவல்களை நீங்கள் காணலாம் ஊடாடும் சூழல். மிகவும் பிரபலமான கருவிகள் ஸ்பார்க் மற்றும் காஃப்கா. அவர்கள் நிச்சயமாக படிப்பது மதிப்புக்குரியவர்கள், அவர்கள் உள்ளே இருந்து எப்படி வேலை செய்கிறார்கள் என்பதைப் புரிந்துகொள்வது விரும்பத்தக்கது. ஜே கிரெப்ஸ் (காஃப்காவின் இணை ஆசிரியர்) 2013 இல் ஒரு நினைவுச்சின்னப் படைப்பை வெளியிட்டார். பதிவு: நிகழ்நேர டேட்டா ஃப்யூஷன் சுருக்கம் பற்றி ஒவ்வொரு மென்பொருள் உருவாக்குநரும் தெரிந்து கொள்ள வேண்டியதுஇந்த டால்முட்டின் முக்கிய யோசனைகள் அப்பாச்சி காஃப்காவை உருவாக்க பயன்படுத்தப்பட்டன.

5. கிளவுட் தளங்கள்

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

தரவு பொறியாளர் பதவிக்கு விண்ணப்பிப்பவர்களுக்கான அடிப்படைத் தேவைகளின் பட்டியலில் குறைந்தபட்சம் ஒரு கிளவுட் பிளாட்ஃபார்ம் பற்றிய அறிவு உள்ளது. முதலாளிகள் Amazon Web Servicesக்கு முன்னுரிமை அளிக்கிறார்கள், இரண்டாவது இடத்தில் Google cloud இயங்குதளம் உள்ளது, மேலும் Microsoft Azure முதல் மூன்று இடங்களை மூடுகிறது.

Amazon EC2, AWS Lambda, Amazon S3, DynamoDB ஆகியவற்றை நீங்கள் நன்கு அறிந்திருக்க வேண்டும்.

6. விநியோகிக்கப்பட்ட அமைப்புகள்

பெரிய தரவுகளுடன் பணிபுரிவது சுயாதீனமாக இயங்கும் கணினிகளின் கிளஸ்டர்களின் இருப்பைக் குறிக்கிறது, அவற்றுக்கிடையேயான இணைப்பு ஒரு பிணையத்தில் மேற்கொள்ளப்படுகிறது. பெரிய கொத்து, அதன் உறுப்பினர் முனைகள் தோல்வியடையும் வாய்ப்பு அதிகம். சிறந்த தரவு நிபுணராக மாற, விநியோகிக்கப்பட்ட அமைப்புகளுக்கான சிக்கல்கள் மற்றும் ஏற்கனவே உள்ள தீர்வுகளை நீங்கள் புரிந்து கொள்ள வேண்டும். இந்த பகுதி பழமையானது மற்றும் சிக்கலானது.

ஆண்ட்ரூ டானென்பாம் இந்தத் துறையில் முன்னோடியாகக் கருதப்படுகிறார். கோட்பாட்டுக்கு பயப்படாதவர்களுக்கு, நான் அவருடைய புத்தகத்தை பரிந்துரைக்கிறேன் "விநியோகிக்கப்பட்ட அமைப்புகள்", ஆரம்பநிலைக்கு இது சிக்கலானதாகத் தோன்றலாம், ஆனால் இது உண்மையில் உங்கள் திறமைகளை மேம்படுத்த உதவும்.

நான் நினைக்கிறேன் மார்ட்டின் க்ளெப்மேன் எழுதிய "தரவு-தீவிர பயன்பாடுகளை வடிவமைத்தல்" சிறந்த அறிமுக நூல். மூலம், மார்ட்டின் ஒரு அற்புதமான உள்ளது வலைப்பதிவு. பெரிய தரவைச் சேமிப்பதற்கும் செயலாக்குவதற்கும் நவீன உள்கட்டமைப்பை உருவாக்குவது பற்றிய அறிவை முறைப்படுத்த அவரது பணி உதவும்.
வீடியோக்களைப் பார்க்க விரும்புவோருக்கு, Youtube இல் ஒரு படிப்பு உள்ளது விநியோகிக்கப்பட்ட கணினி அமைப்புகள்.

7. தரவு குழாய்கள்

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

டேட்டா பைப்லைன்கள் என்பது டேட்டா இன்ஜினியராக நீங்கள் இல்லாமல் வாழ முடியாது.

பெரும்பாலான நேரங்களில், ஒரு தரவு பொறியாளர் பைப்லைன் தேதி என்று அழைக்கப்படுவதை உருவாக்குகிறார், அதாவது ஒரு இடத்திலிருந்து மற்றொரு இடத்திற்கு தரவை வழங்குவதற்கான செயல்முறையை உருவாக்குகிறார். இவை வெளிப்புற சேவை API க்குச் செல்லும் தனிப்பயன் ஸ்கிரிப்ட்களாக இருக்கலாம் அல்லது SQL வினவலை உருவாக்கி, தரவை நிறைவுசெய்து மையப்படுத்தப்பட்ட சேமிப்பகத்தில் (தரவுக் கிடங்கு) அல்லது கட்டமைக்கப்படாத தரவு சேமிப்பகத்தில் (தரவு ஏரிகள்) வைக்கலாம்.

சுருக்கமாக: அடிப்படை தரவு பொறியாளர் சரிபார்ப்பு பட்டியல்

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

சுருக்கமாக, பின்வருவனவற்றை நன்கு புரிந்துகொள்வது அவசியம்:

  • தகவல் அமைப்புகள்;
  • மென்பொருள் மேம்பாடு (அஜில், டெவொப்ஸ், டிசைன் டெக்னிக்ஸ், எஸ்ஓஏ);
  • விநியோகிக்கப்பட்ட அமைப்புகள் மற்றும் இணை நிரலாக்கம்;
  • தரவுத்தள அடிப்படைகள் - திட்டமிடல், வடிவமைப்பு, செயல்பாடு மற்றும் சரிசெய்தல்;
  • வடிவமைப்பு சோதனைகள் - கருத்துகளை நிரூபிக்க, நம்பகத்தன்மை, கணினி செயல்திறன் மற்றும் நல்ல தீர்வுகளை விரைவாக வழங்க வலுவான பாதைகளை உருவாக்க A/B சோதனைகள்.

தரவுப் பொறியாளராக ஆவதற்கான சில தேவைகள் இவையே, எனவே தரவு அமைப்புகள், தகவல் அமைப்புகள், தொடர்ச்சியான விநியோகம்/பயன்பாடு/ஒருங்கிணைப்பு, நிரலாக்க மொழிகள் மற்றும் பிற கணினி அறிவியல் தலைப்புகள் (அனைத்து பாடப் பகுதிகளிலும் இல்லை) ஆகியவற்றைக் கற்று புரிந்து கொள்ளுங்கள்.

இறுதியாக, நான் சொல்ல விரும்பும் கடைசி ஆனால் மிக முக்கியமான விஷயம்.

டேட்டா இன்ஜினியரிங் ஆகுவதற்கான பாதை தோன்றுவது போல் எளிதானது அல்ல. அவர் மன்னிக்கவில்லை, அவர் ஏமாற்றமடைகிறார், இதற்கு நீங்கள் தயாராக இருக்க வேண்டும். இந்தப் பயணத்தின் சில தருணங்கள் எல்லாவற்றையும் விட்டுவிட உங்களைத் தூண்டலாம். ஆனால் இது ஒரு உண்மையான வேலை மற்றும் கற்றல் செயல்முறை.

ஆரம்பத்தில் இருந்தே அதை அலங்கரிக்க வேண்டாம். பயணத்தின் முழுப் புள்ளியும் முடிந்தவரை கற்றுக்கொள்வதும் புதிய சவால்களுக்கு தயாராக இருப்பதும் ஆகும்.
இந்த விஷயத்தை நன்றாக விளக்கும் ஒரு சிறந்த படம் இங்கே உள்ளது:

தரவு பொறியாளர்கள் யார், அவர்கள் எப்படி ஒருவராக மாறுகிறார்கள்?

ஆம், எரிதல் மற்றும் ஓய்வைத் தவிர்க்க மறக்காதீர்கள். இதுவும் மிக முக்கியமானது. நல்ல அதிர்ஷ்டம்!

கட்டுரை உங்களுக்கு எப்படி பிடித்திருக்கிறது நண்பர்களே? நாங்கள் உங்களை அழைக்கிறோம் இலவச webinarஇன்று 20.00 மணிக்கு நடைபெறும். வெபினாரின் போது, ​​குறைந்த செலவில் ஒரு சிறிய நிறுவனம் அல்லது தொடக்கத்திற்கான திறமையான மற்றும் அளவிடக்கூடிய தரவு செயலாக்க அமைப்பை எவ்வாறு உருவாக்குவது என்று விவாதிப்போம். ஒரு நடைமுறையாக, Google Cloud தரவு செயலாக்கக் கருவிகளைப் பற்றி அறிந்து கொள்வோம். சந்திப்போம்!

ஆதாரம்: www.habr.com

கருத்தைச் சேர்