ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್: ವ್ಯತ್ಯಾಸವೇನು?

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಮತ್ತು ಡಾಟಾ ಇಂಜಿನಿಯರ್‌ಗಳ ವೃತ್ತಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಗೊಂದಲಕ್ಕೊಳಗಾಗುತ್ತವೆ. ಪ್ರತಿಯೊಂದು ಕಂಪನಿಯು ಡೇಟಾದೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ತನ್ನದೇ ಆದ ನಿಶ್ಚಿತಗಳನ್ನು ಹೊಂದಿದೆ, ಅವುಗಳ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ವಿಭಿನ್ನ ಉದ್ದೇಶಗಳು ಮತ್ತು ಯಾವ ತಜ್ಞರು ಕೆಲಸದ ಯಾವ ಭಾಗವನ್ನು ನಿಭಾಯಿಸಬೇಕು ಎಂಬ ವಿಭಿನ್ನ ಕಲ್ಪನೆಯನ್ನು ಹೊಂದಿದೆ, ಆದ್ದರಿಂದ ಪ್ರತಿಯೊಂದಕ್ಕೂ ತನ್ನದೇ ಆದ ಅವಶ್ಯಕತೆಗಳಿವೆ. 

ಈ ತಜ್ಞರ ನಡುವಿನ ವ್ಯತ್ಯಾಸವೇನು, ಅವರು ಯಾವ ವ್ಯವಹಾರ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುತ್ತಾರೆ, ಅವರು ಯಾವ ಕೌಶಲ್ಯಗಳನ್ನು ಹೊಂದಿದ್ದಾರೆ ಮತ್ತು ಅವರು ಎಷ್ಟು ಸಂಪಾದಿಸುತ್ತಾರೆ ಎಂಬುದನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡೋಣ. ವಸ್ತುವು ದೊಡ್ಡದಾಗಿದೆ, ಆದ್ದರಿಂದ ನಾವು ಅದನ್ನು ಎರಡು ಪ್ರಕಟಣೆಗಳಾಗಿ ವಿಂಗಡಿಸಿದ್ದೇವೆ.

ಮೊದಲ ಲೇಖನದಲ್ಲಿ, ಅಧ್ಯಾಪಕರ ಮುಖ್ಯಸ್ಥ ಎಲೆನಾ ಗೆರಾಸಿಮೊವಾ "ಡೇಟಾ ಸೈನ್ಸ್ ಮತ್ತು ಅನಾಲಿಟಿಕ್ಸ್"ನೆಟಾಲಜಿಯಲ್ಲಿ, ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಮತ್ತು ಡೇಟಾ ಇಂಜಿನಿಯರ್ ನಡುವಿನ ವ್ಯತ್ಯಾಸವೇನು ಮತ್ತು ಅವರು ಯಾವ ಸಾಧನಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ ಎಂಬುದನ್ನು ಹೇಳುತ್ತದೆ.

ಎಂಜಿನಿಯರ್‌ಗಳು ಮತ್ತು ವಿಜ್ಞಾನಿಗಳ ಪಾತ್ರಗಳು ಹೇಗೆ ಭಿನ್ನವಾಗಿವೆ

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಒಬ್ಬ ಸ್ಪೆಷಲಿಸ್ಟ್ ಆಗಿದ್ದು, ಅವರು ಒಂದೆಡೆ, ಡೇಟಾ ಮೂಲಸೌಕರ್ಯವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಾರೆ, ಪರೀಕ್ಷಿಸುತ್ತಾರೆ ಮತ್ತು ನಿರ್ವಹಿಸುತ್ತಾರೆ: ಡೇಟಾಬೇಸ್‌ಗಳು, ಸಂಗ್ರಹಣೆ ಮತ್ತು ಸಾಮೂಹಿಕ ಸಂಸ್ಕರಣಾ ವ್ಯವಸ್ಥೆಗಳು. ಮತ್ತೊಂದೆಡೆ, ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಬಳಕೆಗಾಗಿ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವ ಮತ್ತು "ಬಾಚಣಿಗೆ" ಮಾಡುವವನು, ಅಂದರೆ, ಡೇಟಾ ಸಂಸ್ಕರಣಾ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ರಚಿಸುತ್ತಾನೆ.

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಮತ್ತು ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಮುನ್ಸೂಚಕ (ಮತ್ತು ಇತರ) ಮಾದರಿಗಳನ್ನು ರಚಿಸುತ್ತದೆ ಮತ್ತು ತರಬೇತಿ ನೀಡುತ್ತದೆ, ವ್ಯವಹಾರಗಳಿಗೆ ಗುಪ್ತ ಮಾದರಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಬೆಳವಣಿಗೆಗಳನ್ನು ಊಹಿಸುತ್ತದೆ ಮತ್ತು ಪ್ರಮುಖ ವ್ಯವಹಾರ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಉತ್ತಮಗೊಳಿಸುತ್ತದೆ.

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಮತ್ತು ಡೇಟಾ ಇಂಜಿನಿಯರ್ ನಡುವಿನ ಪ್ರಮುಖ ವ್ಯತ್ಯಾಸವೆಂದರೆ ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ವಿಭಿನ್ನ ಗುರಿಗಳನ್ನು ಹೊಂದಿರುತ್ತಾರೆ. ಡೇಟಾವನ್ನು ಪ್ರವೇಶಿಸಲು ಮತ್ತು ಉತ್ತಮ ಗುಣಮಟ್ಟವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಎರಡೂ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಆದರೆ ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ತನ್ನ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತಾನೆ ಮತ್ತು ದತ್ತಾಂಶ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಊಹೆಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತಾನೆ (ಉದಾಹರಣೆಗೆ, ಹಡೂಪ್ ಆಧಾರಿತ), ಮತ್ತು ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಅದೇ ಸ್ಪಾರ್ಕ್ ಕ್ಲಸ್ಟರ್‌ನಲ್ಲಿ ಡೇಟಾ ವಿಜ್ಞಾನಿ ಬರೆದ ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗೆ ಸೇವೆ ಸಲ್ಲಿಸಲು ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ರಚಿಸುತ್ತಾನೆ. ಪರಿಸರ ವ್ಯವಸ್ಥೆ. 

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ತಂಡದ ಭಾಗವಾಗಿ ಕೆಲಸ ಮಾಡುವ ಮೂಲಕ ವ್ಯವಹಾರಕ್ಕೆ ಮೌಲ್ಯವನ್ನು ತರುತ್ತಾನೆ. ವಿವಿಧ ಭಾಗವಹಿಸುವವರ ನಡುವೆ ಪ್ರಮುಖ ಕೊಂಡಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದು ಇದರ ಕಾರ್ಯವಾಗಿದೆ: ಡೆವಲಪರ್‌ಗಳಿಂದ ವ್ಯಾಪಾರ ಗ್ರಾಹಕರಿಂದ ವರದಿ ಮಾಡುವವರೆಗೆ ಮತ್ತು ವಿಶ್ಲೇಷಕರ ಉತ್ಪಾದಕತೆಯನ್ನು ಹೆಚ್ಚಿಸುವುದು, ಮಾರ್ಕೆಟಿಂಗ್ ಮತ್ತು ಉತ್ಪನ್ನದಿಂದ ಬಿಐವರೆಗೆ. 

ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಕಂಪನಿಯ ಕಾರ್ಯತಂತ್ರದಲ್ಲಿ ಸಕ್ರಿಯವಾಗಿ ಪಾಲ್ಗೊಳ್ಳುತ್ತಾರೆ ಮತ್ತು ಒಳನೋಟಗಳನ್ನು ಹೊರತೆಗೆಯುತ್ತಾರೆ, ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತಾರೆ, ಯಾಂತ್ರೀಕೃತಗೊಂಡ ಕ್ರಮಾವಳಿಗಳನ್ನು ಅಳವಡಿಸುತ್ತಾರೆ, ಮಾದರಿ ಮತ್ತು ಡೇಟಾದಿಂದ ಮೌಲ್ಯವನ್ನು ಉತ್ಪಾದಿಸುತ್ತಾರೆ.
ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್: ವ್ಯತ್ಯಾಸವೇನು?

ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು GIGO (ಗಾರ್ಬೇಜ್ ಇನ್ - ಗಾರ್ಬೇಜ್ ಔಟ್) ತತ್ವಕ್ಕೆ ಒಳಪಟ್ಟಿರುತ್ತದೆ: ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಸಿದ್ಧವಿಲ್ಲದ ಮತ್ತು ಸಂಭಾವ್ಯ ತಪ್ಪಾದ ಡೇಟಾವನ್ನು ವ್ಯವಹರಿಸಿದರೆ, ಅತ್ಯಾಧುನಿಕ ವಿಶ್ಲೇಷಣಾ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಬಳಸುವ ಫಲಿತಾಂಶಗಳು ಸಹ ತಪ್ಪಾಗಿರುತ್ತವೆ. 

ಡೇಟಾ ಇಂಜಿನಿಯರ್‌ಗಳು ದತ್ತಾಂಶವನ್ನು ಸಂಸ್ಕರಿಸಲು, ಸ್ವಚ್ಛಗೊಳಿಸಲು ಮತ್ತು ಪರಿವರ್ತಿಸಲು ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ನಿರ್ಮಿಸುವ ಮೂಲಕ ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುತ್ತಾರೆ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಅವಕಾಶ ಮಾಡಿಕೊಡುತ್ತಾರೆ. 

ಪ್ರತಿ ಹಂತವನ್ನು ಒಳಗೊಂಡಿರುವ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಮಾರುಕಟ್ಟೆಯಲ್ಲಿ ಹಲವು ಪರಿಕರಗಳಿವೆ: ಡೇಟಾದ ನೋಟದಿಂದ ಔಟ್‌ಪುಟ್‌ಗೆ ನಿರ್ದೇಶಕರ ಮಂಡಳಿಗೆ ಡ್ಯಾಶ್‌ಬೋರ್ಡ್‌ಗೆ. ಮತ್ತು ಅವುಗಳನ್ನು ಬಳಸುವ ನಿರ್ಧಾರವನ್ನು ಎಂಜಿನಿಯರ್ ಮಾಡಿರುವುದು ಮುಖ್ಯ - ಇದು ಫ್ಯಾಶನ್ ಆಗಿರುವುದರಿಂದ ಅಲ್ಲ, ಆದರೆ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಭಾಗವಹಿಸುವ ಉಳಿದವರಿಗೆ ಅವರು ನಿಜವಾಗಿಯೂ ಸಹಾಯ ಮಾಡುತ್ತಾರೆ. 

ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ: ಕಂಪನಿಯು BI ಮತ್ತು ETL ನಡುವೆ ಸಂಪರ್ಕಗಳನ್ನು ಮಾಡಬೇಕಾದರೆ - ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡುವುದು ಮತ್ತು ವರದಿಗಳನ್ನು ನವೀಕರಿಸುವುದು, ಡೇಟಾ ಇಂಜಿನಿಯರ್ ವ್ಯವಹರಿಸಬೇಕಾದ ವಿಶಿಷ್ಟವಾದ ಪರಂಪರೆಯ ಅಡಿಪಾಯ ಇಲ್ಲಿದೆ (ತಂಡದಲ್ಲಿ ವಾಸ್ತುಶಿಲ್ಪಿ ಇದ್ದರೆ ಅದು ಒಳ್ಳೆಯದು).

ಡೇಟಾ ಇಂಜಿನಿಯರ್‌ನ ಜವಾಬ್ದಾರಿಗಳು

  • ಡೇಟಾ ಸಂಸ್ಕರಣಾ ಮೂಲಸೌಕರ್ಯದ ಅಭಿವೃದ್ಧಿ, ನಿರ್ಮಾಣ ಮತ್ತು ನಿರ್ವಹಣೆ.
  • ದೋಷಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹ ಡೇಟಾ ಸಂಸ್ಕರಣಾ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ರಚಿಸುವುದು.
  • ವಿವಿಧ ಡೈನಾಮಿಕ್ ಮೂಲಗಳಿಂದ ರಚನೆಯಾಗದ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಕರ ಕೆಲಸಕ್ಕೆ ಅಗತ್ಯವಾದ ರೂಪಕ್ಕೆ ತರುವುದು.
  • ಡೇಟಾ ಸ್ಥಿರತೆ ಮತ್ತು ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸಲು ಶಿಫಾರಸುಗಳನ್ನು ಒದಗಿಸುವುದು.
  • ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಬಳಸುವ ಡೇಟಾ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಒದಗಿಸುವುದು ಮತ್ತು ನಿರ್ವಹಿಸುವುದು.
  • ಹತ್ತಾರು ಅಥವಾ ನೂರಾರು ಸರ್ವರ್‌ಗಳ ವಿತರಣಾ ಕ್ಲಸ್ಟರ್‌ನಲ್ಲಿ ಡೇಟಾವನ್ನು ಸ್ಥಿರವಾಗಿ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿ ಮತ್ತು ಸಂಗ್ರಹಿಸಿ.
  • ಅಡಚಣೆಯಿಂದ ಬದುಕುಳಿಯುವ ಸರಳ ಆದರೆ ದೃಢವಾದ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳನ್ನು ರಚಿಸಲು ಪರಿಕರಗಳ ತಾಂತ್ರಿಕ ವ್ಯಾಪಾರ-ವಹಿವಾಟುಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ.
  • ಡೇಟಾ ಹರಿವುಗಳು ಮತ್ತು ಸಂಬಂಧಿತ ವ್ಯವಸ್ಥೆಗಳ ನಿಯಂತ್ರಣ ಮತ್ತು ಬೆಂಬಲ (ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ಎಚ್ಚರಿಕೆಗಳನ್ನು ಹೊಂದಿಸುವುದು).

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಪಥದಲ್ಲಿ ಮತ್ತೊಂದು ವಿಶೇಷತೆ ಇದೆ - ML ಇಂಜಿನಿಯರ್. ಸಂಕ್ಷಿಪ್ತವಾಗಿ, ಈ ಎಂಜಿನಿಯರ್‌ಗಳು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ಕೈಗಾರಿಕಾ ಅನುಷ್ಠಾನ ಮತ್ತು ಬಳಕೆಗೆ ತರಲು ಪರಿಣತಿ ಹೊಂದಿದ್ದಾರೆ. ಸಾಮಾನ್ಯವಾಗಿ, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳಿಂದ ಪಡೆದ ಮಾದರಿಯು ಅಧ್ಯಯನದ ಭಾಗವಾಗಿದೆ ಮತ್ತು ಯುದ್ಧ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡದಿರಬಹುದು.

ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಜವಾಬ್ದಾರಿಗಳು

  • ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಅನ್ವಯಿಸಲು ಡೇಟಾದಿಂದ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೊರತೆಗೆಯಲಾಗುತ್ತಿದೆ.
  • ಡೇಟಾದಲ್ಲಿನ ಮಾದರಿಗಳನ್ನು ಊಹಿಸಲು ಮತ್ತು ವರ್ಗೀಕರಿಸಲು ವಿವಿಧ ಯಂತ್ರ ಕಲಿಕಾ ಸಾಧನಗಳನ್ನು ಬಳಸುವುದು.
  • ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಉತ್ತಮ-ಶ್ರುತಿ ಮತ್ತು ಆಪ್ಟಿಮೈಜ್ ಮಾಡುವ ಮೂಲಕ ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಸುಧಾರಿಸುವುದು.
  • ಪರೀಕ್ಷಿಸಬೇಕಾದ ಕಂಪನಿಯ ಕಾರ್ಯತಂತ್ರಕ್ಕೆ ಅನುಗುಣವಾಗಿ "ಬಲವಾದ" ಊಹೆಗಳ ರಚನೆ.

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಇಬ್ಬರೂ ಡೇಟಾ ಸಂಸ್ಕೃತಿಯ ಅಭಿವೃದ್ಧಿಗೆ ಸ್ಪಷ್ಟವಾದ ಕೊಡುಗೆಯನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತಾರೆ, ಅದರ ಮೂಲಕ ಕಂಪನಿಯು ಹೆಚ್ಚುವರಿ ಲಾಭವನ್ನು ಗಳಿಸಬಹುದು ಅಥವಾ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದು.

ಎಂಜಿನಿಯರ್‌ಗಳು ಮತ್ತು ವಿಜ್ಞಾನಿಗಳು ಯಾವ ಭಾಷೆಗಳು ಮತ್ತು ಸಾಧನಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ?

ಇಂದು, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ನಿರೀಕ್ಷೆಗಳು ಬದಲಾಗಿವೆ. ಹಿಂದೆ, ಇಂಜಿನಿಯರ್‌ಗಳು ದೊಡ್ಡ SQL ಪ್ರಶ್ನೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಿದರು, ಮ್ಯಾಪ್‌ರೆಡ್ಯೂಸ್ ಅನ್ನು ಹಸ್ತಚಾಲಿತವಾಗಿ ಬರೆದರು ಮತ್ತು Informatica ETL, Pentaho ETL, Talend ನಂತಹ ಸಾಧನಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೇಟಾವನ್ನು ಸಂಸ್ಕರಿಸಿದರು. 

2020 ರಲ್ಲಿ, ಪೈಥಾನ್ ಮತ್ತು ಆಧುನಿಕ ಲೆಕ್ಕಾಚಾರದ ಪರಿಕರಗಳ ಜ್ಞಾನವಿಲ್ಲದೆ ತಜ್ಞರು ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, ಗಾಳಿಯ ಹರಿವು), ಕ್ಲೌಡ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ತತ್ವಗಳ ತಿಳುವಳಿಕೆ (ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ಉಳಿಸಲು ಅವುಗಳನ್ನು ಬಳಸುವುದು, ಭದ್ರತಾ ತತ್ವಗಳನ್ನು ಗಮನಿಸುವಾಗ).

SAP, Oracle, MySQL, Redis ದೊಡ್ಡ ಕಂಪನಿಗಳಲ್ಲಿ ಡೇಟಾ ಇಂಜಿನಿಯರ್‌ಗಳಿಗೆ ಸಾಂಪ್ರದಾಯಿಕ ಸಾಧನಗಳಾಗಿವೆ. ಅವು ಒಳ್ಳೆಯದು, ಆದರೆ ಪರವಾನಗಿಗಳ ವೆಚ್ಚವು ತುಂಬಾ ಹೆಚ್ಚಾಗಿರುತ್ತದೆ, ಅವರೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಕಲಿಯುವುದು ಕೈಗಾರಿಕಾ ಯೋಜನೆಗಳಲ್ಲಿ ಮಾತ್ರ ಅರ್ಥಪೂರ್ಣವಾಗಿದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಪೋಸ್ಟ್ಗ್ರೆಸ್ ರೂಪದಲ್ಲಿ ಉಚಿತ ಪರ್ಯಾಯವಿದೆ - ಇದು ತರಬೇತಿಗೆ ಮಾತ್ರವಲ್ಲದೆ ಉಚಿತ ಮತ್ತು ಸೂಕ್ತವಾಗಿದೆ. 

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್: ವ್ಯತ್ಯಾಸವೇನು?
ಐತಿಹಾಸಿಕವಾಗಿ, ಜಾವಾ ಮತ್ತು ಸ್ಕಾಲಾಗಾಗಿ ವಿನಂತಿಗಳು ಹೆಚ್ಚಾಗಿ ಕಂಡುಬರುತ್ತವೆ, ಆದಾಗ್ಯೂ ತಂತ್ರಜ್ಞಾನಗಳು ಮತ್ತು ವಿಧಾನಗಳು ಅಭಿವೃದ್ಧಿಗೊಂಡಂತೆ, ಈ ಭಾಷೆಗಳು ಹಿನ್ನೆಲೆಗೆ ಮಸುಕಾಗುತ್ತವೆ.

ಆದಾಗ್ಯೂ, ಹಾರ್ಡ್‌ಕೋರ್ ಬಿಗ್‌ಡೇಟಾ: ಹಡೂಪ್, ಸ್ಪಾರ್ಕ್ ಮತ್ತು ಉಳಿದ ಮೃಗಾಲಯವು ಇನ್ನು ಮುಂದೆ ಡೇಟಾ ಇಂಜಿನಿಯರ್‌ಗೆ ಪೂರ್ವಾಪೇಕ್ಷಿತವಲ್ಲ, ಆದರೆ ಸಾಂಪ್ರದಾಯಿಕ ETL ನಿಂದ ಪರಿಹರಿಸಲಾಗದ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಒಂದು ರೀತಿಯ ಸಾಧನವಾಗಿದೆ. 

ಟ್ರೆಂಡ್ ಎಂದರೆ ಅವರು ಬರೆಯಲಾದ ಭಾಷೆಯ ಜ್ಞಾನವಿಲ್ಲದೆ ಪರಿಕರಗಳನ್ನು ಬಳಸುವ ಸೇವೆಗಳು (ಉದಾಹರಣೆಗೆ, ಜಾವಾ ಜ್ಞಾನವಿಲ್ಲದ ಹಡೂಪ್), ಹಾಗೆಯೇ ಸ್ಟ್ರೀಮಿಂಗ್ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಸಿದ್ಧ ಸೇವೆಗಳನ್ನು ಒದಗಿಸುವುದು (ವೀಡಿಯೊದಲ್ಲಿ ಧ್ವನಿ ಗುರುತಿಸುವಿಕೆ ಅಥವಾ ಚಿತ್ರ ಗುರುತಿಸುವಿಕೆ )

SAS ಮತ್ತು SPSS ನಿಂದ ಕೈಗಾರಿಕಾ ಪರಿಹಾರಗಳು ಜನಪ್ರಿಯವಾಗಿವೆ, ಆದರೆ Tableau, Rapidminer, Stata ಮತ್ತು Julia ಅನ್ನು ಸ್ಥಳೀಯ ಕಾರ್ಯಗಳಿಗಾಗಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ವ್ಯಾಪಕವಾಗಿ ಬಳಸುತ್ತಾರೆ.

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್: ವ್ಯತ್ಯಾಸವೇನು?
ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ನಿರ್ಮಿಸುವ ಸಾಮರ್ಥ್ಯವು ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳಿಗೆ ಕೇವಲ ಒಂದೆರಡು ವರ್ಷಗಳ ಹಿಂದೆ ಕಾಣಿಸಿಕೊಂಡಿತು: ಉದಾಹರಣೆಗೆ, ತುಲನಾತ್ಮಕವಾಗಿ ಸರಳವಾದ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪೋಸ್ಟ್‌ಗ್ರೆಎಸ್‌ಕ್ಯುಎಲ್-ಆಧಾರಿತ ಸಂಗ್ರಹಣೆಗೆ ಡೇಟಾವನ್ನು ಕಳುಹಿಸಲು ಈಗಾಗಲೇ ಸಾಧ್ಯವಿದೆ. 

ವಿಶಿಷ್ಟವಾಗಿ, ಪೈಪ್‌ಲೈನ್‌ಗಳು ಮತ್ತು ಸಮಗ್ರ ಡೇಟಾ ರಚನೆಗಳ ಬಳಕೆ ಡೇಟಾ ಎಂಜಿನಿಯರ್‌ಗಳ ಜವಾಬ್ದಾರಿಯಾಗಿ ಉಳಿದಿದೆ. ಆದರೆ ಇಂದು, ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ವಿಶಾಲವಾದ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಟಿ-ಆಕಾರದ ತಜ್ಞರ ಪ್ರವೃತ್ತಿಯು ಎಂದಿಗಿಂತಲೂ ಪ್ರಬಲವಾಗಿದೆ, ಏಕೆಂದರೆ ಉಪಕರಣಗಳನ್ನು ನಿರಂತರವಾಗಿ ಸರಳಗೊಳಿಸಲಾಗುತ್ತಿದೆ.

ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಏಕೆ ಒಟ್ಟಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ

ಇಂಜಿನಿಯರ್‌ಗಳೊಂದಿಗೆ ನಿಕಟವಾಗಿ ಕೆಲಸ ಮಾಡುವ ಮೂಲಕ, ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳು ಸಂಶೋಧನೆಯ ಕಡೆಗೆ ಗಮನಹರಿಸಬಹುದು, ಉತ್ಪಾದನೆ-ಸಿದ್ಧ ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ರಚಿಸಬಹುದು.
ಮತ್ತು ಇಂಜಿನಿಯರ್‌ಗಳು ಸ್ಕೇಲೆಬಿಲಿಟಿ, ಡೇಟಾ ಮರುಬಳಕೆ ಮತ್ತು ಪ್ರತಿಯೊಂದು ಯೋಜನೆಯಲ್ಲಿನ ಡೇಟಾ ಇನ್‌ಪುಟ್ ಮತ್ತು ಔಟ್‌ಪುಟ್ ಪೈಪ್‌ಲೈನ್‌ಗಳು ಜಾಗತಿಕ ವಾಸ್ತುಶಿಲ್ಪಕ್ಕೆ ಅನುಗುಣವಾಗಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಬೇಕು.

ಈ ಜವಾಬ್ದಾರಿಗಳ ಪ್ರತ್ಯೇಕತೆಯು ವಿಭಿನ್ನ ಯಂತ್ರ ಕಲಿಕೆ ಯೋಜನೆಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುವ ತಂಡಗಳಾದ್ಯಂತ ಸ್ಥಿರತೆಯನ್ನು ಖಾತ್ರಿಗೊಳಿಸುತ್ತದೆ. 

ಸಹಯೋಗವು ಹೊಸ ಉತ್ಪನ್ನಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ರಚಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ಸೇವೆಯನ್ನು ರಚಿಸುವುದು (ಜಾಗತಿಕ ಸಂಗ್ರಹಣೆ ಅಥವಾ ಡ್ಯಾಶ್‌ಬೋರ್ಡ್‌ಗಳ ಏಕೀಕರಣ) ಮತ್ತು ಪ್ರತಿ ನಿರ್ದಿಷ್ಟ ಅಗತ್ಯ ಅಥವಾ ಯೋಜನೆಯನ್ನು (ಹೆಚ್ಚು ವಿಶೇಷವಾದ ಪೈಪ್‌ಲೈನ್, ಬಾಹ್ಯ ಮೂಲಗಳನ್ನು ಸಂಪರ್ಕಿಸುವುದು) ಅನುಷ್ಠಾನಗೊಳಿಸುವುದರ ನಡುವಿನ ಸಮತೋಲನದ ಮೂಲಕ ವೇಗ ಮತ್ತು ಗುಣಮಟ್ಟವನ್ನು ಸಾಧಿಸಲಾಗುತ್ತದೆ. 

ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ವಿಶ್ಲೇಷಕರೊಂದಿಗೆ ನಿಕಟವಾಗಿ ಕೆಲಸ ಮಾಡುವುದರಿಂದ ಇಂಜಿನಿಯರ್‌ಗಳು ಉತ್ತಮ ಕೋಡ್ ಬರೆಯಲು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಮತ್ತು ಸಂಶೋಧನಾ ಕೌಶಲ್ಯಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಗೋದಾಮು ಮತ್ತು ಡೇಟಾ ಲೇಕ್ ಬಳಕೆದಾರರಲ್ಲಿ ಜ್ಞಾನ ಹಂಚಿಕೆಯು ಸುಧಾರಿಸುತ್ತದೆ, ಯೋಜನೆಗಳನ್ನು ಹೆಚ್ಚು ಚುರುಕುಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಹೆಚ್ಚು ಸಮರ್ಥನೀಯ ದೀರ್ಘಕಾಲೀನ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ.

ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸಂಸ್ಕೃತಿಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಮತ್ತು ಅವುಗಳ ಆಧಾರದ ಮೇಲೆ ವ್ಯವಹಾರ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ನಿರ್ಮಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿರುವ ಕಂಪನಿಗಳಲ್ಲಿ, ಡೇಟಾ ವಿಜ್ಞಾನಿ ಮತ್ತು ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಪರಸ್ಪರ ಪೂರಕವಾಗಿರುತ್ತವೆ ಮತ್ತು ಸಂಪೂರ್ಣ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸುತ್ತಾರೆ. 

ಮುಂದಿನ ಲೇಖನದಲ್ಲಿ ಡೇಟಾ ಎಂಜಿನಿಯರ್ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಯಾವ ರೀತಿಯ ಶಿಕ್ಷಣವನ್ನು ಹೊಂದಿರಬೇಕು, ಅವರು ಯಾವ ಕೌಶಲ್ಯಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಬೇಕು ಮತ್ತು ಮಾರುಕಟ್ಟೆ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ನಾವು ಮಾತನಾಡುತ್ತೇವೆ.

ನೆಟಾಲಜಿಯ ಸಂಪಾದಕರಿಂದ

ನೀವು ಡೇಟಾ ಇಂಜಿನಿಯರ್ ಅಥವಾ ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ವೃತ್ತಿಯನ್ನು ನೋಡುತ್ತಿದ್ದರೆ, ನಮ್ಮ ಕೋರ್ಸ್ ಕಾರ್ಯಕ್ರಮಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ನಾವು ನಿಮ್ಮನ್ನು ಆಹ್ವಾನಿಸುತ್ತೇವೆ:

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ