ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ಈ ಲೇಖನವು ನನ್ನ ಮಧ್ಯಮ ಲೇಖನದ ಅನುವಾದವಾಗಿದೆ - ಡೇಟಾ ಲೇಕ್‌ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುವುದು, ಇದು ಸಾಕಷ್ಟು ಜನಪ್ರಿಯವಾಗಿದೆ, ಬಹುಶಃ ಅದರ ಸರಳತೆಯಿಂದಾಗಿ. ಆದ್ದರಿಂದ, ನಾನು ಅದನ್ನು ರಷ್ಯನ್ ಭಾಷೆಯಲ್ಲಿ ಬರೆಯಲು ನಿರ್ಧರಿಸಿದೆ ಮತ್ತು ಡೇಟಾ ತಜ್ಞರಲ್ಲದ ಸಾಮಾನ್ಯ ವ್ಯಕ್ತಿಗೆ ಡೇಟಾ ವೇರ್‌ಹೌಸ್ (ಡಿಡಬ್ಲ್ಯೂ) ಎಂದರೇನು ಮತ್ತು ಡೇಟಾ ಲೇಕ್ ಎಂದರೇನು (ಡೇಟಾ ಲೇಕ್) ಮತ್ತು ಅವರು ಹೇಗೆ ಎಂದು ಸ್ಪಷ್ಟಪಡಿಸಲು ಸ್ವಲ್ಪ ಸೇರಿಸಲು ನಿರ್ಧರಿಸಿದೆ. ಒಟ್ಟಿಗೆ ಬೆರೆಯಿರಿ .

ನಾನು ದತ್ತ ಸರೋವರದ ಬಗ್ಗೆ ಏಕೆ ಬರೆಯಲು ಬಯಸಿದ್ದೆ? ನಾನು 10 ವರ್ಷಗಳಿಂದ ಡೇಟಾ ಮತ್ತು ಅನಾಲಿಟಿಕ್ಸ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದೇನೆ ಮತ್ತು ಈಗ ನಾನು ಬೋಸ್ಟನ್‌ನಲ್ಲಿರುವ ಕೇಂಬ್ರಿಡ್ಜ್‌ನಲ್ಲಿರುವ Amazon ಅಲೆಕ್ಸಾ AI ನಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾದೊಂದಿಗೆ ಖಂಡಿತವಾಗಿಯೂ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದೇನೆ, ಆದರೂ ನಾನು ವ್ಯಾಂಕೋವರ್ ದ್ವೀಪದ ವಿಕ್ಟೋರಿಯಾದಲ್ಲಿ ವಾಸಿಸುತ್ತಿದ್ದೇನೆ ಮತ್ತು ಆಗಾಗ್ಗೆ ಬೋಸ್ಟನ್, ಸಿಯಾಟಲ್‌ಗೆ ಭೇಟಿ ನೀಡುತ್ತೇನೆ. , ಮತ್ತು ವ್ಯಾಂಕೋವರ್‌ನಲ್ಲಿ, ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಮಾಸ್ಕೋದಲ್ಲಿ, ನಾನು ಸಮ್ಮೇಳನಗಳಲ್ಲಿ ಮಾತನಾಡುತ್ತೇನೆ. ನಾನು ಸಹ ಕಾಲಕಾಲಕ್ಕೆ ಬರೆಯುತ್ತೇನೆ, ಆದರೆ ನಾನು ಮುಖ್ಯವಾಗಿ ಇಂಗ್ಲಿಷ್ನಲ್ಲಿ ಬರೆಯುತ್ತೇನೆ ಮತ್ತು ನಾನು ಈಗಾಗಲೇ ಬರೆದಿದ್ದೇನೆ ಕೆಲವು ಪುಸ್ತಕಗಳು, ನಾನು ಉತ್ತರ ಅಮೆರಿಕಾದಿಂದ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಪ್ರವೃತ್ತಿಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುವ ಅವಶ್ಯಕತೆಯಿದೆ ಮತ್ತು ನಾನು ಕೆಲವೊಮ್ಮೆ ಬರೆಯುತ್ತೇನೆ ಟೆಲಿಗ್ರಾಂಗಳು.

ನಾನು ಯಾವಾಗಲೂ ಡೇಟಾ ಗೋದಾಮುಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಿದ್ದೇನೆ ಮತ್ತು 2015 ರಿಂದ ನಾನು ಅಮೆಜಾನ್ ವೆಬ್ ಸೇವೆಗಳೊಂದಿಗೆ ನಿಕಟವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದೆ ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕ್ಲೌಡ್ ಅನಾಲಿಟಿಕ್ಸ್ (AWS, Azure, GCP) ಗೆ ಬದಲಾಯಿಸಿದೆ. ನಾನು 2007 ರಿಂದ ವಿಶ್ಲೇಷಣಾ ಪರಿಹಾರಗಳ ವಿಕಸನವನ್ನು ಗಮನಿಸಿದ್ದೇನೆ ಮತ್ತು ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಮಾರಾಟಗಾರ ಟೆರಾಡಾಟಾಗಾಗಿ ಸಹ ಕೆಲಸ ಮಾಡಿದ್ದೇನೆ ಮತ್ತು ಅದನ್ನು ಸ್ಬರ್‌ಬ್ಯಾಂಕ್‌ನಲ್ಲಿ ಕಾರ್ಯಗತಗೊಳಿಸಿದ್ದೇನೆ ಮತ್ತು ಹಡೂಪ್‌ನೊಂದಿಗೆ ಬಿಗ್ ಡೇಟಾ ಕಾಣಿಸಿಕೊಂಡಾಗ. ಶೇಖರಣೆಯ ಯುಗವು ಕಳೆದಿದೆ ಮತ್ತು ಈಗ ಎಲ್ಲವೂ ಹಡೂಪ್‌ನಲ್ಲಿದೆ ಎಂದು ಎಲ್ಲರೂ ಹೇಳಲು ಪ್ರಾರಂಭಿಸಿದರು, ಮತ್ತು ನಂತರ ಅವರು ಡೇಟಾ ಲೇಕ್ ಬಗ್ಗೆ ಮಾತನಾಡಲು ಪ್ರಾರಂಭಿಸಿದರು, ಈಗ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನ ಅಂತ್ಯವು ಖಂಡಿತವಾಗಿಯೂ ಬಂದಿದೆ. ಆದರೆ ಅದೃಷ್ಟವಶಾತ್ (ಬಹುಶಃ ದುರದೃಷ್ಟವಶಾತ್ ಹಡೂಪ್ ಅನ್ನು ಸ್ಥಾಪಿಸುವ ಮೂಲಕ ಸಾಕಷ್ಟು ಹಣವನ್ನು ಗಳಿಸಿದ ಕೆಲವರಿಗೆ), ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಹೋಗಲಿಲ್ಲ.

ಈ ಲೇಖನದಲ್ಲಿ ನಾವು ಡೇಟಾ ಸರೋವರ ಎಂದರೇನು ಎಂದು ನೋಡೋಣ. ಈ ಲೇಖನವು ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ಗಳೊಂದಿಗೆ ಕಡಿಮೆ ಅಥವಾ ಯಾವುದೇ ಅನುಭವವನ್ನು ಹೊಂದಿರದ ಜನರಿಗೆ ಉದ್ದೇಶಿಸಲಾಗಿದೆ.

ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ಚಿತ್ರದಲ್ಲಿ ಲೇಕ್ ಬ್ಲೆಡ್ ಇದೆ, ಇದು ನನ್ನ ನೆಚ್ಚಿನ ಸರೋವರಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ, ನಾನು ಒಮ್ಮೆ ಮಾತ್ರ ಅಲ್ಲಿದ್ದರೂ, ನನ್ನ ಜೀವನದುದ್ದಕ್ಕೂ ಅದನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳುತ್ತೇನೆ. ಆದರೆ ನಾವು ಇನ್ನೊಂದು ರೀತಿಯ ಸರೋವರದ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತೇವೆ - ಡೇಟಾ ಸರೋವರ. ಬಹುಶಃ ನಿಮ್ಮಲ್ಲಿ ಹಲವರು ಈ ಪದದ ಬಗ್ಗೆ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಬಾರಿ ಕೇಳಿರಬಹುದು, ಆದರೆ ಇನ್ನೂ ಒಂದು ವ್ಯಾಖ್ಯಾನವು ಯಾರಿಗೂ ಹಾನಿ ಮಾಡುವುದಿಲ್ಲ.

ಮೊದಲನೆಯದಾಗಿ, ಡೇಟಾ ಲೇಕ್‌ನ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ವ್ಯಾಖ್ಯಾನಗಳು ಇಲ್ಲಿವೆ:

"ಸಂಸ್ಥೆಯಲ್ಲಿ ಯಾರಿಗಾದರೂ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಲಭ್ಯವಿರುವ ಎಲ್ಲಾ ರೀತಿಯ ಕಚ್ಚಾ ಡೇಟಾದ ಫೈಲ್ ಸಂಗ್ರಹಣೆ" - ಮಾರ್ಟಿನ್ ಫೌಲರ್.

"ಡೇಟಾ ಮಾರ್ಟ್ ನೀರಿನ ಬಾಟಲಿ ಎಂದು ನೀವು ಭಾವಿಸಿದರೆ - ಶುದ್ಧೀಕರಿಸಿದ, ಪ್ಯಾಕ್ ಮಾಡಲಾದ ಮತ್ತು ಅನುಕೂಲಕರ ಬಳಕೆಗಾಗಿ ಪ್ಯಾಕ್ ಮಾಡಲಾದ, ನಂತರ ಡೇಟಾ ಸರೋವರವು ಅದರ ನೈಸರ್ಗಿಕ ರೂಪದಲ್ಲಿ ನೀರಿನ ದೊಡ್ಡ ಜಲಾಶಯವಾಗಿದೆ. ಬಳಕೆದಾರರೇ, ನಾನು ನನಗಾಗಿ ನೀರನ್ನು ಸಂಗ್ರಹಿಸಬಹುದು, ಆಳವಾಗಿ ಧುಮುಕಬಹುದು, ಅನ್ವೇಷಿಸಬಹುದು" - ಜೇಮ್ಸ್ ಡಿಕ್ಸನ್.

ಡೇಟಾ ಸರೋವರವು ಅನಾಲಿಟಿಕ್ಸ್ ಬಗ್ಗೆ ಈಗ ನಮಗೆ ಖಚಿತವಾಗಿ ತಿಳಿದಿದೆ, ಇದು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಅದರ ಮೂಲ ರೂಪದಲ್ಲಿ ಸಂಗ್ರಹಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಮತ್ತು ಡೇಟಾಗೆ ಅಗತ್ಯವಾದ ಮತ್ತು ಅನುಕೂಲಕರ ಪ್ರವೇಶವನ್ನು ನಾವು ಹೊಂದಿದ್ದೇವೆ.

ನಾನು ಸಾಮಾನ್ಯವಾಗಿ ವಿಷಯಗಳನ್ನು ಸರಳೀಕರಿಸಲು ಇಷ್ಟಪಡುತ್ತೇನೆ, ನಾನು ಸಂಕೀರ್ಣ ಪದವನ್ನು ಸರಳ ಪದಗಳಲ್ಲಿ ವಿವರಿಸಬಹುದಾದರೆ, ಅದು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಅದು ಏನು ಬೇಕು ಎಂದು ನಾನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತೇನೆ. ಒಂದು ದಿನ, ನಾನು ಐಫೋನ್ ಫೋಟೋ ಗ್ಯಾಲರಿಯಲ್ಲಿ ಸುತ್ತಾಡುತ್ತಿದ್ದೆ, ಮತ್ತು ಅದು ನನಗೆ ಹೊಳೆಯಿತು, ಇದು ನಿಜವಾದ ಡೇಟಾ ಸರೋವರವಾಗಿದೆ, ನಾನು ಸಮ್ಮೇಳನಗಳಿಗಾಗಿ ಸ್ಲೈಡ್ ಕೂಡ ಮಾಡಿದೆ:

ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ಎಲ್ಲವೂ ತುಂಬಾ ಸರಳವಾಗಿದೆ. ನಾವು ಫೋನ್‌ನಲ್ಲಿ ಫೋಟೋ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ, ಫೋಟೋವನ್ನು ಫೋನ್‌ನಲ್ಲಿ ಉಳಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಐಕ್ಲೌಡ್‌ಗೆ (ಕ್ಲೌಡ್ ಫೈಲ್ ಸಂಗ್ರಹಣೆ) ಉಳಿಸಬಹುದು. ಫೋನ್ ಫೋಟೋ ಮೆಟಾಡೇಟಾವನ್ನು ಸಹ ಸಂಗ್ರಹಿಸುತ್ತದೆ: ಏನು ತೋರಿಸಲಾಗಿದೆ, ಜಿಯೋ ಟ್ಯಾಗ್, ಸಮಯ. ಪರಿಣಾಮವಾಗಿ, ನಮ್ಮ ಫೋಟೋವನ್ನು ಕಂಡುಹಿಡಿಯಲು ನಾವು ಐಫೋನ್‌ನ ಬಳಕೆದಾರ ಸ್ನೇಹಿ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ಬಳಸಬಹುದು ಮತ್ತು ನಾವು ಸೂಚಕಗಳನ್ನು ಸಹ ನೋಡುತ್ತೇವೆ, ಉದಾಹರಣೆಗೆ, ನಾನು ಬೆಂಕಿಯ ಪದದೊಂದಿಗೆ ಫೋಟೋಗಳನ್ನು ಹುಡುಕಿದಾಗ, ಬೆಂಕಿಯ ಚಿತ್ರದೊಂದಿಗೆ ನಾನು 3 ಫೋಟೋಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೇನೆ. ನನಗೆ, ಇದು ವ್ಯಾಪಾರ ಬುದ್ಧಿಮತ್ತೆಯ ಸಾಧನದಂತೆಯೇ ತ್ವರಿತವಾಗಿ ಮತ್ತು ಸ್ಪಷ್ಟವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಮತ್ತು ಸಹಜವಾಗಿ, ನಾವು ಭದ್ರತೆಯ (ಅಧಿಕಾರ ಮತ್ತು ದೃಢೀಕರಣ) ಬಗ್ಗೆ ಮರೆಯಬಾರದು, ಇಲ್ಲದಿದ್ದರೆ ನಮ್ಮ ಡೇಟಾವು ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್‌ನಲ್ಲಿ ಸುಲಭವಾಗಿ ಕೊನೆಗೊಳ್ಳಬಹುದು. ಡೆವಲಪರ್‌ಗಳ ನಿರ್ಲಕ್ಷ್ಯ ಮತ್ತು ಸರಳ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸಲು ವಿಫಲವಾದ ಕಾರಣದಿಂದ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಾದ ದೊಡ್ಡ ನಿಗಮಗಳು ಮತ್ತು ಸ್ಟಾರ್ಟ್‌ಅಪ್‌ಗಳ ಕುರಿತು ಸಾಕಷ್ಟು ಸುದ್ದಿಗಳಿವೆ.

ಅಂತಹ ಸರಳ ಚಿತ್ರವು ಡೇಟಾ ಲೇಕ್ ಎಂದರೇನು, ಸಾಂಪ್ರದಾಯಿಕ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನಿಂದ ಅದರ ವ್ಯತ್ಯಾಸಗಳು ಮತ್ತು ಅದರ ಮುಖ್ಯ ಅಂಶಗಳನ್ನು ಊಹಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ:

  1. ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಲಾಗುತ್ತಿದೆ (ಇಂಗುವಿಕೆ) ಡೇಟಾ ಸರೋವರದ ಪ್ರಮುಖ ಅಂಶವಾಗಿದೆ. ಡೇಟಾ ಗೋದಾಮಿಗೆ ಎರಡು ರೀತಿಯಲ್ಲಿ ಪ್ರವೇಶಿಸಬಹುದು - ಬ್ಯಾಚ್ (ಮಧ್ಯಂತರದಲ್ಲಿ ಲೋಡ್ ಆಗುವುದು) ಮತ್ತು ಸ್ಟ್ರೀಮಿಂಗ್ (ಡೇಟಾ ಹರಿವು).
  2. ಫೈಲ್ ಸಂಗ್ರಹಣೆ (ಸಂಗ್ರಹಣೆ) ದತ್ತ ಸರೋವರದ ಮುಖ್ಯ ಅಂಶವಾಗಿದೆ. ನಮಗೆ ಸಂಗ್ರಹಣೆಯು ಸುಲಭವಾಗಿ ಸ್ಕೇಲೆಬಲ್, ಅತ್ಯಂತ ವಿಶ್ವಾಸಾರ್ಹ ಮತ್ತು ಕಡಿಮೆ ವೆಚ್ಚದ ಅಗತ್ಯವಿದೆ. ಉದಾಹರಣೆಗೆ, AWS ನಲ್ಲಿ ಇದು S3 ಆಗಿದೆ.
  3. ಕ್ಯಾಟಲಾಗ್ ಮತ್ತು ಹುಡುಕಾಟ (ಕ್ಯಾಟಲಾಗ್ ಮತ್ತು ಹುಡುಕಾಟ) - ನಾವು ಡೇಟಾ ಸ್ವಾಂಪ್ ಅನ್ನು ತಪ್ಪಿಸಲು (ಇದು ನಾವು ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಒಂದೇ ರಾಶಿಯಲ್ಲಿ ಹಾಕಿದಾಗ, ಮತ್ತು ಅದರೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು ಅಸಾಧ್ಯ), ಡೇಟಾವನ್ನು ವರ್ಗೀಕರಿಸಲು ನಾವು ಮೆಟಾಡೇಟಾ ಪದರವನ್ನು ರಚಿಸಬೇಕಾಗಿದೆ ಇದರಿಂದ ಬಳಕೆದಾರರು ವಿಶ್ಲೇಷಣೆಗೆ ಅಗತ್ಯವಿರುವ ಡೇಟಾವನ್ನು ಸುಲಭವಾಗಿ ಕಂಡುಹಿಡಿಯಬಹುದು. ಹೆಚ್ಚುವರಿಯಾಗಿ, ನೀವು ElasticSearch ನಂತಹ ಹೆಚ್ಚುವರಿ ಹುಡುಕಾಟ ಪರಿಹಾರಗಳನ್ನು ಬಳಸಬಹುದು. ಬಳಕೆದಾರ ಸ್ನೇಹಿ ಇಂಟರ್ಫೇಸ್ ಮೂಲಕ ಅಗತ್ಯವಿರುವ ಡೇಟಾವನ್ನು ಹುಡುಕಲು ಹುಡುಕಾಟವು ಬಳಕೆದಾರರಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ.
  4. ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲಾಗುತ್ತಿದೆ (ಪ್ರಕ್ರಿಯೆ) - ಈ ಹಂತವು ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಮತ್ತು ಪರಿವರ್ತಿಸಲು ಕಾರಣವಾಗಿದೆ. ನಾವು ಡೇಟಾವನ್ನು ಪರಿವರ್ತಿಸಬಹುದು, ಅದರ ರಚನೆಯನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಅದನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಬಹುದು ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಮಾಡಬಹುದು.
  5. ಭದ್ರತೆ (ಭದ್ರತೆ) - ಪರಿಹಾರದ ಭದ್ರತಾ ವಿನ್ಯಾಸದ ಮೇಲೆ ಸಮಯವನ್ನು ಕಳೆಯುವುದು ಮುಖ್ಯವಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಸಂಗ್ರಹಣೆ, ಸಂಸ್ಕರಣೆ ಮತ್ತು ಲೋಡ್ ಮಾಡುವಾಗ ಡೇಟಾ ಎನ್‌ಕ್ರಿಪ್ಶನ್. ದೃಢೀಕರಣ ಮತ್ತು ದೃಢೀಕರಣ ವಿಧಾನಗಳನ್ನು ಬಳಸುವುದು ಮುಖ್ಯವಾಗಿದೆ. ಅಂತಿಮವಾಗಿ, ಆಡಿಟ್ ಉಪಕರಣದ ಅಗತ್ಯವಿದೆ.

ಪ್ರಾಯೋಗಿಕ ದೃಷ್ಟಿಕೋನದಿಂದ, ನಾವು ಡೇಟಾ ಸರೋವರವನ್ನು ಮೂರು ಗುಣಲಕ್ಷಣಗಳಿಂದ ನಿರೂಪಿಸಬಹುದು:

  1. ಯಾವುದನ್ನಾದರೂ ಸಂಗ್ರಹಿಸಿ ಮತ್ತು ಸಂಗ್ರಹಿಸಿ — ಡೇಟಾ ಲೇಕ್ ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಯಾವುದೇ ಅವಧಿಗೆ ಕಚ್ಚಾ ಸಂಸ್ಕರಿಸದ ಡೇಟಾ ಮತ್ತು ಸಂಸ್ಕರಿಸಿದ/ಸ್ವಚ್ಛಗೊಳಿಸಿದ ಡೇಟಾ.
  2. ಆಳವಾದ ಸ್ಕ್ಯಾನ್ — ಡೇಟಾ ಲೇಕ್ ಬಳಕೆದಾರರಿಗೆ ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ಅನುಮತಿಸುತ್ತದೆ.
  3. ಹೊಂದಿಕೊಳ್ಳುವ ಪ್ರವೇಶ - ಡೇಟಾ ಸರೋವರವು ವಿಭಿನ್ನ ಡೇಟಾ ಮತ್ತು ವಿಭಿನ್ನ ಸನ್ನಿವೇಶಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವ ಪ್ರವೇಶವನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಈಗ ನಾವು ಡೇಟಾ ವೇರ್ಹೌಸ್ ಮತ್ತು ಡೇಟಾ ಲೇಕ್ ನಡುವಿನ ವ್ಯತ್ಯಾಸದ ಬಗ್ಗೆ ಮಾತನಾಡಬಹುದು. ಸಾಮಾನ್ಯವಾಗಿ ಜನರು ಕೇಳುತ್ತಾರೆ:

  • ಡೇಟಾ ಗೋದಾಮಿನ ಬಗ್ಗೆ ಏನು?
  • ನಾವು ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಅನ್ನು ಡೇಟಾ ಲೇಕ್‌ನೊಂದಿಗೆ ಬದಲಾಯಿಸುತ್ತಿದ್ದೇವೆಯೇ ಅಥವಾ ನಾವು ಅದನ್ನು ವಿಸ್ತರಿಸುತ್ತಿದ್ದೇವೆಯೇ?
  • ದತ್ತ ಸರೋವರವಿಲ್ಲದೆ ಮಾಡಲು ಇನ್ನೂ ಸಾಧ್ಯವೇ?

ಸಂಕ್ಷಿಪ್ತವಾಗಿ, ಸ್ಪಷ್ಟ ಉತ್ತರವಿಲ್ಲ. ಇದು ಎಲ್ಲಾ ನಿರ್ದಿಷ್ಟ ಪರಿಸ್ಥಿತಿ, ತಂಡದ ಕೌಶಲ್ಯ ಮತ್ತು ಬಜೆಟ್ ಅನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಅನ್ನು ಒರಾಕಲ್‌ಗೆ AWS ಗೆ ಸ್ಥಳಾಂತರಿಸುವುದು ಮತ್ತು Amazon ಅಂಗಸಂಸ್ಥೆ - Woot - ಮೂಲಕ ಡೇಟಾ ಲೇಕ್ ಅನ್ನು ರಚಿಸುವುದು ನಮ್ಮ ಡೇಟಾ ಲೇಕ್ ಕಥೆ: AWS ನಲ್ಲಿ Woot.com ಸರ್ವರ್‌ಲೆಸ್ ಡೇಟಾ ಲೇಕ್ ಅನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸಿದೆ.

ಮತ್ತೊಂದೆಡೆ, ಮಾರಾಟಗಾರ ಸ್ನೋಫ್ಲೇಕ್ ಹೇಳುವಂತೆ ನೀವು ಇನ್ನು ಮುಂದೆ ಡೇಟಾ ಸರೋವರದ ಬಗ್ಗೆ ಯೋಚಿಸಬೇಕಾಗಿಲ್ಲ, ಏಕೆಂದರೆ ಅವರ ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ (2020 ರವರೆಗೆ ಇದು ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಆಗಿತ್ತು) ಡೇಟಾ ಲೇಕ್ ಮತ್ತು ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಎರಡನ್ನೂ ಸಂಯೋಜಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ನಾನು ಸ್ನೋಫ್ಲೇಕ್‌ನೊಂದಿಗೆ ಹೆಚ್ಚು ಕೆಲಸ ಮಾಡಿಲ್ಲ, ಮತ್ತು ಇದು ನಿಜವಾಗಿಯೂ ಇದನ್ನು ಮಾಡಬಹುದಾದ ಒಂದು ಅನನ್ಯ ಉತ್ಪನ್ನವಾಗಿದೆ. ಸಮಸ್ಯೆಯ ಬೆಲೆ ಮತ್ತೊಂದು ವಿಷಯವಾಗಿದೆ.

ಕೊನೆಯಲ್ಲಿ, ನಮ್ಮ ವರದಿಗಾಗಿ ಡೇಟಾದ ಮುಖ್ಯ ಮೂಲವಾಗಿ ನಮಗೆ ಇನ್ನೂ ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಅಗತ್ಯವಿದೆ ಎಂಬುದು ನನ್ನ ವೈಯಕ್ತಿಕ ಅಭಿಪ್ರಾಯವಾಗಿದೆ ಮತ್ತು ಯಾವುದು ಸರಿಹೊಂದುವುದಿಲ್ಲವೋ ಅದನ್ನು ನಾವು ಡೇಟಾ ಲೇಕ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸುತ್ತೇವೆ. ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ವ್ಯಾಪಾರಕ್ಕೆ ಸುಲಭ ಪ್ರವೇಶವನ್ನು ಒದಗಿಸುವುದು ವಿಶ್ಲೇಷಣೆಯ ಸಂಪೂರ್ಣ ಪಾತ್ರವಾಗಿದೆ. ಒಬ್ಬರು ಏನೇ ಹೇಳಲಿ, ವ್ಯಾಪಾರ ಬಳಕೆದಾರರು ಡೇಟಾ ಲೇಕ್‌ಗಿಂತ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನೊಂದಿಗೆ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ, ಉದಾಹರಣೆಗೆ ಅಮೆಜಾನ್‌ನಲ್ಲಿ - ರೆಡ್‌ಶಿಫ್ಟ್ (ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾ ವೇರ್‌ಹೌಸ್) ಇದೆ ಮತ್ತು ರೆಡ್‌ಶಿಫ್ಟ್ ಸ್ಪೆಕ್ಟ್ರಮ್/ಅಥೇನಾ (S3 ನಲ್ಲಿ ಡೇಟಾ ಲೇಕ್‌ಗಾಗಿ SQL ಇಂಟರ್ಫೇಸ್ ಇದೆ ಹೈವ್/ಪ್ರೆಸ್ಟೊ). ಇತರ ಆಧುನಿಕ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾ ಗೋದಾಮುಗಳಿಗೂ ಇದು ಅನ್ವಯಿಸುತ್ತದೆ.

ವಿಶಿಷ್ಟವಾದ ಡೇಟಾ ವೇರ್ಹೌಸ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ನೋಡೋಣ:

ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ಇದು ಕ್ಲಾಸಿಕ್ ಪರಿಹಾರವಾಗಿದೆ. ನಾವು ಮೂಲ ಸಿಸ್ಟಂಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ, ETL/ELT ಬಳಸಿಕೊಂಡು ನಾವು ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ಗೆ ನಕಲಿಸುತ್ತೇವೆ ಮತ್ತು ಅದನ್ನು ವ್ಯಾಪಾರ ಇಂಟೆಲಿಜೆನ್ಸ್ ಪರಿಹಾರಕ್ಕೆ ಸಂಪರ್ಕಿಸುತ್ತೇವೆ (ನನ್ನ ಮೆಚ್ಚಿನ ಟೇಬಲ್‌ಯು, ನಿಮ್ಮದೇನು?).

ಈ ಪರಿಹಾರವು ಈ ಕೆಳಗಿನ ಅನಾನುಕೂಲಗಳನ್ನು ಹೊಂದಿದೆ:

  • ETL/ELT ಕಾರ್ಯಾಚರಣೆಗಳಿಗೆ ಸಮಯ ಮತ್ತು ಸಂಪನ್ಮೂಲಗಳ ಅಗತ್ಯವಿರುತ್ತದೆ.
  • ನಿಯಮದಂತೆ, ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾ ಗೋದಾಮಿನಲ್ಲಿ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಮೆಮೊರಿಯು ಅಗ್ಗವಾಗಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, Redshift, BigQuery, Teradata), ಏಕೆಂದರೆ ನಾವು ಸಂಪೂರ್ಣ ಕ್ಲಸ್ಟರ್ ಅನ್ನು ಖರೀದಿಸಬೇಕಾಗಿದೆ.
  • ವ್ಯಾಪಾರ ಬಳಕೆದಾರರು ಸ್ವಚ್ಛಗೊಳಿಸಿದ ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಒಟ್ಟುಗೂಡಿಸಿದ ಡೇಟಾಗೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದಿರುತ್ತಾರೆ ಮತ್ತು ಕಚ್ಚಾ ಡೇಟಾಗೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ.

ಸಹಜವಾಗಿ, ಇದು ನಿಮ್ಮ ಪ್ರಕರಣವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ನಿಮ್ಮ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನಲ್ಲಿ ನಿಮಗೆ ಸಮಸ್ಯೆಗಳಿಲ್ಲದಿದ್ದರೆ, ನಿಮಗೆ ಡೇಟಾ ಲೇಕ್ ಅಗತ್ಯವಿಲ್ಲ. ಆದರೆ ಸ್ಥಳಾವಕಾಶ, ಶಕ್ತಿ ಅಥವಾ ಬೆಲೆಯ ಕೊರತೆಯೊಂದಿಗೆ ಸಮಸ್ಯೆಗಳು ಉದ್ಭವಿಸಿದಾಗ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ, ನಂತರ ನೀವು ಡೇಟಾ ಸರೋವರದ ಆಯ್ಕೆಯನ್ನು ಪರಿಗಣಿಸಬಹುದು. ಈ ಕಾರಣಕ್ಕಾಗಿಯೇ ದತ್ತ ಸರೋವರವು ಬಹಳ ಜನಪ್ರಿಯವಾಗಿದೆ. ಡೇಟಾ ಲೇಕ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ನ ಉದಾಹರಣೆ ಇಲ್ಲಿದೆ:
ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?
ಡೇಟಾ ಲೇಕ್ ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು, ನಾವು ಕಚ್ಚಾ ಡೇಟಾವನ್ನು ನಮ್ಮ ಡೇಟಾ ಲೇಕ್‌ಗೆ (ಬ್ಯಾಚ್ ಅಥವಾ ಸ್ಟ್ರೀಮಿಂಗ್) ಲೋಡ್ ಮಾಡುತ್ತೇವೆ, ನಂತರ ನಾವು ಅಗತ್ಯವಿರುವಂತೆ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತೇವೆ. ದತ್ತಾಂಶ ಸರೋವರವು ವ್ಯಾಪಾರ ಬಳಕೆದಾರರಿಗೆ ತಮ್ಮದೇ ಆದ ಡೇಟಾ ರೂಪಾಂತರಗಳನ್ನು (ETL/ELT) ರಚಿಸಲು ಅಥವಾ ವ್ಯಾಪಾರ ಗುಪ್ತಚರ ಪರಿಹಾರಗಳಲ್ಲಿ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಅನುಮತಿಸುತ್ತದೆ (ಅಗತ್ಯ ಚಾಲಕ ಲಭ್ಯವಿದ್ದರೆ).

ಯಾವುದೇ ಅನಾಲಿಟಿಕ್ಸ್ ಪರಿಹಾರದ ಗುರಿಯು ವ್ಯಾಪಾರ ಬಳಕೆದಾರರಿಗೆ ಸೇವೆ ಸಲ್ಲಿಸುವುದು. ಆದ್ದರಿಂದ, ನಾವು ಯಾವಾಗಲೂ ವ್ಯಾಪಾರ ಅಗತ್ಯತೆಗಳ ಪ್ರಕಾರ ಕೆಲಸ ಮಾಡಬೇಕು. (ಅಮೆಜಾನ್‌ನಲ್ಲಿ ಇದು ತತ್ವಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ - ಹಿಂದಕ್ಕೆ ಕೆಲಸ ಮಾಡುವುದು).

ಡೇಟಾ ವೇರ್ಹೌಸ್ ಮತ್ತು ಡೇಟಾ ಲೇಕ್ ಎರಡರೊಂದಿಗೂ ಕೆಲಸ ಮಾಡುವುದರಿಂದ, ನಾವು ಎರಡೂ ಪರಿಹಾರಗಳನ್ನು ಹೋಲಿಸಬಹುದು:

ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ದತ್ತಾಂಶ ಗೋದಾಮು ಡೇಟಾ ಸರೋವರದೊಂದಿಗೆ ಸ್ಪರ್ಧಿಸುವುದಿಲ್ಲ, ಆದರೆ ಅದಕ್ಕೆ ಪೂರಕವಾಗಿದೆ ಎಂಬುದು ಮುಖ್ಯ ತೀರ್ಮಾನಕ್ಕೆ ಬರಬಹುದು. ಆದರೆ ನಿಮ್ಮ ಪ್ರಕರಣಕ್ಕೆ ಯಾವುದು ಸರಿ ಎಂದು ನಿರ್ಧರಿಸುವುದು ನಿಮಗೆ ಬಿಟ್ಟದ್ದು. ಅದನ್ನು ನೀವೇ ಪ್ರಯತ್ನಿಸಲು ಮತ್ತು ಸರಿಯಾದ ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಯಾವಾಗಲೂ ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ.

ನಾನು ಡೇಟಾ ಲೇಕ್ ವಿಧಾನವನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಿದಾಗ ನಾನು ನಿಮಗೆ ಒಂದು ಪ್ರಕರಣವನ್ನು ಹೇಳಲು ಬಯಸುತ್ತೇನೆ. ಎಲ್ಲವೂ ತುಂಬಾ ಕ್ಷುಲ್ಲಕವಾಗಿದೆ, ನಾನು ELT ಟೂಲ್ ಅನ್ನು ಬಳಸಲು ಪ್ರಯತ್ನಿಸಿದೆ (ನಾವು Matillion ETL ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ) ಮತ್ತು Amazon Redshift, ನನ್ನ ಪರಿಹಾರವು ಕೆಲಸ ಮಾಡಿದೆ, ಆದರೆ ಅವಶ್ಯಕತೆಗಳಿಗೆ ಸರಿಹೊಂದುವುದಿಲ್ಲ.

2 ಪ್ರಕರಣಗಳಿಗೆ ಡೇಟಾವನ್ನು ಒದಗಿಸಲು ನಾನು ವೆಬ್ ಲಾಗ್‌ಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬೇಕು, ಅವುಗಳನ್ನು ರೂಪಾಂತರಗೊಳಿಸಬೇಕು ಮತ್ತು ಒಟ್ಟುಗೂಡಿಸಬೇಕು:

  1. ಮಾರ್ಕೆಟಿಂಗ್ ತಂಡವು SEO ಗಾಗಿ ಬೋಟ್ ಚಟುವಟಿಕೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಬಯಸಿದೆ
  2. IT ವೆಬ್‌ಸೈಟ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ನೋಡಲು ಬಯಸಿದೆ

ತುಂಬಾ ಸರಳ, ಸರಳ ದಾಖಲೆಗಳು. ಒಂದು ಉದಾಹರಣೆ ಇಲ್ಲಿದೆ:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

ಒಂದು ಫೈಲ್ 1-4 ಮೆಗಾಬೈಟ್‌ಗಳ ತೂಕವನ್ನು ಹೊಂದಿದೆ.

ಆದರೆ ಒಂದು ತೊಂದರೆ ಇತ್ತು. ನಾವು ಪ್ರಪಂಚದಾದ್ಯಂತ 7 ಡೊಮೇನ್‌ಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ ಮತ್ತು ಒಂದು ದಿನದಲ್ಲಿ 7000 ಸಾವಿರ ಫೈಲ್‌ಗಳನ್ನು ರಚಿಸಲಾಗಿದೆ. ಇದು ಹೆಚ್ಚು ಪರಿಮಾಣವಲ್ಲ, ಕೇವಲ 50 ಗಿಗಾಬೈಟ್‌ಗಳು. ಆದರೆ ನಮ್ಮ ರೆಡ್‌ಶಿಫ್ಟ್ ಕ್ಲಸ್ಟರ್‌ನ ಗಾತ್ರವೂ ಚಿಕ್ಕದಾಗಿತ್ತು (4 ನೋಡ್‌ಗಳು). ಸಾಂಪ್ರದಾಯಿಕ ರೀತಿಯಲ್ಲಿ ಒಂದು ಫೈಲ್ ಅನ್ನು ಲೋಡ್ ಮಾಡಲು ಸುಮಾರು ಒಂದು ನಿಮಿಷ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಅಂದರೆ ಸಮಸ್ಯೆ ತಲೆದೋರಲಿಲ್ಲ. ಮತ್ತು ನಾನು ಡೇಟಾ ಲೇಕ್ ವಿಧಾನವನ್ನು ಬಳಸಲು ನಿರ್ಧರಿಸಿದಾಗ ಇದು ಸಂಭವಿಸಿತು. ಪರಿಹಾರವು ಈ ರೀತಿ ಕಾಣುತ್ತದೆ:

ನಮಗೆ ದತ್ತ ಸರೋವರ ಬೇಕೇ? ಡೇಟಾ ಗೋದಾಮಿನೊಂದಿಗೆ ಏನು ಮಾಡಬೇಕು?

ಇದು ತುಂಬಾ ಸರಳವಾಗಿದೆ (ಮೋಡದಲ್ಲಿ ಕೆಲಸ ಮಾಡುವ ಅನುಕೂಲವೆಂದರೆ ಸರಳತೆ ಎಂದು ನಾನು ಗಮನಿಸಲು ಬಯಸುತ್ತೇನೆ). ನಾನು ಬಳಸಿದೆ:

  • ಕಂಪ್ಯೂಟ್ ಪವರ್‌ಗಾಗಿ AWS ಸ್ಥಿತಿಸ್ಥಾಪಕ ನಕ್ಷೆ ಕಡಿಮೆ ಮಾಡಿ (ಹಡೂಪ್).
  • ಡೇಟಾವನ್ನು ಎನ್‌ಕ್ರಿಪ್ಟ್ ಮಾಡುವ ಮತ್ತು ಪ್ರವೇಶವನ್ನು ಮಿತಿಗೊಳಿಸುವ ಸಾಮರ್ಥ್ಯದೊಂದಿಗೆ ಫೈಲ್ ಸಂಗ್ರಹಣೆಯಾಗಿ AWS S3
  • InMemory ಕಂಪ್ಯೂಟಿಂಗ್ ಪವರ್ ಆಗಿ ಸ್ಪಾರ್ಕ್ ಮತ್ತು ತರ್ಕ ಮತ್ತು ಡೇಟಾ ರೂಪಾಂತರಕ್ಕಾಗಿ PySpark
  • ಸ್ಪಾರ್ಕ್ನ ಪರಿಣಾಮವಾಗಿ ಪಾರ್ಕ್ವೆಟ್
  • ಹೊಸ ಡೇಟಾ ಮತ್ತು ವಿಭಾಗಗಳ ಕುರಿತು ಮೆಟಾಡೇಟಾ ಸಂಗ್ರಾಹಕವಾಗಿ AWS ಗ್ಲೂ ಕ್ರಾಲರ್
  • ರೆಡ್‌ಶಿಫ್ಟ್ ಸ್ಪೆಕ್ಟ್ರಮ್ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ರೆಡ್‌ಶಿಫ್ಟ್ ಬಳಕೆದಾರರಿಗೆ ಡೇಟಾ ಲೇಕ್‌ಗೆ SQL ಇಂಟರ್ಫೇಸ್ ಆಗಿ

ಚಿಕ್ಕದಾದ EMR+Spark ಕ್ಲಸ್ಟರ್ 30 ನಿಮಿಷಗಳಲ್ಲಿ ಫೈಲ್‌ಗಳ ಸಂಪೂರ್ಣ ಸ್ಟಾಕ್ ಅನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿದೆ. AWS ಗಾಗಿ ಇತರ ಪ್ರಕರಣಗಳಿವೆ, ವಿಶೇಷವಾಗಿ ಅಲೆಕ್ಸಾಗೆ ಸಂಬಂಧಿಸಿದ ಹಲವು, ಅಲ್ಲಿ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆ.

ಇತ್ತೀಚೆಗಷ್ಟೇ ನಾನು ಡೇಟಾ ಸರೋವರದ ಅನನುಕೂಲವೆಂದರೆ GDPR ಎಂದು ಕಲಿತಿದ್ದೇನೆ. ಕ್ಲೈಂಟ್ ಅದನ್ನು ಅಳಿಸಲು ಕೇಳಿದಾಗ ಸಮಸ್ಯೆ ಉಂಟಾಗುತ್ತದೆ ಮತ್ತು ಡೇಟಾವು ಫೈಲ್‌ಗಳಲ್ಲಿ ಒಂದಾಗಿದ್ದರೆ, ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿರುವಂತೆ ನಾವು ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್ ಭಾಷೆ ಮತ್ತು ಡಿಲೀಟ್ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಬಳಸಲಾಗುವುದಿಲ್ಲ.

ಈ ಲೇಖನವು ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಮತ್ತು ಡೇಟಾ ಲೇಕ್ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಸ್ಪಷ್ಟಪಡಿಸಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ. ನಿಮಗೆ ಆಸಕ್ತಿಯಿದ್ದರೆ, ನನ್ನ ಹೆಚ್ಚಿನ ಲೇಖನಗಳು ಅಥವಾ ನಾನು ಓದಿದ ವೃತ್ತಿಪರರ ಲೇಖನಗಳನ್ನು ನಾನು ಅನುವಾದಿಸಬಹುದು. ಮತ್ತು ನಾನು ಕೆಲಸ ಮಾಡುವ ಪರಿಹಾರಗಳು ಮತ್ತು ಅವುಗಳ ವಾಸ್ತುಶಿಲ್ಪದ ಬಗ್ಗೆ ಸಹ ತಿಳಿಸಿ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ