ಈಗ ಎಲ್ಲೆಡೆ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆ ಎಂಬ ವಾಸ್ತವದ ಹೊರತಾಗಿಯೂ, ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾಬೇಸ್ಗಳು ಇನ್ನೂ ಸಾಕಷ್ಟು ವಿಲಕ್ಷಣವಾಗಿವೆ. ಅವರು ಸರಿಯಾಗಿ ತಿಳಿದಿಲ್ಲ ಮತ್ತು ಅವುಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಬಳಸಲು ಇನ್ನೂ ಕಡಿಮೆ ಸಾಮರ್ಥ್ಯ ಹೊಂದಿದ್ದಾರೆ. ಅನೇಕರು MySQL ಅಥವಾ PostgreSQL ನೊಂದಿಗೆ "ಪಾಪಾಸುಕಳ್ಳಿ ತಿನ್ನುವುದನ್ನು" ಮುಂದುವರಿಸುತ್ತಾರೆ, ಇದು ಇತರ ಸನ್ನಿವೇಶಗಳಿಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ, NoSQL ನೊಂದಿಗೆ ಹೋರಾಡುವುದು ಅಥವಾ ವಾಣಿಜ್ಯ ಪರಿಹಾರಗಳಿಗಾಗಿ ಹೆಚ್ಚು ಪಾವತಿಸುವುದು. ಕ್ಲಿಕ್ಹೌಸ್ ಒಂದು ಆಟದ ಬದಲಾವಣೆಯಾಗಿದೆ ಮತ್ತು ವಿಶ್ಲೇಷಣಾತ್ಮಕ DBMS ಪ್ರಪಂಚಕ್ಕೆ ಪ್ರವೇಶಿಸಲು ಪ್ರತಿಬಂಧಕವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
ವರದಿಯು BackEnd Conf 2018 ನಿಂದ ಬಂದಿದೆ ಮತ್ತು ಅದನ್ನು ಸ್ಪೀಕರ್ ಅನುಮತಿಯೊಂದಿಗೆ ಪ್ರಕಟಿಸಲಾಗಿದೆ.
ನಾನು ಯಾರು ಮತ್ತು ನಾನು ಕ್ಲಿಕ್ಹೌಸ್ ಬಗ್ಗೆ ಏಕೆ ಮಾತನಾಡುತ್ತಿದ್ದೇನೆ? ನಾನು ಲೈಫ್ಸ್ಟ್ರೀಟ್ನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಯ ನಿರ್ದೇಶಕನಾಗಿದ್ದೇನೆ, ಅದು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ನಾನು ಆಲ್ಟಿನಿಟಿಯ ಸಂಸ್ಥಾಪಕ ಕೂಡ. ಇದು ಯಾಂಡೆಕ್ಸ್ ಪಾಲುದಾರರಾಗಿದ್ದು, ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಪ್ರಚಾರ ಮಾಡುತ್ತದೆ ಮತ್ತು ಯಾಂಡೆಕ್ಸ್ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಹೆಚ್ಚು ಯಶಸ್ವಿಯಾಗಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಕ್ಲಿಕ್ಹೌಸ್ ಕುರಿತು ಜ್ಞಾನವನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ನಾನು ಸಿದ್ಧನಿದ್ದೇನೆ.
ಮತ್ತು ನಾನು ಪೆಟ್ಯಾ ಜೈಟ್ಸೆವ್ ಅವರ ಸಹೋದರನೂ ಅಲ್ಲ. ಈ ಬಗ್ಗೆ ನನ್ನನ್ನು ಆಗಾಗ್ಗೆ ಕೇಳಲಾಗುತ್ತದೆ. ಇಲ್ಲ, ನಾವು ಸಹೋದರರಲ್ಲ.
ಕ್ಲಿಕ್ಹೌಸ್ನ “ಎಲ್ಲರಿಗೂ ತಿಳಿದಿದೆ”:
- ಅತ್ಯಂತ ವೇಗವಾಗಿ,
- ತುಂಬಾ ಅನುಕೂಲಕರ,
- Yandex ನಲ್ಲಿ ಬಳಸಲಾಗಿದೆ.
ಯಾವ ಕಂಪನಿಗಳಲ್ಲಿ ಮತ್ತು ಅದನ್ನು ಹೇಗೆ ಬಳಸುತ್ತಾರೆ ಎಂಬುದು ಸ್ವಲ್ಪ ಕಡಿಮೆ ತಿಳಿದಿದೆ.
Yandex ಜೊತೆಗೆ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಏಕೆ, ಎಲ್ಲಿ ಮತ್ತು ಹೇಗೆ ಬಳಸಲಾಗುತ್ತದೆ ಎಂದು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ.
ವಿವಿಧ ಕಂಪನಿಗಳಲ್ಲಿ ಕ್ಲಿಕ್ಹೌಸ್ ಬಳಸಿ ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಗಳನ್ನು ಹೇಗೆ ಪರಿಹರಿಸಲಾಗುತ್ತದೆ, ನಿಮ್ಮ ಕಾರ್ಯಗಳಿಗಾಗಿ ನೀವು ಯಾವ ಕ್ಲಿಕ್ಹೌಸ್ ಪರಿಕರಗಳನ್ನು ಬಳಸಬಹುದು ಮತ್ತು ಅವುಗಳನ್ನು ವಿವಿಧ ಕಂಪನಿಗಳಲ್ಲಿ ಹೇಗೆ ಬಳಸಲಾಗಿದೆ ಎಂದು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ.
ನಾನು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ವಿವಿಧ ಬದಿಗಳಿಂದ ತೋರಿಸುವ ಮೂರು ಉದಾಹರಣೆಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಿದ್ದೇನೆ. ಇದು ಆಸಕ್ತಿದಾಯಕವಾಗಿರುತ್ತದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.
ಮೊದಲ ಪ್ರಶ್ನೆ: "ನಮಗೆ ಕ್ಲಿಕ್ಹೌಸ್ ಏಕೆ ಬೇಕು?" ಪ್ರಶ್ನೆಯು ಸಾಕಷ್ಟು ಸ್ಪಷ್ಟವಾಗಿದೆ ಎಂದು ತೋರುತ್ತದೆ, ಆದರೆ ಅದಕ್ಕೆ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಉತ್ತರಗಳಿವೆ.
- ಮೊದಲ ಉತ್ತರವು ಕಾರ್ಯಕ್ಷಮತೆಯ ಕಾರಣಗಳಿಗಾಗಿ. ಕ್ಲಿಕ್ಹೌಸ್ ತುಂಬಾ ವೇಗವಾಗಿದೆ. ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿನ ಅನಾಲಿಟಿಕ್ಸ್ ಕೂಡ ತುಂಬಾ ವೇಗವಾಗಿರುತ್ತದೆ. ಯಾವುದೋ ತುಂಬಾ ನಿಧಾನವಾಗಿ ಅಥವಾ ತುಂಬಾ ಕಳಪೆಯಾಗಿ ಕೆಲಸ ಮಾಡುವಲ್ಲಿ ಇದನ್ನು ಹೆಚ್ಚಾಗಿ ಬಳಸಬಹುದು.
- ಎರಡನೆಯ ಉತ್ತರವೆಂದರೆ ವೆಚ್ಚ. ಮತ್ತು ಮೊದಲನೆಯದಾಗಿ, ಸ್ಕೇಲಿಂಗ್ ವೆಚ್ಚ. ಉದಾಹರಣೆಗೆ, ವರ್ಟಿಕಾ ಸಂಪೂರ್ಣವಾಗಿ ಅತ್ಯುತ್ತಮ ಡೇಟಾಬೇಸ್ ಆಗಿದೆ. ನಿಮ್ಮ ಬಳಿ ಸಾಕಷ್ಟು ಟೆರಾಬೈಟ್ ಡೇಟಾ ಇಲ್ಲದಿದ್ದರೆ ಅದು ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಆದರೆ ನಾವು ನೂರಾರು ಟೆರಾಬೈಟ್ಗಳು ಅಥವಾ ಪೆಟಾಬೈಟ್ಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತಿರುವಾಗ, ಪರವಾನಗಿ ಮತ್ತು ಬೆಂಬಲದ ವೆಚ್ಚವು ಸಾಕಷ್ಟು ಗಮನಾರ್ಹ ಮೊತ್ತವಾಗಿದೆ. ಮತ್ತು ಇದು ದುಬಾರಿಯಾಗಿದೆ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ಉಚಿತವಾಗಿದೆ.
- ಮೂರನೇ ಉತ್ತರವೆಂದರೆ ಕಾರ್ಯಾಚರಣೆಯ ವೆಚ್ಚ. ಇದು ಸ್ವಲ್ಪ ವಿಭಿನ್ನ ವಿಧಾನವಾಗಿದೆ. ರೆಡ್ಶಿಫ್ಟ್ ಉತ್ತಮ ಅನಲಾಗ್ ಆಗಿದೆ. ರೆಡ್ಶಿಫ್ಟ್ನೊಂದಿಗೆ ನೀವು ಬೇಗನೆ ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಇದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಆದರೆ ಅದೇ ಸಮಯದಲ್ಲಿ, ಪ್ರತಿ ಗಂಟೆ, ಪ್ರತಿದಿನ ಮತ್ತು ಪ್ರತಿ ತಿಂಗಳು ನೀವು ಅಮೆಜಾನ್ಗೆ ಸಾಕಷ್ಟು ಪಾವತಿಸುವಿರಿ, ಏಕೆಂದರೆ ಇದು ಗಮನಾರ್ಹವಾಗಿ ದುಬಾರಿ ಸೇವೆಯಾಗಿದೆ. Google BigQuery ಕೂಡ. ಯಾರಾದರೂ ಅದನ್ನು ಬಳಸಿದ್ದರೆ, ನೀವು ಅಲ್ಲಿ ಹಲವಾರು ಪ್ರಶ್ನೆಗಳನ್ನು ಚಲಾಯಿಸಬಹುದು ಮತ್ತು ನೂರಾರು ಡಾಲರ್ಗಳಿಗೆ ಇನ್ವಾಯ್ಸ್ ಅನ್ನು ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಸ್ವೀಕರಿಸಬಹುದು ಎಂದು ಅವನಿಗೆ ತಿಳಿದಿದೆ.
ClickHouse ಈ ಸಮಸ್ಯೆಗಳನ್ನು ಹೊಂದಿಲ್ಲ.
ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಈಗ ಎಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ? ಯಾಂಡೆಕ್ಸ್ ಜೊತೆಗೆ, ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ವಿವಿಧ ವ್ಯವಹಾರಗಳು ಮತ್ತು ಕಂಪನಿಗಳ ಗುಂಪಿನಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ.
- ಮೊದಲನೆಯದಾಗಿ, ಇದು ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನಾಲಿಟಿಕ್ಸ್ ಆಗಿದೆ, ಅಂದರೆ ಇದು ಯಾಂಡೆಕ್ಸ್ನಿಂದ ಬಂದ ಬಳಕೆಯ ಸಂದರ್ಭವಾಗಿದೆ.
- ಅನೇಕ AdTech ಕಂಪನಿಗಳು ClickHouse ಅನ್ನು ಬಳಸುತ್ತವೆ.
- ವಿವಿಧ ಮೂಲಗಳಿಂದ ಕಾರ್ಯಾಚರಣೆಯ ಲಾಗ್ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಅಗತ್ಯವಿರುವ ಹಲವಾರು ಕಂಪನಿಗಳು.
- ಭದ್ರತಾ ದಾಖಲೆಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಹಲವಾರು ಕಂಪನಿಗಳು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸುತ್ತವೆ. ಅವರು ಅವುಗಳನ್ನು ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಅಪ್ಲೋಡ್ ಮಾಡುತ್ತಾರೆ, ವರದಿಗಳನ್ನು ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಅವರಿಗೆ ಅಗತ್ಯವಿರುವ ಫಲಿತಾಂಶಗಳನ್ನು ಪಡೆಯುತ್ತಾರೆ.
- ಕಂಪನಿಗಳು ಇದನ್ನು ಆರ್ಥಿಕ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಬಳಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಿವೆ, ಅಂದರೆ ಕ್ರಮೇಣ ದೊಡ್ಡ ವ್ಯವಹಾರಗಳು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಸಮೀಪಿಸುತ್ತಿವೆ.
- ಕ್ಲೌಡ್ಫ್ಲೇರ್. ಯಾರಾದರೂ ClickHouse ಅನ್ನು ಅನುಸರಿಸಿದರೆ, ನೀವು ಬಹುಶಃ ಈ ಕಂಪನಿಯ ಹೆಸರನ್ನು ಕೇಳಿರಬಹುದು. ಇದು ಸಮುದಾಯದಿಂದ ಗಮನಾರ್ಹ ಕೊಡುಗೆದಾರರಲ್ಲಿ ಒಬ್ಬರು. ಮತ್ತು ಅವರು ಅತ್ಯಂತ ಗಂಭೀರವಾದ ಕ್ಲಿಕ್ಹೌಸ್ ಸ್ಥಾಪನೆಯನ್ನು ಹೊಂದಿದ್ದಾರೆ. ಉದಾಹರಣೆಗೆ, ಅವರು ಕ್ಲಿಕ್ಹೌಸ್ಗಾಗಿ ಕಾಫ್ಕಾ ಎಂಜಿನ್ ಅನ್ನು ತಯಾರಿಸಿದರು.
- ದೂರಸಂಪರ್ಕ ಕಂಪನಿಗಳು ಬಳಸಲು ಆರಂಭಿಸಿವೆ. ಹಲವಾರು ಕಂಪನಿಗಳು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಪರಿಕಲ್ಪನೆಯ ಮೇಲೆ ಪುರಾವೆಯಾಗಿ ಅಥವಾ ಈಗಾಗಲೇ ಉತ್ಪಾದನೆಯಲ್ಲಿ ಬಳಸುತ್ತವೆ.
- ಉತ್ಪಾದನಾ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಒಂದು ಕಂಪನಿಯು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಅವರು ಮೈಕ್ರೊ ಸರ್ಕ್ಯೂಟ್ಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಪ್ಯಾರಾಮೀಟರ್ಗಳ ಗುಂಪನ್ನು ಬರೆಯುತ್ತಾರೆ, ಸುಮಾರು 2 ಗುಣಲಕ್ಷಣಗಳಿವೆ. ತದನಂತರ ಅವರು ಬ್ಯಾಚ್ ಒಳ್ಳೆಯದು ಅಥವಾ ಕೆಟ್ಟದ್ದೇ ಎಂದು ವಿಶ್ಲೇಷಿಸುತ್ತಾರೆ.
- ಬ್ಲಾಕ್ಚೈನ್ ಅನಾಲಿಟಿಕ್ಸ್. Bloxy.info ಎಂಬ ರಷ್ಯಾದ ಕಂಪನಿ ಇದೆ. ಇದು Ethereum ನೆಟ್ವರ್ಕ್ನ ವಿಶ್ಲೇಷಣೆಯಾಗಿದೆ. ಅವರು ಇದನ್ನು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿಯೂ ಮಾಡಿದ್ದಾರೆ.
ಇದಲ್ಲದೆ, ಗಾತ್ರವು ಅಪ್ರಸ್ತುತವಾಗುತ್ತದೆ. ಒಂದು ಸಣ್ಣ ಸರ್ವರ್ ಅನ್ನು ಬಳಸುವ ಅನೇಕ ಕಂಪನಿಗಳಿವೆ. ಮತ್ತು ಅವರು ತಮ್ಮ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಅನುಮತಿಸುತ್ತಾರೆ. ಮತ್ತು ಇನ್ನೂ ಹೆಚ್ಚಿನ ಕಂಪನಿಗಳು ಅನೇಕ ಸರ್ವರ್ಗಳ ದೊಡ್ಡ ಕ್ಲಸ್ಟರ್ಗಳನ್ನು ಅಥವಾ ಡಜನ್ಗಟ್ಟಲೆ ಸರ್ವರ್ಗಳನ್ನು ಬಳಸುತ್ತವೆ.
ಮತ್ತು ನೀವು ದಾಖಲೆಗಳನ್ನು ನೋಡಿದರೆ, ನಂತರ:
- ಯಾಂಡೆಕ್ಸ್: 500+ ಸರ್ವರ್ಗಳು, ಅವರು ದಿನಕ್ಕೆ 25 ಬಿಲಿಯನ್ ದಾಖಲೆಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತಾರೆ.
- ಲೈಫ್ಸ್ಟ್ರೀಟ್: 60 ಸರ್ವರ್ಗಳು, ದಿನಕ್ಕೆ ಸರಿಸುಮಾರು 75 ಶತಕೋಟಿ ದಾಖಲೆಗಳು. ಯಾಂಡೆಕ್ಸ್ಗಿಂತ ಕಡಿಮೆ ಸರ್ವರ್ಗಳು ಮತ್ತು ಹೆಚ್ಚಿನ ದಾಖಲೆಗಳಿವೆ.
- ಕ್ಲೌಡ್ಫ್ಲೇರ್: 36 ಸರ್ವರ್ಗಳು, ಅವು ದಿನಕ್ಕೆ 200 ಬಿಲಿಯನ್ ದಾಖಲೆಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತವೆ. ಅವರು ಇನ್ನೂ ಕಡಿಮೆ ಸರ್ವರ್ಗಳನ್ನು ಹೊಂದಿದ್ದಾರೆ ಮತ್ತು ಇನ್ನೂ ಹೆಚ್ಚಿನ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತಾರೆ.
- ಬ್ಲೂಮ್ಬರ್ಗ್: 102 ಸರ್ವರ್ಗಳು, ದಿನಕ್ಕೆ ಸರಿಸುಮಾರು ಒಂದು ಟ್ರಿಲಿಯನ್ ದಾಖಲೆಗಳು. ರೆಕಾರ್ಡ್ ಹೋಲ್ಡರ್.
ಭೌಗೋಳಿಕವಾಗಿ, ಇದು ಕೂಡ ಬಹಳಷ್ಟು. ಈ ನಕ್ಷೆಯು ಜಗತ್ತಿನಲ್ಲಿ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಎಲ್ಲಿ ಬಳಸಲಾಗಿದೆ ಎಂಬುದರ ಹೀಟ್ಮ್ಯಾಪ್ ಅನ್ನು ತೋರಿಸುತ್ತದೆ. ಇಲ್ಲಿ ರಷ್ಯಾ, ಚೀನಾ ಮತ್ತು ಅಮೆರಿಕ ಸ್ಪಷ್ಟವಾಗಿ ಎದ್ದು ಕಾಣುತ್ತವೆ. ಕೆಲವು ಯುರೋಪಿಯನ್ ದೇಶಗಳಿವೆ. ಮತ್ತು 4 ಸಮೂಹಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸಬಹುದು.
ಇದು ತುಲನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯಾಗಿದೆ, ಸಂಪೂರ್ಣ ಸಂಖ್ಯೆಗಳನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲ. ಇದು ಆಲ್ಟಿನಿಟಿ ವೆಬ್ಸೈಟ್ನಲ್ಲಿ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ವಸ್ತುಗಳನ್ನು ಓದುವ ಸಂದರ್ಶಕರ ವಿಶ್ಲೇಷಣೆಯಾಗಿದೆ, ಏಕೆಂದರೆ ಅಲ್ಲಿ ಯಾವುದೇ ರಷ್ಯನ್ ಭಾಷಿಕರು ಇಲ್ಲ. ಮತ್ತು ರಷ್ಯಾ, ಉಕ್ರೇನ್, ಬೆಲಾರಸ್, ಅಂದರೆ ಸಮುದಾಯದ ರಷ್ಯನ್-ಮಾತನಾಡುವ ಭಾಗವು ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಬಳಕೆದಾರರಾಗಿದ್ದಾರೆ. ನಂತರ ಯುಎಸ್ಎ ಮತ್ತು ಕೆನಡಾ ಬರುತ್ತದೆ. ಚೀನಾ ತುಂಬಾ ಹಿಡಿಯುತ್ತಿದೆ. ಆರು ತಿಂಗಳ ಹಿಂದೆ ಅಲ್ಲಿ ಚೀನಾ ಇರಲಿಲ್ಲ; ಈಗ ಚೀನಾ ಈಗಾಗಲೇ ಯುರೋಪ್ ಅನ್ನು ಹಿಂದಿಕ್ಕಿದೆ ಮತ್ತು ಬೆಳೆಯುತ್ತಿದೆ. ಹಳೆಯ ಯುರೋಪ್ ಕೂಡ ಹಿಂದುಳಿದಿಲ್ಲ, ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ಬಳಕೆಯಲ್ಲಿ ನಾಯಕ, ವಿಚಿತ್ರವಾಗಿ ಸಾಕಷ್ಟು, ಫ್ರಾನ್ಸ್.
ನಾನು ಇದನ್ನೆಲ್ಲ ಯಾಕೆ ಹೇಳುತ್ತಿದ್ದೇನೆ? ಕ್ಲಿಕ್ಹೌಸ್ ದೊಡ್ಡ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಪ್ರಮಾಣಿತ ಪರಿಹಾರವಾಗುತ್ತಿದೆ ಮತ್ತು ಈಗಾಗಲೇ ಹಲವು ಸ್ಥಳಗಳಲ್ಲಿ ಬಳಸಲಾಗಿದೆ ಎಂದು ತೋರಿಸಲು. ನೀವು ಅದನ್ನು ಬಳಸಿದರೆ, ನೀವು ಸರಿಯಾದ ಪ್ರವೃತ್ತಿಯಲ್ಲಿದ್ದೀರಿ. ನೀವು ಅದನ್ನು ಇನ್ನೂ ಬಳಸದಿದ್ದರೆ, ನೀವು ಏಕಾಂಗಿಯಾಗಿ ಉಳಿಯುತ್ತೀರಿ ಮತ್ತು ಯಾರೂ ನಿಮಗೆ ಸಹಾಯ ಮಾಡುವುದಿಲ್ಲ ಎಂದು ನೀವು ಭಯಪಡಬೇಕಾಗಿಲ್ಲ, ಏಕೆಂದರೆ ಅನೇಕರು ಈಗಾಗಲೇ ಇದನ್ನು ಮಾಡುತ್ತಿದ್ದಾರೆ.
ಹಲವಾರು ಕಂಪನಿಗಳಲ್ಲಿ ಕ್ಲಿಕ್ಹೌಸ್ನ ನೈಜ ಬಳಕೆಯ ಉದಾಹರಣೆಗಳಾಗಿವೆ.
- ಮೊದಲ ಉದಾಹರಣೆಯೆಂದರೆ ಜಾಹೀರಾತು ಜಾಲ: ವರ್ಟಿಕಾದಿಂದ ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ವಲಸೆ. ಮತ್ತು ವರ್ಟಿಕಾದಿಂದ ಬದಲಾಯಿಸಿದ ಅಥವಾ ಸ್ವಿಚಿಂಗ್ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿರುವ ಹಲವಾರು ಕಂಪನಿಗಳು ನನಗೆ ತಿಳಿದಿವೆ.
- ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿನ ವಹಿವಾಟಿನ ಸಂಗ್ರಹಣೆಯು ಎರಡನೆಯ ಉದಾಹರಣೆಯಾಗಿದೆ. ಇದು ಆಂಟಿಪ್ಯಾಟರ್ನ್ಗಳ ಮೇಲೆ ನಿರ್ಮಿಸಲಾದ ಉದಾಹರಣೆಯಾಗಿದೆ. ಡೆವಲಪರ್ಗಳ ಸಲಹೆಯ ಪ್ರಕಾರ ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಮಾಡಬೇಕಾಗಿಲ್ಲದ ಎಲ್ಲವನ್ನೂ ಇಲ್ಲಿ ಮಾಡಲಾಗುತ್ತದೆ. ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ ಅದು ಕಾರ್ಯನಿರ್ವಹಿಸುವಷ್ಟು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಮಾಡಲಾಗುತ್ತದೆ. ಮತ್ತು ಇದು ವಿಶಿಷ್ಟವಾದ ವಹಿವಾಟು ಪರಿಹಾರಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.
- ಮೂರನೇ ಉದಾಹರಣೆ ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಕಂಪ್ಯೂಟಿಂಗ್ ಅನ್ನು ವಿತರಿಸಲಾಗಿದೆ. ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಹಡೂಪ್ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಹೇಗೆ ಸಂಯೋಜಿಸಬಹುದು ಎಂಬ ಪ್ರಶ್ನೆಯಿತ್ತು. ಕ್ಷುಲ್ಲಕವಲ್ಲದ ಕೆಲಸವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು, ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಮ್ಯಾಪ್ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಕಂಟೇನರ್, ಡೇಟಾ ಸ್ಥಳೀಕರಣವನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುವುದು ಇತ್ಯಾದಿಗಳನ್ನು ಕಂಪನಿಯು ಹೇಗೆ ಮಾಡಿದೆ ಎಂಬುದರ ಉದಾಹರಣೆಯನ್ನು ನಾನು ತೋರಿಸುತ್ತೇನೆ.
- LifeStreet ಒಂದು ಜಾಹೀರಾತು ಟೆಕ್ ಕಂಪನಿಯಾಗಿದ್ದು ಅದು ಜಾಹೀರಾತು ನೆಟ್ವರ್ಕ್ಗೆ ಸಂಬಂಧಿಸಿದ ಎಲ್ಲಾ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಹೊಂದಿದೆ.
- ಅವಳು ಜಾಹೀರಾತು ಆಪ್ಟಿಮೈಸೇಶನ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕ್ ಬಿಡ್ಡಿಂಗ್ನಲ್ಲಿ ತೊಡಗಿಸಿಕೊಂಡಿದ್ದಾಳೆ.
- ಬಹಳಷ್ಟು ಡೇಟಾ: ದಿನಕ್ಕೆ ಸುಮಾರು 10 ಬಿಲಿಯನ್ ಘಟನೆಗಳು. ಇದಲ್ಲದೆ, ಘಟನೆಗಳನ್ನು ಹಲವಾರು ಉಪ-ಘಟನೆಗಳಾಗಿ ವಿಂಗಡಿಸಬಹುದು.
- ಈ ಡೇಟಾದ ಅನೇಕ ಕ್ಲೈಂಟ್ಗಳು ಇವೆ, ಮತ್ತು ಇವುಗಳು ಜನರು ಮಾತ್ರವಲ್ಲ, ಇನ್ನೂ ಹೆಚ್ಚಿನವು ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕ್ ಬಿಡ್ಡಿಂಗ್ನಲ್ಲಿ ತೊಡಗಿರುವ ವಿವಿಧ ಅಲ್ಗಾರಿದಮ್ಗಳಾಗಿವೆ.
ಕಂಪನಿಯು ಸುದೀರ್ಘ ಮತ್ತು ಮುಳ್ಳಿನ ಹಾದಿಯಲ್ಲಿ ಬಂದಿದೆ. ಮತ್ತು ನಾನು ಅದರ ಬಗ್ಗೆ ಹೈಲೋಡ್ನಲ್ಲಿ ಮಾತನಾಡಿದೆ. ಮೊದಲಿಗೆ, ಲೈಫ್ಸ್ಟ್ರೀಟ್ MySQL ನಿಂದ (ಒರಾಕಲ್ನಲ್ಲಿ ಸಂಕ್ಷಿಪ್ತ ನಿಲುಗಡೆಯೊಂದಿಗೆ) ವರ್ಟಿಕಾಕ್ಕೆ ಸ್ಥಳಾಂತರಗೊಂಡಿತು. ಮತ್ತು ನೀವು ಅದರ ಬಗ್ಗೆ ಒಂದು ಕಥೆಯನ್ನು ಕಾಣಬಹುದು.
ಮತ್ತು ಎಲ್ಲವೂ ತುಂಬಾ ಒಳ್ಳೆಯದು, ಆದರೆ ಡೇಟಾವು ಬೆಳೆಯುತ್ತಿದೆ ಮತ್ತು ವರ್ಟಿಕಾ ದುಬಾರಿಯಾಗಿದೆ ಎಂದು ತ್ವರಿತವಾಗಿ ಸ್ಪಷ್ಟವಾಯಿತು. ಆದ್ದರಿಂದ, ವಿವಿಧ ಪರ್ಯಾಯಗಳನ್ನು ಹುಡುಕಲಾಯಿತು. ಅವುಗಳಲ್ಲಿ ಕೆಲವನ್ನು ಇಲ್ಲಿ ಪಟ್ಟಿ ಮಾಡಲಾಗಿದೆ. ಮತ್ತು ವಾಸ್ತವವಾಗಿ, ನಾವು 13 ರಿಂದ 16 ರವರೆಗಿನ ಮಾರುಕಟ್ಟೆಯಲ್ಲಿ ಲಭ್ಯವಿರುವ ಎಲ್ಲಾ ಡೇಟಾಬೇಸ್ಗಳ ಪರಿಕಲ್ಪನೆಯ ಪುರಾವೆ ಅಥವಾ ಕೆಲವೊಮ್ಮೆ ಕಾರ್ಯಕ್ಷಮತೆಯ ಪರೀಕ್ಷೆಯನ್ನು ಮಾಡಿದ್ದೇವೆ ಮತ್ತು ಕ್ರಿಯಾತ್ಮಕತೆಯಲ್ಲಿ ಸರಿಸುಮಾರು ಸೂಕ್ತವಾಗಿದೆ. ಮತ್ತು ನಾನು ಅವುಗಳಲ್ಲಿ ಕೆಲವನ್ನು ಹೈಲೋಡ್ನಲ್ಲಿ ಮಾತನಾಡಿದ್ದೇನೆ.
ಕಾರ್ಯವು ಮೊದಲು ವರ್ಟಿಕಾದಿಂದ ವಲಸೆ ಹೋಗುವುದು, ಏಕೆಂದರೆ ಡೇಟಾ ಬೆಳೆಯುತ್ತಿದೆ. ಮತ್ತು ಅವರು ಹಲವಾರು ವರ್ಷಗಳಿಂದ ಘಾತೀಯವಾಗಿ ಬೆಳೆದರು. ನಂತರ ಅವರು ಕಪಾಟಿನಲ್ಲಿ ಹೋದರು, ಆದರೆ ಇನ್ನೂ. ಮತ್ತು ಈ ಬೆಳವಣಿಗೆಯನ್ನು ಊಹಿಸುವುದು, ಕೆಲವು ರೀತಿಯ ವಿಶ್ಲೇಷಣೆಗಳನ್ನು ಮಾಡಬೇಕಾದ ಡೇಟಾದ ಪರಿಮಾಣದ ವ್ಯವಹಾರದ ಅವಶ್ಯಕತೆಗಳು, ಶೀಘ್ರದಲ್ಲೇ ಪೆಟಾಬೈಟ್ಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುವುದು ಸ್ಪಷ್ಟವಾಗಿದೆ. ಮತ್ತು ಪೆಟಾಬೈಟ್ಗಳಿಗೆ ಪಾವತಿಸಲು ಇದು ಈಗಾಗಲೇ ತುಂಬಾ ದುಬಾರಿಯಾಗಿದೆ, ಆದ್ದರಿಂದ ನಾವು ಎಲ್ಲಿಗೆ ಹೋಗಬೇಕೆಂದು ಪರ್ಯಾಯವಾಗಿ ಹುಡುಕುತ್ತಿದ್ದೇವೆ.
ಎಲ್ಲಿಗೆ ಹೋಗಬೇಕು? ಮತ್ತು ದೀರ್ಘಕಾಲದವರೆಗೆ ಎಲ್ಲಿಗೆ ಹೋಗಬೇಕೆಂದು ಸಂಪೂರ್ಣವಾಗಿ ಅಸ್ಪಷ್ಟವಾಗಿತ್ತು, ಏಕೆಂದರೆ ಒಂದು ಕಡೆ ವಾಣಿಜ್ಯ ಡೇಟಾಬೇಸ್ಗಳಿವೆ, ಅವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂದು ತೋರುತ್ತದೆ. ಕೆಲವು ವರ್ಟಿಕಾದಂತೆಯೇ ಕೆಲಸ ಮಾಡುತ್ತವೆ, ಕೆಲವು ಕೆಟ್ಟದಾಗಿದೆ. ಆದರೆ ಅವೆಲ್ಲವೂ ದುಬಾರಿ, ಅಗ್ಗದ ಅಥವಾ ಉತ್ತಮವಾದ ಯಾವುದನ್ನೂ ಕಂಡುಹಿಡಿಯಲಾಗುವುದಿಲ್ಲ.
ಮತ್ತೊಂದೆಡೆ, ತೆರೆದ ಮೂಲ ಪರಿಹಾರಗಳಿವೆ, ಅವುಗಳಲ್ಲಿ ಹಲವು ಇಲ್ಲ, ಅಂದರೆ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಅವುಗಳನ್ನು ಒಂದು ಕಡೆ ಎಣಿಸಬಹುದು. ಮತ್ತು ಅವು ಉಚಿತ ಅಥವಾ ಅಗ್ಗವಾಗಿವೆ, ಆದರೆ ಅವು ನಿಧಾನವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಮತ್ತು ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಅಗತ್ಯ ಮತ್ತು ಉಪಯುಕ್ತ ಕಾರ್ಯವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ.
ಮತ್ತು ವಾಣಿಜ್ಯ ಡೇಟಾಬೇಸ್ಗಳಲ್ಲಿರುವ ಉತ್ತಮ ವಿಷಯಗಳನ್ನು ಮತ್ತು ಮುಕ್ತ ಮೂಲದಲ್ಲಿರುವ ಎಲ್ಲಾ ಉಚಿತ ವಿಷಯಗಳನ್ನು ಸಂಯೋಜಿಸಲು ಏನೂ ಇರಲಿಲ್ಲ.
ಯಾಂಡೆಕ್ಸ್ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಜಾದೂಗಾರನ ಮೊಲದಂತೆ ಟೋಪಿಯಿಂದ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಎಳೆಯುವವರೆಗೆ ಏನೂ ಸಂಭವಿಸಲಿಲ್ಲ. ಮತ್ತು ಇದು ಅನಿರೀಕ್ಷಿತ ನಿರ್ಧಾರವಾಗಿತ್ತು; ಜನರು ಇನ್ನೂ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳುತ್ತಾರೆ: "ಏಕೆ?", ಆದರೆ ಅದೇನೇ ಇದ್ದರೂ.
ಮತ್ತು ಈಗಿನಿಂದಲೇ 2016 ರ ಬೇಸಿಗೆಯಲ್ಲಿ, ನಾವು ಕ್ಲಿಕ್ಹೌಸ್ ಎಂದರೇನು ಎಂದು ನೋಡಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಮತ್ತು ಇದು ಕೆಲವೊಮ್ಮೆ ವರ್ಟಿಕಾಕ್ಕಿಂತ ವೇಗವಾಗಿರುತ್ತದೆ ಎಂದು ಬದಲಾಯಿತು. ವಿಭಿನ್ನ ವಿನಂತಿಗಳ ಮೇಲೆ ನಾವು ವಿಭಿನ್ನ ಸನ್ನಿವೇಶಗಳನ್ನು ಪರೀಕ್ಷಿಸಿದ್ದೇವೆ. ಮತ್ತು ಪ್ರಶ್ನೆಯು ಕೇವಲ ಒಂದು ಟೇಬಲ್ ಅನ್ನು ಬಳಸಿದರೆ, ಅಂದರೆ ಯಾವುದೇ ಸೇರ್ಪಡೆಗಳಿಲ್ಲದೆ, ನಂತರ ಕ್ಲಿಕ್ಹೌಸ್ ವರ್ಟಿಕಾಕ್ಕಿಂತ ಎರಡು ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.
ನಾನು ತುಂಬಾ ಸೋಮಾರಿಯಾಗಿರಲಿಲ್ಲ ಮತ್ತು ಇತರ ದಿನ ಹೆಚ್ಚು Yandex ಪರೀಕ್ಷೆಗಳನ್ನು ನೋಡಿದೆ. ಅಲ್ಲಿ ಇದು ಒಂದೇ ಆಗಿರುತ್ತದೆ: ಕ್ಲಿಕ್ಹೌಸ್ ವರ್ಟಿಕಾಕ್ಕಿಂತ ಎರಡು ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ, ಆದ್ದರಿಂದ ಅವರು ಆಗಾಗ್ಗೆ ಅದರ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತಾರೆ.
ಆದರೆ ಪ್ರಶ್ನೆಗಳು ಸೇರುವಿಕೆಯನ್ನು ಹೊಂದಿದ್ದರೆ, ಎಲ್ಲವೂ ಸ್ಪಷ್ಟವಾಗಿಲ್ಲ ಎಂದು ತಿರುಗುತ್ತದೆ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ವರ್ಟಿಕಾಕ್ಕಿಂತ ಎರಡು ಪಟ್ಟು ನಿಧಾನವಾಗಬಹುದು. ಮತ್ತು ನೀವು ವಿನಂತಿಯನ್ನು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಸರಿಪಡಿಸಿ ಮತ್ತು ಪುನಃ ಬರೆದರೆ, ನಂತರ ಅವರು ಸರಿಸುಮಾರು ಸಮಾನವಾಗಿರುತ್ತದೆ. ಕೆಟ್ಟದ್ದಲ್ಲ. ಮತ್ತು ಇದು ಉಚಿತವಾಗಿದೆ.
ಮತ್ತು ಪರೀಕ್ಷಾ ಫಲಿತಾಂಶಗಳನ್ನು ಸ್ವೀಕರಿಸಿದ ನಂತರ ಮತ್ತು ಅದನ್ನು ವಿವಿಧ ಕೋನಗಳಿಂದ ನೋಡಿದ ನಂತರ, ಲೈಫ್ಸ್ಟ್ರೀಟ್ ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಹೋಯಿತು.
ಇದು 16 ನೇ ವರ್ಷ, ನಾನು ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ. ಇಲಿಗಳು ಅಳುತ್ತಾ ಚುಚ್ಚುಮದ್ದು ಹಾಕಿಸಿಕೊಂಡರೂ ಕಳ್ಳಿ ತಿನ್ನುವುದನ್ನು ಮುಂದುವರೆಸಿದ ಹಾಸ್ಯದಂತಿತ್ತು. ಮತ್ತು ಇದನ್ನು ವಿವರವಾಗಿ ಚರ್ಚಿಸಲಾಗಿದೆ, ಇದರ ಬಗ್ಗೆ ವೀಡಿಯೊ ಇದೆ, ಇತ್ಯಾದಿ.
ಆದ್ದರಿಂದ, ನಾನು ಈ ಬಗ್ಗೆ ವಿವರವಾಗಿ ಮಾತನಾಡುವುದಿಲ್ಲ, ಫಲಿತಾಂಶಗಳು ಮತ್ತು ನಾನು ಆಗ ಮಾತನಾಡದ ಕೆಲವು ಆಸಕ್ತಿದಾಯಕ ವಿಷಯಗಳ ಬಗ್ಗೆ ಮಾತ್ರ ಮಾತನಾಡುತ್ತೇನೆ.
ಫಲಿತಾಂಶಗಳು ಹೀಗಿವೆ:
- ಯಶಸ್ವಿ ವಲಸೆ ಮತ್ತು ವ್ಯವಸ್ಥೆಯು ಒಂದು ವರ್ಷಕ್ಕೂ ಹೆಚ್ಚು ಕಾಲ ಉತ್ಪಾದನೆಯಲ್ಲಿದೆ.
- ಉತ್ಪಾದಕತೆ ಮತ್ತು ನಮ್ಯತೆ ಹೆಚ್ಚಾಗಿದೆ. 10 ಬಿಲಿಯನ್ ರೆಕಾರ್ಡ್ಗಳಿಂದ ನಾವು ದಿನಕ್ಕೆ ಸ್ವಲ್ಪ ಸಮಯದವರೆಗೆ ಸಂಗ್ರಹಿಸಲು ಶಕ್ತರಾಗಿದ್ದೇವೆ, ಲೈಫ್ಸ್ಟ್ರೀಟ್ ಈಗ ದಿನಕ್ಕೆ 75 ಶತಕೋಟಿ ದಾಖಲೆಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಅದನ್ನು 3 ತಿಂಗಳು ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಕಾಲ ಮಾಡಬಹುದು. ನೀವು ಉತ್ತುಂಗದಲ್ಲಿ ಎಣಿಸಿದರೆ, ಇದನ್ನು ಸೆಕೆಂಡಿಗೆ ಒಂದು ಮಿಲಿಯನ್ ಈವೆಂಟ್ಗಳವರೆಗೆ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ದಿನಕ್ಕೆ ಒಂದು ಮಿಲಿಯನ್ಗಿಂತಲೂ ಹೆಚ್ಚು SQL ಪ್ರಶ್ನೆಗಳನ್ನು ಈ ವ್ಯವಸ್ಥೆಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ, ಹೆಚ್ಚಾಗಿ ವಿವಿಧ ರೋಬೋಟ್ಗಳಿಂದ.
- ಕ್ಲಿಕ್ಹೌಸ್ ವರ್ಟಿಕಾಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸರ್ವರ್ಗಳನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಿದರೂ, ಹಾರ್ಡ್ವೇರ್ನಲ್ಲಿ ಉಳಿತಾಯವನ್ನು ಸಹ ಮಾಡಲಾಯಿತು, ಏಕೆಂದರೆ ವರ್ಟಿಕಾ ಸಾಕಷ್ಟು ದುಬಾರಿ ಎಸ್ಎಎಸ್ ಡಿಸ್ಕ್ಗಳನ್ನು ಬಳಸಿದೆ. ಕ್ಲಿಕ್ಹೌಸ್ SATA ಅನ್ನು ಬಳಸಿದೆ. ಮತ್ತು ಏಕೆ? ಏಕೆಂದರೆ ವರ್ಟಿಕಾದಲ್ಲಿ ಇನ್ಸರ್ಟ್ ಸಿಂಕ್ರೊನಸ್ ಆಗಿದೆ. ಮತ್ತು ಸಿಂಕ್ರೊನೈಸೇಶನ್ಗೆ ಡಿಸ್ಕ್ಗಳು ಹೆಚ್ಚು ನಿಧಾನವಾಗುವುದಿಲ್ಲ, ಮತ್ತು ನೆಟ್ವರ್ಕ್ ಹೆಚ್ಚು ನಿಧಾನವಾಗುವುದಿಲ್ಲ, ಅಂದರೆ, ಬದಲಿಗೆ ದುಬಾರಿ ಕಾರ್ಯಾಚರಣೆ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಇನ್ಸರ್ಟ್ ಅಸಮಕಾಲಿಕವಾಗಿದೆ. ಇದಲ್ಲದೆ, ನೀವು ಯಾವಾಗಲೂ ಸ್ಥಳೀಯವಾಗಿ ಎಲ್ಲವನ್ನೂ ಬರೆಯಬಹುದು, ಇದಕ್ಕೆ ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ವೆಚ್ಚಗಳಿಲ್ಲ, ಆದ್ದರಿಂದ ಡೇಟಾವನ್ನು ವರ್ಟಿಕಾಕ್ಕಿಂತ ವೇಗವಾಗಿ ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಸೇರಿಸಬಹುದು, ವೇಗವಾದ ಡಿಸ್ಕ್ಗಳಲ್ಲಿಲ್ಲ. ಮತ್ತು ಓದುವುದು ಒಂದೇ ಆಗಿರುತ್ತದೆ. SATA ನಲ್ಲಿ ಓದುವುದು, ಅವರು RAID ನಲ್ಲಿದ್ದರೆ, ಅದು ಸಾಕಷ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.
- ಪರವಾನಗಿಯಿಂದ ಅನಿಯಮಿತವಾಗಿದೆ, ಅಂದರೆ 3 ಸರ್ವರ್ಗಳಲ್ಲಿ 60 ಪೆಟಾಬೈಟ್ ಡೇಟಾ (20 ಸರ್ವರ್ಗಳು ಒಂದು ಪ್ರತಿಕೃತಿ) ಮತ್ತು ಸತ್ಯಗಳು ಮತ್ತು ಒಟ್ಟುಗಳಲ್ಲಿ 6 ಟ್ರಿಲಿಯನ್ ದಾಖಲೆಗಳು. ವರ್ಟಿಕಾ ಈ ರೀತಿಯ ಯಾವುದನ್ನೂ ಪಡೆಯಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ.
ಈಗ ನಾನು ಈ ಉದಾಹರಣೆಯಲ್ಲಿ ಪ್ರಾಯೋಗಿಕ ವಿಷಯವನ್ನು ಪಡೆಯುತ್ತಿದ್ದೇನೆ.
- ಮೊದಲನೆಯದು ಪರಿಣಾಮಕಾರಿ ಯೋಜನೆ. ಬಹಳಷ್ಟು ಯೋಜನೆಯನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ.
- ಎರಡನೆಯದು ಸಮರ್ಥ SQL ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತಿದೆ.
ವಿಶಿಷ್ಟವಾದ OLAP ಪ್ರಶ್ನೆಯನ್ನು ಆಯ್ಕೆಮಾಡಲಾಗಿದೆ. ಕೆಲವು ಕಾಲಮ್ಗಳು ಗುಂಪಿಗೆ ಹೋಗುತ್ತವೆ, ಕೆಲವು ಕಾಲಮ್ಗಳು ಒಟ್ಟು ಕಾರ್ಯಗಳಿಗೆ ಹೋಗುತ್ತವೆ. ಅಲ್ಲಿ ಒಂದು ಘನದ ಸ್ಲೈಸ್ ಎಂದು ಯೋಚಿಸಬಹುದು. ಮೂಲಕ ಸಂಪೂರ್ಣ ಗುಂಪನ್ನು ಪ್ರೊಜೆಕ್ಷನ್ ಎಂದು ಪರಿಗಣಿಸಬಹುದು. ಮತ್ತು ಅದಕ್ಕಾಗಿಯೇ ಇದನ್ನು ಮಲ್ಟಿವೇರಿಯೇಟ್ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ.
ಮತ್ತು ಆಗಾಗ್ಗೆ ಇದನ್ನು ನಕ್ಷತ್ರ ರೇಖಾಚಿತ್ರದ ರೂಪದಲ್ಲಿ ರೂಪಿಸಲಾಗುತ್ತದೆ, ಕಿರಣಗಳ ಉದ್ದಕ್ಕೂ ಬದಿಗಳಲ್ಲಿ ಈ ಅಂಶದ ಕೇಂದ್ರ ಸತ್ಯ ಮತ್ತು ಗುಣಲಕ್ಷಣಗಳು ಇದ್ದಾಗ.
ಮತ್ತು ಭೌತಿಕ ವಿನ್ಯಾಸದ ದೃಷ್ಟಿಕೋನದಿಂದ, ಅದು ಮೇಜಿನ ಮೇಲೆ ಹೇಗೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ, ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಸಾಮಾನ್ಯವಾದ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಮಾಡುತ್ತಾರೆ. ನೀವು ಅಸಾಧಾರಣಗೊಳಿಸಬಹುದು, ಆದರೆ ಇದು ಡಿಸ್ಕ್ನಲ್ಲಿ ದುಬಾರಿಯಾಗಿದೆ ಮತ್ತು ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಸಾಮಾನ್ಯವಾದ ನೋಟವನ್ನು ಮಾಡುತ್ತಾರೆ, ಅಂದರೆ ಸತ್ಯ ಕೋಷ್ಟಕ ಮತ್ತು ಅನೇಕ ಆಯಾಮದ ಕೋಷ್ಟಕಗಳು.
ಆದರೆ ಇದು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ. ಎರಡು ಕಾರಣಗಳಿವೆ:
- ಮೊದಲನೆಯದು ಏಕೆಂದರೆ ಕ್ಲಿಕ್ಹೌಸ್ ಉತ್ತಮವಾದ ಸೇರ್ಪಡೆಗಳನ್ನು ಹೊಂದಿಲ್ಲ, ಅಂದರೆ ಸೇರುವಿಕೆಗಳಿವೆ, ಆದರೆ ಅವು ಕೆಟ್ಟದಾಗಿವೆ. ಇಲ್ಲಿಯವರೆಗೆ ಅವರು ಕೆಟ್ಟವರು.
- ಎರಡನೆಯದು ಕೋಷ್ಟಕಗಳನ್ನು ನವೀಕರಿಸಲಾಗಿಲ್ಲ. ಸಾಮಾನ್ಯವಾಗಿ ನಕ್ಷತ್ರ ರೇಖಾಚಿತ್ರದ ಸುತ್ತ ಇರುವ ಈ ಚಿಹ್ನೆಗಳಲ್ಲಿ, ಏನನ್ನಾದರೂ ಬದಲಾಯಿಸಬೇಕಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಕ್ಲೈಂಟ್ ಹೆಸರು, ಕಂಪನಿ ಹೆಸರು, ಇತ್ಯಾದಿ. ಮತ್ತು ಇದು ಕೆಲಸ ಮಾಡುವುದಿಲ್ಲ.
ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಇದರಿಂದ ಹೊರಬರಲು ಒಂದು ಮಾರ್ಗವಿದೆ. ಎರಡು ಸಹ:
- ಮೊದಲನೆಯದು ನಿಘಂಟುಗಳ ಬಳಕೆ. ಸ್ಟಾರ್ ಸ್ಕೀಮ್, ನವೀಕರಣಗಳು ಮತ್ತು ಮುಂತಾದವುಗಳೊಂದಿಗೆ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು 99% ಸಹಾಯ ಮಾಡುತ್ತದೆ ಬಾಹ್ಯ ನಿಘಂಟುಗಳು.
- ಎರಡನೆಯದು ಅರೇಗಳ ಬಳಕೆ. ಅರೇಗಳು ಸಾಮಾನ್ಯೀಕರಣದೊಂದಿಗೆ ಸೇರುವಿಕೆಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ತೊಡೆದುಹಾಕಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
- ಸೇರಿಕೊಳ್ಳುವ ಅಗತ್ಯವಿಲ್ಲ.
- ನವೀಕರಿಸಬಹುದಾದ. ಮಾರ್ಚ್ 2018 ರಿಂದ, ಡಿಕ್ಷನರಿಗಳನ್ನು ಭಾಗಶಃ ನವೀಕರಿಸಲು ದಾಖಲೆರಹಿತ ಅವಕಾಶ ಕಾಣಿಸಿಕೊಂಡಿದೆ (ನೀವು ಇದನ್ನು ದಸ್ತಾವೇಜನ್ನು ಕಾಣುವುದಿಲ್ಲ) ಅಂದರೆ ಬದಲಾಗಿರುವ ನಮೂದುಗಳು. ಪ್ರಾಯೋಗಿಕವಾಗಿ, ಇದು ಮೇಜಿನಂತಿದೆ.
- ಯಾವಾಗಲೂ ಸ್ಮರಣೆಯಲ್ಲಿದೆ, ಆದ್ದರಿಂದ ಡಿಸ್ಕ್ನಲ್ಲಿ ಇರುವ ಟೇಬಲ್ಗಿಂತ ವೇಗವಾಗಿ ನಿಘಂಟಿನ ಕೆಲಸದೊಂದಿಗೆ ಸೇರಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಅದು ಸಂಗ್ರಹದಲ್ಲಿದೆ ಎಂಬುದು ಸತ್ಯವಲ್ಲ, ಹೆಚ್ಚಾಗಿ ಅಲ್ಲ.
- ನೀವು ಸೇರಿಕೊಳ್ಳುವ ಅಗತ್ಯವಿಲ್ಲ.
- ಇದು ಕಾಂಪ್ಯಾಕ್ಟ್ 1 ರಿಂದ ಅನೇಕ ಪ್ರಾತಿನಿಧ್ಯವಾಗಿದೆ.
- ಮತ್ತು ನನ್ನ ಅಭಿಪ್ರಾಯದಲ್ಲಿ, ಗೀಕ್ಗಳಿಗಾಗಿ ಅರೇಗಳನ್ನು ಮಾಡಲಾಗಿದೆ. ಇವು ಲ್ಯಾಂಬ್ಡಾ ಕಾರ್ಯಗಳು ಮತ್ತು ಸ್ಟಫ್.
ಇದು ಮಾತಿನ ಸಲುವಾಗಿ ಅಲ್ಲ. ಇದು ಅತ್ಯಂತ ಶಕ್ತಿಯುತವಾದ ಕಾರ್ಯಚಟುವಟಿಕೆಯಾಗಿದ್ದು ಅದು ನಿಮಗೆ ಅನೇಕ ಕೆಲಸಗಳನ್ನು ಸರಳವಾಗಿ ಮತ್ತು ಸೊಗಸಾಗಿ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
ಅರೇಗಳನ್ನು ಪರಿಹರಿಸಲು ಸಹಾಯ ಮಾಡುವ ವಿಶಿಷ್ಟ ಉದಾಹರಣೆಗಳು. ಈ ಉದಾಹರಣೆಗಳು ಸರಳ ಮತ್ತು ಸಾಕಷ್ಟು ಸ್ಪಷ್ಟವಾಗಿದೆ:
- ಟ್ಯಾಗ್ಗಳ ಮೂಲಕ ಹುಡುಕಿ. ನೀವು ಅಲ್ಲಿ ಹ್ಯಾಶ್ಟ್ಯಾಗ್ಗಳನ್ನು ಹೊಂದಿದ್ದರೆ ಮತ್ತು ಹ್ಯಾಶ್ಟ್ಯಾಗ್ ಮೂಲಕ ಕೆಲವು ಪೋಸ್ಟ್ಗಳನ್ನು ಹುಡುಕಲು ಬಯಸಿದರೆ.
- ಕೀ-ಮೌಲ್ಯದ ಜೋಡಿಗಳ ಮೂಲಕ ಹುಡುಕಿ. ಅರ್ಥದೊಂದಿಗೆ ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳೂ ಇವೆ.
- ನೀವು ಬೇರೆ ಯಾವುದನ್ನಾದರೂ ಭಾಷಾಂತರಿಸಬೇಕಾದ ಕೀಲಿಗಳ ಪಟ್ಟಿಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು.
ಈ ಎಲ್ಲಾ ಸಮಸ್ಯೆಗಳನ್ನು ಅರೇ ಇಲ್ಲದೆ ಪರಿಹರಿಸಬಹುದು. ಟ್ಯಾಗ್ಗಳನ್ನು ಕೆಲವು ಸಾಲಿನಲ್ಲಿ ಇರಿಸಬಹುದು ಮತ್ತು ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿ ಬಳಸಿ ಅಥವಾ ಪ್ರತ್ಯೇಕ ಕೋಷ್ಟಕದಲ್ಲಿ ಆಯ್ಕೆ ಮಾಡಬಹುದು, ಆದರೆ ನಂತರ ನೀವು ಸೇರಿಕೊಳ್ಳಬೇಕಾಗುತ್ತದೆ.
ಆದರೆ ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ನೀವು ಏನನ್ನೂ ಮಾಡಬೇಕಾಗಿಲ್ಲ, ಹ್ಯಾಶ್ಟ್ಯಾಗ್ಗಳಿಗಾಗಿ ಸ್ಟ್ರಿಂಗ್ ಅರೇ ಅನ್ನು ವಿವರಿಸಿ ಅಥವಾ ಕೀ-ಮೌಲ್ಯದ ಸಿಸ್ಟಮ್ಗಳಿಗಾಗಿ ನೆಸ್ಟೆಡ್ ರಚನೆಯನ್ನು ರಚಿಸಿ.
ನೆಸ್ಟೆಡ್ ರಚನೆಯು ಉತ್ತಮ ಹೆಸರಾಗಿಲ್ಲದಿರಬಹುದು. ಇವುಗಳು ಹೆಸರಿನಲ್ಲಿ ಮತ್ತು ಕೆಲವು ಸಂಬಂಧಿತ ಗುಣಲಕ್ಷಣಗಳಲ್ಲಿ ಸಾಮಾನ್ಯ ಭಾಗವನ್ನು ಹೊಂದಿರುವ ಎರಡು ಸರಣಿಗಳಾಗಿವೆ.
ಮತ್ತು ಟ್ಯಾಗ್ ಮೂಲಕ ಹುಡುಕುವುದು ತುಂಬಾ ಸುಲಭ. ಒಂದು ಕಾರ್ಯವಿದೆ has
, ಇದು ರಚನೆಯು ಒಂದು ಅಂಶವನ್ನು ಹೊಂದಿದೆಯೇ ಎಂದು ಪರಿಶೀಲಿಸುತ್ತದೆ. ಪ್ರತಿಯೊಬ್ಬರೂ, ನಮ್ಮ ಸಮ್ಮೇಳನಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಎಲ್ಲಾ ನಮೂದುಗಳನ್ನು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ.
Subid ಮೂಲಕ ಹುಡುಕುವುದು ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಜಟಿಲವಾಗಿದೆ. ನಾವು ಮೊದಲು ಕೀಲಿಯ ಸೂಚಿಯನ್ನು ಕಂಡುಹಿಡಿಯಬೇಕು, ತದನಂತರ ಈ ಸೂಚ್ಯಂಕದೊಂದಿಗೆ ಅಂಶವನ್ನು ತೆಗೆದುಕೊಂಡು ಈ ಮೌಲ್ಯವು ನಮಗೆ ಬೇಕಾದುದನ್ನು ಪರಿಶೀಲಿಸಿ. ಆದರೆ ಅದೇನೇ ಇದ್ದರೂ ತುಂಬಾ ಸರಳ ಮತ್ತು ಸಾಂದ್ರವಾಗಿರುತ್ತದೆ.
ನೀವು ಬರೆಯಲು ಬಯಸುವ ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿ, ನೀವು ಎಲ್ಲವನ್ನೂ ಒಂದೇ ಸಾಲಿನಲ್ಲಿ ಸಂಗ್ರಹಿಸಿದರೆ, ಅದು ಮೊದಲನೆಯದಾಗಿ, ವಿಕಾರವಾಗಿರುತ್ತದೆ. ಮತ್ತು, ಎರಡನೆಯದಾಗಿ, ಇದು ಎರಡು ಸರಣಿಗಳಿಗಿಂತ ಹೆಚ್ಚು ಕೆಲಸ ಮಾಡಿದೆ.
ಇನ್ನೊಂದು ಉದಾಹರಣೆ. ನೀವು ಐಡಿಗಳನ್ನು ಸಂಗ್ರಹಿಸುವ ಒಂದು ಶ್ರೇಣಿಯನ್ನು ಹೊಂದಿರುವಿರಿ. ಮತ್ತು ನೀವು ಅವುಗಳನ್ನು ಹೆಸರುಗಳಾಗಿ ಭಾಷಾಂತರಿಸಬಹುದು. ಕಾರ್ಯ arrayMap
. ಇದು ವಿಶಿಷ್ಟವಾದ ಲ್ಯಾಂಬ್ಡಾ ಕಾರ್ಯವಾಗಿದೆ. ನೀವು ಅಲ್ಲಿ ಲ್ಯಾಂಬ್ಡಾ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ರವಾನಿಸುತ್ತೀರಿ. ಮತ್ತು ಅವಳು ನಿಘಂಟಿನಿಂದ ಪ್ರತಿ ಐಡಿಗೆ ಹೆಸರಿನ ಮೌಲ್ಯವನ್ನು ಹೊರತೆಗೆಯುತ್ತಾಳೆ.
ನೀವು ಅದೇ ರೀತಿಯಲ್ಲಿ ಹುಡುಕಾಟವನ್ನು ಮಾಡಬಹುದು. ಪ್ರಿಡಿಕೇಟ್ ಫಂಕ್ಷನ್ ಅನ್ನು ರವಾನಿಸಲಾಗುತ್ತದೆ, ಅದು ಯಾವ ಅಂಶಗಳು ಹೊಂದಿಕೆಯಾಗುತ್ತವೆ ಎಂಬುದನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ.
ಈ ವಿಷಯಗಳು ಸರ್ಕ್ಯೂಟ್ ಅನ್ನು ಹೆಚ್ಚು ಸರಳಗೊಳಿಸುತ್ತವೆ ಮತ್ತು ಹಲವಾರು ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುತ್ತವೆ.
ಆದರೆ ನಾವು ಎದುರಿಸಿದ ಮುಂದಿನ ಸಮಸ್ಯೆ ಮತ್ತು ನಾನು ನಮೂದಿಸಲು ಬಯಸುವ ಸಮರ್ಥ ಪ್ರಶ್ನೆಗಳು.
- ಕ್ಲಿಕ್ಹೌಸ್ ಪ್ರಶ್ನೆ ಯೋಜಕವನ್ನು ಹೊಂದಿಲ್ಲ. ಖಂಡಿತವಾಗಿಯೂ ಇಲ್ಲ.
- ಆದರೆ ಅದೇನೇ ಇದ್ದರೂ, ಸಂಕೀರ್ಣ ಪ್ರಶ್ನೆಗಳನ್ನು ಇನ್ನೂ ಯೋಜಿಸಬೇಕಾಗಿದೆ. ಯಾವ ಸಂದರ್ಭಗಳಲ್ಲಿ?
- ವಿನಂತಿಯು ಹಲವಾರು ಸೇರ್ಪಡೆಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ನೀವು ಉಪಆಯ್ಕೆಗಳಲ್ಲಿ ಸುತ್ತುವಿರಿ. ಮತ್ತು ಅವುಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಕ್ರಮವು ಮುಖ್ಯವಾಗಿದೆ.
- ಮತ್ತು ಎರಡನೆಯದಾಗಿ, ವಿನಂತಿಯನ್ನು ವಿತರಿಸಿದರೆ. ಏಕೆಂದರೆ ವಿತರಿಸಿದ ಪ್ರಶ್ನೆಯಲ್ಲಿ, ಅತ್ಯಂತ ಒಳಗಿನ ಉಪಆಯ್ಕೆಯನ್ನು ಮಾತ್ರ ವಿತರಿಸಿದ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯಗತಗೊಳಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಉಳಿದಂತೆ ನೀವು ಸಂಪರ್ಕಪಡಿಸಿದ ಮತ್ತು ಅಲ್ಲಿ ಕಾರ್ಯಗತಗೊಳಿಸಿದ ಸರ್ವರ್ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ. ಆದ್ದರಿಂದ, ನೀವು ಹಲವಾರು ಸೇರ್ಪಡೆಗಳೊಂದಿಗೆ ಪ್ರಶ್ನೆಗಳನ್ನು ವಿತರಿಸಿದ್ದರೆ, ನೀವು ಆದೇಶವನ್ನು ಆರಿಸಬೇಕಾಗುತ್ತದೆ.
ಮತ್ತು ಸರಳವಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ ಸಹ, ಕೆಲವೊಮ್ಮೆ ನೀವು ಶೆಡ್ಯೂಲರ್ನ ಕೆಲಸವನ್ನು ಸಹ ಮಾಡಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರಶ್ನೆಗಳನ್ನು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಪುನಃ ಬರೆಯಬೇಕು.
ಒಂದು ಉದಾಹರಣೆ ಇಲ್ಲಿದೆ. ಎಡಭಾಗದಲ್ಲಿ ಟಾಪ್ 5 ದೇಶಗಳನ್ನು ತೋರಿಸುವ ಪ್ರಶ್ನೆಯಿದೆ. ಮತ್ತು ಇದು 2,5 ಸೆಕೆಂಡುಗಳಲ್ಲಿ ಚಲಿಸುತ್ತದೆ, ನಾನು ಭಾವಿಸುತ್ತೇನೆ. ಮತ್ತು ಬಲಭಾಗದಲ್ಲಿ ಅದೇ ವಿನಂತಿಯಾಗಿದೆ, ಆದರೆ ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಪುನಃ ಬರೆಯಲಾಗಿದೆ. ಸ್ಟ್ರಿಂಗ್ ಮೂಲಕ ಗುಂಪು ಮಾಡುವ ಬದಲು, ನಾವು ಕೀ (ಇಂಟ್) ಮೂಲಕ ಗುಂಪು ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಮತ್ತು ಇದು ವೇಗವಾಗಿರುತ್ತದೆ. ತದನಂತರ ನಾವು ಫಲಿತಾಂಶಕ್ಕೆ ನಿಘಂಟನ್ನು ಸಂಪರ್ಕಿಸಿದ್ದೇವೆ. 2,5 ಸೆಕೆಂಡುಗಳ ಬದಲಿಗೆ, ವಿನಂತಿಯು 1,5 ಸೆಕೆಂಡುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಇದು ಒಳ್ಳೆಯದಿದೆ.
ಫಿಲ್ಟರ್ಗಳನ್ನು ಪುನಃ ಬರೆಯುವುದರೊಂದಿಗೆ ಇದೇ ಉದಾಹರಣೆ. ರಷ್ಯಾಕ್ಕೆ ಒಂದು ವಿನಂತಿ ಇಲ್ಲಿದೆ. ಇದು 5 ಸೆಕೆಂಡುಗಳವರೆಗೆ ಚಲಿಸುತ್ತದೆ. ನಾವು ಅದನ್ನು ಮತ್ತೆ ಸ್ಟ್ರಿಂಗ್ ಅಲ್ಲ, ಆದರೆ ರಷ್ಯಾಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಕೆಲವು ಕೀಲಿಗಳೊಂದಿಗೆ ಸಂಖ್ಯೆಗಳನ್ನು ಹೋಲಿಸುವ ರೀತಿಯಲ್ಲಿ ಅದನ್ನು ಪುನಃ ಬರೆದರೆ, ಅದು ಹೆಚ್ಚು ವೇಗವಾಗಿರುತ್ತದೆ.
ಅಂತಹ ಅನೇಕ ತಂತ್ರಗಳಿವೆ. ಮತ್ತು ನೀವು ಈಗಾಗಲೇ ವೇಗವಾಗಿ ಚಾಲನೆಯಲ್ಲಿದೆ ಎಂದು ನೀವು ಭಾವಿಸುವ ಪ್ರಶ್ನೆಗಳನ್ನು ಗಮನಾರ್ಹವಾಗಿ ವೇಗಗೊಳಿಸಲು ಅವರು ನಿಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಡುತ್ತಾರೆ, ಅಥವಾ ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, ನಿಧಾನವಾಗಿ ಚಾಲನೆಯಲ್ಲಿದೆ. ಅವುಗಳನ್ನು ಇನ್ನೂ ವೇಗವಾಗಿ ತಯಾರಿಸಬಹುದು.
- ವಿತರಿಸಿದ ಕ್ರಮದಲ್ಲಿ ಗರಿಷ್ಠ ಕೆಲಸ.
- ನಾನು ಇಂಟ್ಸ್ ಮೂಲಕ ಮಾಡಿದಂತೆ ಕನಿಷ್ಠ ಪ್ರಕಾರಗಳ ಮೂಲಕ ವಿಂಗಡಿಸುವುದು.
- ಯಾವುದೇ ಸೇರ್ಪಡೆಗಳು ಅಥವಾ ನಿಘಂಟುಗಳು ಇದ್ದರೆ, ಅವುಗಳನ್ನು ಕೊನೆಯದಾಗಿ ಮಾಡುವುದು ಉತ್ತಮ, ನೀವು ಈಗಾಗಲೇ ಡೇಟಾವನ್ನು ಕನಿಷ್ಠ ಭಾಗಶಃ ಗುಂಪು ಮಾಡಿದ್ದರೆ, ನಂತರ ಸೇರ್ಪಡೆ ಕಾರ್ಯಾಚರಣೆ ಅಥವಾ ನಿಘಂಟಿಗೆ ಕರೆ ಮಾಡುವುದನ್ನು ಕಡಿಮೆ ಬಾರಿ ಕರೆಯಲಾಗುತ್ತದೆ ಮತ್ತು ಅದು ವೇಗವಾಗಿರುತ್ತದೆ.
- ಫಿಲ್ಟರ್ಗಳನ್ನು ಬದಲಾಯಿಸಲಾಗುತ್ತಿದೆ.
ನಾನು ಪ್ರದರ್ಶಿಸಿದ ತಂತ್ರಗಳು ಮಾತ್ರವಲ್ಲದೆ ಇತರ ತಂತ್ರಗಳಿವೆ. ಮತ್ತು ಅವರೆಲ್ಲರೂ ಕೆಲವೊಮ್ಮೆ ಪ್ರಶ್ನೆಗಳ ಮರಣದಂಡನೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ವೇಗಗೊಳಿಸಲು ನಿಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಡುತ್ತಾರೆ.
ಮುಂದಿನ ಉದಾಹರಣೆಗೆ ಹೋಗೋಣ. USA ನಿಂದ ಕಂಪನಿ X. ಅವಳು ಏನು ಮಾಡುತ್ತಿದ್ದಾಳೆ?
ಒಂದು ಕಾರ್ಯವಿತ್ತು:
- ಜಾಹೀರಾತು ವಹಿವಾಟುಗಳ ಆಫ್ಲೈನ್ ಲಿಂಕ್.
- ವಿಭಿನ್ನ ಬೈಂಡಿಂಗ್ ಮಾದರಿಗಳ ಸಿಮ್ಯುಲೇಶನ್.
ಏನಿದು ಸನ್ನಿವೇಶ?
ಒಬ್ಬ ಸಾಮಾನ್ಯ ಸಂದರ್ಶಕರು ಸೈಟ್ಗೆ ಭೇಟಿ ನೀಡುತ್ತಾರೆ, ಉದಾಹರಣೆಗೆ, ತಿಂಗಳಿಗೆ 20 ಬಾರಿ ವಿವಿಧ ಜಾಹೀರಾತುಗಳಿಂದ, ಅಥವಾ ಕೆಲವೊಮ್ಮೆ ಅವರು ಯಾವುದೇ ಜಾಹೀರಾತುಗಳಿಲ್ಲದೆ ಬರುತ್ತಾರೆ, ಏಕೆಂದರೆ ಅವರು ಈ ಸೈಟ್ ಅನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳುತ್ತಾರೆ. ಕೆಲವು ಉತ್ಪನ್ನಗಳನ್ನು ನೋಡುತ್ತದೆ, ಅವುಗಳನ್ನು ಬುಟ್ಟಿಯಲ್ಲಿ ಇರಿಸುತ್ತದೆ, ಅವುಗಳನ್ನು ಬುಟ್ಟಿಯಿಂದ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮತ್ತು, ಕೊನೆಯಲ್ಲಿ, ಅವನು ಏನನ್ನಾದರೂ ಖರೀದಿಸುತ್ತಾನೆ.
ಸಮಂಜಸವಾದ ಪ್ರಶ್ನೆಗಳು: "ಅಗತ್ಯವಿದ್ದರೆ ಜಾಹೀರಾತಿಗಾಗಿ ಯಾರು ಪಾವತಿಸಬೇಕು?" ಮತ್ತು "ಯಾವ ಜಾಹೀರಾತು, ಯಾವುದಾದರೂ ಇದ್ದರೆ, ಅವನ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರಿತು?" ಅಂದರೆ, ಅವನು ಏಕೆ ಖರೀದಿಸಿದನು ಮತ್ತು ಈ ವ್ಯಕ್ತಿಯನ್ನು ಹೋಲುವ ಜನರು ಸಹ ಖರೀದಿಸುತ್ತಾರೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು ಹೇಗೆ?
ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು, ನೀವು ವೆಬ್ಸೈಟ್ನಲ್ಲಿ ಸಂಭವಿಸುವ ಈವೆಂಟ್ಗಳನ್ನು ಸರಿಯಾದ ರೀತಿಯಲ್ಲಿ ಸಂಪರ್ಕಿಸಬೇಕು, ಅಂದರೆ, ಹೇಗಾದರೂ ಅವುಗಳ ನಡುವೆ ಸಂಪರ್ಕವನ್ನು ನಿರ್ಮಿಸಿ. ನಂತರ ಅವುಗಳನ್ನು ವಿಶ್ಲೇಷಣೆಗಾಗಿ DWH ಗೆ ವರ್ಗಾಯಿಸಲಾಗುತ್ತದೆ. ಮತ್ತು ಈ ವಿಶ್ಲೇಷಣೆಯ ಆಧಾರದ ಮೇಲೆ, ಯಾವ ಜಾಹೀರಾತನ್ನು ಯಾರು ತೋರಿಸಬೇಕೆಂದು ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಿ.
ಜಾಹೀರಾತು ವಹಿವಾಟು ಎನ್ನುವುದು ಸಂಬಂಧಿತ ಬಳಕೆದಾರರ ಈವೆಂಟ್ಗಳ ಒಂದು ಗುಂಪಾಗಿದ್ದು ಅದು ಜಾಹೀರಾತು ತೋರಿಸುವುದರೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ, ನಂತರ ಏನಾದರೂ ಸಂಭವಿಸುತ್ತದೆ, ನಂತರ ಬಹುಶಃ ಖರೀದಿ, ಮತ್ತು ನಂತರ ಖರೀದಿಯೊಳಗೆ ಖರೀದಿಗಳು ಇರಬಹುದು. ಉದಾಹರಣೆಗೆ, ಇದು ಮೊಬೈಲ್ ಅಪ್ಲಿಕೇಶನ್ ಅಥವಾ ಮೊಬೈಲ್ ಗೇಮ್ ಆಗಿದ್ದರೆ, ಸಾಮಾನ್ಯವಾಗಿ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಸ್ಥಾಪಿಸುವುದು ಉಚಿತವಾಗಿದೆ, ಆದರೆ ಅಲ್ಲಿ ಬೇರೆ ಏನಾದರೂ ಮಾಡಿದರೆ, ಅದಕ್ಕೆ ಹಣದ ಅಗತ್ಯವಿರಬಹುದು. ಮತ್ತು ಒಬ್ಬ ವ್ಯಕ್ತಿಯು ಅಪ್ಲಿಕೇಶನ್ನಲ್ಲಿ ಹೆಚ್ಚು ಖರ್ಚು ಮಾಡುತ್ತಾನೆ, ಅದು ಹೆಚ್ಚು ಮೌಲ್ಯಯುತವಾಗಿರುತ್ತದೆ. ಆದರೆ ಇದಕ್ಕಾಗಿ ನೀವು ಎಲ್ಲವನ್ನೂ ಸಂಪರ್ಕಿಸಬೇಕು.
ಅನೇಕ ಬೈಂಡಿಂಗ್ ಮಾದರಿಗಳಿವೆ.
ಅತ್ಯಂತ ಜನಪ್ರಿಯವಾದವುಗಳು:
- ಕೊನೆಯ ಸಂವಾದ, ಅಲ್ಲಿ ಪರಸ್ಪರ ಕ್ರಿಯೆಯು ಒಂದು ಕ್ಲಿಕ್ ಅಥವಾ ಇಂಪ್ರೆಶನ್ ಆಗಿರುತ್ತದೆ.
- ಮೊದಲ ಸಂವಹನ, ಅಂದರೆ ಸೈಟ್ಗೆ ವ್ಯಕ್ತಿಯನ್ನು ಕರೆತಂದ ಮೊದಲ ವಿಷಯ.
- ರೇಖೀಯ ಸಂಯೋಜನೆ - ಎಲ್ಲರಿಗೂ ಸಮಾನ ಪಾಲು.
- ಕ್ಷೀಣತೆ.
- ಮತ್ತು ಇತ್ಯಾದಿ.
ಮತ್ತು ಆರಂಭದಲ್ಲಿ ಎಲ್ಲವೂ ಹೇಗೆ ಕೆಲಸ ಮಾಡಿತು? ರನ್ಟೈಮ್ ಮತ್ತು ಕಸ್ಸಂದ್ರ ಇತ್ತು. ಕಸ್ಸಂದ್ರವನ್ನು ವಹಿವಾಟು ಸಂಗ್ರಹವಾಗಿ ಬಳಸಲಾಗುತ್ತಿತ್ತು, ಅಂದರೆ ಎಲ್ಲಾ ಸಂಬಂಧಿತ ವಹಿವಾಟುಗಳನ್ನು ಅದರಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಮತ್ತು ರನ್ಟೈಮ್ನಲ್ಲಿ ಕೆಲವು ಈವೆಂಟ್ ಸಂಭವಿಸಿದಾಗ, ಉದಾಹರಣೆಗೆ, ಒಂದು ಪುಟದ ಪ್ರದರ್ಶನ ಅಥವಾ ಬೇರೆ ಯಾವುದನ್ನಾದರೂ, ಅಂತಹ ವ್ಯಕ್ತಿ ಇದ್ದಾನೋ ಇಲ್ಲವೋ ಎಂದು ಕಸ್ಸಾಂಡ್ರಾಗೆ ವಿನಂತಿಸಲಾಗುತ್ತದೆ. ನಂತರ ಅದಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ವಹಿವಾಟುಗಳನ್ನು ಸ್ವೀಕರಿಸಲಾಯಿತು. ಮತ್ತು ಬೈಂಡಿಂಗ್ ಮಾಡಲಾಯಿತು.
ಮತ್ತು ವಿನಂತಿಯು ವಹಿವಾಟು ಐಡಿಯನ್ನು ಒಳಗೊಂಡಿರುವುದು ನೀವು ಅದೃಷ್ಟವಂತರಾಗಿದ್ದರೆ, ಇದು ಸುಲಭವಾಗಿದೆ. ಆದರೆ ಸಾಮಾನ್ಯವಾಗಿ ನಿಮಗೆ ಅದೃಷ್ಟವಿರುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಕೊನೆಯ ವಹಿವಾಟು ಅಥವಾ ಕೊನೆಯ ಕ್ಲಿಕ್ನಲ್ಲಿ ವಹಿವಾಟು ಇತ್ಯಾದಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಅಗತ್ಯವಾಗಿತ್ತು.
ಮತ್ತು ಕೊನೆಯ ಕ್ಲಿಕ್ಗೆ ಲಿಂಕ್ ಮಾಡುವವರೆಗೆ ಎಲ್ಲವೂ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡಿದೆ. ಏಕೆಂದರೆ ನೀವು ಒಂದು ತಿಂಗಳಿಗೆ ವಿಂಡೋವನ್ನು ಹೊಂದಿಸಿದರೆ ದಿನಕ್ಕೆ 10 ಮಿಲಿಯನ್ ಕ್ಲಿಕ್ಗಳು, ತಿಂಗಳಿಗೆ 300 ಮಿಲಿಯನ್ ಕ್ಲಿಕ್ಗಳು ಇವೆ. ಮತ್ತು ಕಸ್ಸಂದ್ರದಲ್ಲಿ ತ್ವರಿತವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಇದು ಎಲ್ಲಾ ಸ್ಮರಣೆಯಲ್ಲಿರಬೇಕು, ಏಕೆಂದರೆ ರನ್ಟೈಮ್ ತ್ವರಿತವಾಗಿ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ, ಸರಿಸುಮಾರು 10-15 ಸರ್ವರ್ಗಳು ಅಗತ್ಯವಿದೆ.
ಮತ್ತು ಅವರು ಡಿಸ್ಪ್ಲೇಗೆ ವಹಿವಾಟನ್ನು ಲಿಂಕ್ ಮಾಡಲು ಬಯಸಿದಾಗ, ಅದು ತಕ್ಷಣವೇ ತಮಾಷೆಯಾಗಿಲ್ಲ. ಮತ್ತು ಏಕೆ? 30 ಪಟ್ಟು ಹೆಚ್ಚು ಈವೆಂಟ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸಬೇಕಾಗಿದೆ ಎಂದು ನೋಡಬಹುದು. ಮತ್ತು, ಅದರ ಪ್ರಕಾರ, ನಿಮಗೆ 30 ಪಟ್ಟು ಹೆಚ್ಚು ಸರ್ವರ್ಗಳು ಬೇಕಾಗುತ್ತವೆ. ಮತ್ತು ಇದು ಕೆಲವು ರೀತಿಯ ಖಗೋಳ ವ್ಯಕ್ತಿ ಎಂದು ತಿರುಗುತ್ತದೆ. ರನ್ಟೈಮ್ನಲ್ಲಿ ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಸರ್ವರ್ಗಳಿದ್ದರೂ, ಲಿಂಕ್ ಮಾಡುವ ಸಲುವಾಗಿ 500 ಸರ್ವರ್ಗಳನ್ನು ಇಟ್ಟುಕೊಳ್ಳುವುದು ಒಂದು ರೀತಿಯ ತಪ್ಪು ಅಂಕಿ ಅಂಶವಾಗಿದೆ. ಮತ್ತು ಅವರು ಏನು ಮಾಡಬೇಕೆಂದು ಯೋಚಿಸಲು ಪ್ರಾರಂಭಿಸಿದರು.
ಮತ್ತು ನಾವು ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಹೋದೆವು. ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಇದನ್ನು ಹೇಗೆ ಮಾಡುವುದು? ಮೊದಲ ನೋಟದಲ್ಲಿ, ಇದು ಆಂಟಿಪ್ಯಾಟರ್ನ್ಗಳ ಗುಂಪಾಗಿದೆ ಎಂದು ತೋರುತ್ತದೆ.
- ವಹಿವಾಟು ಬೆಳೆಯುತ್ತಿದೆ, ನಾವು ಅದಕ್ಕೆ ಹೆಚ್ಚು ಹೆಚ್ಚು ಈವೆಂಟ್ಗಳನ್ನು ಲಗತ್ತಿಸುತ್ತಿದ್ದೇವೆ, ಅಂದರೆ ಇದು ರೂಪಾಂತರಗೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ಬದಲಾಯಿಸಬಹುದಾದ ವಸ್ತುಗಳೊಂದಿಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ.
- ಸಂದರ್ಶಕರು ನಮ್ಮ ಬಳಿಗೆ ಬಂದಾಗ, ನಾವು ಅವರ ವಹಿವಾಟುಗಳನ್ನು ಕೀ ಮೂಲಕ, ಅವರ ಭೇಟಿ ಐಡಿ ಮೂಲಕ ಹಿಂಪಡೆಯಬೇಕು. ಇದು ಪಾಯಿಂಟ್ ಪ್ರಶ್ನೆಯಾಗಿದೆ; ಕ್ಲಿಕ್ಹೌಸ್ ಅದನ್ನು ಮಾಡುವುದಿಲ್ಲ. ಸಾಮಾನ್ಯವಾಗಿ ClickHouse ದೊಡ್ಡದಾಗಿದೆ…ಸ್ಕ್ಯಾನ್ಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ ಇಲ್ಲಿ ನಾವು ಹಲವಾರು ದಾಖಲೆಗಳನ್ನು ಪಡೆಯಬೇಕಾಗಿದೆ. ಸಹ ವಿರೋಧಿ ಮಾದರಿ.
- ಹೆಚ್ಚುವರಿಯಾಗಿ, ವಹಿವಾಟು json ನಲ್ಲಿತ್ತು, ಆದರೆ ಅವರು ಅದನ್ನು ಪುನಃ ಬರೆಯಲು ಬಯಸುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ಅವರು json ಅನ್ನು ರಚನೆಯಿಲ್ಲದೆ ಸಂಗ್ರಹಿಸಲು ಬಯಸಿದ್ದರು ಮತ್ತು ಅಗತ್ಯವಿದ್ದರೆ, ಅದರಿಂದ ಏನನ್ನಾದರೂ ಎಳೆಯಿರಿ. ಮತ್ತು ಇದು ಸಹ ವಿರೋಧಿ ಮಾದರಿಯಾಗಿದೆ.
ಅಂದರೆ, ಆಂಟಿಪ್ಯಾಟರ್ನ್ಗಳ ಒಂದು ಸೆಟ್.
ಆದರೆ ಅದೇನೇ ಇದ್ದರೂ, ನಾವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸಲು ನಿರ್ವಹಿಸುತ್ತಿದ್ದೇವೆ.
ಏನು ಮಾಡಲಾಯಿತು? ಕ್ಲಿಕ್ಹೌಸ್ ಕಾಣಿಸಿಕೊಂಡಿತು, ಅದರಲ್ಲಿ ಲಾಗ್ಗಳನ್ನು ದಾಖಲೆಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಎಸೆಯಲಾಯಿತು. ಕ್ಲಿಕ್ಹೌಸ್ನಿಂದ ಲಾಗ್ಗಳನ್ನು ಸ್ವೀಕರಿಸಿದ ಆಟ್ರಿಬ್ಯೂಟ್ ಸೇವೆ ಕಾಣಿಸಿಕೊಂಡಿದೆ. ಅದರ ನಂತರ, ಭೇಟಿ ಐಡಿ ಮೂಲಕ ಪ್ರತಿ ಪ್ರವೇಶಕ್ಕಾಗಿ, ನಾನು ಇನ್ನೂ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸದ ವಹಿವಾಟುಗಳನ್ನು ಮತ್ತು ಜೊತೆಗೆ ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳನ್ನು ಸ್ವೀಕರಿಸಿದ್ದೇನೆ, ಅಂದರೆ ಈಗಾಗಲೇ ಸಂಪರ್ಕಗೊಂಡಿರುವ ವಹಿವಾಟುಗಳು, ಅವುಗಳೆಂದರೆ ಹಿಂದಿನ ಕೆಲಸದ ಫಲಿತಾಂಶ. ನಾನು ಈಗಾಗಲೇ ಅವರಿಂದ ತರ್ಕವನ್ನು ಮಾಡಿದ್ದೇನೆ, ಸರಿಯಾದ ವಹಿವಾಟನ್ನು ಆಯ್ಕೆ ಮಾಡಿದ್ದೇನೆ ಮತ್ತು ಹೊಸ ಈವೆಂಟ್ಗಳನ್ನು ಸಂಪರ್ಕಿಸಿದ್ದೇನೆ. ಮತ್ತೆ ಲಾಗ್ ಮಾಡಿದೆ. ಲಾಗ್ ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಹಿಂತಿರುಗಿತು, ಅಂದರೆ ಇದು ನಿರಂತರವಾಗಿ ಆವರ್ತಕ ವ್ಯವಸ್ಥೆಯಾಗಿದೆ. ಮತ್ತು ಜೊತೆಗೆ, ನಾನು ಅಲ್ಲಿ ಅದನ್ನು ವಿಶ್ಲೇಷಿಸಲು DWH ಗೆ ಹೋದೆ.
ಈ ರೂಪದಲ್ಲಿ ಅದು ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡಲಿಲ್ಲ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ಸುಲಭವಾಗಿಸಲು, ಭೇಟಿಯ ಐಡಿಗಾಗಿ ವಿನಂತಿ ಇದ್ದಾಗ, ಅವರು ಈ ವಿನಂತಿಗಳನ್ನು 1-000 ಭೇಟಿ ಐಡಿಗಳ ಬ್ಲಾಕ್ಗಳಾಗಿ ಗುಂಪು ಮಾಡಿದರು ಮತ್ತು 2-000 ಜನರಿಗೆ ಎಲ್ಲಾ ವಹಿವಾಟುಗಳನ್ನು ಹೊರತೆಗೆದರು. ತದನಂತರ ಇದು ಎಲ್ಲಾ ಕೆಲಸ ಮಾಡಿದೆ.
ನೀವು ಕ್ಲಿಕ್ಹೌಸ್ನ ಒಳಗೆ ನೋಡಿದರೆ, ಈ ಎಲ್ಲವನ್ನು ಪೂರೈಸುವ 3 ಮುಖ್ಯ ಕೋಷ್ಟಕಗಳು ಮಾತ್ರ ಇವೆ.
ಲಾಗ್ಗಳನ್ನು ಅಪ್ಲೋಡ್ ಮಾಡಲಾದ ಮೊದಲ ಟೇಬಲ್, ಮತ್ತು ಲಾಗ್ಗಳನ್ನು ವಾಸ್ತವಿಕವಾಗಿ ಯಾವುದೇ ಪ್ರಕ್ರಿಯೆಯಿಲ್ಲದೆ ಅಪ್ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ.
ಎರಡನೇ ಟೇಬಲ್. ವಸ್ತುರೂಪವಾದ ವೀಕ್ಷಣೆಯ ಮೂಲಕ, ಈ ಲಾಗ್ಗಳಿಂದ ಇನ್ನೂ ಆಪಾದಿಸದ, ಅಂದರೆ, ಸಂಬಂಧವಿಲ್ಲದ ಘಟನೆಗಳನ್ನು ಹೊರತೆಗೆಯಲಾಗಿದೆ. ಮತ್ತು ವಸ್ತುರೂಪದ ವೀಕ್ಷಣೆಯ ಮೂಲಕ, ಸ್ನ್ಯಾಪ್ಶಾಟ್ ನಿರ್ಮಿಸಲು ವಹಿವಾಟುಗಳನ್ನು ಈ ಲಾಗ್ಗಳಿಂದ ಹೊರತೆಗೆಯಲಾಗಿದೆ. ಅಂದರೆ, ವಿಶೇಷವಾದ ವಸ್ತುರೂಪದ ವೀಕ್ಷಣೆಯೊಂದಿಗೆ ಸ್ನ್ಯಾಪ್ಶಾಟ್ ಅನ್ನು ರಚಿಸಲಾಗಿದೆ, ಅವುಗಳೆಂದರೆ ವಹಿವಾಟಿನ ಕೊನೆಯ ಸಂಚಿತ ಸ್ಥಿತಿ.
ಇಲ್ಲಿ ಪಠ್ಯವನ್ನು SQL ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ. ನಾನು ಅದರಲ್ಲಿ ಹಲವಾರು ಪ್ರಮುಖ ವಿಷಯಗಳ ಬಗ್ಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಬಯಸುತ್ತೇನೆ.
Json ನಿಂದ ಕಾಲಮ್ಗಳು ಮತ್ತು ಕ್ಷೇತ್ರಗಳನ್ನು ಹೊರತೆಗೆಯಲು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿನ ಸಾಮರ್ಥ್ಯವು ಮೊದಲ ಪ್ರಮುಖ ವಿಷಯವಾಗಿದೆ. ಅಂದರೆ, ಕ್ಲಿಕ್ಹೌಸ್ json ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಕೆಲವು ವಿಧಾನಗಳನ್ನು ಹೊಂದಿದೆ. ಅವರು ತುಂಬಾ ಪ್ರಾಚೀನರು.
visitParamExtractInt ನಿಮಗೆ json ನಿಂದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊರತೆಗೆಯಲು ಅನುಮತಿಸುತ್ತದೆ, ಅಂದರೆ ಮೊದಲ ಹಿಟ್ ಅನ್ನು ಪ್ರಚೋದಿಸಲಾಗುತ್ತದೆ. ಮತ್ತು ಈ ರೀತಿಯಲ್ಲಿ ನೀವು ವಹಿವಾಟು ಐಡಿ ಅಥವಾ ಭೇಟಿ ಐಡಿಯನ್ನು ಹಿಂತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಈ ಸಮಯ.
ಎರಡನೆಯದಾಗಿ, ಇಲ್ಲಿ ಟ್ರಿಕಿ ಮೆಟೀಲೈಸ್ಡ್ ಕ್ಷೇತ್ರವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ. ಅದರ ಅರ್ಥವೇನು? ಇದರರ್ಥ ನೀವು ಅದನ್ನು ಟೇಬಲ್ಗೆ ಸೇರಿಸಲಾಗುವುದಿಲ್ಲ, ಅಂದರೆ ಅದನ್ನು ಸೇರಿಸಲಾಗಿಲ್ಲ, ಸೇರಿಸಿದಾಗ ಅದನ್ನು ಲೆಕ್ಕಹಾಕಲಾಗುತ್ತದೆ ಮತ್ತು ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ನೀವು ಸೇರಿಸಿದಾಗ, ಕ್ಲಿಕ್ಹೌಸ್ ನಿಮಗಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಮತ್ತು ನಿಮಗೆ ಬೇಕಾದುದನ್ನು json ನಿಂದ ಹೊರತೆಗೆಯಲಾಗಿದೆ.
ಈ ಸಂದರ್ಭದಲ್ಲಿ, ವಸ್ತುರೂಪದ ನೋಟವು ಕಚ್ಚಾ ತಂತಿಗಳಿಗೆ ಆಗಿದೆ. ಮತ್ತು ಬಹುತೇಕ ಕಚ್ಚಾ ದಾಖಲೆಗಳೊಂದಿಗೆ ಮೊದಲ ಟೇಬಲ್ ಅನ್ನು ಬಳಸಲಾಗುತ್ತದೆ. ಮತ್ತು ಅದು ಏನು ಮಾಡುತ್ತದೆ? ಮೊದಲನೆಯದಾಗಿ, ಇದು ವಿಂಗಡಣೆಯನ್ನು ಬದಲಾಯಿಸುತ್ತದೆ, ಅಂದರೆ ವಿಂಗಡಣೆಯನ್ನು ಈಗ ಭೇಟಿ ಐಡಿ ಮೂಲಕ ಮಾಡಲಾಗುತ್ತದೆ, ಏಕೆಂದರೆ ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿಗೆ ನಿರ್ದಿಷ್ಟವಾಗಿ ನಾವು ಅವರ ವಹಿವಾಟನ್ನು ತ್ವರಿತವಾಗಿ ಹೊರತೆಗೆಯಬೇಕಾಗಿದೆ.
ಎರಡನೆಯ ಪ್ರಮುಖ ವಿಷಯವೆಂದರೆ ಇಂಡೆಕ್ಸ್_ಗ್ರಾನ್ಯುಲಾರಿಟಿ. ನೀವು MergeTree ಅನ್ನು ನೋಡಿದ್ದರೆ, ಸಾಮಾನ್ಯವಾಗಿ ಡೀಫಾಲ್ಟ್ ಮೌಲ್ಯವು 8 index_granularity ಆಗಿರುತ್ತದೆ. ಅದು ಏನು? ಇದು ಸೂಚ್ಯಂಕ ವಿರಳತೆಯ ನಿಯತಾಂಕವಾಗಿದೆ. ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ, ಸೂಚ್ಯಂಕವು ವಿರಳವಾಗಿದೆ; ಅದು ಎಂದಿಗೂ ಪ್ರತಿ ದಾಖಲೆಯನ್ನು ಸೂಚಿಕೆ ಮಾಡುವುದಿಲ್ಲ. ಇದು ಪ್ರತಿ 192 ಕ್ಕೆ ಮಾಡುತ್ತದೆ. ಮತ್ತು ನೀವು ಬಹಳಷ್ಟು ಡೇಟಾವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾದಾಗ ಇದು ಒಳ್ಳೆಯದು, ಆದರೆ ನೀವು ಸ್ವಲ್ಪ ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾದಾಗ ಅದು ಕೆಟ್ಟದಾಗಿದೆ, ಏಕೆಂದರೆ ಬಹಳಷ್ಟು ಓವರ್ಹೆಡ್ ಇದೆ. ಮತ್ತು ನಾವು ಸೂಚ್ಯಂಕ ಗ್ರ್ಯಾನ್ಯುಲಾರಿಟಿಯನ್ನು ಕಡಿಮೆ ಮಾಡಿದರೆ, ನಾವು ಓವರ್ಹೆಡ್ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತೇವೆ. ನೀವು ಅದನ್ನು ಒಂದಕ್ಕೆ ಕಡಿಮೆ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ಸಾಕಷ್ಟು ಮೆಮೊರಿ ಇಲ್ಲದಿರಬಹುದು. ಸೂಚ್ಯಂಕವನ್ನು ಯಾವಾಗಲೂ ಮೆಮೊರಿಯಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ.
ಮತ್ತು ಸ್ನ್ಯಾಪ್ಶಾಟ್ ಕೆಲವು ಇತರ ಆಸಕ್ತಿದಾಯಕ ಕ್ಲಿಕ್ಹೌಸ್ ಕಾರ್ಯಗಳನ್ನು ಬಳಸುತ್ತದೆ.
ಮೊದಲನೆಯದು ಅಗ್ರಿಗೇಟಿಂಗ್ ಮರ್ಜ್ ಟ್ರೀ. ಮತ್ತು AggregatingMergeTree argMax ಅನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ, ಅಂದರೆ ಇದು ಕೊನೆಯ ಟೈಮ್ಸ್ಟ್ಯಾಂಪ್ಗೆ ಅನುಗುಣವಾಗಿ ವಹಿವಾಟು ಸ್ಥಿತಿಯಾಗಿದೆ. ಈ ಸಂದರ್ಶಕರಿಗೆ ಯಾವಾಗಲೂ ಹೊಸ ವಹಿವಾಟುಗಳನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ. ಮತ್ತು ಈ ವಹಿವಾಟಿನ ಕೊನೆಯ ಸ್ಥಿತಿಯಲ್ಲಿ, ನಾವು ಈವೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿದ್ದೇವೆ ಮತ್ತು ನಾವು ಹೊಸ ಸ್ಥಿತಿಯನ್ನು ಹೊಂದಿದ್ದೇವೆ. ಅದು ಮತ್ತೆ ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ತಟ್ಟಿತು. ಮತ್ತು ಈ ಭೌತಿಕ ನೋಟದಲ್ಲಿ argMax ಮೂಲಕ ನಾವು ಯಾವಾಗಲೂ ಪ್ರಸ್ತುತ ಸ್ಥಿತಿಯನ್ನು ಪಡೆಯಬಹುದು.
- ಬೈಂಡಿಂಗ್ ರನ್ಟೈಮ್ನಿಂದ "ಅನ್ಟೆಥರ್" ಆಗಿದೆ.
- ತಿಂಗಳಿಗೆ 3 ಬಿಲಿಯನ್ ವಹಿವಾಟುಗಳನ್ನು ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲಾಗುತ್ತದೆ. ಇದು ಕಸ್ಸಂದ್ರಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಕ್ರಮವಾಗಿದೆ, ಅಂದರೆ, ವಿಶಿಷ್ಟ ವಹಿವಾಟು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ.
- 2x5 ಕ್ಲಿಕ್ಹೌಸ್ ಸರ್ವರ್ಗಳ ಕ್ಲಸ್ಟರ್. 5 ಸರ್ವರ್ಗಳು ಮತ್ತು ಪ್ರತಿ ಸರ್ವರ್ ಪ್ರತಿಕೃತಿಯನ್ನು ಹೊಂದಿದೆ. ಕ್ಲಿಕ್ ಆಧಾರಿತ ಆಟ್ರಿಬ್ಯೂಷನ್ ಮಾಡಲು ಇದು ಕಸ್ಸಂದ್ರಕ್ಕಿಂತ ಕಡಿಮೆಯಾಗಿದೆ, ಆದರೆ ಇಲ್ಲಿ ನಾವು ಇಂಪ್ರೆಶನ್ ಆಧಾರಿತತೆಯನ್ನು ಹೊಂದಿದ್ದೇವೆ. ಅಂದರೆ, ಸರ್ವರ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು 30 ಪಟ್ಟು ಹೆಚ್ಚಿಸುವ ಬದಲು, ಅವುಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲಾಗಿದೆ.
ಮತ್ತು ಕೊನೆಯ ಉದಾಹರಣೆಯೆಂದರೆ ಹಣಕಾಸು ಕಂಪನಿ Y, ಇದು ಸ್ಟಾಕ್ ಬೆಲೆಗಳಲ್ಲಿನ ಬದಲಾವಣೆಗಳ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಿದೆ.
ಮತ್ತು ಕಾರ್ಯ ಹೀಗಿತ್ತು:
- ಸರಿಸುಮಾರು 5 ಷೇರುಗಳಿವೆ.
- ಪ್ರತಿ 100 ಮಿಲಿಸೆಕೆಂಡ್ಗಳ ಉಲ್ಲೇಖಗಳು ತಿಳಿದಿವೆ.
- ಡೇಟಾವು 10 ವರ್ಷಗಳಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿದೆ. ಸ್ಪಷ್ಟವಾಗಿ, ಕೆಲವು ಕಂಪನಿಗಳಿಗೆ ಇದು ಹೆಚ್ಚು, ಕೆಲವು ಕಡಿಮೆ.
- ಒಟ್ಟು ಸರಿಸುಮಾರು 100 ಶತಕೋಟಿ ಸಾಲುಗಳಿವೆ.
ಮತ್ತು ಬದಲಾವಣೆಗಳ ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವುದು ಅಗತ್ಯವಾಗಿತ್ತು.
ಇಲ್ಲಿ ಎರಡು ಷೇರುಗಳು ಮತ್ತು ಅವುಗಳ ಉಲ್ಲೇಖಗಳಿವೆ. ಒಂದು ಮೇಲಕ್ಕೆ ಹೋದರೆ ಮತ್ತು ಇನ್ನೊಂದು ಮೇಲಕ್ಕೆ ಹೋದರೆ, ಇದು ಧನಾತ್ಮಕ ಪರಸ್ಪರ ಸಂಬಂಧವಾಗಿದೆ, ಅಂದರೆ ಒಂದು ಮೇಲಕ್ಕೆ ಹೋಗುತ್ತದೆ ಮತ್ತು ಇನ್ನೊಂದು ಮೇಲಕ್ಕೆ ಹೋಗುತ್ತದೆ. ಗ್ರಾಫ್ನ ಅಂತ್ಯದಲ್ಲಿರುವಂತೆ ಒಂದು ಮೇಲಕ್ಕೆ ಹೋದರೆ ಮತ್ತು ಇನ್ನೊಂದು ಕೆಳಗೆ ಹೋದರೆ, ಇದು ನಕಾರಾತ್ಮಕ ಪರಸ್ಪರ ಸಂಬಂಧವಾಗಿದೆ, ಅಂದರೆ ಒಂದು ಮೇಲಕ್ಕೆ ಹೋದಾಗ, ಇನ್ನೊಂದು ಕೆಳಕ್ಕೆ ಹೋಗುತ್ತದೆ.
ಈ ಪರಸ್ಪರ ಬದಲಾವಣೆಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ, ಒಬ್ಬರು ಹಣಕಾಸು ಮಾರುಕಟ್ಟೆಯಲ್ಲಿ ಭವಿಷ್ಯ ನುಡಿಯಬಹುದು.
ಆದರೆ ಕಾರ್ಯ ಕಷ್ಟ. ಇದಕ್ಕಾಗಿ ಏನು ಮಾಡಲಾಗುತ್ತಿದೆ? ನಾವು 100 ಬಿಲಿಯನ್ ದಾಖಲೆಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ: ಸಮಯ, ಸ್ಟಾಕ್ ಮತ್ತು ಬೆಲೆ. ನಾವು ಮೊದಲು ಬೆಲೆ ಅಲ್ಗಾರಿದಮ್ನಿಂದ ರನ್ನಿಂಗ್ ಡಿಫರೆನ್ಸ್ನ 100 ಶತಕೋಟಿ ಬಾರಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾಗಿದೆ. ರನ್ನಿಂಗ್ ಡಿಫರೆನ್ಸ್ ಎನ್ನುವುದು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿನ ಒಂದು ಕಾರ್ಯವಾಗಿದ್ದು ಅದು ಎರಡು ಸಾಲುಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಅನುಕ್ರಮವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತದೆ.
ಮತ್ತು ಅದರ ನಂತರ ನಾವು ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ಮತ್ತು ಪ್ರತಿ ಜೋಡಿಗೆ ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕ ಹಾಕಬೇಕು. 5 ಷೇರುಗಳಿಗೆ, ಜೋಡಿಗಳು 000 ಮಿಲಿಯನ್. ಮತ್ತು ಇದು ಬಹಳಷ್ಟು ಆಗಿದೆ, ಅಂದರೆ 12,5 ಬಾರಿ ನೀವು ಈ ಪರಸ್ಪರ ಸಂಬಂಧದ ಕಾರ್ಯವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾಗುತ್ತದೆ.
ಮತ್ತು ಯಾರಾದರೂ ಮರೆತಿದ್ದರೆ, ͞x ಮತ್ತು ͞y ಚೆಕ್ಮೇಟ್ ಆಗಿರುತ್ತಾರೆ. ಮಾದರಿ ನಿರೀಕ್ಷೆ. ಅಂದರೆ, ನೀವು ಬೇರುಗಳು ಮತ್ತು ಮೊತ್ತಗಳನ್ನು ಮಾತ್ರ ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ಆದರೆ ಈ ಮೊತ್ತದೊಳಗೆ ಇತರ ಮೊತ್ತಗಳನ್ನು ಸಹ ಲೆಕ್ಕ ಹಾಕಬೇಕು. ಸಾಕಷ್ಟು ಮತ್ತು ಸಾಕಷ್ಟು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು 12,5 ಮಿಲಿಯನ್ ಬಾರಿ ಮಾಡಬೇಕಾಗಿದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಗಂಟೆಗಟ್ಟಲೆ ಗುಂಪು ಮಾಡಬೇಕಾಗಿದೆ. ಮತ್ತು ನಮಗೆ ಸಾಕಷ್ಟು ಗಂಟೆಗಳಿವೆ. ಮತ್ತು ನೀವು ಅದನ್ನು 60 ಸೆಕೆಂಡುಗಳಲ್ಲಿ ಮಾಡಬೇಕು. ಇದು ಒಂದು ಜೋಕ್.
ನಾವು ಅದನ್ನು ಹೇಗಾದರೂ ಮಾಡಬೇಕಾಗಿತ್ತು, ಏಕೆಂದರೆ ಕ್ಲಿಕ್ಹೌಸ್ ಬರುವ ಮೊದಲು ಎಲ್ಲವೂ ತುಂಬಾ ನಿಧಾನವಾಗಿ ಕೆಲಸ ಮಾಡಿತು.
ಅವರು ಇದನ್ನು ಹಡೂಪ್ನಲ್ಲಿ, ಸ್ಪಾರ್ಕ್ನಲ್ಲಿ, ಗ್ರೀನ್ಪ್ಲಮ್ನಲ್ಲಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿದರು. ಮತ್ತು ಇದೆಲ್ಲವೂ ತುಂಬಾ ನಿಧಾನ ಅಥವಾ ದುಬಾರಿಯಾಗಿತ್ತು. ಅಂದರೆ, ಅದನ್ನು ಹೇಗಾದರೂ ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಾಯಿತು, ಆದರೆ ನಂತರ ಅದು ದುಬಾರಿಯಾಗಿತ್ತು.
ತದನಂತರ ಕ್ಲಿಕ್ಹೌಸ್ ಬಂದಿತು ಮತ್ತು ಎಲ್ಲವೂ ಹೆಚ್ಚು ಉತ್ತಮವಾಯಿತು.
ಡೇಟಾ ಸ್ಥಳದೊಂದಿಗೆ ನಮಗೆ ಸಮಸ್ಯೆ ಇದೆ ಎಂದು ನಾನು ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ, ಆದ್ದರಿಂದ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ಸ್ಥಳೀಕರಿಸಲಾಗುವುದಿಲ್ಲ. ನಾವು ಕೆಲವು ಡೇಟಾವನ್ನು ಒಂದು ಸರ್ವರ್ಗೆ ಸೇರಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಕೆಲವು ಇನ್ನೊಂದಕ್ಕೆ ಮತ್ತು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ; ನಾವು ಎಲ್ಲ ಡೇಟಾವನ್ನು ಹೊಂದಿರಬೇಕು.
ಅವರು ಏನು ಮಾಡಿದರು? ಆರಂಭದಲ್ಲಿ, ಡೇಟಾವನ್ನು ಸ್ಥಳೀಕರಿಸಲಾಗಿದೆ. ಪ್ರತಿಯೊಂದು ಸರ್ವರ್ ನಿರ್ದಿಷ್ಟ ಷೇರುಗಳ ಬೆಲೆ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಮತ್ತು ಅವು ಛೇದಿಸುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಲಾಗ್ರಿಟರ್ನ್ ಅನ್ನು ಸಮಾನಾಂತರವಾಗಿ ಮತ್ತು ಸ್ವತಂತ್ರವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಿದೆ; ಇದೆಲ್ಲವೂ ಸಮಾನಾಂತರವಾಗಿ ಮತ್ತು ವಿತರಣೆಯಲ್ಲಿ ನಡೆಯುತ್ತದೆ.
ನಂತರ ನಾವು ಅಭಿವ್ಯಕ್ತಿ ಕಳೆದುಕೊಳ್ಳದೆ ಈ ಡೇಟಾವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ಅರೇಗಳನ್ನು ಬಳಸುವುದನ್ನು ಕಡಿಮೆ ಮಾಡಿ, ಅಂದರೆ ಪ್ರತಿ ಅವಧಿಗೆ ಷೇರುಗಳ ಒಂದು ಶ್ರೇಣಿಯನ್ನು ಮತ್ತು ಬೆಲೆಗಳ ಶ್ರೇಣಿಯನ್ನು ಮಾಡಿ. ಹೀಗಾಗಿ ಇದು ಕಡಿಮೆ ಡೇಟಾ ಜಾಗವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮತ್ತು ಅವರು ಕೆಲಸ ಮಾಡಲು ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಅನುಕೂಲಕರವಾಗಿದೆ. ಇವು ಬಹುತೇಕ ಸಮಾನಾಂತರ ಕಾರ್ಯಾಚರಣೆಗಳಾಗಿವೆ, ಅಂದರೆ ನಾವು ಭಾಗಶಃ ಸಮಾನಾಂತರವಾಗಿ ಎಣಿಸುತ್ತೇವೆ ಮತ್ತು ನಂತರ ಸರ್ವರ್ಗೆ ಬರೆಯುತ್ತೇವೆ.
ನಂತರ ಇದನ್ನು ಪುನರಾವರ್ತಿಸಬಹುದು. "r" ಅಕ್ಷರವು ನಾವು ಈ ಡೇಟಾವನ್ನು ಪುನರಾವರ್ತಿಸಿದ್ದೇವೆ ಎಂದರ್ಥ. ಅಂದರೆ, ನಾವು ಎಲ್ಲಾ ಮೂರು ಸರ್ವರ್ಗಳಲ್ಲಿ ಒಂದೇ ಡೇಟಾವನ್ನು ಹೊಂದಿದ್ದೇವೆ - ಇವುಗಳು ಅರೇಗಳು.
ತದನಂತರ, ವಿಶೇಷ ಸ್ಕ್ರಿಪ್ಟ್ ಬಳಸಿ, ನೀವು 12,5 ಮಿಲಿಯನ್ ಪರಸ್ಪರ ಸಂಬಂಧಗಳ ಈ ಸೆಟ್ನಿಂದ ಪ್ಯಾಕೇಜುಗಳನ್ನು ಮಾಡಬಹುದು, ಅದನ್ನು ಲೆಕ್ಕಹಾಕಬೇಕು. ಅಂದರೆ, 2 ಜೋಡಿ ಪರಸ್ಪರ ಸಂಬಂಧಗಳೊಂದಿಗೆ 500 ಕಾರ್ಯಗಳು. ಮತ್ತು ಈ ಕಾರ್ಯವನ್ನು ನಿರ್ದಿಷ್ಟ ಕ್ಲಿಕ್ಹೌಸ್ ಸರ್ವರ್ನಲ್ಲಿ ಲೆಕ್ಕ ಹಾಕಬೇಕು. ಡೇಟಾ ಒಂದೇ ಆಗಿರುವುದರಿಂದ ಅವನು ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಹೊಂದಿದ್ದಾನೆ ಮತ್ತು ಅವನು ಅದನ್ನು ಅನುಕ್ರಮವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡಬಹುದು.
ಅದು ಮತ್ತೆ ಹೇಗೆ ಕಾಣುತ್ತದೆ ಎಂಬುದು ಇಲ್ಲಿದೆ. ಮೊದಲಿಗೆ, ನಾವು ಈ ಕೆಳಗಿನ ರಚನೆಯಲ್ಲಿ ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಹೊಂದಿದ್ದೇವೆ: ಸಮಯ, ಷೇರುಗಳು, ಬೆಲೆ. ನಂತರ ನಾವು ಲಾಗ್ರಿಟರ್ನ್ ಅನ್ನು ಲೆಕ್ಕ ಹಾಕಿದ್ದೇವೆ, ಅಂದರೆ ಅದೇ ರಚನೆಯ ಡೇಟಾ, ಬೆಲೆಗೆ ಬದಲಾಗಿ ನಾವು ಲಾಗ್ರಿಟರ್ನ್ ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ. ನಂತರ ಅವುಗಳನ್ನು ಪುನಃ ಮಾಡಲಾಯಿತು, ಅಂದರೆ ನಾವು ಪ್ರಚಾರಗಳು ಮತ್ತು ಬೆಲೆ ಪಟ್ಟಿಗಳ ಮೂಲಕ ಸಮಯ ಮತ್ತು ಗುಂಪುಅರೇಯನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ. ಪುನರಾವರ್ತಿಸಲಾಗಿದೆ. ಮತ್ತು ಅದರ ನಂತರ, ಅವರು ಕಾರ್ಯಗಳ ಗುಂಪನ್ನು ರಚಿಸಿದರು ಮತ್ತು ಅವುಗಳನ್ನು ಕ್ಲಿಕ್ಹೌಸ್ಗೆ ನೀಡಿದರು ಇದರಿಂದ ಅದು ಅವುಗಳನ್ನು ಎಣಿಸಬಹುದು. ಮತ್ತು ಇದು ಕೆಲಸ ಮಾಡುತ್ತದೆ.
ಪರಿಕಲ್ಪನೆಯ ಪುರಾವೆಯಲ್ಲಿ, ಕಾರ್ಯವು ಉಪಕಾರ್ಯವಾಗಿತ್ತು, ಅಂದರೆ ಅವರು ಕಡಿಮೆ ಡೇಟಾವನ್ನು ತೆಗೆದುಕೊಂಡರು. ಮತ್ತು ಮೂರು ಸರ್ವರ್ಗಳಲ್ಲಿ ಮಾತ್ರ.
ಈ ಮೊದಲ ಎರಡು ಹಂತಗಳು: ಲಾಗ್_ರಿಟರ್ನ್ ಅನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವುದು ಮತ್ತು ಅದನ್ನು ಅರೇಗಳಲ್ಲಿ ಸುತ್ತುವುದು ಪ್ರತಿಯೊಂದೂ ಸುಮಾರು ಒಂದು ಗಂಟೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ.
ಮತ್ತು ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವುದು ಸುಮಾರು 50 ಗಂಟೆಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಆದರೆ 50 ಗಂಟೆಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ, ಏಕೆಂದರೆ ಹಿಂದೆ ಅದು ಅವರಿಗೆ ವಾರಗಳವರೆಗೆ ಕೆಲಸ ಮಾಡಿದೆ. ಇದು ದೊಡ್ಡ ಯಶಸ್ಸನ್ನು ಕಂಡಿತು. ಮತ್ತು ನೀವು ಎಣಿಸಿದರೆ, ಈ ಕ್ಲಸ್ಟರ್ನಲ್ಲಿ ಎಲ್ಲವನ್ನೂ ಸೆಕೆಂಡಿಗೆ 70 ಬಾರಿ ಎಣಿಸಲಾಗುತ್ತದೆ.
ಆದರೆ ಅತ್ಯಂತ ಮುಖ್ಯವಾದ ವಿಷಯವೆಂದರೆ ಈ ವ್ಯವಸ್ಥೆಯು ವಾಸ್ತವಿಕವಾಗಿ ಯಾವುದೇ ಅಡೆತಡೆಗಳನ್ನು ಹೊಂದಿಲ್ಲ, ಅಂದರೆ ಇದು ಬಹುತೇಕ ರೇಖೀಯವಾಗಿ ಅಳೆಯುತ್ತದೆ. ಮತ್ತು ಅವರು ಅದನ್ನು ಪರಿಶೀಲಿಸಿದರು. ಇದನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಅಳೆಯಲಾಯಿತು.
- ಸರಿಯಾದ ಯೋಜನೆ ಅರ್ಧದಷ್ಟು ಯಶಸ್ಸು. ಮತ್ತು ಅಗತ್ಯವಿರುವ ಎಲ್ಲಾ ಕ್ಲಿಕ್ಹೌಸ್ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಬಳಸುವುದು ಸರಿಯಾದ ಯೋಜನೆಯಾಗಿದೆ.
- Summing/AggregatingMergeTrees ಎನ್ನುವುದು ರಾಜ್ಯದ ಸ್ನ್ಯಾಪ್ಶಾಟ್ ಅನ್ನು ವಿಶೇಷ ಪ್ರಕರಣವಾಗಿ ಒಟ್ಟುಗೂಡಿಸಲು ಅಥವಾ ಎಣಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುವ ತಂತ್ರಜ್ಞಾನಗಳಾಗಿವೆ. ಮತ್ತು ಇದು ಅನೇಕ ವಿಷಯಗಳನ್ನು ಹೆಚ್ಚು ಸರಳಗೊಳಿಸುತ್ತದೆ.
- ಮೆಟೀರಿಯಲೈಸ್ಡ್ ವೀಕ್ಷಣೆಗಳು ಒಂದು ಸೂಚ್ಯಂಕ ಮಿತಿಯನ್ನು ಪಡೆಯಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಬಹುಶಃ ನಾನು ಇದನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಹೇಳಲಿಲ್ಲ, ಆದರೆ ನಾವು ಲಾಗ್ಗಳನ್ನು ಲೋಡ್ ಮಾಡಿದಾಗ, ಕಚ್ಚಾ ದಾಖಲೆಗಳು ಒಂದು ಸೂಚ್ಯಂಕದೊಂದಿಗೆ ಟೇಬಲ್ನಲ್ಲಿದ್ದವು, ಮತ್ತು ಗುಣಲಕ್ಷಣದ ಮೇಲೆ ಲಾಗ್ಗಳು ಟೇಬಲ್ನಲ್ಲಿದ್ದವು, ಅಂದರೆ ಅದೇ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಫಿಲ್ಟರ್ ಮಾಡಲಾಗಿದೆ, ಆದರೆ ಸೂಚ್ಯಂಕವು ಸಂಪೂರ್ಣವಾಗಿ ಇತರರಿಗೆ. ಇದು ಒಂದೇ ಡೇಟಾ ಎಂದು ತೋರುತ್ತದೆ, ಆದರೆ ವಿಭಿನ್ನ ವಿಂಗಡಣೆ. ಮತ್ತು ಮೆಟೀರಿಯಲೈಸ್ಡ್ ವೀಕ್ಷಣೆಗಳು ನಿಮಗೆ ಅಗತ್ಯವಿದ್ದರೆ, ಈ ಕ್ಲಿಕ್ಹೌಸ್ ಮಿತಿಯನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ.
- ಪಾಯಿಂಟ್ ಪ್ರಶ್ನೆಗಳಿಗೆ ಸೂಚ್ಯಂಕ ಗ್ರ್ಯಾನ್ಯುಲಾರಿಟಿಯನ್ನು ಕಡಿಮೆ ಮಾಡಿ.
- ಮತ್ತು ಡೇಟಾವನ್ನು ಅಚ್ಚುಕಟ್ಟಾಗಿ ವಿತರಿಸಿ, ಸಾಧ್ಯವಾದಷ್ಟು ಸರ್ವರ್ನಲ್ಲಿ ಡೇಟಾವನ್ನು ಸ್ಥಳೀಕರಿಸಲು ಪ್ರಯತ್ನಿಸಿ. ಮತ್ತು ವಿನಂತಿಗಳು ಸಾಧ್ಯವಾದಷ್ಟು ಸ್ಥಳೀಕರಣವನ್ನು ಬಳಸುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಿ.
ಮತ್ತು ಈ ಸಣ್ಣ ಭಾಷಣವನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಹೇಳುವುದಾದರೆ, ಕ್ಲಿಕ್ಹೌಸ್ ಈಗ ವಾಣಿಜ್ಯ ಡೇಟಾಬೇಸ್ಗಳು ಮತ್ತು ಮುಕ್ತ ಮೂಲ ಡೇಟಾಬೇಸ್ಗಳ ಪ್ರದೇಶವನ್ನು ದೃಢವಾಗಿ ಆಕ್ರಮಿಸಿಕೊಂಡಿದೆ ಎಂದು ನಾವು ಹೇಳಬಹುದು, ಅಂದರೆ ನಿರ್ದಿಷ್ಟವಾಗಿ ವಿಶ್ಲೇಷಣೆಗಾಗಿ. ಅವನು ಈ ಭೂದೃಶ್ಯಕ್ಕೆ ಸಂಪೂರ್ಣವಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತಾನೆ. ಮತ್ತು ಹೆಚ್ಚು ಏನು, ಇದು ನಿಧಾನವಾಗಿ ಇತರರನ್ನು ಸ್ಥಳಾಂತರಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಿದೆ, ಏಕೆಂದರೆ ಕ್ಲಿಕ್ಹೌಸ್ ಇದ್ದಾಗ, ನಿಮಗೆ InfiniDB ಅಗತ್ಯವಿಲ್ಲ. ಅವರು ಸಾಮಾನ್ಯ SQL ಬೆಂಬಲವನ್ನು ಒದಗಿಸಿದರೆ ಲಂಬವು ಶೀಘ್ರದಲ್ಲೇ ಅಗತ್ಯವಿರುವುದಿಲ್ಲ. ಅದನ್ನು ಬಳಸಿ!
-ವರದಿಗಾಗಿ ಧನ್ಯವಾದಗಳು! ಬಹಳ ಆಸಕ್ತಿದಾಯಕ! ಅಪಾಚೆ ಫೀನಿಕ್ಸ್ನೊಂದಿಗೆ ಯಾವುದೇ ಹೋಲಿಕೆಗಳಿವೆಯೇ?
-ಇಲ್ಲ, ನಾನು ಯಾರನ್ನೂ ಹೋಲಿಸುವುದನ್ನು ಕೇಳಿಲ್ಲ. ನಾವು ಮತ್ತು ಯಾಂಡೆಕ್ಸ್ ಕ್ಲಿಕ್ಹೌಸ್ನ ಎಲ್ಲಾ ಹೋಲಿಕೆಗಳನ್ನು ವಿವಿಧ ಡೇಟಾಬೇಸ್ಗಳೊಂದಿಗೆ ಟ್ರ್ಯಾಕ್ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತೇವೆ. ಏಕೆಂದರೆ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಏನಾದರೂ ಕ್ಲಿಕ್ಹೌಸ್ಗಿಂತ ವೇಗವಾಗಿ ತಿರುಗಿದರೆ, ಲೆಶಾ ಮಿಲೋವಿಡೋವ್ ರಾತ್ರಿಯಲ್ಲಿ ಮಲಗಲು ಸಾಧ್ಯವಿಲ್ಲ ಮತ್ತು ಅದನ್ನು ತ್ವರಿತವಾಗಿ ವೇಗಗೊಳಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಾನೆ. ಅಂತಹ ಹೋಲಿಕೆಯನ್ನು ನಾನು ಕೇಳಿಲ್ಲ.
-
(ಅಲೆಕ್ಸಿ ಮಿಲೋವಿಡೋವ್) ಅಪಾಚೆ ಫೀನಿಕ್ಸ್ Hbase ಆಧಾರಿತ SQL ಎಂಜಿನ್ ಆಗಿದೆ. Hbase ಅನ್ನು ಮುಖ್ಯವಾಗಿ ಕೀ-ಮೌಲ್ಯದ ಪ್ರಕಾರದ ಕೆಲಸದ ಸನ್ನಿವೇಶಕ್ಕಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಅಲ್ಲಿ, ಪ್ರತಿ ಸಾಲು ಅನಿಯಂತ್ರಿತ ಹೆಸರುಗಳೊಂದಿಗೆ ಅನಿಯಂತ್ರಿತ ಸಂಖ್ಯೆಯ ಕಾಲಮ್ಗಳನ್ನು ಹೊಂದಬಹುದು. Hbase ಮತ್ತು Cassandra ನಂತಹ ವ್ಯವಸ್ಥೆಗಳ ಬಗ್ಗೆ ಇದನ್ನು ಹೇಳಬಹುದು. ಮತ್ತು ಇದು ನಿಖರವಾಗಿ ಭಾರೀ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಾಗಿದ್ದು ಅದು ಅವರಿಗೆ ಸಾಮಾನ್ಯವಾಗಿ ಕೆಲಸ ಮಾಡುವುದಿಲ್ಲ. ಅಥವಾ ನೀವು ಕ್ಲಿಕ್ಹೌಸ್ನೊಂದಿಗೆ ಯಾವುದೇ ಅನುಭವವನ್ನು ಹೊಂದಿಲ್ಲದಿದ್ದರೆ ಅವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂದು ನೀವು ಭಾವಿಸಬಹುದು.
-
ಸಪಾಕ್ಸಿ
-
ಶುಭ ಅಪರಾಹ್ನ ನಾನು ಈಗಾಗಲೇ ಈ ವಿಷಯದಲ್ಲಿ ಸಾಕಷ್ಟು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದೇನೆ, ಏಕೆಂದರೆ ನಾನು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಉಪವ್ಯವಸ್ಥೆಯನ್ನು ಹೊಂದಿದ್ದೇನೆ. ಆದರೆ ನಾನು ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ನೋಡಿದಾಗ, ಕ್ಲಿಕ್ಹೌಸ್ ಈವೆಂಟ್ ಅನಾಲಿಸಿಸ್, ಮ್ಯುಟಬಲ್ಗೆ ತುಂಬಾ ಸೂಕ್ತವಾಗಿದೆ ಎಂಬ ಭಾವನೆ ನನಗೆ ಬರುತ್ತದೆ. ಮತ್ತು ನಾನು ದೊಡ್ಡ ಕೋಷ್ಟಕಗಳ ಗುಂಪಿನೊಂದಿಗೆ ಬಹಳಷ್ಟು ವ್ಯವಹಾರ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಬೇಕಾದರೆ, ಕ್ಲಿಕ್ಹೌಸ್, ನಾನು ಅರ್ಥಮಾಡಿಕೊಂಡಂತೆ, ನನಗೆ ತುಂಬಾ ಸೂಕ್ತವಲ್ಲವೇ? ವಿಶೇಷವಾಗಿ ಅವರು ಬದಲಾದರೆ. ಇದು ಸರಿಯೇ ಅಥವಾ ಇದನ್ನು ಅಲ್ಲಗಳೆಯುವ ಉದಾಹರಣೆಗಳಿವೆಯೇ?
-
ಇದು ಸರಿ. ಮತ್ತು ಇದು ಅತ್ಯಂತ ವಿಶೇಷವಾದ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಡೇಟಾಬೇಸ್ಗಳ ಬಗ್ಗೆ ನಿಜವಾಗಿದೆ. ರೂಪಾಂತರಗೊಳ್ಳುವ ಒಂದು ಅಥವಾ ಹಲವಾರು ದೊಡ್ಡ ಕೋಷ್ಟಕಗಳು ಮತ್ತು ನಿಧಾನವಾಗಿ ಬದಲಾಗುವ ಅನೇಕ ಸಣ್ಣ ಕೋಷ್ಟಕಗಳು ಇವೆ ಎಂಬ ಅಂಶಕ್ಕೆ ಅವು ಅನುಗುಣವಾಗಿರುತ್ತವೆ. ಅಂದರೆ, ಕ್ಲಿಕ್ಹೌಸ್ ಒರಾಕಲ್ನಂತೆ ಅಲ್ಲ, ಅಲ್ಲಿ ನೀವು ಎಲ್ಲವನ್ನೂ ಹಾಕಬಹುದು ಮತ್ತು ಕೆಲವು ಸಂಕೀರ್ಣ ಪ್ರಶ್ನೆಗಳನ್ನು ರಚಿಸಬಹುದು. ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಬಳಸಲು, ನೀವು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ರೀತಿಯಲ್ಲಿ ಸ್ಕೀಮ್ ಅನ್ನು ನಿರ್ಮಿಸುವ ಅಗತ್ಯವಿದೆ. ಅಂದರೆ, ಅತಿಯಾದ ಸಾಮಾನ್ಯೀಕರಣವನ್ನು ತಪ್ಪಿಸಿ, ನಿಘಂಟುಗಳನ್ನು ಬಳಸಿ, ಕಡಿಮೆ ದೀರ್ಘ ಸಂಪರ್ಕಗಳನ್ನು ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿ. ಮತ್ತು ಯೋಜನೆಯನ್ನು ಈ ರೀತಿಯಲ್ಲಿ ನಿರ್ಮಿಸಿದರೆ, ಸಾಂಪ್ರದಾಯಿಕ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ಗಿಂತ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಇದೇ ರೀತಿಯ ವ್ಯವಹಾರ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಬಹುದು.
-
ವರದಿಗಾಗಿ ಧನ್ಯವಾದಗಳು! ಇತ್ತೀಚಿನ ಹಣಕಾಸು ಪ್ರಕರಣದ ಬಗ್ಗೆ ನನಗೆ ಪ್ರಶ್ನೆ ಇದೆ. ಅವರು ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹೊಂದಿದ್ದರು. ಅವರು ಮೇಲಕ್ಕೆ ಮತ್ತು ಕೆಳಕ್ಕೆ ಹೇಗೆ ಹೋಗುತ್ತಾರೆ ಎಂಬುದನ್ನು ಹೋಲಿಸುವುದು ಅಗತ್ಯವಾಗಿತ್ತು. ಮತ್ತು ಈ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ನೀವು ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಿಸ್ಟಮ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದೀರಿ ಎಂದು ನಾನು ಅರ್ಥಮಾಡಿಕೊಂಡಿದ್ದೇನೆ? ನಾಳೆ, ಹೇಳೋಣ, ಅವರಿಗೆ ಈ ಡೇಟಾದ ಕುರಿತು ಬೇರೆ ಕೆಲವು ವರದಿ ಬೇಕು, ಅವರು ಮತ್ತೆ ರೇಖಾಚಿತ್ರವನ್ನು ನಿರ್ಮಿಸಲು ಮತ್ತು ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಬೇಕೇ? ಅಂದರೆ, ವಿನಂತಿಯನ್ನು ಸ್ವೀಕರಿಸಲು ಕೆಲವು ರೀತಿಯ ಪೂರ್ವ ಸಂಸ್ಕರಣೆಯನ್ನು ಮಾಡುವುದೇ?
ಸಹಜವಾಗಿ, ಇದು ಒಂದು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಕ್ಕಾಗಿ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸುತ್ತಿದೆ. ಇದನ್ನು ಹಡೂಪ್ನಲ್ಲಿ ಹೆಚ್ಚು ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಪರಿಹರಿಸಬಹುದು. ಹಡೂಪ್ಗೆ ಇದು ಆದರ್ಶ ಕಾರ್ಯವಾಗಿದೆ. ಆದರೆ ಹಡೂಪ್ನಲ್ಲಿ ಅದು ತುಂಬಾ ನಿಧಾನವಾಗಿದೆ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ಸಾಮಾನ್ಯವಾಗಿ ಸಂಪೂರ್ಣವಾಗಿ ವಿಭಿನ್ನ ವಿಧಾನಗಳಿಂದ ಪರಿಹರಿಸಬಹುದಾದ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಬಹುದು ಎಂಬುದನ್ನು ಪ್ರದರ್ಶಿಸುವುದು ನನ್ನ ಗುರಿಯಾಗಿದೆ, ಆದರೆ ಅದೇ ಸಮಯದಲ್ಲಿ ಅದನ್ನು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಮಾಡಿ. ಇದು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಕ್ಕೆ ಅನುಗುಣವಾಗಿರುತ್ತದೆ. ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಒಂದೇ ರೀತಿಯ ಸಮಸ್ಯೆ ಇದ್ದರೆ, ಅದನ್ನು ಇದೇ ರೀತಿಯಲ್ಲಿ ಪರಿಹರಿಸಬಹುದು ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗಿದೆ.
ಇದು ಸ್ಪಷ್ಟವಾಗಿದೆ. ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು 50 ಗಂಟೆಗಳು ಬೇಕಾಯಿತು ಎಂದು ನೀವು ಹೇಳಿದ್ದೀರಿ. ನೀವು ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಿದಾಗ ಅಥವಾ ಫಲಿತಾಂಶಗಳನ್ನು ಸ್ವೀಕರಿಸಿದಾಗ ಅದು ಮೊದಲಿನಿಂದಲೂ ಪ್ರಾರಂಭವಾಗುತ್ತಿದೆಯೇ?
ಹೌದು ಹೌದು.
ಸರಿ ತುಂಬಾ ಧನ್ಯವಾದಗಳು.
ಇದು 3 ಸರ್ವರ್ ಕ್ಲಸ್ಟರ್ನಲ್ಲಿದೆ.
ಶುಭಾಶಯಗಳು! ವರದಿಗಾಗಿ ಧನ್ಯವಾದಗಳು! ಎಲ್ಲವೂ ತುಂಬಾ ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ. ನಾನು ಕ್ರಿಯಾತ್ಮಕತೆಯ ಬಗ್ಗೆ ಸ್ವಲ್ಪ ಕೇಳುತ್ತಿಲ್ಲ, ಆದರೆ ಸ್ಥಿರತೆಯ ದೃಷ್ಟಿಕೋನದಿಂದ ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸುವ ಬಗ್ಗೆ. ಅಂದರೆ, ನೀವು ಯಾವುದೇ ಸಮಸ್ಯೆಗಳನ್ನು ಹೊಂದಿದ್ದೀರಾ ಮತ್ತು ನೀವು ಅವುಗಳನ್ನು ಪುನಃಸ್ಥಾಪಿಸಬೇಕೇ? ಕ್ಲಿಕ್ಹೌಸ್ ಹೇಗೆ ವರ್ತಿಸುತ್ತದೆ? ಮತ್ತು ನಿಮ್ಮ ಪ್ರತಿಕೃತಿ ಕೂಡ ಕ್ರ್ಯಾಶ್ ಆಗಿದ್ದು ಎಂದಾದರೂ ಸಂಭವಿಸಿದೆಯೇ? ಉದಾಹರಣೆಗೆ, ಕ್ಲಿಕ್ಹೌಸ್ ಇನ್ನೂ ಅದರ ಮಿತಿಯನ್ನು ಮೀರಿ ಬಿದ್ದಾಗ ನಾವು ಸಮಸ್ಯೆಯನ್ನು ಎದುರಿಸಿದ್ದೇವೆ.
ಸಹಜವಾಗಿ, ಯಾವುದೇ ಆದರ್ಶ ವ್ಯವಸ್ಥೆಗಳಿಲ್ಲ. ಮತ್ತು ಕ್ಲಿಕ್ಹೌಸ್ ತನ್ನ ಸಮಸ್ಯೆಗಳನ್ನು ಸಹ ಹೊಂದಿದೆ. ಆದರೆ Yandex.Metrica ದೀರ್ಘಕಾಲದವರೆಗೆ ಕೆಲಸ ಮಾಡದಿರುವ ಬಗ್ಗೆ ನೀವು ಕೇಳಿದ್ದೀರಾ? ಬಹುಷಃ ಇಲ್ಲ. ಇದು ಕ್ಲಿಕ್ಹೌಸ್ನಲ್ಲಿ ಸುಮಾರು 2012-2013 ರಿಂದ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದೆ. ನನ್ನ ಅನುಭವದ ಬಗ್ಗೆ ನಾನು ಅದೇ ಹೇಳಬಲ್ಲೆ. ನಾವು ಎಂದಿಗೂ ಸಂಪೂರ್ಣ ವೈಫಲ್ಯಗಳನ್ನು ಹೊಂದಿಲ್ಲ. ಕೆಲವು ಭಾಗಶಃ ವಿಷಯಗಳು ಸಂಭವಿಸಬಹುದು, ಆದರೆ ವ್ಯವಹಾರವನ್ನು ಗಂಭೀರವಾಗಿ ಪರಿಣಾಮ ಬೀರುವಷ್ಟು ನಿರ್ಣಾಯಕವಾಗಿರಲಿಲ್ಲ. ಇದು ಹಿಂದೆಂದೂ ಸಂಭವಿಸಿಲ್ಲ. ಕ್ಲಿಕ್ಹೌಸ್ ಸಾಕಷ್ಟು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿದೆ ಮತ್ತು ಯಾದೃಚ್ಛಿಕವಾಗಿ ಕ್ರ್ಯಾಶ್ ಆಗುವುದಿಲ್ಲ. ನೀವು ಅದರ ಬಗ್ಗೆ ಚಿಂತಿಸಬೇಕಾಗಿಲ್ಲ. ಇದು ಕಚ್ಚಾ ವಿಷಯವಲ್ಲ. ಇದನ್ನು ಅನೇಕ ಕಂಪನಿಗಳು ಸಾಬೀತುಪಡಿಸಿವೆ.
ನಮಸ್ಕಾರ! ಡೇಟಾ ಸ್ಕೀಮಾ ಬಗ್ಗೆ ನೀವು ತಕ್ಷಣ ಎಚ್ಚರಿಕೆಯಿಂದ ಯೋಚಿಸಬೇಕು ಎಂದು ನೀವು ಹೇಳಿದ್ದೀರಿ. ಇದು ಸಂಭವಿಸಿದರೆ ಏನು? ನನ್ನ ಡೇಟಾವು ಒಳಗೆ ಮತ್ತು ಹೊರಗೆ ಸುರಿಯುತ್ತಿದೆ. ಆರು ತಿಂಗಳುಗಳು ಹಾದುಹೋಗುತ್ತವೆ, ಮತ್ತು ನಾನು ಈ ರೀತಿ ಬದುಕಲು ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ನಾನು ಅರ್ಥಮಾಡಿಕೊಂಡಿದ್ದೇನೆ, ನಾನು ಡೇಟಾವನ್ನು ಮರು-ಅಪ್ಲೋಡ್ ಮಾಡಬೇಕಾಗಿದೆ ಮತ್ತು ಅದರೊಂದಿಗೆ ಏನಾದರೂ ಮಾಡಬೇಕಾಗಿದೆ.
ಇದು ಸಹಜವಾಗಿ, ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಅನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಇದನ್ನು ಬಹುತೇಕ ತಡೆರಹಿತವಾಗಿ ಮಾಡಲು ಹಲವಾರು ಮಾರ್ಗಗಳಿವೆ. ಉದಾಹರಣೆಗೆ, ನೀವು ಮೆಟೀರಿಯಲೈಸ್ಡ್ ವೀಕ್ಷಣೆಯನ್ನು ರಚಿಸಬಹುದು, ಅದರಲ್ಲಿ ಅನನ್ಯವಾಗಿ ಮ್ಯಾಪ್ ಮಾಡಬಹುದಾದರೆ ನೀವು ವಿಭಿನ್ನ ಡೇಟಾ ರಚನೆಯನ್ನು ರಚಿಸಬಹುದು. ಅಂದರೆ, ಕ್ಲಿಕ್ಹೌಸ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಮ್ಯಾಪಿಂಗ್ ಮಾಡಲು ಅದು ಅನುಮತಿಸಿದರೆ, ಅಂದರೆ ಕೆಲವು ವಿಷಯಗಳನ್ನು ಹೊರತೆಗೆಯುವುದು, ಪ್ರಾಥಮಿಕ ಕೀಲಿಯನ್ನು ಬದಲಾಯಿಸುವುದು, ವಿಭಜನೆಯನ್ನು ಬದಲಾಯಿಸುವುದು, ನಂತರ ನೀವು ಮೆಟೀರಿಯಲೈಸ್ಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಮಾಡಬಹುದು. ಅಲ್ಲಿ ನಿಮ್ಮ ಹಳೆಯ ಡೇಟಾವನ್ನು ಪುನಃ ಬರೆಯಲಾಗುತ್ತದೆ, ಹೊಸದನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಬರೆಯಲಾಗುತ್ತದೆ. ತದನಂತರ ಮೆಟೀರಿಯಲೈಸ್ಡ್ ವ್ಯೂ ಅನ್ನು ಬಳಸಲು ಬದಲಿಸಿ, ನಂತರ ರೆಕಾರ್ಡ್ ಅನ್ನು ಬದಲಿಸಿ ಮತ್ತು ಹಳೆಯ ಟೇಬಲ್ ಅನ್ನು ಕೊಲ್ಲು. ಇದು ಸಾಮಾನ್ಯವಾಗಿ ತಡೆರಹಿತ ಮಾರ್ಗವಾಗಿದೆ.
ಧನ್ಯವಾದಗಳು.
ಮೂಲ: www.habr.com