Google ನ BigQuery ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹೇಗೆ ಪ್ರಜಾಪ್ರಭುತ್ವಗೊಳಿಸಿತು. ಭಾಗ 1

ಹಲೋ, ಹಬ್ರ್! ಹೊಸ ಕೋರ್ಸ್ ಸ್ಟ್ರೀಮ್‌ಗಾಗಿ ದಾಖಲಾತಿಯು ಇದೀಗ OTUS ನಲ್ಲಿ ತೆರೆದಿರುತ್ತದೆ ಡೇಟಾ ಇಂಜಿನಿಯರ್. ಕೋರ್ಸ್‌ನ ಪ್ರಾರಂಭದ ನಿರೀಕ್ಷೆಯಲ್ಲಿ, ನಿಮಗಾಗಿ ಆಸಕ್ತಿದಾಯಕ ವಸ್ತುಗಳ ಅನುವಾದವನ್ನು ನಾವು ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಸಿದ್ಧಪಡಿಸಿದ್ದೇವೆ.

ಪ್ರತಿದಿನ, ಜಗತ್ತಿನಲ್ಲಿ ಏನಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯಲು ಮತ್ತು ಅದರ ಬಗ್ಗೆ ಚರ್ಚಿಸಲು ನೂರು ಮಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚು ಜನರು Twitter ಗೆ ಭೇಟಿ ನೀಡುತ್ತಾರೆ. ಪ್ರತಿ ಟ್ವೀಟ್ ಮತ್ತು ಪ್ರತಿ ಇತರ ಬಳಕೆದಾರರ ಕ್ರಿಯೆಯು Twitter ನ ಆಂತರಿಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಲಭ್ಯವಿರುವ ಈವೆಂಟ್ ಅನ್ನು ರಚಿಸುತ್ತದೆ. ನೂರಾರು ಉದ್ಯೋಗಿಗಳು ಈ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತಾರೆ ಮತ್ತು ದೃಶ್ಯೀಕರಿಸುತ್ತಾರೆ ಮತ್ತು ಅವರ ಅನುಭವವನ್ನು ಸುಧಾರಿಸುವುದು Twitter ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ತಂಡಕ್ಕೆ ಪ್ರಮುಖ ಆದ್ಯತೆಯಾಗಿದೆ.

ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ತಾಂತ್ರಿಕ ಕೌಶಲ್ಯಗಳನ್ನು ಹೊಂದಿರುವ ಬಳಕೆದಾರರು ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಮತ್ತು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ SQL- ಆಧಾರಿತ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ದೃಶ್ಯೀಕರಣ ಸಾಧನಗಳಿಗೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದಿರಬೇಕು ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ. ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಉತ್ಪನ್ನ ನಿರ್ವಾಹಕರು ಸೇರಿದಂತೆ ಕಡಿಮೆ ತಾಂತ್ರಿಕ ಬಳಕೆದಾರರ ಸಂಪೂರ್ಣ ಹೊಸ ಗುಂಪಿಗೆ ಡೇಟಾದಿಂದ ಒಳನೋಟಗಳನ್ನು ಹೊರತೆಗೆಯಲು ಇದು ಅನುಮತಿಸುತ್ತದೆ, ಇದು Twitter ನ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಮತ್ತು ಬಳಸಲು ಅವರಿಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ನಾವು Twitter ನಲ್ಲಿ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಪ್ರಜಾಪ್ರಭುತ್ವಗೊಳಿಸುವುದು ಹೀಗೆ.

ನಮ್ಮ ಪರಿಕರಗಳು ಮತ್ತು ಆಂತರಿಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯ ಸಾಮರ್ಥ್ಯಗಳು ಸುಧಾರಿಸಿದಂತೆ, ನಾವು Twitter ಸುಧಾರಣೆಯನ್ನು ನೋಡಿದ್ದೇವೆ. ಆದಾಗ್ಯೂ, ಸುಧಾರಣೆಗೆ ಇನ್ನೂ ಅವಕಾಶವಿದೆ. Scalding ನಂತಹ ಪ್ರಸ್ತುತ ಪರಿಕರಗಳಿಗೆ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಅನುಭವದ ಅಗತ್ಯವಿದೆ. ಪ್ರೆಸ್ಟೊ ಮತ್ತು ವರ್ಟಿಕಾದಂತಹ SQL-ಆಧಾರಿತ ವಿಶ್ಲೇಷಣಾ ಸಾಧನಗಳು ಪ್ರಮಾಣದಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆಯ ಸಮಸ್ಯೆಗಳನ್ನು ಹೊಂದಿವೆ. ಡೇಟಾಗೆ ನಿರಂತರ ಪ್ರವೇಶವಿಲ್ಲದೆ ಬಹು ಸಿಸ್ಟಮ್‌ಗಳಲ್ಲಿ ಡೇಟಾವನ್ನು ವಿತರಿಸುವ ಸಮಸ್ಯೆಯನ್ನು ಸಹ ನಾವು ಹೊಂದಿದ್ದೇವೆ.

ಕಳೆದ ವರ್ಷ ನಾವು ಘೋಷಿಸಿದ್ದೇವೆ Google ನೊಂದಿಗೆ ಹೊಸ ಸಹಯೋಗ, ಅದರೊಳಗೆ ನಾವು ನಮ್ಮ ಭಾಗಗಳನ್ನು ವರ್ಗಾಯಿಸುತ್ತೇವೆ ಡೇಟಾ ಮೂಲಸೌಕರ್ಯ Google ಕ್ಲೌಡ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಲ್ಲಿ (GCP). ನಾವು Google ಕ್ಲೌಡ್ ಪರಿಕರಗಳು ಎಂದು ತೀರ್ಮಾನಿಸಿದ್ದೇವೆ ದೊಡ್ಡ ದತ್ತಾಂಶ Twitter ನಲ್ಲಿ ವಿಶ್ಲೇಷಣೆ, ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯನ್ನು ಪ್ರಜಾಪ್ರಭುತ್ವಗೊಳಿಸಲು ನಮ್ಮ ಉಪಕ್ರಮಗಳೊಂದಿಗೆ ನಮಗೆ ಸಹಾಯ ಮಾಡಬಹುದು:

  • ಬಿಗ್‌ವೇರ್: SQL ಎಂಜಿನ್ ಆಧಾರಿತ ಎಂಟರ್‌ಪ್ರೈಸ್ ಡೇಟಾ ವೇರ್‌ಹೌಸ್ dremel, ಅದರ ವೇಗ, ಸರಳತೆ ಮತ್ತು copes ಗೆ ಹೆಸರುವಾಸಿಯಾಗಿದೆ ಯಂತ್ರ ಕಲಿಕೆ.
  • ಡೇಟಾ ಸ್ಟುಡಿಯೋ: Google ಡಾಕ್ಸ್‌ನಂತಹ ಸಹಯೋಗದ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ದೊಡ್ಡ ಡೇಟಾ ದೃಶ್ಯೀಕರಣ ಸಾಧನ.

ಈ ಲೇಖನದಲ್ಲಿ, ಈ ಪರಿಕರಗಳೊಂದಿಗೆ ನಮ್ಮ ಅನುಭವದ ಬಗ್ಗೆ ನೀವು ಕಲಿಯುವಿರಿ: ನಾವು ಏನು ಮಾಡಿದ್ದೇವೆ, ನಾವು ಏನು ಕಲಿತಿದ್ದೇವೆ ಮತ್ತು ಮುಂದೆ ನಾವು ಏನು ಮಾಡುತ್ತೇವೆ. ನಾವು ಈಗ ಬ್ಯಾಚ್ ಮತ್ತು ಸಂವಾದಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತೇವೆ. ನಾವು ಮುಂದಿನ ಲೇಖನದಲ್ಲಿ ನೈಜ-ಸಮಯದ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಚರ್ಚಿಸುತ್ತೇವೆ.

Twitter ಡೇಟಾ ಸ್ಟೋರ್‌ಗಳ ಇತಿಹಾಸ

BigQuery ಗೆ ಧುಮುಕುವ ಮೊದಲು, Twitter ಡೇಟಾ ವೇರ್‌ಹೌಸಿಂಗ್‌ನ ಇತಿಹಾಸವನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ವಿವರಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ. 2011 ರಲ್ಲಿ, ಟ್ವಿಟರ್ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವರ್ಟಿಕಾ ಮತ್ತು ಹಡೂಪ್‌ನಲ್ಲಿ ನಡೆಸಲಾಯಿತು. MapReduce Hadoop ಉದ್ಯೋಗಗಳನ್ನು ರಚಿಸಲು ನಾವು ಪಿಗ್ ಅನ್ನು ಬಳಸಿದ್ದೇವೆ. 2012 ರಲ್ಲಿ, ನಾವು ಪಿಗ್ ಅನ್ನು ಸ್ಕಾಲ್ಡಿಂಗ್‌ನೊಂದಿಗೆ ಬದಲಾಯಿಸಿದ್ದೇವೆ, ಇದು ಸಂಕೀರ್ಣವಾದ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ರಚಿಸುವ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಪರೀಕ್ಷೆಯ ಸುಲಭತೆಯಂತಹ ಪ್ರಯೋಜನಗಳೊಂದಿಗೆ ಸ್ಕಲಾ API ಅನ್ನು ಹೊಂದಿತ್ತು. ಆದಾಗ್ಯೂ, SQL ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಹೆಚ್ಚು ಆರಾಮದಾಯಕವಾದ ಅನೇಕ ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಉತ್ಪನ್ನ ನಿರ್ವಾಹಕರಿಗೆ, ಇದು ಸಾಕಷ್ಟು ಕಡಿದಾದ ಕಲಿಕೆಯ ರೇಖೆಯಾಗಿದೆ. 2016 ರ ಸುಮಾರಿಗೆ, ನಾವು ಹಡೂಪ್ ಡೇಟಾಗೆ SQL ಇಂಟರ್ಫೇಸ್ ಆಗಿ Presto ಅನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಸ್ಪಾರ್ಕ್ ಪೈಥಾನ್ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ನೀಡಿತು, ಇದು ತಾತ್ಕಾಲಿಕ ಡೇಟಾ ವಿಜ್ಞಾನ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಗೆ ಉತ್ತಮ ಆಯ್ಕೆಯಾಗಿದೆ.

2018 ರಿಂದ, ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ದೃಶ್ಯೀಕರಣಕ್ಕಾಗಿ ನಾವು ಈ ಕೆಳಗಿನ ಪರಿಕರಗಳನ್ನು ಬಳಸಿದ್ದೇವೆ:

  • ಉತ್ಪಾದನಾ ಕನ್ವೇಯರ್ಗಳಿಗೆ ಸ್ಕಲ್ಡಿಂಗ್
  • ತಾತ್ಕಾಲಿಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಗಾಗಿ ಸ್ಕ್ಯಾಲ್ಡಿಂಗ್ ಮತ್ತು ಸ್ಪಾರ್ಕ್
  • ತಾತ್ಕಾಲಿಕ ಮತ್ತು ಸಂವಾದಾತ್ಮಕ SQL ವಿಶ್ಲೇಷಣೆಗಾಗಿ ವರ್ಟಿಕಾ ಮತ್ತು ಪ್ರೆಸ್ಟೊ
  • ಸಮಯ ಸರಣಿಯ ಮೆಟ್ರಿಕ್‌ಗಳಿಗೆ ಕಡಿಮೆ ಸಂವಾದಾತ್ಮಕ, ಪರಿಶೋಧನಾತ್ಮಕ ಮತ್ತು ಕಡಿಮೆ ಸುಪ್ತ ಪ್ರವೇಶಕ್ಕಾಗಿ ಡ್ರೂಯಿಡ್
  • ಡೇಟಾ ದೃಶ್ಯೀಕರಣಕ್ಕಾಗಿ ಕೋಷ್ಟಕ, ಜೆಪ್ಪೆಲಿನ್ ಮತ್ತು ಪಿವೋಟ್

ಈ ಪರಿಕರಗಳು ಅತ್ಯಂತ ಶಕ್ತಿಶಾಲಿ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ನೀಡುತ್ತಿರುವಾಗ, Twitter ನಲ್ಲಿ ವಿಶಾಲವಾದ ಪ್ರೇಕ್ಷಕರಿಗೆ ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಲಭ್ಯವಾಗುವಂತೆ ಮಾಡಲು ನಾವು ಕಷ್ಟಪಟ್ಟಿದ್ದೇವೆ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ. Google ಕ್ಲೌಡ್‌ನೊಂದಿಗೆ ನಮ್ಮ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ಅನ್ನು ವಿಸ್ತರಿಸುವ ಮೂಲಕ, ನಾವು ಎಲ್ಲಾ Twitter ಗಾಗಿ ನಮ್ಮ ವಿಶ್ಲೇಷಣಾ ಸಾಧನಗಳನ್ನು ಸರಳಗೊಳಿಸುವತ್ತ ಗಮನಹರಿಸುತ್ತಿದ್ದೇವೆ.

Google ನ BigQuery ಡೇಟಾ ವೇರ್‌ಹೌಸ್

Twitter ನಲ್ಲಿನ ಹಲವಾರು ತಂಡಗಳು ಈಗಾಗಲೇ ತಮ್ಮ ಕೆಲವು ಉತ್ಪಾದನಾ ಪೈಪ್‌ಲೈನ್‌ಗಳಲ್ಲಿ BigQuery ಅನ್ನು ಸಂಯೋಜಿಸಿವೆ. ಅವರ ಪರಿಣತಿಯನ್ನು ಬಳಸಿಕೊಂಡು, ನಾವು ಎಲ್ಲಾ Twitter ಬಳಕೆಯ ಸಂದರ್ಭಗಳಿಗಾಗಿ BigQuery ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಇಡೀ ಕಂಪನಿಗೆ BigQuery ಅನ್ನು ನೀಡುವುದು ಮತ್ತು ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ಟೂಲ್‌ಸೆಟ್‌ನಲ್ಲಿ ಅದನ್ನು ಪ್ರಮಾಣೀಕರಿಸುವುದು ಮತ್ತು ಬೆಂಬಲಿಸುವುದು ನಮ್ಮ ಗುರಿಯಾಗಿದೆ. ಅನೇಕ ಕಾರಣಗಳಿಂದ ಇದು ಕಷ್ಟಕರವಾಗಿತ್ತು. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಒಳಗೊಳ್ಳಲು, ಕಂಪನಿಯಾದ್ಯಂತ ಡೇಟಾ ನಿರ್ವಹಣೆಯನ್ನು ಬೆಂಬಲಿಸಲು, ಸರಿಯಾದ ಪ್ರವೇಶ ನಿಯಂತ್ರಣಗಳನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಮತ್ತು ಗ್ರಾಹಕರ ಗೌಪ್ಯತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ನಾವು ಮೂಲಸೌಕರ್ಯವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಬೇಕಾಗಿದೆ. ತಂಡಗಳು BigQuery ಅನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಬಳಸಿಕೊಳ್ಳಲು ನಾವು ಸಂಪನ್ಮೂಲ ಹಂಚಿಕೆ, ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ಚಾರ್ಜ್‌ಬ್ಯಾಕ್‌ಗಳಿಗಾಗಿ ಸಿಸ್ಟಮ್‌ಗಳನ್ನು ರಚಿಸಬೇಕಾಗಿದೆ.

ನವೆಂಬರ್ 2018 ರಲ್ಲಿ, ನಾವು BigQuery ಮತ್ತು ಡೇಟಾ ಸ್ಟುಡಿಯೊದ ಕಂಪನಿಯಾದ್ಯಂತ ಆಲ್ಫಾ ಬಿಡುಗಡೆಯನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದ್ದೇವೆ. ನಾವು Twitter ಉದ್ಯೋಗಿಗಳಿಗೆ ಸ್ವಚ್ಛಗೊಳಿಸಿದ ವೈಯಕ್ತಿಕ ಡೇಟಾದೊಂದಿಗೆ ನಮ್ಮ ಆಗಾಗ್ಗೆ ಬಳಸುವ ಕೆಲವು ಸ್ಪ್ರೆಡ್‌ಶೀಟ್‌ಗಳನ್ನು ನೀಡಿದ್ದೇವೆ. BigQuery ಅನ್ನು ಎಂಜಿನಿಯರಿಂಗ್, ಹಣಕಾಸು ಮತ್ತು ಮಾರ್ಕೆಟಿಂಗ್ ಸೇರಿದಂತೆ ವಿವಿಧ ತಂಡಗಳಿಂದ 250 ಕ್ಕೂ ಹೆಚ್ಚು ಬಳಕೆದಾರರು ಬಳಸಿದ್ದಾರೆ. ತೀರಾ ಇತ್ತೀಚೆಗೆ, ಅವರು ಸುಮಾರು 8k ವಿನಂತಿಗಳನ್ನು ಚಲಾಯಿಸುತ್ತಿದ್ದಾರೆ, ತಿಂಗಳಿಗೆ ಸುಮಾರು 100 PB ಅನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತಿದ್ದಾರೆ, ನಿಗದಿತ ವಿನಂತಿಗಳನ್ನು ಲೆಕ್ಕಿಸುವುದಿಲ್ಲ. ಸಕಾರಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಸ್ವೀಕರಿಸಿದ ನಂತರ, ನಾವು ಮುಂದುವರಿಯಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ ಮತ್ತು Twitter ನಲ್ಲಿ ಡೇಟಾದೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸಲು BigQuery ಅನ್ನು ಪ್ರಾಥಮಿಕ ಸಂಪನ್ಮೂಲವಾಗಿ ನೀಡಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ.

ನಮ್ಮ Google BigQuery ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ನ ಉನ್ನತ ಮಟ್ಟದ ರೇಖಾಚಿತ್ರ ಇಲ್ಲಿದೆ.

Google ನ BigQuery ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹೇಗೆ ಪ್ರಜಾಪ್ರಭುತ್ವಗೊಳಿಸಿತು. ಭಾಗ 1
ಆಂತರಿಕ ಕ್ಲೌಡ್ ರೆಪ್ಲಿಕೇಟರ್ ಉಪಕರಣವನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಆನ್-ಆವರಣದ ಹಡೂಪ್ ಕ್ಲಸ್ಟರ್‌ಗಳಿಂದ Google ಮೇಘ ಸಂಗ್ರಹಣೆಗೆ (GCS) ಡೇಟಾವನ್ನು ನಕಲಿಸುತ್ತೇವೆ. "ಅನ್ನು ಬಳಸುವ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ರಚಿಸಲು ನಾವು ನಂತರ ಅಪಾಚೆ ಏರ್‌ಫ್ಲೋ ಅನ್ನು ಬಳಸುತ್ತೇವೆbq_load»GCS ನಿಂದ BigQuery ಗೆ ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಲು. GCS ನಲ್ಲಿ Parquet ಅಥವಾ Thrift-LZO ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಪ್ರಶ್ನಿಸಲು ನಾವು Presto ಅನ್ನು ಬಳಸುತ್ತೇವೆ. BQ Blaster ಎನ್ನುವುದು HDFS ವರ್ಟಿಕಾ ಮತ್ತು ಥ್ರಿಫ್ಟ್-LZO ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು BigQuery ಗೆ ಲೋಡ್ ಮಾಡಲು ಆಂತರಿಕ ಸ್ಕಲ್ಡಿಂಗ್ ಸಾಧನವಾಗಿದೆ.

ಕೆಳಗಿನ ವಿಭಾಗಗಳಲ್ಲಿ, ಬಳಕೆಯ ಸುಲಭತೆ, ಕಾರ್ಯಕ್ಷಮತೆ, ಡೇಟಾ ನಿರ್ವಹಣೆ, ಸಿಸ್ಟಮ್ ಆರೋಗ್ಯ ಮತ್ತು ವೆಚ್ಚದ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ನಮ್ಮ ವಿಧಾನ ಮತ್ತು ಪರಿಣತಿಯನ್ನು ನಾವು ಚರ್ಚಿಸುತ್ತೇವೆ.

ಬಳಕೆಯ ಸುಲಭ

ಬಳಕೆದಾರರು BigQuery ಯೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುವುದು ಸುಲಭ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ ಏಕೆಂದರೆ ಇದಕ್ಕೆ ಸಾಫ್ಟ್‌ವೇರ್ ಸ್ಥಾಪನೆಯ ಅಗತ್ಯವಿಲ್ಲ ಮತ್ತು ಬಳಕೆದಾರರು ಅದನ್ನು ಅರ್ಥಗರ್ಭಿತ ವೆಬ್ ಇಂಟರ್ಫೇಸ್ ಮೂಲಕ ಪ್ರವೇಶಿಸಬಹುದು. ಆದಾಗ್ಯೂ, ಪ್ರಾಜೆಕ್ಟ್‌ಗಳು, ಡೇಟಾಸೆಟ್‌ಗಳು ಮತ್ತು ಕೋಷ್ಟಕಗಳಂತಹ ಸಂಪನ್ಮೂಲಗಳು ಸೇರಿದಂತೆ GCP ಯ ಕೆಲವು ವೈಶಿಷ್ಟ್ಯಗಳು ಮತ್ತು ಪರಿಕಲ್ಪನೆಗಳೊಂದಿಗೆ ಬಳಕೆದಾರರು ಪರಿಚಿತರಾಗುವ ಅಗತ್ಯವಿದೆ. ಬಳಕೆದಾರರು ಪ್ರಾರಂಭಿಸಲು ಸಹಾಯ ಮಾಡಲು ನಾವು ಶೈಕ್ಷಣಿಕ ಸಾಮಗ್ರಿಗಳು ಮತ್ತು ಟ್ಯುಟೋರಿಯಲ್‌ಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದೇವೆ. ಪಡೆದ ಮೂಲಭೂತ ತಿಳುವಳಿಕೆಯೊಂದಿಗೆ, ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡುವುದು, ಸ್ಕೀಮಾ ಮತ್ತು ಟೇಬಲ್ ಡೇಟಾವನ್ನು ವೀಕ್ಷಿಸುವುದು, ಸರಳ ಪ್ರಶ್ನೆಗಳನ್ನು ರನ್ ಮಾಡುವುದು ಮತ್ತು ಡೇಟಾ ಸ್ಟುಡಿಯೋದಲ್ಲಿ ಫಲಿತಾಂಶಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು ಬಳಕೆದಾರರಿಗೆ ಸುಲಭವಾಗಿದೆ.

BigQuery ಗೆ ಡೇಟಾ ಪ್ರವೇಶಕ್ಕಾಗಿ ನಮ್ಮ ಗುರಿಯು ಒಂದೇ ಕ್ಲಿಕ್‌ನಲ್ಲಿ HDFS ಅಥವಾ GCS ಡೇಟಾಸೆಟ್‌ಗಳ ತಡೆರಹಿತ ಲೋಡ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದಾಗಿದೆ. ನಾವು ಪರಿಗಣಿಸಿದ್ದೇವೆ ಮೇಘ ಸಂಯೋಜಕ (ಏರ್‌ಫ್ಲೋ ಮೂಲಕ ನಿರ್ವಹಿಸಲಾಗಿದೆ) ಆದರೆ ನಮ್ಮ ಡೊಮೇನ್ ನಿರ್ಬಂಧಿತ ಹಂಚಿಕೆ ಭದ್ರತಾ ಮಾದರಿಯ ಕಾರಣದಿಂದಾಗಿ ಅದನ್ನು ಬಳಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ (ಕೆಳಗಿನ ಡೇಟಾ ನಿರ್ವಹಣೆ ವಿಭಾಗದಲ್ಲಿ ಇದರ ಕುರಿತು ಇನ್ನಷ್ಟು). ನಾವು BigQuery ಕೆಲಸದ ಹೊರೆಗಳನ್ನು ಸಂಘಟಿಸಲು Google ಡೇಟಾ ವರ್ಗಾವಣೆ ಸೇವೆಯನ್ನು (DTS) ಬಳಸಿಕೊಂಡು ಪ್ರಯೋಗ ಮಾಡಿದ್ದೇವೆ. ಡಿಟಿಎಸ್ ಅನ್ನು ತ್ವರಿತವಾಗಿ ಹೊಂದಿಸಲಾಗಿದ್ದರೂ, ಅವಲಂಬನೆಯೊಂದಿಗೆ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಇದು ಹೊಂದಿಕೊಳ್ಳುವುದಿಲ್ಲ. ನಮ್ಮ ಆಲ್ಫಾ ಬಿಡುಗಡೆಗಾಗಿ, ನಾವು GCE ಯಲ್ಲಿ ನಮ್ಮದೇ ಆದ Apache Airflow ಫ್ರೇಮ್‌ವರ್ಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದೇವೆ ಮತ್ತು ಉತ್ಪಾದನೆಯಲ್ಲಿ ರನ್ ಮಾಡಲು ತಯಾರಿ ನಡೆಸುತ್ತಿದ್ದೇವೆ ಮತ್ತು Vertica ನಂತಹ ಹೆಚ್ಚಿನ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಬೆಂಬಲಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಡೇಟಾವನ್ನು BigQuery ಆಗಿ ಪರಿವರ್ತಿಸಲು, ಬಳಕೆದಾರರು ನಿಗದಿತ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಸರಳ SQL ಡೇಟಾ ಪೈಪ್‌ಲೈನ್‌ಗಳನ್ನು ರಚಿಸುತ್ತಾರೆ. ಅವಲಂಬನೆಗಳೊಂದಿಗೆ ಸಂಕೀರ್ಣ ಬಹು-ಹಂತದ ಪೈಪ್‌ಲೈನ್‌ಗಳಿಗಾಗಿ, ನಾವು ನಮ್ಮದೇ ಆದ ಏರ್‌ಫ್ಲೋ ಫ್ರೇಮ್‌ವರ್ಕ್ ಅಥವಾ ಕ್ಲೌಡ್ ಸಂಯೋಜಕವನ್ನು ಬಳಸಲು ಯೋಜಿಸುತ್ತೇವೆ ಮೇಘ ಡೇಟಾ ಹರಿವು.

ಉತ್ಪಾದಕತೆ

ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ SQL ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ BigQuery ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಇದು ಕಡಿಮೆ ಸುಪ್ತತೆ, ವಹಿವಾಟಿನ ಡೇಟಾಬೇಸ್‌ನಿಂದ ಅಗತ್ಯವಿರುವ ಹೆಚ್ಚಿನ ಥ್ರೋಪುಟ್ ಪ್ರಶ್ನೆಗಳಿಗೆ ಅಥವಾ ಕಡಿಮೆ ಸುಪ್ತ ಸಮಯದ ಸರಣಿಯ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಜಾರಿಗೊಳಿಸಲು ಉದ್ದೇಶಿಸಿಲ್ಲ ಅಪಾಚೆ ಡ್ರುಯಿಡ್. ಸಂವಾದಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ, ನಮ್ಮ ಬಳಕೆದಾರರು ಒಂದು ನಿಮಿಷಕ್ಕಿಂತ ಕಡಿಮೆ ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯವನ್ನು ನಿರೀಕ್ಷಿಸುತ್ತಾರೆ. ಈ ನಿರೀಕ್ಷೆಗಳನ್ನು ಪೂರೈಸಲು ನಾವು BigQuery ಬಳಕೆಯನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸಬೇಕಾಗಿತ್ತು. ನಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ಊಹಿಸಬಹುದಾದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಒದಗಿಸಲು, ನಾವು BigQuery ಕಾರ್ಯವನ್ನು ನಿಯಂತ್ರಿಸಿದ್ದೇವೆ, ಇದು ಗ್ರಾಹಕರಿಗೆ ಫ್ಲಾಟ್ ಶುಲ್ಕದ ಆಧಾರದ ಮೇಲೆ ಲಭ್ಯವಿದೆ, ಇದು ಪ್ರಾಜೆಕ್ಟ್ ಮಾಲೀಕರು ತಮ್ಮ ಪ್ರಶ್ನೆಗಳಿಗೆ ಕನಿಷ್ಠ ಸ್ಲಾಟ್‌ಗಳನ್ನು ಕಾಯ್ದಿರಿಸಲು ಅನುಮತಿಸುತ್ತದೆ. ಸ್ಲಾಟ್ BigQuery ಎನ್ನುವುದು SQL ಪ್ರಶ್ನೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಅಗತ್ಯವಿರುವ ಕಂಪ್ಯೂಟಿಂಗ್ ಶಕ್ತಿಯ ಒಂದು ಘಟಕವಾಗಿದೆ.

ನಾವು 800 ಕ್ಕೂ ಹೆಚ್ಚು ಪ್ರಶ್ನೆಗಳನ್ನು ಪ್ರತಿಯೊಂದೂ ಸರಿಸುಮಾರು 1 TB ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿದ್ದೇವೆ ಮತ್ತು ಸರಾಸರಿ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಸಮಯ 30 ಸೆಕೆಂಡುಗಳು ಎಂದು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ. ವಿಭಿನ್ನ ಯೋಜನೆಗಳು ಮತ್ತು ಕಾರ್ಯಗಳಲ್ಲಿ ನಮ್ಮ ಸ್ಲಾಟ್‌ನ ಬಳಕೆಯ ಮೇಲೆ ಕಾರ್ಯಕ್ಷಮತೆಯು ಹೆಚ್ಚು ಅವಲಂಬಿತವಾಗಿದೆ ಎಂದು ನಾವು ಕಲಿತಿದ್ದೇವೆ. ಉತ್ಪಾದನಾ ಬಳಕೆಯ ಪ್ರಕರಣಗಳು ಮತ್ತು ಆನ್‌ಲೈನ್ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ನಾವು ನಮ್ಮ ಉತ್ಪಾದನೆ ಮತ್ತು ತಾತ್ಕಾಲಿಕ ಸ್ಲಾಟ್ ಮೀಸಲುಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ವಿವರಿಸಬೇಕಾಗಿತ್ತು. ಇದು ಸ್ಲಾಟ್ ಕಾಯ್ದಿರಿಸುವಿಕೆ ಮತ್ತು ಯೋಜನಾ ಕ್ರಮಾನುಗತಕ್ಕಾಗಿ ನಮ್ಮ ವಿನ್ಯಾಸವನ್ನು ಹೆಚ್ಚು ಪ್ರಭಾವಿಸಿದೆ.

ಅನುವಾದದ ಎರಡನೇ ಭಾಗದಲ್ಲಿ ನಾವು ಮುಂದಿನ ದಿನಗಳಲ್ಲಿ ಡೇಟಾ ನಿರ್ವಹಣೆ, ಕ್ರಿಯಾತ್ಮಕತೆ ಮತ್ತು ಸಿಸ್ಟಮ್‌ಗಳ ವೆಚ್ಚದ ಕುರಿತು ಮಾತನಾಡುತ್ತೇವೆ, ಆದರೆ ಈಗ ನಾವು ಎಲ್ಲರಿಗೂ ಆಹ್ವಾನಿಸುತ್ತೇವೆ ಉಚಿತ ಲೈವ್ ವೆಬ್ನಾರ್, ಈ ಸಮಯದಲ್ಲಿ ನೀವು ಕೋರ್ಸ್ ಬಗ್ಗೆ ವಿವರವಾಗಿ ಕಲಿಯಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ, ಜೊತೆಗೆ ನಮ್ಮ ತಜ್ಞರಿಗೆ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಬಹುದು - ಎಗೊರ್ ಮಾಟೆಶುಕ್ (ಹಿರಿಯ ಡೇಟಾ ಇಂಜಿನಿಯರ್, ಮ್ಯಾಕ್ಸಿಮಾ ಟೆಲಿಕಾಮ್).

ಮತ್ತಷ್ಟು ಓದು:

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ