ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ

ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ
ರೆಮರಿನ್ ಅವರಿಂದ ಹವಾಮಾನ ದೇವತೆ

ತಂಡದ Mail.ru ಕ್ಲೌಡ್ ಪರಿಹಾರಗಳು ಕೊಡುಗೆಗಳು ಲೇಖನದ ಅನುವಾದ ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಯಾವ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳಿವೆ, ಹಡೂಪ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳ ಸಾಮಾನ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳು ಯಾವುವು ಮತ್ತು ಯಾವ ಸ್ವರೂಪವನ್ನು ಬಳಸುವುದು ಉತ್ತಮ ಎಂಬುದರ ಕುರಿತು ಕ್ಲೈರ್‌ವಾಯಂಟ್‌ನಿಂದ ಇಂಜಿನಿಯರ್ ರಾಹುಲ್ ಭಾಟಿಯಾ.

ವಿಭಿನ್ನ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು ಏಕೆ ಬೇಕು?

MapReduce ಮತ್ತು Spark ನಂತಹ HDFS-ಸಕ್ರಿಯಗೊಳಿಸಿದ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ಪ್ರಮುಖ ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಡಚಣೆಯು ಡೇಟಾವನ್ನು ಹುಡುಕಲು, ಓದಲು ಮತ್ತು ಬರೆಯಲು ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಯವಾಗಿದೆ. ನಾವು ಸ್ಥಿರವಾದ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ವಿಕಸನಗೊಳ್ಳುತ್ತಿರುವ ಸ್ಕೀಮಾವನ್ನು ಹೊಂದಿದ್ದರೆ ಅಥವಾ ಕೆಲವು ಶೇಖರಣಾ ನಿರ್ಬಂಧಗಳು ಇದ್ದಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುವಲ್ಲಿನ ತೊಂದರೆಯಿಂದ ಈ ಸಮಸ್ಯೆಗಳನ್ನು ಸಂಕೀರ್ಣಗೊಳಿಸಲಾಗುತ್ತದೆ.

ದೊಡ್ಡ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದರಿಂದ ಶೇಖರಣಾ ಉಪವ್ಯವಸ್ಥೆಯ ಮೇಲಿನ ಹೊರೆ ಹೆಚ್ಚಾಗುತ್ತದೆ - ದೋಷ ಸಹಿಷ್ಣುತೆಯನ್ನು ಸಾಧಿಸಲು ಹಡೂಪ್ ಡೇಟಾವನ್ನು ಅನಗತ್ಯವಾಗಿ ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಡಿಸ್ಕ್ಗಳ ಜೊತೆಗೆ, ಪ್ರೊಸೆಸರ್, ನೆಟ್ವರ್ಕ್, ಇನ್ಪುಟ್ / ಔಟ್ಪುಟ್ ಸಿಸ್ಟಮ್, ಇತ್ಯಾದಿಗಳನ್ನು ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ. ಡೇಟಾದ ಪ್ರಮಾಣವು ಬೆಳೆದಂತೆ, ಅದನ್ನು ಸಂಸ್ಕರಿಸುವ ಮತ್ತು ಸಂಗ್ರಹಿಸುವ ವೆಚ್ಚವೂ ಹೆಚ್ಚಾಗುತ್ತದೆ.

ವಿವಿಧ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳಲ್ಲಿ ಹ್ಯಾಡ್ಲೂಪ್ ಈ ಸಮಸ್ಯೆಗಳನ್ನು ನಿಖರವಾಗಿ ಪರಿಹರಿಸಲು ಕಂಡುಹಿಡಿಯಲಾಗಿದೆ. ಸೂಕ್ತವಾದ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡುವುದರಿಂದ ಕೆಲವು ಗಮನಾರ್ಹ ಪ್ರಯೋಜನಗಳನ್ನು ಒದಗಿಸಬಹುದು:

  1. ವೇಗವಾಗಿ ಓದುವ ಸಮಯ.
  2. ವೇಗವಾದ ರೆಕಾರ್ಡಿಂಗ್ ಸಮಯ.
  3. ಹಂಚಿದ ಫೈಲ್‌ಗಳು.
  4. ಸ್ಕೀಮಾ ವಿಕಾಸಕ್ಕೆ ಬೆಂಬಲ.
  5. ವಿಸ್ತರಿತ ಸಂಕೋಚನ ಬೆಂಬಲ.

ಕೆಲವು ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು ಸಾಮಾನ್ಯ ಬಳಕೆಗಾಗಿ, ಇತರವುಗಳು ಹೆಚ್ಚು ನಿರ್ದಿಷ್ಟ ಬಳಕೆಗಾಗಿ ಮತ್ತು ಕೆಲವು ನಿರ್ದಿಷ್ಟ ಡೇಟಾ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಪೂರೈಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಆದ್ದರಿಂದ ಆಯ್ಕೆಯು ನಿಜವಾಗಿಯೂ ದೊಡ್ಡದಾಗಿದೆ.

Avro ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್

ಗೆ ಡೇಟಾ ಧಾರಾವಾಹಿ Avro ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ - ಇದು ಸ್ಟ್ರಿಂಗ್ ಆಧಾರಿತ, ಅಂದರೆ, ಹಡೂಪ್‌ನಲ್ಲಿ ಸ್ಟ್ರಿಂಗ್ ಡೇಟಾ ಶೇಖರಣಾ ಸ್ವರೂಪ. ಇದು JSON ಸ್ವರೂಪದಲ್ಲಿ ಸ್ಕೀಮಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ, ಯಾವುದೇ ಪ್ರೋಗ್ರಾಂ ಮೂಲಕ ಓದಲು ಮತ್ತು ಅರ್ಥೈಸಲು ಸುಲಭವಾಗುತ್ತದೆ. ಡೇಟಾವು ಬೈನರಿ ಸ್ವರೂಪದಲ್ಲಿದೆ, ಸಾಂದ್ರವಾಗಿರುತ್ತದೆ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ.

Avro ನ ಧಾರಾವಾಹಿ ವ್ಯವಸ್ಥೆಯು ಭಾಷೆ ತಟಸ್ಥವಾಗಿದೆ. ಫೈಲ್‌ಗಳನ್ನು ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಬಹುದು, ಪ್ರಸ್ತುತ C, C++, C#, Java, Python ಮತ್ತು Ruby.

Avro ನ ಪ್ರಮುಖ ಲಕ್ಷಣವೆಂದರೆ ಡೇಟಾ ಸ್ಕೀಮಾಗಳಿಗೆ ಅದರ ದೃಢವಾದ ಬೆಂಬಲವು ಕಾಲಾನಂತರದಲ್ಲಿ ಬದಲಾಗುತ್ತದೆ, ಅಂದರೆ ವಿಕಸನಗೊಳ್ಳುತ್ತದೆ. Avro ಸ್ಕೀಮಾ ಬದಲಾವಣೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ-ಅಳಿಸುವಿಕೆ, ಸೇರಿಸುವುದು ಅಥವಾ ಕ್ಷೇತ್ರಗಳನ್ನು ಬದಲಾಯಿಸುವುದು.

Avro ವಿವಿಧ ಡೇಟಾ ರಚನೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ನೀವು ಅರೇ, ಎಣಿಕೆಯ ಪ್ರಕಾರ ಮತ್ತು ಉಪದಾಖಲೆಯನ್ನು ಒಳಗೊಂಡಿರುವ ದಾಖಲೆಯನ್ನು ರಚಿಸಬಹುದು.

ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ
ಡೇಟಾ ಸರೋವರದ ಲ್ಯಾಂಡಿಂಗ್ (ಪರಿವರ್ತನೆ) ವಲಯಕ್ಕೆ ಬರೆಯಲು ಈ ಸ್ವರೂಪವು ಸೂಕ್ತವಾಗಿದೆ (ಡೇಟಾ ಸರೋವರ, ಅಥವಾ ದತ್ತಾಂಶ ಸರೋವರ - ದತ್ತಾಂಶ ಮೂಲಗಳ ಜೊತೆಗೆ ನೇರವಾಗಿ ವಿವಿಧ ರೀತಿಯ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ನಿದರ್ಶನಗಳ ಸಂಗ್ರಹ).

ಆದ್ದರಿಂದ, ಈ ಕೆಳಗಿನ ಕಾರಣಗಳಿಗಾಗಿ ಡೇಟಾ ಸರೋವರದ ಲ್ಯಾಂಡಿಂಗ್ ವಲಯಕ್ಕೆ ಬರೆಯಲು ಈ ಸ್ವರೂಪವು ಸೂಕ್ತವಾಗಿರುತ್ತದೆ:

  1. ಡೌನ್‌ಸ್ಟ್ರೀಮ್ ಸಿಸ್ಟಮ್‌ಗಳಿಂದ ಹೆಚ್ಚಿನ ಪ್ರಕ್ರಿಯೆಗಾಗಿ ಈ ವಲಯದಿಂದ ಡೇಟಾವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಸಂಪೂರ್ಣವಾಗಿ ಓದಲಾಗುತ್ತದೆ - ಮತ್ತು ಈ ಸಂದರ್ಭದಲ್ಲಿ ಸಾಲು-ಆಧಾರಿತ ಸ್ವರೂಪವು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುತ್ತದೆ.
  2. ಡೌನ್‌ಸ್ಟ್ರೀಮ್ ಸಿಸ್ಟಮ್‌ಗಳು ಫೈಲ್‌ಗಳಿಂದ ಸ್ಕೀಮಾ ಕೋಷ್ಟಕಗಳನ್ನು ಸುಲಭವಾಗಿ ಹಿಂಪಡೆಯಬಹುದು-ಬಾಹ್ಯ ಮೆಟಾ ಸಂಗ್ರಹಣೆಯಲ್ಲಿ ಪ್ರತ್ಯೇಕವಾಗಿ ಸ್ಕೀಮಾಗಳನ್ನು ಸಂಗ್ರಹಿಸುವ ಅಗತ್ಯವಿಲ್ಲ.
  3. ಮೂಲ ಸ್ಕೀಮಾಗೆ ಯಾವುದೇ ಬದಲಾವಣೆಯನ್ನು ಸುಲಭವಾಗಿ ಸಂಸ್ಕರಿಸಲಾಗುತ್ತದೆ (ಸ್ಕೀಮಾ ವಿಕಸನ).

ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್

ಪಾರ್ಕ್ವೆಟ್ ಹಡೂಪ್‌ಗಾಗಿ ತೆರೆದ ಮೂಲ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್ ಆಗಿದ್ದು ಅದು ಸಂಗ್ರಹಿಸುತ್ತದೆ ಫ್ಲಾಟ್ ಸ್ತಂಭಾಕಾರದ ಸ್ವರೂಪದಲ್ಲಿ ನೆಸ್ಟೆಡ್ ಡೇಟಾ ರಚನೆಗಳು.

ಸಾಂಪ್ರದಾಯಿಕ ಸಾಲು ವಿಧಾನಕ್ಕೆ ಹೋಲಿಸಿದರೆ, ಸಂಗ್ರಹಣೆ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯ ವಿಷಯದಲ್ಲಿ ಪಾರ್ಕ್ವೆಟ್ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ.

ವಿಶಾಲವಾದ (ಹಲವು ಕಾಲಮ್‌ಗಳು) ಕೋಷ್ಟಕದಿಂದ ನಿರ್ದಿಷ್ಟ ಕಾಲಮ್‌ಗಳನ್ನು ಓದುವ ಪ್ರಶ್ನೆಗಳಿಗೆ ಇದು ವಿಶೇಷವಾಗಿ ಉಪಯುಕ್ತವಾಗಿದೆ. ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗೆ ಧನ್ಯವಾದಗಳು, ಅಗತ್ಯವಿರುವ ಕಾಲಮ್‌ಗಳನ್ನು ಮಾತ್ರ ಓದಲಾಗುತ್ತದೆ, ಆದ್ದರಿಂದ I/O ಅನ್ನು ಕನಿಷ್ಠಕ್ಕೆ ಇರಿಸಲಾಗುತ್ತದೆ.

ಒಂದು ಸಣ್ಣ ವಿಷಯಾಂತರ ಮತ್ತು ವಿವರಣೆ: ಹಡೂಪ್‌ನಲ್ಲಿ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಕಾಲಮ್ ಆಧಾರಿತ - ಅಂದರೆ ಸ್ತಂಭಾಕಾರದ - ಫಾರ್ಮ್ಯಾಟ್ ಏನೆಂದು ನೋಡೋಣ. ಈ ಸ್ವರೂಪವು ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಒಂದೇ ರೀತಿಯ ಮೌಲ್ಯಗಳನ್ನು ಒಟ್ಟಿಗೆ ಸಂಗ್ರಹಿಸುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, ದಾಖಲೆಯು ID, ಹೆಸರು ಮತ್ತು ಇಲಾಖೆ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಎಲ್ಲಾ ID ಕಾಲಮ್ ಮೌಲ್ಯಗಳನ್ನು ಒಟ್ಟಿಗೆ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ, ಹಾಗೆಯೇ ಹೆಸರು ಕಾಲಮ್ ಮೌಲ್ಯಗಳು ಮತ್ತು ಹೀಗೆ. ಟೇಬಲ್ ಈ ರೀತಿ ಕಾಣುತ್ತದೆ:

ID
ಹೆಸರು
ಇಲಾಖೆ

1
emp1
d1

2
emp2
d2

3
emp3
d3

ಸ್ಟ್ರಿಂಗ್ ಸ್ವರೂಪದಲ್ಲಿ, ಡೇಟಾವನ್ನು ಈ ಕೆಳಗಿನಂತೆ ಉಳಿಸಲಾಗುತ್ತದೆ:

1
emp1
d1
2
emp2
d2
3
emp3
d3

ಸ್ತಂಭಾಕಾರದ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ನಲ್ಲಿ, ಅದೇ ಡೇಟಾವನ್ನು ಈ ರೀತಿ ಉಳಿಸಲಾಗುತ್ತದೆ:

1
2
3
emp1
emp2
emp3
d1
d2
d3

ನೀವು ಟೇಬಲ್‌ನಿಂದ ಬಹು ಕಾಲಮ್‌ಗಳನ್ನು ಪ್ರಶ್ನಿಸಬೇಕಾದಾಗ ಸ್ತಂಭಾಕಾರದ ಸ್ವರೂಪವು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುತ್ತದೆ. ಇದು ಅಗತ್ಯವಿರುವ ಕಾಲಮ್‌ಗಳನ್ನು ಮಾತ್ರ ಓದುತ್ತದೆ ಏಕೆಂದರೆ ಅವುಗಳು ಪಕ್ಕದಲ್ಲಿರುತ್ತವೆ. ಈ ರೀತಿಯಾಗಿ, I/O ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಕನಿಷ್ಠವಾಗಿ ಇರಿಸಲಾಗುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, ನಿಮಗೆ NAME ಕಾಲಮ್ ಮಾತ್ರ ಅಗತ್ಯವಿದೆ. IN ಸ್ಟ್ರಿಂಗ್ ಸ್ವರೂಪ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ದಾಖಲೆಯನ್ನು ಲೋಡ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ಕ್ಷೇತ್ರದಿಂದ ಪಾರ್ಸ್ ಮಾಡಿ ಮತ್ತು ನಂತರ NAME ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯಬೇಕು. ಕಾಲಮ್ ಫಾರ್ಮ್ಯಾಟ್ ನಿಮಗೆ ನೇರವಾಗಿ ಹೆಸರಿನ ಕಾಲಮ್‌ಗೆ ಕೊರೆಯಲು ಅನುಮತಿಸುತ್ತದೆ ಏಕೆಂದರೆ ಆ ಕಾಲಮ್‌ನ ಎಲ್ಲಾ ಮೌಲ್ಯಗಳನ್ನು ಒಟ್ಟಿಗೆ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ನೀವು ಸಂಪೂರ್ಣ ರೆಕಾರ್ಡಿಂಗ್ ಅನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಬೇಕಾಗಿಲ್ಲ.

ಹೀಗಾಗಿ, ಸ್ತಂಭಾಕಾರದ ಸ್ವರೂಪವು ಪ್ರಶ್ನೆಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸುತ್ತದೆ ಏಕೆಂದರೆ ಅಗತ್ಯವಿರುವ ಕಾಲಮ್‌ಗಳನ್ನು ಪಡೆಯಲು ಕಡಿಮೆ ಲುಕಪ್ ಸಮಯ ಬೇಕಾಗುತ್ತದೆ ಮತ್ತು I/O ಕಾರ್ಯಾಚರಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಏಕೆಂದರೆ ಅಪೇಕ್ಷಿತ ಕಾಲಮ್‌ಗಳನ್ನು ಮಾತ್ರ ಓದಲಾಗುತ್ತದೆ.

ವಿಶಿಷ್ಟ ಲಕ್ಷಣಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಪಾರ್ಕ್ವೆಟ್ ಅದು ಈ ರೂಪದಲ್ಲಿ ಮಾಡಬಹುದು ನೆಸ್ಟೆಡ್ ರಚನೆಗಳೊಂದಿಗೆ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಿ. ಇದರರ್ಥ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್‌ನಲ್ಲಿ, ನೆಸ್ಟೆಡ್ ರಚನೆಯಲ್ಲಿನ ಎಲ್ಲಾ ಕ್ಷೇತ್ರಗಳನ್ನು ಓದದೆಯೇ ನೆಸ್ಟೆಡ್ ಕ್ಷೇತ್ರಗಳನ್ನು ಸಹ ಪ್ರತ್ಯೇಕವಾಗಿ ಓದಬಹುದು. ಪ್ಯಾರ್ಕ್ವೆಟ್ ನೆಸ್ಟೆಡ್ ರಚನೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಲು ಚೂರುಚೂರು ಮತ್ತು ಅಸೆಂಬ್ಲಿ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಬಳಸುತ್ತದೆ.

ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ
Hadoop ನಲ್ಲಿ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಸ್ವರೂಪವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ನೀವು ಈ ಕೆಳಗಿನ ನಿಯಮಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಬೇಕು:

  1. ತಂತಿಗಳ ಗುಂಪು (ಸಾಲು ಗುಂಪು): ಡೇಟಾದ ತಾರ್ಕಿಕ ಸಮತಲ ವಿಭಾಗವು ಸಾಲುಗಳಾಗಿ. ಒಂದು ಸಾಲಿನ ಗುಂಪು ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿರುವ ಪ್ರತಿ ಕಾಲಮ್‌ನ ತುಣುಕನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.
  2. ಕಾಲಮ್ ತುಣುಕು (ಕಾಲಮ್ ಚಂಕ್): ನಿರ್ದಿಷ್ಟ ಕಾಲಮ್‌ನ ತುಣುಕು. ಈ ಕಾಲಮ್ ತುಣುಕುಗಳು ಸಾಲುಗಳ ನಿರ್ದಿಷ್ಟ ಗುಂಪಿನಲ್ಲಿ ವಾಸಿಸುತ್ತವೆ ಮತ್ತು ಫೈಲ್‌ನಲ್ಲಿ ಹೊಂದಿಕೆಯಾಗುತ್ತವೆ ಎಂದು ಖಾತರಿಪಡಿಸಲಾಗುತ್ತದೆ.
  3. ಪುಟ (ಪುಟ): ಕಾಲಮ್ ತುಣುಕುಗಳನ್ನು ಒಂದರ ನಂತರ ಒಂದರಂತೆ ಬರೆಯಲಾದ ಪುಟಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ. ಪುಟಗಳು ಸಾಮಾನ್ಯ ಶೀರ್ಷಿಕೆಯನ್ನು ಹೊಂದಿವೆ, ಆದ್ದರಿಂದ ನೀವು ಓದುವಾಗ ಅನಗತ್ಯವಾದವುಗಳನ್ನು ಬಿಟ್ಟುಬಿಡಬಹುದು.

ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ
ಇಲ್ಲಿ ಶೀರ್ಷಿಕೆಯು ಕೇವಲ ಮ್ಯಾಜಿಕ್ ಸಂಖ್ಯೆಯನ್ನು ಒಳಗೊಂಡಿದೆ PAR1 (4 ಬೈಟ್‌ಗಳು) ಇದು ಫೈಲ್ ಅನ್ನು ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಎಂದು ಗುರುತಿಸುತ್ತದೆ.

ಅಡಿಟಿಪ್ಪಣಿ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಹೇಳುತ್ತದೆ:

  1. ಪ್ರತಿ ಕಾಲಮ್‌ನ ಮೆಟಾಡೇಟಾದ ಆರಂಭಿಕ ನಿರ್ದೇಶಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಫೈಲ್ ಮೆಟಾಡೇಟಾ. ಓದುವಾಗ, ಆಸಕ್ತಿಯ ಎಲ್ಲಾ ಕಾಲಮ್ ತುಣುಕುಗಳನ್ನು ಹುಡುಕಲು ನೀವು ಮೊದಲು ಫೈಲ್‌ನ ಮೆಟಾಡೇಟಾವನ್ನು ಓದಬೇಕು. ನಂತರ ಕಾಲಮ್ ಭಾಗಗಳನ್ನು ಅನುಕ್ರಮವಾಗಿ ಓದಬೇಕು. ಇತರ ಮೆಟಾಡೇಟಾವು ಫಾರ್ಮ್ಯಾಟ್ ಆವೃತ್ತಿ, ಸ್ಕೀಮಾ ಮತ್ತು ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ಕೀ-ಮೌಲ್ಯದ ಜೋಡಿಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.
  2. ಮೆಟಾಡೇಟಾ ಉದ್ದ (4 ಬೈಟ್‌ಗಳು).
  3. ಮ್ಯಾಜಿಕ್ ಸಂಖ್ಯೆ PAR1 (4 ಬೈಟ್‌ಗಳು).

ORC ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್

ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ ಸಾಲು-ಕಾಲಮ್ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್ (ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ ಸಾಲು ಕಾಲಮ್, ಒಆರ್ಸಿ) ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ಮಾರ್ಗವನ್ನು ನೀಡುತ್ತದೆ ಮತ್ತು ಇತರ ಸ್ವರೂಪಗಳ ಮಿತಿಗಳನ್ನು ಜಯಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಡೇಟಾವನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಕಾಂಪ್ಯಾಕ್ಟ್ ರೂಪದಲ್ಲಿ ಸಂಗ್ರಹಿಸುತ್ತದೆ, ಅನಗತ್ಯ ವಿವರಗಳನ್ನು ಬಿಟ್ಟುಬಿಡಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ - ದೊಡ್ಡ, ಸಂಕೀರ್ಣ ಅಥವಾ ಹಸ್ತಚಾಲಿತವಾಗಿ ನಿರ್ವಹಿಸುವ ಸೂಚ್ಯಂಕಗಳ ನಿರ್ಮಾಣದ ಅಗತ್ಯವಿಲ್ಲದೆ.

ORC ಸ್ವರೂಪದ ಪ್ರಯೋಜನಗಳು:

  1. ಒಂದು ಫೈಲ್ ಪ್ರತಿ ಕಾರ್ಯದ ಔಟ್‌ಪುಟ್ ಆಗಿದೆ, ಇದು ನೇಮ್‌ನೋಡ್ (ಹೆಸರು ನೋಡ್) ಮೇಲಿನ ಲೋಡ್ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
  2. DateTime, ದಶಮಾಂಶ ಮತ್ತು ಸಂಕೀರ್ಣ ಡೇಟಾ ಪ್ರಕಾರಗಳು (ರಚನೆ, ಪಟ್ಟಿ, ನಕ್ಷೆ ಮತ್ತು ಒಕ್ಕೂಟ) ಸೇರಿದಂತೆ ಹೈವ್ ಡೇಟಾ ಪ್ರಕಾರಗಳಿಗೆ ಬೆಂಬಲ.
  3. ವಿಭಿನ್ನ ರೆಕಾರ್ಡ್ ರೀಡರ್ ಪ್ರಕ್ರಿಯೆಗಳಿಂದ ಒಂದೇ ಫೈಲ್ ಅನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಓದುವುದು.
  4. ಮಾರ್ಕರ್‌ಗಳಿಗಾಗಿ ಸ್ಕ್ಯಾನ್ ಮಾಡದೆಯೇ ಫೈಲ್‌ಗಳನ್ನು ವಿಭಜಿಸುವ ಸಾಮರ್ಥ್ಯ.
  5. ಫೈಲ್ ಅಡಿಟಿಪ್ಪಣಿಯಲ್ಲಿನ ಮಾಹಿತಿಯನ್ನು ಆಧರಿಸಿ ಓದುವ/ಬರೆಯುವ ಪ್ರಕ್ರಿಯೆಗಳಿಗೆ ಗರಿಷ್ಠ ಸಂಭವನೀಯ ಹೀಪ್ ಮೆಮೊರಿ ಹಂಚಿಕೆಯ ಅಂದಾಜು.
  6. ಮೆಟಾಡೇಟಾವನ್ನು ಪ್ರೋಟೋಕಾಲ್ ಬಫರ್ಸ್ ಬೈನರಿ ಸೀರಿಯಲೈಸೇಶನ್ ಫಾರ್ಮ್ಯಾಟ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ, ಇದು ಕ್ಷೇತ್ರಗಳನ್ನು ಸೇರಿಸಲು ಮತ್ತು ತೆಗೆದುಹಾಕಲು ಅನುಮತಿಸುತ್ತದೆ.

ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳು: ಸಂಕ್ಷಿಪ್ತ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ
ORC ಒಂದೇ ಫೈಲ್‌ನಲ್ಲಿ ಸ್ಟ್ರಿಂಗ್‌ಗಳ ಸಂಗ್ರಹಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಸಂಗ್ರಹಣೆಯೊಳಗೆ, ಸ್ಟ್ರಿಂಗ್ ಡೇಟಾವನ್ನು ಸ್ತಂಭಾಕಾರದ ಸ್ವರೂಪದಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ.

ORC ಫೈಲ್ ಸ್ಟ್ರೈಪ್ಸ್ ಎಂಬ ಸಾಲುಗಳ ಗುಂಪುಗಳನ್ನು ಮತ್ತು ಫೈಲ್‌ನ ಅಡಿಟಿಪ್ಪಣಿಯಲ್ಲಿ ಪೋಷಕ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಫೈಲ್‌ನ ಅಂತ್ಯದಲ್ಲಿರುವ ಪೋಸ್ಟ್‌ಸ್ಕ್ರಿಪ್ಟ್ ಕಂಪ್ರೆಷನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಮತ್ತು ಸಂಕುಚಿತ ಅಡಿಟಿಪ್ಪಣಿ ಗಾತ್ರವನ್ನು ಒಳಗೊಂಡಿದೆ.

ಡೀಫಾಲ್ಟ್ ಸ್ಟ್ರೈಪ್ ಗಾತ್ರವು 250 MB ಆಗಿದೆ. ಅಂತಹ ದೊಡ್ಡ ಪಟ್ಟೆಗಳ ಕಾರಣದಿಂದಾಗಿ, HDFS ನಿಂದ ಓದುವಿಕೆಯನ್ನು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ: ದೊಡ್ಡ ಪಕ್ಕದ ಬ್ಲಾಕ್ಗಳಲ್ಲಿ.

ಫೈಲ್ ಅಡಿಟಿಪ್ಪಣಿ ಫೈಲ್‌ನಲ್ಲಿರುವ ಲೇನ್‌ಗಳ ಪಟ್ಟಿ, ಪ್ರತಿ ಲೇನ್‌ಗೆ ಸಾಲುಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಪ್ರತಿ ಕಾಲಮ್‌ನ ಡೇಟಾ ಪ್ರಕಾರವನ್ನು ದಾಖಲಿಸುತ್ತದೆ. ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಎಣಿಕೆ, ನಿಮಿಷ, ಗರಿಷ್ಠ ಮತ್ತು ಮೊತ್ತದ ಫಲಿತಾಂಶದ ಮೌಲ್ಯವನ್ನು ಸಹ ಅಲ್ಲಿ ಬರೆಯಲಾಗುತ್ತದೆ.

ಪಟ್ಟಿಯ ಅಡಿಟಿಪ್ಪಣಿ ಸ್ಟ್ರೀಮ್ ಸ್ಥಳಗಳ ಡೈರೆಕ್ಟರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ.

ಕೋಷ್ಟಕಗಳನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡುವಾಗ ಸಾಲು ಡೇಟಾವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ಸೂಚ್ಯಂಕ ಡೇಟಾವು ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಕನಿಷ್ಠ ಮತ್ತು ಗರಿಷ್ಠ ಮೌಲ್ಯಗಳನ್ನು ಮತ್ತು ಪ್ರತಿ ಕಾಲಮ್‌ನಲ್ಲಿನ ಸಾಲುಗಳ ಸ್ಥಾನವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ORC ಸೂಚಿಕೆಗಳನ್ನು ಸ್ಟ್ರೈಪ್‌ಗಳು ಮತ್ತು ಸಾಲು ಗುಂಪುಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಮಾತ್ರ ಬಳಸಲಾಗುತ್ತದೆ, ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಅಲ್ಲ.

ವಿವಿಧ ಫೈಲ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳ ಹೋಲಿಕೆ

ಅವ್ರೊ ಪ್ಯಾರ್ಕ್ವೆಟ್‌ಗೆ ಹೋಲಿಸಿದರೆ

  1. Avro ಒಂದು ಸಾಲು ಸಂಗ್ರಹ ಸ್ವರೂಪವಾಗಿದೆ, ಆದರೆ Parquet ಅಂಕಣಗಳಲ್ಲಿ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ.
  2. ಪ್ಯಾರ್ಕ್ವೆಟ್ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಿಗೆ ಸೂಕ್ತವಾಗಿರುತ್ತದೆ, ಅಂದರೆ ಓದುವ ಕಾರ್ಯಾಚರಣೆಗಳು ಮತ್ತು ಡೇಟಾವನ್ನು ಪ್ರಶ್ನಿಸುವುದು ಬರೆಯುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುತ್ತದೆ.
  3. Avro ನಲ್ಲಿ ಬರೆಯುವ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಪಾರ್ಕ್ವೆಟ್‌ಗಿಂತ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.
  4. Avro ಸರ್ಕ್ಯೂಟ್ ವಿಕಾಸದೊಂದಿಗೆ ಹೆಚ್ಚು ಪ್ರಬುದ್ಧವಾಗಿ ವ್ಯವಹರಿಸುತ್ತದೆ. ಪ್ಯಾರ್ಕ್ವೆಟ್ ಸ್ಕೀಮಾ ಸೇರ್ಪಡೆಯನ್ನು ಮಾತ್ರ ಬೆಂಬಲಿಸುತ್ತದೆ, ಆದರೆ ಅವ್ರೋ ಬಹುಕ್ರಿಯಾತ್ಮಕ ವಿಕಾಸವನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ, ಅಂದರೆ ಕಾಲಮ್‌ಗಳನ್ನು ಸೇರಿಸುವುದು ಅಥವಾ ಬದಲಾಯಿಸುವುದು.
  5. ಬಹು-ಕಾಲಮ್ ಕೋಷ್ಟಕದಲ್ಲಿ ಕಾಲಮ್‌ಗಳ ಉಪವಿಭಾಗವನ್ನು ಪ್ರಶ್ನಿಸಲು ಪ್ಯಾರ್ಕ್ವೆಟ್ ಸೂಕ್ತವಾಗಿದೆ. ನಾವು ಎಲ್ಲಾ ಕಾಲಮ್‌ಗಳನ್ನು ಪ್ರಶ್ನಿಸುವ ETL ಕಾರ್ಯಾಚರಣೆಗಳಿಗೆ Avro ಸೂಕ್ತವಾಗಿದೆ.

ORC vs ಪಾರ್ಕ್ವೆಟ್

  1. ಪಾರ್ಕ್ವೆಟ್ ನೆಸ್ಟೆಡ್ ಡೇಟಾವನ್ನು ಉತ್ತಮವಾಗಿ ಸಂಗ್ರಹಿಸುತ್ತದೆ.
  2. ಪುಶ್‌ಡೌನ್ ಅನ್ನು ಊಹಿಸಲು ORC ಹೆಚ್ಚು ಸೂಕ್ತವಾಗಿರುತ್ತದೆ.
  3. ORC ACID ಗುಣಲಕ್ಷಣಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.
  4. ORC ಡೇಟಾವನ್ನು ಉತ್ತಮವಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸುತ್ತದೆ.

ವಿಷಯದ ಬಗ್ಗೆ ಇನ್ನೇನು ಓದಬೇಕು:

  1. ಕ್ಲೌಡ್‌ನಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ: ಕಂಪನಿಯು ಡೇಟಾ-ಆಧಾರಿತವಾಗುವುದು ಹೇಗೆ.
  2. ಡೇಟಾಬೇಸ್ ಸ್ಕೀಮಾಗಳಿಗೆ ವಿನಮ್ರ ಮಾರ್ಗದರ್ಶಿ.
  3. ಡಿಜಿಟಲ್ ರೂಪಾಂತರದ ಬಗ್ಗೆ ನಮ್ಮ ಟೆಲಿಗ್ರಾಮ್ ಚಾನಲ್.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ