ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಈ ಲೇಖನವು ಹೈ-ಸ್ಪೀಡ್ ಡೇಟಾ ಕಂಪ್ರೆಷನ್ ವಿಷಯದಲ್ಲಿ ಈಗಾಗಲೇ ಎರಡನೆಯದು. ಮೊದಲ ಲೇಖನವು 10 GB/sec ವೇಗದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಂಕೋಚಕವನ್ನು ವಿವರಿಸಿದೆ. ಪ್ರತಿ ಪ್ರೊಸೆಸರ್ ಕೋರ್ (ಕನಿಷ್ಠ ಕಂಪ್ರೆಷನ್, RTT-ಮಿನ್).

ಶೇಖರಣಾ ಮಾಧ್ಯಮ ಡಂಪ್‌ಗಳ ಹೆಚ್ಚಿನ ವೇಗದ ಸಂಕೋಚನ ಮತ್ತು ಕ್ರಿಪ್ಟೋಗ್ರಫಿಯ ಬಲವನ್ನು ಹೆಚ್ಚಿಸಲು ಈ ಸಂಕೋಚಕವನ್ನು ಫೋರೆನ್ಸಿಕ್ ಡುಪ್ಲಿಕೇಟರ್‌ಗಳ ಸಾಧನಗಳಲ್ಲಿ ಈಗಾಗಲೇ ಅಳವಡಿಸಲಾಗಿದೆ; ಹೆಚ್ಚಿನ ವೇಗದಲ್ಲಿ ಉಳಿಸುವಾಗ ವರ್ಚುವಲ್ ಯಂತ್ರಗಳು ಮತ್ತು RAM ಸ್ವಾಪ್ ಫೈಲ್‌ಗಳ ಚಿತ್ರಗಳನ್ನು ಕುಗ್ಗಿಸಲು ಇದನ್ನು ಬಳಸಬಹುದು. SSD ಡ್ರೈವ್ಗಳು.

ಮೊದಲ ಲೇಖನವು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿತ ಡೇಟಾ ಕಂಪ್ರೆಷನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳೊಂದಿಗೆ HDD ಮತ್ತು SSD ಡಿಸ್ಕ್ ಡ್ರೈವ್‌ಗಳ (ಮಧ್ಯಮ ಸಂಕುಚಿತ, RTT-ಮಿಡ್) ಬ್ಯಾಕ್‌ಅಪ್ ಪ್ರತಿಗಳನ್ನು ಸಂಕುಚಿತಗೊಳಿಸಲು ಸಂಕುಚಿತ ಅಲ್ಗಾರಿದಮ್‌ನ ಅಭಿವೃದ್ಧಿಯನ್ನು ಘೋಷಿಸಿತು. ಇದೀಗ, ಈ ಸಂಕೋಚಕವು ಸಂಪೂರ್ಣವಾಗಿ ಸಿದ್ಧವಾಗಿದೆ ಮತ್ತು ಈ ಲೇಖನವು ಅದರ ಬಗ್ಗೆ.

RTT-ಮಿಡ್ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಸಂಕೋಚಕವು ಹೆಚ್ಚಿನ ವೇಗದ ಮೋಡ್‌ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ WinRar, 7-Zip ನಂತಹ ಪ್ರಮಾಣಿತ ಆರ್ಕೈವರ್‌ಗಳಿಗೆ ಹೋಲಿಸಬಹುದಾದ ಸಂಕೋಚನ ಅನುಪಾತವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಅದರ ಕಾರ್ಯಾಚರಣಾ ವೇಗವು ಕನಿಷ್ಟ ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಕ್ರಮವಾಗಿದೆ.

ಡೇಟಾ ಪ್ಯಾಕಿಂಗ್/ಅನ್ಪ್ಯಾಕ್ ಮಾಡುವ ವೇಗವು ಸಂಕೋಚನ ತಂತ್ರಜ್ಞಾನಗಳ ಅನ್ವಯದ ವ್ಯಾಪ್ತಿಯನ್ನು ನಿರ್ಧರಿಸುವ ನಿರ್ಣಾಯಕ ನಿಯತಾಂಕವಾಗಿದೆ. ಸೆಕೆಂಡಿಗೆ 10-15 ಮೆಗಾಬೈಟ್‌ಗಳ ವೇಗದಲ್ಲಿ ಟೆರಾಬೈಟ್ ಡೇಟಾವನ್ನು ಕುಗ್ಗಿಸುವ ಬಗ್ಗೆ ಯಾರಾದರೂ ಯೋಚಿಸುವುದು ಅಸಂಭವವಾಗಿದೆ (ಇದು ಸ್ಟ್ಯಾಂಡರ್ಡ್ ಕಂಪ್ರೆಷನ್ ಮೋಡ್‌ನಲ್ಲಿ ನಿಖರವಾಗಿ ಆರ್ಕೈವರ್‌ಗಳ ವೇಗವಾಗಿದೆ), ಏಕೆಂದರೆ ಇದು ಪೂರ್ಣ ಪ್ರೊಸೆಸರ್ ಲೋಡ್‌ನೊಂದಿಗೆ ಸುಮಾರು ಇಪ್ಪತ್ತು ಗಂಟೆಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. .

ಮತ್ತೊಂದೆಡೆ, ಅದೇ ಟೆರಾಬೈಟ್ ಅನ್ನು ಸುಮಾರು ಹತ್ತು ನಿಮಿಷಗಳಲ್ಲಿ ಸೆಕೆಂಡಿಗೆ 2-3 ಗಿಗಾಬೈಟ್‌ಗಳ ಕ್ರಮದ ವೇಗದಲ್ಲಿ ನಕಲಿಸಬಹುದು.

ಆದ್ದರಿಂದ, ನೈಜ ಇನ್‌ಪುಟ್/ಔಟ್‌ಪುಟ್‌ನ ವೇಗಕ್ಕಿಂತ ಕಡಿಮೆಯಿಲ್ಲದ ವೇಗದಲ್ಲಿ ನಿರ್ವಹಿಸಿದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಮಾಹಿತಿಯ ಸಂಕೋಚನವು ಮುಖ್ಯವಾಗಿದೆ. ಆಧುನಿಕ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಇದು ಸೆಕೆಂಡಿಗೆ ಕನಿಷ್ಠ 100 ಮೆಗಾಬೈಟ್‌ಗಳು.

ಆಧುನಿಕ ಸಂಕೋಚಕಗಳು ಅಂತಹ ವೇಗವನ್ನು "ವೇಗದ" ಮೋಡ್ನಲ್ಲಿ ಮಾತ್ರ ಉತ್ಪಾದಿಸಬಹುದು. ಈ ಪ್ರಸ್ತುತ ಕ್ರಮದಲ್ಲಿ ನಾವು RTT-ಮಿಡ್ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಸಾಂಪ್ರದಾಯಿಕ ಸಂಕೋಚಕಗಳೊಂದಿಗೆ ಹೋಲಿಸುತ್ತೇವೆ.

ಹೊಸ ಕಂಪ್ರೆಷನ್ ಅಲ್ಗಾರಿದಮ್‌ನ ತುಲನಾತ್ಮಕ ಪರೀಕ್ಷೆ

RTT-ಮಿಡ್ ಸಂಕೋಚಕವು ಪರೀಕ್ಷಾ ಕಾರ್ಯಕ್ರಮದ ಭಾಗವಾಗಿ ಕೆಲಸ ಮಾಡಿದೆ. ನಿಜವಾದ "ಕೆಲಸ ಮಾಡುವ" ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಇದು ಹೆಚ್ಚು ವೇಗವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಇದು ಮಲ್ಟಿಥ್ರೆಡಿಂಗ್ ಅನ್ನು ಬುದ್ಧಿವಂತಿಕೆಯಿಂದ ಬಳಸುತ್ತದೆ ಮತ್ತು "ಸಾಮಾನ್ಯ" ಕಂಪೈಲರ್ ಅನ್ನು ಬಳಸುತ್ತದೆ, C# ಅಲ್ಲ.

ತುಲನಾತ್ಮಕ ಪರೀಕ್ಷೆಯಲ್ಲಿ ಬಳಸುವ ಸಂಕೋಚಕಗಳನ್ನು ವಿಭಿನ್ನ ತತ್ವಗಳ ಮೇಲೆ ನಿರ್ಮಿಸಲಾಗಿದೆ ಮತ್ತು ವಿಭಿನ್ನ ರೀತಿಯ ಡೇಟಾ ಸಂಕುಚಿತಗೊಳಿಸುವಿಕೆಯು ವಿಭಿನ್ನವಾಗಿ, ಪರೀಕ್ಷೆಯ ವಸ್ತುನಿಷ್ಠತೆಗಾಗಿ, "ಆಸ್ಪತ್ರೆಯಲ್ಲಿ ಸರಾಸರಿ ತಾಪಮಾನ" ವನ್ನು ಅಳೆಯುವ ವಿಧಾನವನ್ನು ಬಳಸಲಾಗಿದೆ ...

Windows 10 ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್‌ನೊಂದಿಗೆ ಲಾಜಿಕಲ್ ಡಿಸ್ಕ್‌ನ ಸೆಕ್ಟರ್-ಬೈ-ಸೆಕ್ಟರ್ ಡಂಪ್ ಫೈಲ್ ಅನ್ನು ರಚಿಸಲಾಗಿದೆ; ಇದು ಪ್ರತಿ ಕಂಪ್ಯೂಟರ್‌ನಲ್ಲಿ ವಾಸ್ತವವಾಗಿ ಲಭ್ಯವಿರುವ ವಿವಿಧ ಡೇಟಾ ರಚನೆಗಳ ಅತ್ಯಂತ ನೈಸರ್ಗಿಕ ಮಿಶ್ರಣವಾಗಿದೆ. ಈ ಫೈಲ್ ಅನ್ನು ಸಂಕುಚಿತಗೊಳಿಸುವುದರಿಂದ ಹೊಸ ಅಲ್ಗಾರಿದಮ್‌ನ ಸಂಕೋಚನದ ವೇಗ ಮತ್ತು ಮಟ್ಟವನ್ನು ಆಧುನಿಕ ಆರ್ಕೈವರ್‌ಗಳಲ್ಲಿ ಬಳಸಲಾಗುವ ಅತ್ಯಾಧುನಿಕ ಕಂಪ್ರೆಸರ್‌ಗಳೊಂದಿಗೆ ಹೋಲಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ಡಂಪ್ ಫೈಲ್ ಇಲ್ಲಿದೆ:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಡಂಪ್ ಫೈಲ್ ಅನ್ನು PTT-Mid, 7-zip ಮತ್ತು WinRar ಕಂಪ್ರೆಸರ್‌ಗಳನ್ನು ಬಳಸಿ ಸಂಕುಚಿತಗೊಳಿಸಲಾಗಿದೆ. WinRar ಮತ್ತು 7-ಜಿಪ್ ಸಂಕೋಚಕವನ್ನು ಗರಿಷ್ಠ ವೇಗಕ್ಕೆ ಹೊಂದಿಸಲಾಗಿದೆ.

ಕಂಪ್ರೆಸರ್ ಚಾಲನೆಯಲ್ಲಿದೆ 7- ಜಿಪ್:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಇದು ಪ್ರೊಸೆಸರ್ ಅನ್ನು 100% ರಷ್ಟು ಲೋಡ್ ಮಾಡುತ್ತದೆ, ಆದರೆ ಮೂಲ ಡಂಪ್ ಅನ್ನು ಓದುವ ಸರಾಸರಿ ವೇಗವು ಸುಮಾರು 60 ಮೆಗಾಬೈಟ್‌ಗಳು/ಸೆಕೆಂಡ್ ಆಗಿದೆ.

ಕಂಪ್ರೆಸರ್ ಚಾಲನೆಯಲ್ಲಿದೆ ವಿನ್ರಾರ್:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಪರಿಸ್ಥಿತಿಯು ಹೋಲುತ್ತದೆ, ಪ್ರೊಸೆಸರ್ ಲೋಡ್ ಸುಮಾರು 100% ಆಗಿದೆ, ಸರಾಸರಿ ಡಂಪ್ ಓದುವ ವೇಗವು ಸುಮಾರು 125 ಮೆಗಾಬೈಟ್ಗಳು / ಸೆಕೆಂಡ್ ಆಗಿದೆ.

ಹಿಂದಿನ ಪ್ರಕರಣದಂತೆ, ಆರ್ಕೈವರ್ನ ವೇಗವು ಪ್ರೊಸೆಸರ್ನ ಸಾಮರ್ಥ್ಯಗಳಿಂದ ಸೀಮಿತವಾಗಿದೆ.

ಸಂಕೋಚಕ ಪರೀಕ್ಷಾ ಪ್ರೋಗ್ರಾಂ ಈಗ ಚಾಲನೆಯಲ್ಲಿದೆ RTT-ಮಧ್ಯ:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಪ್ರೊಸೆಸರ್ ಅನ್ನು 50% ನಲ್ಲಿ ಲೋಡ್ ಮಾಡಲಾಗಿದೆ ಮತ್ತು ಉಳಿದ ಸಮಯದಲ್ಲಿ ನಿಷ್ಕ್ರಿಯವಾಗಿದೆ ಎಂದು ಸ್ಕ್ರೀನ್‌ಶಾಟ್ ತೋರಿಸುತ್ತದೆ, ಏಕೆಂದರೆ ಸಂಕುಚಿತ ಡೇಟಾವನ್ನು ಅಪ್‌ಲೋಡ್ ಮಾಡಲು ಎಲ್ಲಿಯೂ ಇಲ್ಲ. ಡೇಟಾ ಅಪ್‌ಲೋಡ್ ಡಿಸ್ಕ್ (ಡಿಸ್ಕ್ 0) ಬಹುತೇಕ ಸಂಪೂರ್ಣವಾಗಿ ಲೋಡ್ ಆಗಿದೆ. ಡೇಟಾ ಓದುವ ವೇಗ (ಡಿಸ್ಕ್ 1) ಬಹಳ ವ್ಯತ್ಯಾಸಗೊಳ್ಳುತ್ತದೆ, ಆದರೆ ಸರಾಸರಿ 200 ಮೆಗಾಬೈಟ್‌ಗಳು/ಸೆಕೆಂಡು.

ಡಿಸ್ಕ್ 0 ಗೆ ಸಂಕುಚಿತ ಡೇಟಾವನ್ನು ಬರೆಯುವ ಸಾಮರ್ಥ್ಯದಿಂದ ಸಂಕೋಚಕದ ವೇಗವು ಈ ಸಂದರ್ಭದಲ್ಲಿ ಸೀಮಿತವಾಗಿದೆ.

ಈಗ ಪರಿಣಾಮವಾಗಿ ಆರ್ಕೈವ್‌ಗಳ ಸಂಕೋಚನ ಅನುಪಾತ:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

RTT-Mid ಸಂಕೋಚಕವು ಸಂಕೋಚನದ ಅತ್ಯುತ್ತಮ ಕೆಲಸವನ್ನು ಮಾಡಿದೆ ಎಂದು ನೋಡಬಹುದು; ಇದು ರಚಿಸಿದ ಆರ್ಕೈವ್ WinRar ಆರ್ಕೈವ್‌ಗಿಂತ 1,3 ಗಿಗಾಬೈಟ್‌ಗಳು ಚಿಕ್ಕದಾಗಿದೆ ಮತ್ತು 2,1z ಆರ್ಕೈವ್‌ಗಿಂತ 7 ಗಿಗಾಬೈಟ್‌ಗಳು ಚಿಕ್ಕದಾಗಿದೆ.

ಆರ್ಕೈವ್ ರಚಿಸಲು ಕಳೆದ ಸಮಯ:

  • 7-ಜಿಪ್ - 26 ನಿಮಿಷಗಳು 10 ಸೆಕೆಂಡುಗಳು;
  • WinRar - 17 ನಿಮಿಷ 40 ಸೆಕೆಂಡುಗಳು;
  • RTT-ಮಧ್ಯ - 7 ನಿಮಿಷ 30 ಸೆಕೆಂಡುಗಳು.

ಆದ್ದರಿಂದ, ಆರ್ಟಿಟಿ-ಮಿಡ್ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಪರೀಕ್ಷೆ, ಆಪ್ಟಿಮೈಸ್ ಮಾಡದ ಪ್ರೋಗ್ರಾಂ ಕೂಡ ಎರಡೂವರೆ ಪಟ್ಟು ಹೆಚ್ಚು ವೇಗವಾಗಿ ಆರ್ಕೈವ್ ಅನ್ನು ರಚಿಸಲು ಸಾಧ್ಯವಾಯಿತು, ಆದರೆ ಆರ್ಕೈವ್ ಅದರ ಪ್ರತಿಸ್ಪರ್ಧಿಗಳಿಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಚಿಕ್ಕದಾಗಿದೆ ...

ಸ್ಕ್ರೀನ್‌ಶಾಟ್‌ಗಳನ್ನು ನಂಬದವರು ಅವುಗಳ ಸತ್ಯಾಸತ್ಯತೆಯನ್ನು ಸ್ವತಃ ಪರಿಶೀಲಿಸಬಹುದು. ಪರೀಕ್ಷಾ ಕಾರ್ಯಕ್ರಮವು ಇಲ್ಲಿ ಲಭ್ಯವಿದೆ ಲಿಂಕ್, ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ ಮತ್ತು ಪರಿಶೀಲಿಸಿ.

ಆದರೆ AVX-2 ಬೆಂಬಲದೊಂದಿಗೆ ಪ್ರೊಸೆಸರ್‌ಗಳಲ್ಲಿ ಮಾತ್ರ, ಈ ಸೂಚನೆಗಳಿಗೆ ಬೆಂಬಲವಿಲ್ಲದೆ ಸಂಕೋಚಕವು ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ ಮತ್ತು ಹಳೆಯ AMD ಪ್ರೊಸೆಸರ್‌ಗಳಲ್ಲಿ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಬೇಡಿ, AVX ಸೂಚನೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ವಿಷಯದಲ್ಲಿ ಅವು ನಿಧಾನವಾಗಿರುತ್ತವೆ...

ಸಂಕೋಚನ ವಿಧಾನವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ

ಅಲ್ಗಾರಿದಮ್ ಬೈಟ್ ಗ್ರ್ಯಾನ್ಯುಲಾರಿಟಿಯಲ್ಲಿ ಪುನರಾವರ್ತಿತ ಪಠ್ಯ ತುಣುಕುಗಳನ್ನು ಸೂಚಿಕೆ ಮಾಡುವ ವಿಧಾನವನ್ನು ಬಳಸುತ್ತದೆ. ಈ ಸಂಕೋಚನ ವಿಧಾನವು ದೀರ್ಘಕಾಲದವರೆಗೆ ತಿಳಿದುಬಂದಿದೆ, ಆದರೆ ಹೊಂದಾಣಿಕೆಯ ಕಾರ್ಯಾಚರಣೆಯು ಅಗತ್ಯ ಸಂಪನ್ಮೂಲಗಳ ವಿಷಯದಲ್ಲಿ ತುಂಬಾ ದುಬಾರಿಯಾಗಿದೆ ಮತ್ತು ನಿಘಂಟನ್ನು ನಿರ್ಮಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸಮಯ ಬೇಕಾಗಿರುವುದರಿಂದ ಬಳಸಲಾಗಲಿಲ್ಲ. ಆದ್ದರಿಂದ RTT-ಮಿಡ್ ಅಲ್ಗಾರಿದಮ್ "ಭವಿಷ್ಯಕ್ಕೆ" ಚಲಿಸುವ ಒಂದು ಶ್ರೇಷ್ಠ ಉದಾಹರಣೆಯಾಗಿದೆ...

PTT ಸಂಕೋಚಕವು ಒಂದು ವಿಶಿಷ್ಟವಾದ ಹೈ-ಸ್ಪೀಡ್ ಮ್ಯಾಚ್ ಸರ್ಚ್ ಸ್ಕ್ಯಾನರ್ ಅನ್ನು ಬಳಸುತ್ತದೆ, ಇದು ಸಂಕೋಚನ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವೇಗಗೊಳಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಸ್ವಯಂ ನಿರ್ಮಿತ ಸ್ಕ್ಯಾನರ್, ಇದು "ನನ್ನ ಮೋಡಿ ...", "ಇದು ಸಾಕಷ್ಟು ದುಬಾರಿಯಾಗಿದೆ, ಏಕೆಂದರೆ ಇದು ಸಂಪೂರ್ಣವಾಗಿ ಕೈಯಿಂದ ಮಾಡಲ್ಪಟ್ಟಿದೆ" (ಅಸೆಂಬ್ಲರ್ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ).

ಹೊಂದಾಣಿಕೆಯ ಹುಡುಕಾಟ ಸ್ಕ್ಯಾನರ್ ಅನ್ನು ಎರಡು-ಹಂತದ ಸಂಭವನೀಯ ಯೋಜನೆಯ ಪ್ರಕಾರ ಮಾಡಲಾಗಿದೆ: ಮೊದಲನೆಯದಾಗಿ, ಹೊಂದಾಣಿಕೆಯ “ಚಿಹ್ನೆ” ಇರುವಿಕೆಯನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಲಾಗುತ್ತದೆ ಮತ್ತು ಈ ಸ್ಥಳದಲ್ಲಿ “ಚಿಹ್ನೆ” ಅನ್ನು ಗುರುತಿಸಿದ ನಂತರವೇ, ನಿಜವಾದ ಹೊಂದಾಣಿಕೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವ ವಿಧಾನ ಪ್ರಾರಂಭಿಸಲಾಗಿದೆ.

ಸಂಸ್ಕರಿತ ಡೇಟಾ ಬ್ಲಾಕ್‌ನಲ್ಲಿನ ಎಂಟ್ರೊಪಿಯ ಮಟ್ಟವನ್ನು ಅವಲಂಬಿಸಿ ಹೊಂದಾಣಿಕೆಯ ಹುಡುಕಾಟ ವಿಂಡೋವು ಅನಿರೀಕ್ಷಿತ ಗಾತ್ರವನ್ನು ಹೊಂದಿದೆ. ಸಂಪೂರ್ಣ ಯಾದೃಚ್ಛಿಕ (ಸಂಕುಚಿತಗೊಳಿಸಲಾಗದ) ಡೇಟಾಗೆ ಇದು ಮೆಗಾಬೈಟ್‌ಗಳ ಗಾತ್ರವನ್ನು ಹೊಂದಿರುತ್ತದೆ, ಪುನರಾವರ್ತನೆಗಳೊಂದಿಗೆ ಡೇಟಾಗೆ ಇದು ಯಾವಾಗಲೂ ಮೆಗಾಬೈಟ್‌ಗಿಂತ ದೊಡ್ಡದಾಗಿರುತ್ತದೆ.

ಆದರೆ ಅನೇಕ ಆಧುನಿಕ ಡೇಟಾ ಸ್ವರೂಪಗಳು ಸಂಕುಚಿತಗೊಳ್ಳುವುದಿಲ್ಲ ಮತ್ತು ಅವುಗಳ ಮೂಲಕ ಸಂಪನ್ಮೂಲ-ತೀವ್ರ ಸ್ಕ್ಯಾನರ್ ಅನ್ನು ಚಾಲನೆ ಮಾಡುವುದು ನಿಷ್ಪ್ರಯೋಜಕ ಮತ್ತು ವ್ಯರ್ಥ, ಆದ್ದರಿಂದ ಸ್ಕ್ಯಾನರ್ ಎರಡು ಕಾರ್ಯ ವಿಧಾನಗಳನ್ನು ಬಳಸುತ್ತದೆ. ಮೊದಲನೆಯದಾಗಿ, ಸಂಭವನೀಯ ಪುನರಾವರ್ತನೆಗಳೊಂದಿಗೆ ಮೂಲ ಪಠ್ಯದ ವಿಭಾಗಗಳನ್ನು ಹುಡುಕಲಾಗುತ್ತದೆ; ಈ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಸಂಭವನೀಯ ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಕೈಗೊಳ್ಳಲಾಗುತ್ತದೆ ಮತ್ತು ತ್ವರಿತವಾಗಿ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ (4-6 ಗಿಗಾಬೈಟ್‌ಗಳು/ಸೆಕೆಂಡು ವೇಗದಲ್ಲಿ). ಸಂಭವನೀಯ ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಹೊಂದಿರುವ ಪ್ರದೇಶಗಳನ್ನು ನಂತರ ಮುಖ್ಯ ಸ್ಕ್ಯಾನರ್ ಮೂಲಕ ಸಂಸ್ಕರಿಸಲಾಗುತ್ತದೆ.

ಸೂಚ್ಯಂಕ ಸಂಕೋಚನವು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿಲ್ಲ, ನೀವು ನಕಲಿ ತುಣುಕುಗಳನ್ನು ಸೂಚ್ಯಂಕಗಳೊಂದಿಗೆ ಬದಲಾಯಿಸಬೇಕಾಗುತ್ತದೆ, ಮತ್ತು ಸೂಚ್ಯಂಕ ರಚನೆಯು ಸಂಕುಚಿತ ಅನುಪಾತವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಸಂಕೋಚನ ಅನುಪಾತವನ್ನು ಹೆಚ್ಚಿಸಲು, ಬೈಟ್ ಸ್ಟ್ರಿಂಗ್‌ಗಳ ಸಂಪೂರ್ಣ ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಮಾತ್ರ ಸೂಚ್ಯಂಕಗೊಳಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ಸ್ಟ್ರಿಂಗ್ ಹೊಂದಿಕೆಯಾಗುವ ಮತ್ತು ಸಾಟಿಯಿಲ್ಲದ ಬೈಟ್‌ಗಳನ್ನು ಹೊಂದಿರುವಾಗ ಭಾಗಶಃ ಸಹ. ಇದನ್ನು ಮಾಡಲು, ಸೂಚ್ಯಂಕ ಸ್ವರೂಪವು ಎರಡು ಬ್ಲಾಕ್‌ಗಳ ಹೊಂದಾಣಿಕೆಯ ಬೈಟ್‌ಗಳನ್ನು ಸೂಚಿಸುವ ಮ್ಯಾಚ್ ಮಾಸ್ಕ್ ಕ್ಷೇತ್ರವನ್ನು ಒಳಗೊಂಡಿದೆ. ಇನ್ನೂ ಹೆಚ್ಚಿನ ಸಂಕೋಚನಕ್ಕಾಗಿ, ಪ್ರಸ್ತುತ ಬ್ಲಾಕ್‌ಗೆ ಹಲವಾರು ಭಾಗಶಃ ಹೊಂದಾಣಿಕೆಯ ಬ್ಲಾಕ್‌ಗಳನ್ನು ಅತಿಕ್ರಮಿಸಲು ಇಂಡೆಕ್ಸಿಂಗ್ ಅನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ಇವೆಲ್ಲವೂ ಪಿಟಿಟಿ-ಮಿಡ್ ಸಂಕೋಚಕದಲ್ಲಿ ನಿಘಂಟಿನ ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಮಾಡಿದ ಕಂಪ್ರೆಸರ್‌ಗಳಿಗೆ ಹೋಲಿಸಬಹುದಾದ ಸಂಕೋಚನ ಅನುಪಾತವನ್ನು ಪಡೆಯಲು ಸಾಧ್ಯವಾಗಿಸಿತು, ಆದರೆ ಹೆಚ್ಚು ವೇಗವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಹೊಸ ಕಂಪ್ರೆಷನ್ ಅಲ್ಗಾರಿದಮ್‌ನ ವೇಗ

ಸಂಕೋಚಕವು ಸಂಗ್ರಹ ಮೆಮೊರಿಯ ವಿಶೇಷ ಬಳಕೆಯೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದ್ದರೆ (ಪ್ರತಿ ಥ್ರೆಡ್‌ಗೆ 4 ಮೆಗಾಬೈಟ್‌ಗಳು ಅಗತ್ಯವಿದೆ), ನಂತರ ಕಾರ್ಯಾಚರಣಾ ವೇಗವು 700-2000 ಮೆಗಾಬೈಟ್‌ಗಳು/ಸೆಕೆಂಡು ವ್ಯಾಪ್ತಿಯಲ್ಲಿರುತ್ತದೆ. ಪ್ರತಿ ಪ್ರೊಸೆಸರ್ ಕೋರ್, ಸಂಕುಚಿತ ಡೇಟಾದ ಪ್ರಕಾರವನ್ನು ಅವಲಂಬಿಸಿ ಮತ್ತು ಪ್ರೊಸೆಸರ್‌ನ ಆಪರೇಟಿಂಗ್ ಆವರ್ತನದ ಮೇಲೆ ಸ್ವಲ್ಪ ಅವಲಂಬಿತವಾಗಿದೆ.

ಸಂಕೋಚಕದ ಬಹು-ಥ್ರೆಡ್ ಅನುಷ್ಠಾನದೊಂದಿಗೆ, ಪರಿಣಾಮಕಾರಿ ಸ್ಕೇಲೆಬಿಲಿಟಿ ಅನ್ನು ಮೂರನೇ ಹಂತದ ಸಂಗ್ರಹದ ಗಾತ್ರದಿಂದ ನಿರ್ಧರಿಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, 9 ಮೆಗಾಬೈಟ್‌ಗಳ ಸಂಗ್ರಹ ಮೆಮೊರಿಯನ್ನು "ಬೋರ್ಡ್‌ನಲ್ಲಿ" ಹೊಂದಿದ್ದು, ಎರಡು ಕಂಪ್ರೆಷನ್ ಥ್ರೆಡ್‌ಗಳನ್ನು ಪ್ರಾರಂಭಿಸುವುದರಲ್ಲಿ ಯಾವುದೇ ಅರ್ಥವಿಲ್ಲ; ಇದರಿಂದ ವೇಗವು ಹೆಚ್ಚಾಗುವುದಿಲ್ಲ. ಆದರೆ 20 ಮೆಗಾಬೈಟ್‌ಗಳ ಸಂಗ್ರಹದೊಂದಿಗೆ, ನೀವು ಈಗಾಗಲೇ ಐದು ಕಂಪ್ರೆಷನ್ ಥ್ರೆಡ್‌ಗಳನ್ನು ಚಲಾಯಿಸಬಹುದು.

ಅಲ್ಲದೆ, RAM ನ ಸುಪ್ತತೆಯು ಸಂಕೋಚಕದ ವೇಗವನ್ನು ನಿರ್ಧರಿಸುವ ಪ್ರಮುಖ ನಿಯತಾಂಕವಾಗಿದೆ. ಅಲ್ಗಾರಿದಮ್ OP ಗೆ ಯಾದೃಚ್ಛಿಕ ಪ್ರವೇಶವನ್ನು ಬಳಸುತ್ತದೆ, ಅವುಗಳಲ್ಲಿ ಕೆಲವು ಸಂಗ್ರಹ ಮೆಮೊರಿಗೆ ಬರುವುದಿಲ್ಲ (ಸುಮಾರು 10%) ಮತ್ತು ಅದು ನಿಷ್ಕ್ರಿಯವಾಗಿರಬೇಕು, OP ಯಿಂದ ಡೇಟಾಕ್ಕಾಗಿ ಕಾಯುತ್ತಿದೆ, ಇದು ಕಾರ್ಯಾಚರಣೆಯ ವೇಗವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಸಂಕೋಚಕದ ವೇಗ ಮತ್ತು ಡೇಟಾ ಇನ್ಪುಟ್ / ಔಟ್ಪುಟ್ ಸಿಸ್ಟಮ್ನ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ. CPU ನಿಂದ ಡೇಟಾಕ್ಕಾಗಿ I/O ಬ್ಲಾಕ್ ವಿನಂತಿಗಳಿಂದ OP ಗೆ ವಿನಂತಿಗಳು, ಇದು ಕಂಪ್ರೆಷನ್ ವೇಗವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ಲ್ಯಾಪ್‌ಟಾಪ್‌ಗಳು ಮತ್ತು ಡೆಸ್ಕ್‌ಟಾಪ್‌ಗಳಿಗೆ ಈ ಸಮಸ್ಯೆಯು ಗಮನಾರ್ಹವಾಗಿದೆ; ಹೆಚ್ಚು ಸುಧಾರಿತ ಸಿಸ್ಟಮ್ ಬಸ್ ಪ್ರವೇಶ ನಿಯಂತ್ರಣ ಘಟಕ ಮತ್ತು ಬಹು-ಚಾನೆಲ್ RAM ನಿಂದಾಗಿ ಸರ್ವರ್‌ಗಳಿಗೆ ಇದು ಕಡಿಮೆ ಮಹತ್ವದ್ದಾಗಿದೆ.

ಲೇಖನದ ಪಠ್ಯದ ಉದ್ದಕ್ಕೂ ನಾವು ಸಂಕೋಚನದ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತೇವೆ; ಡಿಕಂಪ್ರೆಷನ್ ಈ ಲೇಖನದ ವ್ಯಾಪ್ತಿಯಿಂದ ಹೊರಗಿದೆ ಏಕೆಂದರೆ "ಎಲ್ಲವನ್ನೂ ಚಾಕೊಲೇಟ್ನಲ್ಲಿ ಮುಚ್ಚಲಾಗಿದೆ". ಡಿಕಂಪ್ರೆಷನ್ ಹೆಚ್ಚು ವೇಗವಾಗಿರುತ್ತದೆ ಮತ್ತು I/O ವೇಗದಿಂದ ಸೀಮಿತವಾಗಿರುತ್ತದೆ. ಒಂದು ಥ್ರೆಡ್‌ನಲ್ಲಿ ಒಂದು ಭೌತಿಕ ಕೋರ್ ಸುಲಭವಾಗಿ 3-4 GB/sec ವೇಗವನ್ನು ಅನ್ಪ್ಯಾಕ್ ಮಾಡುತ್ತದೆ.

ಡಿಕಂಪ್ರೆಷನ್ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಹೊಂದಾಣಿಕೆಯ ಹುಡುಕಾಟ ಕಾರ್ಯಾಚರಣೆಯ ಅನುಪಸ್ಥಿತಿಯಿಂದಾಗಿ ಇದು ಸಂಕೋಚನದ ಸಮಯದಲ್ಲಿ ಪ್ರೊಸೆಸರ್ ಮತ್ತು ಕ್ಯಾಶ್ ಮೆಮೊರಿಯ ಮುಖ್ಯ ಸಂಪನ್ಮೂಲಗಳನ್ನು "ತಿನ್ನುತ್ತದೆ".

ಸಂಕುಚಿತ ಡೇಟಾ ಸಂಗ್ರಹಣೆಯ ವಿಶ್ವಾಸಾರ್ಹತೆ

ಡೇಟಾ ಕಂಪ್ರೆಷನ್ (ಆರ್ಕೈವರ್‌ಗಳು) ಬಳಸುವ ಸಾಫ್ಟ್‌ವೇರ್‌ನ ಸಂಪೂರ್ಣ ವರ್ಗದ ಹೆಸರೇ ಸೂಚಿಸುವಂತೆ, ಅವುಗಳನ್ನು ಮಾಹಿತಿಯ ದೀರ್ಘಾವಧಿಯ ಶೇಖರಣೆಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ, ವರ್ಷಗಳವರೆಗೆ ಅಲ್ಲ, ಆದರೆ ಶತಮಾನಗಳು ಮತ್ತು ಸಹಸ್ರಮಾನಗಳವರೆಗೆ...

ಸಂಗ್ರಹಣೆಯ ಸಮಯದಲ್ಲಿ, ಶೇಖರಣಾ ಮಾಧ್ಯಮವು ಕೆಲವು ಡೇಟಾವನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತದೆ, ಇಲ್ಲಿ ಒಂದು ಉದಾಹರಣೆಯಾಗಿದೆ:

ಹೈ-ಸ್ಪೀಡ್ ಫೇಲ್-ಸೇಫ್ ಕಂಪ್ರೆಷನ್ (ಮುಂದುವರಿದಿದೆ)

ಈ "ಅನಲಾಗ್" ಮಾಹಿತಿ ವಾಹಕವು ಸಾವಿರ ವರ್ಷಗಳಷ್ಟು ಹಳೆಯದು, ಕೆಲವು ತುಣುಕುಗಳು ಕಳೆದುಹೋಗಿವೆ, ಆದರೆ ಸಾಮಾನ್ಯವಾಗಿ ಮಾಹಿತಿಯು "ಓದಬಲ್ಲದು"...

ಆಧುನಿಕ ಡಿಜಿಟಲ್ ಡೇಟಾ ಶೇಖರಣಾ ವ್ಯವಸ್ಥೆಗಳ ಯಾವುದೇ ಜವಾಬ್ದಾರಿಯುತ ತಯಾರಕರು ಮತ್ತು ಅವರಿಗೆ ಡಿಜಿಟಲ್ ಮಾಧ್ಯಮವು 75 ವರ್ಷಗಳಿಗಿಂತ ಹೆಚ್ಚು ಕಾಲ ಸಂಪೂರ್ಣ ಡೇಟಾ ಸುರಕ್ಷತೆಯ ಖಾತರಿಗಳನ್ನು ಒದಗಿಸುವುದಿಲ್ಲ.
ಮತ್ತು ಇದು ಒಂದು ಸಮಸ್ಯೆ, ಆದರೆ ಮುಂದೂಡಲ್ಪಟ್ಟ ಸಮಸ್ಯೆ, ನಮ್ಮ ವಂಶಸ್ಥರು ಅದನ್ನು ಪರಿಹರಿಸುತ್ತಾರೆ ...

ಡಿಜಿಟಲ್ ಡೇಟಾ ಶೇಖರಣಾ ವ್ಯವಸ್ಥೆಗಳು 75 ವರ್ಷಗಳ ನಂತರ ಡೇಟಾವನ್ನು ಕಳೆದುಕೊಳ್ಳಬಹುದು, ಡೇಟಾದಲ್ಲಿನ ದೋಷಗಳು ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ಕಾಣಿಸಿಕೊಳ್ಳಬಹುದು, ಅವುಗಳ ರೆಕಾರ್ಡಿಂಗ್ ಸಮಯದಲ್ಲಿ ಸಹ, ಅವರು ಈ ವಿರೂಪಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಾರೆ ಪುನರಾವರ್ತನೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಮತ್ತು ದೋಷ ತಿದ್ದುಪಡಿ ವ್ಯವಸ್ಥೆಗಳೊಂದಿಗೆ ಅವುಗಳನ್ನು ಸರಿಪಡಿಸಿ. ಪುನರುಜ್ಜೀವನ ಮತ್ತು ತಿದ್ದುಪಡಿ ವ್ಯವಸ್ಥೆಗಳು ಯಾವಾಗಲೂ ಕಳೆದುಹೋದ ಮಾಹಿತಿಯನ್ನು ಪುನಃಸ್ಥಾಪಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಮತ್ತು ಅವರು ಮಾಡಿದರೆ, ಪುನಃಸ್ಥಾಪನೆ ಕಾರ್ಯಾಚರಣೆಯು ಸರಿಯಾಗಿ ಪೂರ್ಣಗೊಂಡಿದೆ ಎಂಬುದಕ್ಕೆ ಯಾವುದೇ ಗ್ಯಾರಂಟಿ ಇಲ್ಲ.

ಮತ್ತು ಇದು ದೊಡ್ಡ ಸಮಸ್ಯೆಯಾಗಿದೆ, ಆದರೆ ಮುಂದೂಡಲ್ಪಟ್ಟದ್ದಲ್ಲ, ಆದರೆ ಪ್ರಸ್ತುತವಾಗಿದೆ.

ಡಿಜಿಟಲ್ ಡೇಟಾವನ್ನು ಆರ್ಕೈವ್ ಮಾಡಲು ಬಳಸಲಾಗುವ ಆಧುನಿಕ ಸಂಕೋಚಕಗಳನ್ನು ನಿಘಂಟಿನ ವಿಧಾನದ ವಿವಿಧ ಮಾರ್ಪಾಡುಗಳ ಮೇಲೆ ನಿರ್ಮಿಸಲಾಗಿದೆ, ಮತ್ತು ಅಂತಹ ಆರ್ಕೈವ್‌ಗಳಿಗೆ ಮಾಹಿತಿಯ ತುಣುಕಿನ ನಷ್ಟವು ಮಾರಕ ಘಟನೆಯಾಗಿದೆ; ಅಂತಹ ಪರಿಸ್ಥಿತಿಗೆ ಸ್ಥಾಪಿತ ಪದವೂ ಇದೆ - “ಮುರಿದ” ಆರ್ಕೈವ್ ...

ನಿಘಂಟಿನ ಸಂಕೋಚನದೊಂದಿಗೆ ಆರ್ಕೈವ್‌ಗಳಲ್ಲಿ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುವ ಕಡಿಮೆ ವಿಶ್ವಾಸಾರ್ಹತೆಯು ಸಂಕುಚಿತ ಡೇಟಾದ ರಚನೆಯೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ಅಂತಹ ಆರ್ಕೈವ್‌ನಲ್ಲಿರುವ ಮಾಹಿತಿಯು ಮೂಲ ಪಠ್ಯವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ, ನಿಘಂಟಿನಲ್ಲಿರುವ ನಮೂದುಗಳ ಸಂಖ್ಯೆಗಳನ್ನು ಅಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರಸ್ತುತ ಸಂಕುಚಿತ ಪಠ್ಯದಿಂದ ನಿಘಂಟನ್ನು ಕ್ರಿಯಾತ್ಮಕವಾಗಿ ಮಾರ್ಪಡಿಸಲಾಗುತ್ತದೆ. ಆರ್ಕೈವ್ ತುಣುಕು ಕಳೆದುಹೋದರೆ ಅಥವಾ ದೋಷಪೂರಿತವಾಗಿದ್ದರೆ, ಎಲ್ಲಾ ನಂತರದ ಆರ್ಕೈವ್ ನಮೂದುಗಳನ್ನು ವಿಷಯದ ಮೂಲಕ ಅಥವಾ ನಿಘಂಟಿನಲ್ಲಿನ ನಮೂದುಗಳ ಉದ್ದದಿಂದ ಗುರುತಿಸಲಾಗುವುದಿಲ್ಲ, ಏಕೆಂದರೆ ನಿಘಂಟಿನ ನಮೂದು ಸಂಖ್ಯೆಯು ಯಾವುದಕ್ಕೆ ಅನುರೂಪವಾಗಿದೆ ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗಿಲ್ಲ.

ಅಂತಹ "ಮುರಿದ" ಆರ್ಕೈವ್ನಿಂದ ಮಾಹಿತಿಯನ್ನು ಪುನಃಸ್ಥಾಪಿಸಲು ಅಸಾಧ್ಯ.

RTT ಅಲ್ಗಾರಿದಮ್ ಸಂಕುಚಿತ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹ ವಿಧಾನವನ್ನು ಆಧರಿಸಿದೆ. ಇದು ಪುನರಾವರ್ತಿತ ತುಣುಕುಗಳಿಗೆ ಲೆಕ್ಕಪರಿಶೋಧನೆಯ ಸೂಚ್ಯಂಕ ವಿಧಾನವನ್ನು ಬಳಸುತ್ತದೆ. ಸಂಕೋಚನದ ಈ ವಿಧಾನವು ಶೇಖರಣಾ ಮಾಧ್ಯಮದಲ್ಲಿ ಮಾಹಿತಿಯ ಅಸ್ಪಷ್ಟತೆಯ ಪರಿಣಾಮಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಮತ್ತು ಅನೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ ಮಾಹಿತಿ ಸಂಗ್ರಹಣೆಯ ಸಮಯದಲ್ಲಿ ಉದ್ಭವಿಸಿದ ವಿರೂಪಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸರಿಪಡಿಸುತ್ತದೆ.
ಸೂಚ್ಯಂಕ ಸಂಕೋಚನದ ಸಂದರ್ಭದಲ್ಲಿ ಆರ್ಕೈವ್ ಫೈಲ್ ಎರಡು ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿರುವುದು ಇದಕ್ಕೆ ಕಾರಣ:

  • ಪುನರಾವರ್ತಿತ ವಿಭಾಗಗಳೊಂದಿಗೆ ಮೂಲ ಪಠ್ಯ ಕ್ಷೇತ್ರವನ್ನು ಅದರಿಂದ ತೆಗೆದುಹಾಕಲಾಗಿದೆ;
  • ಸೂಚ್ಯಂಕ ಕ್ಷೇತ್ರ.

ಮಾಹಿತಿ ಮರುಪಡೆಯುವಿಕೆಗೆ ನಿರ್ಣಾಯಕವಾಗಿರುವ ಸೂಚ್ಯಂಕ ಕ್ಷೇತ್ರವು ಗಾತ್ರದಲ್ಲಿ ದೊಡ್ಡದಲ್ಲ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹ ಡೇಟಾ ಸಂಗ್ರಹಣೆಗಾಗಿ ನಕಲು ಮಾಡಬಹುದು. ಆದ್ದರಿಂದ, ಮೂಲ ಪಠ್ಯ ಅಥವಾ ಸೂಚ್ಯಂಕ ರಚನೆಯ ಒಂದು ತುಣುಕು ಕಳೆದುಹೋದರೂ ಸಹ, "ಅನಲಾಗ್" ಶೇಖರಣಾ ಮಾಧ್ಯಮದೊಂದಿಗೆ ಚಿತ್ರದಲ್ಲಿರುವಂತೆ ಎಲ್ಲಾ ಇತರ ಮಾಹಿತಿಯನ್ನು ಸಮಸ್ಯೆಗಳಿಲ್ಲದೆ ಪುನಃಸ್ಥಾಪಿಸಲಾಗುತ್ತದೆ.

ಅಲ್ಗಾರಿದಮ್ನ ಅನಾನುಕೂಲಗಳು

ಅನಾನುಕೂಲಗಳಿಲ್ಲದೆ ಯಾವುದೇ ಪ್ರಯೋಜನಗಳಿಲ್ಲ. ಸೂಚ್ಯಂಕ ಸಂಕೋಚನ ವಿಧಾನವು ಸಣ್ಣ ಪುನರಾವರ್ತಿತ ಅನುಕ್ರಮಗಳನ್ನು ಸಂಕುಚಿತಗೊಳಿಸುವುದಿಲ್ಲ. ಇದು ಸೂಚ್ಯಂಕ ವಿಧಾನದ ಮಿತಿಗಳಿಂದಾಗಿ. ಸೂಚ್ಯಂಕಗಳು ಕನಿಷ್ಠ 3 ಬೈಟ್‌ಗಳ ಗಾತ್ರದಲ್ಲಿರುತ್ತವೆ ಮತ್ತು ಗಾತ್ರದಲ್ಲಿ 12 ಬೈಟ್‌ಗಳವರೆಗೆ ಇರಬಹುದು. ಒಂದು ಪುನರಾವರ್ತನೆಯು ಅದನ್ನು ವಿವರಿಸುವ ಸೂಚ್ಯಂಕಕ್ಕಿಂತ ಚಿಕ್ಕ ಗಾತ್ರದೊಂದಿಗೆ ಎದುರಾದರೆ, ಸಂಕುಚಿತ ಫೈಲ್‌ನಲ್ಲಿ ಅಂತಹ ಪುನರಾವರ್ತನೆಗಳು ಎಷ್ಟು ಬಾರಿ ಪತ್ತೆಯಾದರೂ ಅದನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವುದಿಲ್ಲ.

ಸಾಂಪ್ರದಾಯಿಕ ನಿಘಂಟಿನ ಸಂಕೋಚನ ವಿಧಾನವು ಕಡಿಮೆ ಉದ್ದದ ಬಹು ಪುನರಾವರ್ತನೆಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಆದ್ದರಿಂದ ಸೂಚ್ಯಂಕ ಸಂಕೋಚನಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸಂಕುಚಿತ ಅನುಪಾತವನ್ನು ಸಾಧಿಸುತ್ತದೆ. ನಿಜ, ಸೆಂಟ್ರಲ್ ಪ್ರೊಸೆಸರ್‌ನಲ್ಲಿನ ಹೆಚ್ಚಿನ ಹೊರೆಯಿಂದಾಗಿ ಇದನ್ನು ಸಾಧಿಸಲಾಗುತ್ತದೆ; ನಿಘಂಟಿನ ವಿಧಾನವು ಸೂಚ್ಯಂಕ ವಿಧಾನಕ್ಕಿಂತ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಡೇಟಾವನ್ನು ಕುಗ್ಗಿಸಲು ಪ್ರಾರಂಭಿಸಲು, ಇದು ಡೇಟಾ ಸಂಸ್ಕರಣೆಯ ವೇಗವನ್ನು ಪ್ರತಿ ಸೆಕೆಂಡಿಗೆ 10-20 ಮೆಗಾಬೈಟ್‌ಗಳಿಗೆ ನೈಜವಾಗಿ ಕಡಿಮೆ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಸಂಪೂರ್ಣ CPU ಲೋಡ್‌ನೊಂದಿಗೆ ಕಂಪ್ಯೂಟಿಂಗ್ ಅನುಸ್ಥಾಪನೆಗಳು.

ಅಂತಹ ಕಡಿಮೆ ವೇಗಗಳು ಆಧುನಿಕ ಡೇಟಾ ಶೇಖರಣಾ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಸ್ವೀಕಾರಾರ್ಹವಲ್ಲ ಮತ್ತು ಪ್ರಾಯೋಗಿಕಕ್ಕಿಂತ ಹೆಚ್ಚು "ಶೈಕ್ಷಣಿಕ" ಆಸಕ್ತಿಯನ್ನು ಹೊಂದಿವೆ.

ಆರ್‌ಟಿಟಿ ಅಲ್ಗಾರಿದಮ್‌ನ (ಆರ್‌ಟಿಟಿ-ಮ್ಯಾಕ್ಸ್) ಮುಂದಿನ ಮಾರ್ಪಾಡಿನಲ್ಲಿ ಮಾಹಿತಿ ಸಂಕೋಚನದ ಮಟ್ಟವನ್ನು ಗಣನೀಯವಾಗಿ ಹೆಚ್ಚಿಸಲಾಗುವುದು, ಇದು ಈಗಾಗಲೇ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿದೆ.

ಆದ್ದರಿಂದ, ಎಂದಿನಂತೆ, ಮುಂದುವರೆಯುವುದು ...

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ