హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

హై-స్పీడ్ డేటా కంప్రెషన్ అంశంలో ఈ కథనం ఇప్పటికే రెండవది. మొదటి కథనం 10 GB/sec వేగంతో పనిచేసే కంప్రెసర్ గురించి వివరించింది. ప్రతి ప్రాసెసర్ కోర్ (కనీస కంప్రెషన్, RTT-మిన్).

స్టోరేజ్ మీడియా డంప్‌ల యొక్క హై-స్పీడ్ కంప్రెషన్ మరియు క్రిప్టోగ్రఫీ యొక్క బలాన్ని పెంపొందించడం కోసం ఈ కంప్రెసర్ ఫోరెన్సిక్ డూప్లికేటర్‌ల పరికరాలలో ఇప్పటికే అమలు చేయబడింది; హై-స్పీడ్‌లో సేవ్ చేసేటప్పుడు వర్చువల్ మిషన్లు మరియు RAM స్వాప్ ఫైల్‌ల చిత్రాలను కుదించడానికి కూడా దీనిని ఉపయోగించవచ్చు. SSD డ్రైవ్‌లు.

మొదటి కథనం గణనీయంగా మెరుగైన డేటా కంప్రెషన్ పారామితులతో HDD మరియు SSD డిస్క్ డ్రైవ్‌ల (మీడియం కంప్రెషన్, RTT-మిడ్) బ్యాకప్ కాపీలను కంప్రెస్ చేయడానికి కంప్రెషన్ అల్గోరిథం అభివృద్ధిని ప్రకటించింది. ఇప్పటికి, ఈ కంప్రెసర్ పూర్తిగా సిద్ధంగా ఉంది మరియు ఈ కథనం దాని గురించి.

RTT-Mid అల్గారిథమ్‌ను అమలు చేసే కంప్రెసర్ అధిక-వేగ మోడ్‌లో పనిచేసే WinRar, 7-Zip వంటి ప్రామాణిక ఆర్కైవర్‌లతో పోల్చదగిన కంప్రెషన్ నిష్పత్తిని అందిస్తుంది. అదే సమయంలో, దాని ఆపరేటింగ్ వేగం కనీసం అధిక పరిమాణంలో ఉంటుంది.

డేటా ప్యాకింగ్/అన్‌ప్యాకింగ్ వేగం అనేది కంప్రెషన్ టెక్నాలజీల అప్లికేషన్ యొక్క పరిధిని నిర్ణయించే ఒక క్లిష్టమైన పరామితి. సెకనుకు 10-15 మెగాబైట్ల వేగంతో టెరాబైట్ డేటాను కుదించడం గురించి ఎవరైనా ఆలోచించే అవకాశం లేదు (ఇది ప్రామాణిక కంప్రెషన్ మోడ్‌లోని ఆర్కైవర్‌ల వేగం, ఇది పూర్తి ప్రాసెసర్ లోడ్‌తో దాదాపు ఇరవై గంటలు పడుతుంది.. .

మరోవైపు, అదే టెరాబైట్‌ను సెకనుకు 2-3గిగాబైట్‌ల వేగంతో దాదాపు పది నిమిషాల్లో కాపీ చేయవచ్చు.

అందువల్ల, నిజమైన ఇన్‌పుట్/అవుట్‌పుట్ వేగం కంటే తక్కువ వేగంతో నిర్వహించబడితే పెద్ద-వాల్యూమ్ సమాచారం యొక్క కుదింపు ముఖ్యం. ఆధునిక వ్యవస్థల కోసం ఇది సెకనుకు కనీసం 100 మెగాబైట్‌లు.

ఆధునిక కంప్రెషర్‌లు అటువంటి వేగాన్ని "ఫాస్ట్" మోడ్‌లో మాత్రమే ఉత్పత్తి చేయగలవు. ఈ ప్రస్తుత మోడ్‌లో మేము RTT-మిడ్ అల్గోరిథంను సాంప్రదాయ కంప్రెషర్‌లతో పోల్చాము.

కొత్త కంప్రెషన్ అల్గోరిథం యొక్క తులనాత్మక పరీక్ష

RTT-మిడ్ కంప్రెసర్ పరీక్ష కార్యక్రమంలో భాగంగా పనిచేసింది. నిజమైన “పని” అప్లికేషన్‌లో ఇది చాలా వేగంగా పని చేస్తుంది, ఇది మల్టీథ్రెడింగ్‌ను తెలివిగా ఉపయోగిస్తుంది మరియు “సాధారణ” కంపైలర్‌ను ఉపయోగిస్తుంది, C# కాదు.

తులనాత్మక పరీక్షలో ఉపయోగించే కంప్రెషర్‌లు వేర్వేరు సూత్రాలపై నిర్మించబడ్డాయి మరియు వివిధ రకాల డేటా కంప్రెస్ భిన్నంగా ఉంటాయి కాబట్టి, పరీక్ష యొక్క నిష్పాక్షికత కోసం, “ఆసుపత్రిలో సగటు ఉష్ణోగ్రత” కొలిచే పద్ధతి ఉపయోగించబడింది...

Windows 10 ఆపరేటింగ్ సిస్టమ్‌తో లాజికల్ డిస్క్ యొక్క సెక్టార్-బై-సెక్టార్ డంప్ ఫైల్ సృష్టించబడింది; ఇది ప్రతి కంప్యూటర్‌లో వాస్తవానికి అందుబాటులో ఉన్న వివిధ డేటా స్ట్రక్చర్‌ల యొక్క అత్యంత సహజమైన మిశ్రమం. ఈ ఫైల్‌ను కుదించడం వలన మీరు ఆధునిక ఆర్కైవర్‌లలో ఉపయోగించే అత్యంత అధునాతన కంప్రెషర్‌లతో కొత్త అల్గోరిథం యొక్క కంప్రెషన్ వేగం మరియు డిగ్రీని సరిపోల్చవచ్చు.

డంప్ ఫైల్ ఇక్కడ ఉంది:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

డంప్ ఫైల్ PTT-Mid, 7-zip మరియు WinRar కంప్రెషర్‌లను ఉపయోగించి కంప్రెస్ చేయబడింది. WinRar మరియు 7-జిప్ కంప్రెసర్ గరిష్ట వేగానికి సెట్ చేయబడ్డాయి.

కంప్రెసర్ నడుస్తోంది 7-Zip:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

ఇది ప్రాసెసర్‌ను 100% లోడ్ చేస్తుంది, అయితే అసలు డంప్‌ను చదివే సగటు వేగం సెకనుకు 60 మెగాబైట్లు.

కంప్రెసర్ నడుస్తోంది Winrar:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

పరిస్థితి సారూప్యంగా ఉంటుంది, ప్రాసెసర్ లోడ్ దాదాపు 100%, సగటు డంప్ రీడింగ్ వేగం 125 మెగాబైట్లు/సెకను.

మునుపటి సందర్భంలో వలె, ఆర్కైవర్ యొక్క వేగం ప్రాసెసర్ యొక్క సామర్థ్యాల ద్వారా పరిమితం చేయబడింది.

కంప్రెసర్ పరీక్ష ప్రోగ్రామ్ ఇప్పుడు అమలవుతోంది RTT-మధ్య:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

స్క్రీన్‌షాట్ ప్రాసెసర్ 50% వద్ద లోడ్ చేయబడిందని మరియు మిగిలిన సమయంలో నిష్క్రియంగా ఉందని చూపిస్తుంది, ఎందుకంటే కంప్రెస్ చేయబడిన డేటాను అప్‌లోడ్ చేయడానికి ఎక్కడా లేదు. డేటా అప్‌లోడ్ డిస్క్ (డిస్క్ 0) దాదాపు పూర్తిగా లోడ్ చేయబడింది. డేటా రీడింగ్ వేగం (డిస్క్ 1) చాలా తేడా ఉంటుంది, అయితే సగటున 200 మెగాబైట్‌లు/సెకను కంటే ఎక్కువ.

కంప్రెసర్ యొక్క వేగం డిస్క్ 0 కు కంప్రెస్డ్ డేటాను వ్రాయగల సామర్థ్యం ద్వారా ఈ సందర్భంలో పరిమితం చేయబడింది.

ఇప్పుడు ఫలిత ఆర్కైవ్‌ల కుదింపు నిష్పత్తి:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

RTT-Mid కంప్రెసర్ కుదింపు యొక్క ఉత్తమ పనిని చేసిందని చూడవచ్చు; ఇది సృష్టించిన ఆర్కైవ్ WinRar ఆర్కైవ్ కంటే 1,3 గిగాబైట్‌లు చిన్నది మరియు 2,1z ఆర్కైవ్ కంటే 7 గిగాబైట్‌లు చిన్నది.

ఆర్కైవ్‌ను రూపొందించడానికి వెచ్చించిన సమయం:

  • 7-జిప్ - 26 నిమిషాల 10 సెకన్లు;
  • WinRar - 17 నిమిషాల 40 సెకన్లు;
  • RTT-మిడ్ - 7 నిమిషాల 30 సెకన్లు.

అందువల్ల, RTT-మిడ్ అల్గోరిథం ఉపయోగించి ఒక పరీక్ష, ఆప్టిమైజ్ చేయని ప్రోగ్రామ్ కూడా రెండున్నర రెట్లు ఎక్కువ వేగంగా ఆర్కైవ్‌ను సృష్టించగలిగింది, అయితే ఆర్కైవ్ దాని పోటీదారుల కంటే చాలా చిన్నదిగా మారింది ...

స్క్రీన్‌షాట్‌లను నమ్మని వారు వాటి ప్రామాణికతను స్వయంగా తనిఖీ చేయవచ్చు. పరీక్ష ప్రోగ్రామ్ ఇక్కడ అందుబాటులో ఉంది లింక్, డౌన్‌లోడ్ చేసి తనిఖీ చేయండి.

కానీ AVX-2 మద్దతు ఉన్న ప్రాసెసర్‌లలో మాత్రమే, ఈ సూచనలకు మద్దతు లేకుండా కంప్రెసర్ పని చేయదు మరియు పాత AMD ప్రాసెసర్‌లలో అల్గారిథమ్‌ను పరీక్షించవద్దు, అవి AVX సూచనలను అమలు చేసే విషయంలో నెమ్మదిగా ఉంటాయి...

కంప్రెషన్ పద్ధతిని ఉపయోగిస్తారు

అల్గోరిథం బైట్ గ్రాన్యులారిటీలో పునరావృతమయ్యే టెక్స్ట్ శకలాలను సూచిక చేయడానికి ఒక పద్ధతిని ఉపయోగిస్తుంది. ఈ కుదింపు పద్ధతి చాలా కాలంగా ప్రసిద్ది చెందింది, కానీ సరిపోలే ఆపరేషన్ అవసరమైన వనరుల పరంగా చాలా ఖరీదైనది మరియు నిఘంటువును నిర్మించడం కంటే ఎక్కువ సమయం అవసరం కాబట్టి ఉపయోగించబడలేదు. కాబట్టి RTT-మిడ్ అల్గోరిథం "భవిష్యత్తుకు తిరిగి" వెళ్లడానికి ఒక క్లాసిక్ ఉదాహరణ...

PTT కంప్రెసర్ ప్రత్యేకమైన హై-స్పీడ్ మ్యాచ్ సెర్చ్ స్కానర్‌ను ఉపయోగిస్తుంది, ఇది కంప్రెషన్ ప్రాసెస్‌ను వేగవంతం చేయడానికి అనుమతిస్తుంది. స్వీయ-నిర్మిత స్కానర్, ఇది "నా ఆకర్షణ ...", "ఇది చాలా ఖరీదైనది, ఎందుకంటే ఇది పూర్తిగా చేతితో తయారు చేయబడింది" (అసెంబ్లర్లో వ్రాయబడింది).

మ్యాచ్ శోధన స్కానర్ రెండు-స్థాయి సంభావ్య స్కీమ్ ప్రకారం తయారు చేయబడింది: మొదట, మ్యాచ్ యొక్క “సంకేతం” ఉనికిని స్కాన్ చేయబడుతుంది మరియు ఈ స్థలంలో “సంకేతం” గుర్తించబడిన తర్వాత మాత్రమే, నిజమైన సరిపోలికను గుర్తించే విధానం ప్రారంభించబడింది.

ప్రాసెస్ చేయబడిన డేటా బ్లాక్‌లోని ఎంట్రోపీ స్థాయిని బట్టి మ్యాచ్ శోధన విండో అనూహ్య పరిమాణాన్ని కలిగి ఉంటుంది. పూర్తిగా యాదృచ్ఛిక (అనుకూలమైన) డేటా కోసం ఇది మెగాబైట్‌ల పరిమాణాన్ని కలిగి ఉంటుంది, పునరావృత్తులు ఉన్న డేటా కోసం ఇది ఎల్లప్పుడూ మెగాబైట్ కంటే పెద్దదిగా ఉంటుంది.

కానీ అనేక ఆధునిక డేటా ఫార్మాట్‌లు కుదించలేనివి మరియు వాటి ద్వారా రిసోర్స్-ఇంటెన్సివ్ స్కానర్‌ను అమలు చేయడం పనికిరానిది మరియు వ్యర్థమైనది, కాబట్టి స్కానర్ రెండు ఆపరేటింగ్ మోడ్‌లను ఉపయోగిస్తుంది. ముందుగా, సాధ్యమయ్యే పునరావృతాలతో మూల వచనం యొక్క విభాగాలు శోధించబడతాయి; ఈ ఆపరేషన్ కూడా సంభావ్య పద్ధతిని ఉపయోగించి నిర్వహించబడుతుంది మరియు చాలా త్వరగా (4-6 గిగాబైట్‌లు/సెకను వేగంతో) నిర్వహించబడుతుంది. సాధ్యమయ్యే మ్యాచ్‌లు ఉన్న ప్రాంతాలు ప్రధాన స్కానర్ ద్వారా ప్రాసెస్ చేయబడతాయి.

ఇండెక్స్ కంప్రెషన్ చాలా ప్రభావవంతంగా లేదు, మీరు నకిలీ శకలాలను సూచీలతో భర్తీ చేయాలి మరియు ఇండెక్స్ శ్రేణి గణనీయంగా కుదింపు నిష్పత్తిని తగ్గిస్తుంది.

కుదింపు నిష్పత్తిని పెంచడానికి, స్ట్రింగ్ సరిపోలిన మరియు సరిపోలని బైట్‌లను కలిగి ఉన్నప్పుడు, బైట్ స్ట్రింగ్‌ల పూర్తి మ్యాచ్‌లు మాత్రమే ఇండెక్స్ చేయబడతాయి, కానీ పాక్షికంగా కూడా ఉంటాయి. దీన్ని చేయడానికి, ఇండెక్స్ ఫార్మాట్‌లో రెండు బ్లాక్‌ల మ్యాచింగ్ బైట్‌లను సూచించే మ్యాచ్ మాస్క్ ఫీల్డ్ ఉంటుంది. మరింత ఎక్కువ కుదింపు కోసం, ప్రస్తుత బ్లాక్‌పై పాక్షికంగా సరిపోలే అనేక బ్లాక్‌లను సూపర్‌మోస్ చేయడానికి ఇండెక్సింగ్ ఉపయోగించబడుతుంది.

ఇవన్నీ PTT-మిడ్ కంప్రెసర్‌లో నిఘంటువు పద్ధతిని ఉపయోగించి తయారు చేయబడిన కంప్రెషర్‌లతో పోల్చదగిన కంప్రెషన్ నిష్పత్తిని పొందడం సాధ్యం చేసింది, కానీ చాలా వేగంగా పని చేస్తుంది.

కొత్త కంప్రెషన్ అల్గోరిథం యొక్క వేగం

కంప్రెసర్ ప్రత్యేక కాష్ మెమరీని ఉపయోగిస్తుంటే (ఒక థ్రెడ్‌కు 4 మెగాబైట్‌లు అవసరం), అప్పుడు ఆపరేటింగ్ వేగం 700-2000 మెగాబైట్‌లు/సెకను వరకు ఉంటుంది. ప్రతి ప్రాసెసర్ కోర్, కంప్రెస్ చేయబడిన డేటా రకాన్ని బట్టి మరియు ప్రాసెసర్ యొక్క ఆపరేటింగ్ ఫ్రీక్వెన్సీపై కొద్దిగా ఆధారపడి ఉంటుంది.

కంప్రెసర్ యొక్క బహుళ-థ్రెడ్ అమలుతో, సమర్థవంతమైన స్కేలబిలిటీ మూడవ స్థాయి కాష్ పరిమాణం ద్వారా నిర్ణయించబడుతుంది. ఉదాహరణకు, "బోర్డులో" 9 మెగాబైట్ల కాష్ మెమరీని కలిగి ఉంటే, రెండు కంటే ఎక్కువ కంప్రెషన్ థ్రెడ్‌లను ప్రారంభించడంలో అర్థం లేదు; దీని నుండి వేగం పెరగదు. కానీ 20 మెగాబైట్ల కాష్‌తో, మీరు ఇప్పటికే ఐదు కంప్రెషన్ థ్రెడ్‌లను అమలు చేయవచ్చు.

అలాగే, RAM యొక్క జాప్యం కంప్రెసర్ యొక్క వేగాన్ని నిర్ణయించే ముఖ్యమైన పరామితి అవుతుంది. అల్గోరిథం OPకి యాదృచ్ఛిక ప్రాప్యతను ఉపయోగిస్తుంది, వాటిలో కొన్ని కాష్ మెమరీలోకి ప్రవేశించవు (సుమారు 10%) మరియు అది నిష్క్రియంగా ఉంటుంది, OP నుండి డేటా కోసం వేచి ఉంటుంది, ఇది ఆపరేషన్ వేగాన్ని తగ్గిస్తుంది.

కంప్రెసర్ వేగం మరియు డేటా ఇన్‌పుట్/అవుట్‌పుట్ సిస్టమ్ యొక్క ఆపరేషన్‌ను గణనీయంగా ప్రభావితం చేస్తుంది. CPU నుండి డేటా కోసం I/O బ్లాక్ అభ్యర్థనల నుండి OPకి అభ్యర్థనలు, ఇది కుదింపు వేగాన్ని కూడా తగ్గిస్తుంది. ఈ సమస్య ల్యాప్‌టాప్‌లు మరియు డెస్క్‌టాప్‌లకు ముఖ్యమైనది; సర్వర్‌లకు ఇది మరింత అధునాతన సిస్టమ్ బస్ యాక్సెస్ కంట్రోల్ యూనిట్ మరియు బహుళ-ఛానల్ ర్యామ్ కారణంగా తక్కువ ప్రాముఖ్యతను కలిగి ఉంది.

వ్యాసంలోని టెక్స్ట్ అంతటా మేము కుదింపు గురించి మాట్లాడుతాము; "ప్రతిదీ చాక్లెట్‌లో కప్పబడి ఉంది" కాబట్టి డికంప్రెషన్ ఈ కథనం యొక్క పరిధికి వెలుపల ఉంది. డికంప్రెషన్ చాలా వేగంగా ఉంటుంది మరియు I/O వేగంతో పరిమితం చేయబడింది. ఒక థ్రెడ్‌లోని ఒక భౌతిక కోర్ సులభంగా 3-4 GB/సెకను అన్‌ప్యాకింగ్ వేగాన్ని అందిస్తుంది.

డికంప్రెషన్ ప్రక్రియలో మ్యాచ్ శోధన ఆపరేషన్ లేకపోవడం దీనికి కారణం, ఇది కుదింపు సమయంలో ప్రాసెసర్ మరియు కాష్ మెమరీ యొక్క ప్రధాన వనరులను "తింటుంది".

కంప్రెస్డ్ డేటా నిల్వ యొక్క విశ్వసనీయత

డేటా కంప్రెషన్ (ఆర్కైవర్లు) ఉపయోగించే సాఫ్ట్‌వేర్ యొక్క మొత్తం తరగతి పేరు సూచించినట్లుగా, అవి సమాచారాన్ని దీర్ఘకాలిక నిల్వ కోసం రూపొందించబడ్డాయి, సంవత్సరాలుగా కాదు, శతాబ్దాలు మరియు సహస్రాబ్దాలుగా...

నిల్వ సమయంలో, నిల్వ మీడియా కొంత డేటాను కోల్పోతుంది, ఇక్కడ ఒక ఉదాహరణ ఉంది:

హై-స్పీడ్ ఫెయిల్-సేఫ్ కంప్రెషన్ (కొనసాగింపు)

ఈ "అనలాగ్" సమాచార క్యారియర్ వెయ్యి సంవత్సరాల వయస్సు, కొన్ని శకలాలు పోయాయి, కానీ సాధారణంగా సమాచారం "చదవదగినది"...

ఆధునిక డిజిటల్ డేటా నిల్వ వ్యవస్థలు మరియు వాటి కోసం డిజిటల్ మీడియా యొక్క బాధ్యతాయుతమైన తయారీదారులు ఎవరూ 75 సంవత్సరాలకు పైగా పూర్తి డేటా భద్రతకు హామీలను అందించరు.
మరియు ఇది ఒక సమస్య, కానీ వాయిదా వేసిన సమస్య, మన వారసులు దీనిని పరిష్కరిస్తారు ...

డిజిటల్ డేటా స్టోరేజ్ సిస్టమ్‌లు 75 సంవత్సరాల తర్వాత మాత్రమే డేటాను కోల్పోతాయి, డేటాలో లోపాలు ఎప్పుడైనా కనిపించవచ్చు, వాటి రికార్డింగ్ సమయంలో కూడా, వారు రిడెండెన్సీని ఉపయోగించడం ద్వారా మరియు దోష దిద్దుబాటు వ్యవస్థలతో వాటిని సరిదిద్దడం ద్వారా ఈ వక్రీకరణలను తగ్గించడానికి ప్రయత్నిస్తారు. రిడెండెన్సీ మరియు దిద్దుబాటు వ్యవస్థలు ఎల్లప్పుడూ కోల్పోయిన సమాచారాన్ని పునరుద్ధరించలేవు మరియు అవి అలా చేస్తే, పునరుద్ధరణ ఆపరేషన్ సరిగ్గా పూర్తయిందని ఎటువంటి హామీ లేదు.

మరియు ఇది కూడా పెద్ద సమస్య, కానీ వాయిదా వేయబడినది కాదు, కానీ ప్రస్తుత సమస్య.

డిజిటల్ డేటాను ఆర్కైవ్ చేయడానికి ఉపయోగించే ఆధునిక కంప్రెషర్‌లు డిక్షనరీ పద్ధతి యొక్క వివిధ మార్పులపై నిర్మించబడ్డాయి మరియు అటువంటి ఆర్కైవ్‌లకు సమాచారం యొక్క భాగాన్ని కోల్పోవడం ప్రాణాంతకమైన సంఘటన అవుతుంది; అటువంటి పరిస్థితికి స్థిరమైన పదం కూడా ఉంది - “విరిగిన” ఆర్కైవ్. ...

డిక్షనరీ కంప్రెషన్‌తో ఆర్కైవ్‌లలో సమాచారాన్ని నిల్వ చేసే తక్కువ విశ్వసనీయత కంప్రెస్డ్ డేటా నిర్మాణంతో ముడిపడి ఉంటుంది. అటువంటి ఆర్కైవ్‌లోని సమాచారం మూల వచనాన్ని కలిగి ఉండదు, డిక్షనరీలోని ఎంట్రీల సంఖ్యలు అక్కడ నిల్వ చేయబడతాయి మరియు ప్రస్తుత కంప్రెస్డ్ టెక్స్ట్ ద్వారా నిఘంటువు కూడా డైనమిక్‌గా సవరించబడుతుంది. ఆర్కైవ్ భాగం పోయినా లేదా పాడైపోయినా, డిక్షనరీ ఎంట్రీ నంబర్ దేనికి అనుగుణంగా ఉందో స్పష్టంగా తెలియనందున, కంటెంట్ లేదా డిక్షనరీలోని ఎంట్రీ పొడవు ద్వారా అన్ని తదుపరి ఆర్కైవ్ నమోదులను గుర్తించలేము.

అటువంటి "విరిగిన" ఆర్కైవ్ నుండి సమాచారాన్ని పునరుద్ధరించడం అసాధ్యం.

RTT అల్గోరిథం కంప్రెస్డ్ డేటాను నిల్వ చేయడానికి మరింత నమ్మదగిన పద్ధతిపై ఆధారపడి ఉంటుంది. ఇది పునరావృత శకలాలు కోసం అకౌంటింగ్ యొక్క సూచిక పద్ధతిని ఉపయోగిస్తుంది. కుదింపుకు ఈ విధానం నిల్వ మాధ్యమంలో సమాచారం యొక్క వక్రీకరణ యొక్క పరిణామాలను తగ్గించడానికి మిమ్మల్ని అనుమతిస్తుంది మరియు అనేక సందర్భాల్లో సమాచార నిల్వ సమయంలో తలెత్తిన వక్రీకరణలను స్వయంచాలకంగా సరిదిద్దుతుంది.
ఇండెక్స్ కంప్రెషన్ విషయంలో ఆర్కైవ్ ఫైల్ రెండు ఫీల్డ్‌లను కలిగి ఉండటం దీనికి కారణం:

  • దాని నుండి తీసివేయబడిన పునరావృత విభాగాలతో మూల వచన ఫీల్డ్;
  • ఇండెక్స్ ఫీల్డ్.

సమాచార పునరుద్ధరణకు కీలకమైన ఇండెక్స్ ఫీల్డ్ పరిమాణంలో పెద్దది కాదు మరియు విశ్వసనీయ డేటా నిల్వ కోసం నకిలీ చేయబడుతుంది. అందువల్ల, మూల వచనం లేదా సూచిక శ్రేణి యొక్క ఒక భాగం పోయినప్పటికీ, "అనలాగ్" నిల్వ మాధ్యమంతో చిత్రంలో ఉన్నట్లుగా అన్ని ఇతర సమాచారం సమస్యలు లేకుండా పునరుద్ధరించబడుతుంది.

అల్గోరిథం యొక్క ప్రతికూలతలు

ప్రతికూలతలు లేకుండా ప్రయోజనాలు లేవు. ఇండెక్స్ కంప్రెషన్ మెథడ్ షార్ట్ రిపీటింగ్ సీక్వెన్స్‌లను కంప్రెస్ చేయదు. ఇది సూచిక పద్ధతి యొక్క పరిమితుల కారణంగా ఉంది. సూచికలు కనీసం 3 బైట్‌ల పరిమాణంలో ఉంటాయి మరియు పరిమాణంలో 12 బైట్‌ల వరకు ఉండవచ్చు. ఒక పునరావృతం దానిని వివరించే సూచిక కంటే చిన్న పరిమాణంతో ఎదుర్కొన్నట్లయితే, కంప్రెస్డ్ ఫైల్‌లో అటువంటి పునరావృత్తులు ఎంత తరచుగా కనుగొనబడినా, అది పరిగణనలోకి తీసుకోబడదు.

సాంప్రదాయ నిఘంటువు కుదింపు పద్ధతి తక్కువ పొడవు గల బహుళ పునరావృత్తులు ప్రభావవంతంగా కుదిస్తుంది మరియు ఇండెక్స్ కంప్రెషన్ కంటే అధిక కుదింపు నిష్పత్తిని సాధిస్తుంది. నిజమే, సెంట్రల్ ప్రాసెసర్‌పై అధిక లోడ్ కారణంగా ఇది సాధించబడుతుంది; ఇండెక్స్ పద్ధతి కంటే డిక్షనరీ పద్ధతి డేటాను మరింత సమర్థవంతంగా కుదించడం ప్రారంభించాలంటే, ఇది డేటా ప్రాసెసింగ్ వేగాన్ని సెకనుకు 10-20 మెగాబైట్‌లకు తగ్గించాలి. పూర్తి CPU లోడ్‌తో కంప్యూటింగ్ ఇన్‌స్టాలేషన్‌లు.

ఆధునిక డేటా నిల్వ వ్యవస్థలకు ఇటువంటి తక్కువ వేగం ఆమోదయోగ్యం కాదు మరియు ఆచరణాత్మకం కంటే ఎక్కువ "విద్యాపరమైన" ఆసక్తిని కలిగి ఉంటాయి.

ఇప్పటికే అభివృద్ధిలో ఉన్న RTT అల్గోరిథం (RTT-Max) యొక్క తదుపరి సవరణలో సమాచార కుదింపు స్థాయి గణనీయంగా పెరుగుతుంది.

కాబట్టి, ఎప్పటిలాగే, కొనసాగుతుంది ...

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి