Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Dan l-artikolu diġà huwa t-tieni fis-suġġett tal-kompressjoni tad-dejta b'veloċità għolja. L-ewwel artikolu ddeskriva kompressur li jaħdem b'veloċità ta '10 GB/sec. għal kull qalba tal-proċessur (kompressjoni minima, RTT-Min).

Dan il-kompressur diġà ġie implimentat fit-tagħmir ta 'duplikaturi forensiċi għall-kompressjoni b'veloċità għolja ta' dumps tal-midja tal-ħażna u t-tisħiħ tas-saħħa tal-kriptografija jista 'jintuża wkoll biex jikkompressa immaġini ta' magni virtwali u fajls ta 'skambju RAM meta jiġu ffrankati b'veloċità għolja; SSD drives.

L-ewwel artikolu ħabbar ukoll l-iżvilupp ta 'algoritmu ta' kompressjoni għall-kompressjoni ta 'kopji ta' backup ta 'disk drives HDD u SSD (kompressjoni medja, RTT-Mid) b'parametri ta' kompressjoni tad-dejta mtejba b'mod sinifikanti. Sa issa, dan il-kompressur huwa kompletament lest u dan l-artikolu huwa dwaru.

Kompressur li jimplimenta l-algoritmu RTT-Mid jipprovdi proporzjon ta 'kompressjoni komparabbli ma' arkivers standard bħal WinRar, 7-Zip, li joperaw fil-mod ta 'veloċità għolja. Fl-istess ħin, il-veloċità operattiva tagħha hija mill-inqas ordni ta 'kobor ogħla.

Il-veloċità tal-ippakkjar/unpacking tad-dejta hija parametru kritiku li jiddetermina l-ambitu tal-applikazzjoni tat-teknoloġiji tal-kompressjoni. Huwa improbabbli li xi ħadd jaħseb li jikkompressa terabyte ta 'data b'veloċità ta' 10-15 MegaBytes kull sekonda (din hija eżattament il-veloċità tal-arkivjar fil-modalità ta 'kompressjoni standard), minħabba li tieħu kważi għoxrin siegħa b'tagħbija sħiħa tal-proċessur. .

Min-naħa l-oħra, l-istess terabyte jista 'jiġi kkupjat b'veloċitajiet ta' l-ordni ta '2-3Gigabytes kull sekonda f'madwar għaxar minuti.

Għalhekk, il-kompressjoni ta 'informazzjoni ta' volum kbir hija importanti jekk titwettaq b'veloċità mhux inqas mill-veloċità ta 'input/output reali. Għal sistemi moderni dan huwa mill-inqas 100 Megabytes kull sekonda.

Kompressuri moderni jistgħu jipproduċu tali veloċitajiet biss fil-mod "mgħaġġel". Huwa f'dan il-mod kurrenti li se nqabblu l-algoritmu RTT-Mid ma 'kompressuri tradizzjonali.

Ittestjar komparattiv ta 'algoritmu ta' kompressjoni ġdid

Il-kompressur RTT-Mid ħadem bħala parti mill-programm tat-test. F'applikazzjoni reali "ta' xogħol" taħdem ħafna aktar malajr, tuża multithreading bil-għaqal u tuża kompilatur "normali", mhux C#.

Peress li l-kompressuri użati fit-test komparattiv huma mibnija fuq prinċipji differenti u tipi differenti ta 'data jikkompressaw b'mod differenti, għall-oġġettività tat-test, il-metodu ta' kejl tat-"temperatura medja fl-isptar" intuża...

Inħoloq fajl tad-dump settur b'settur tad-diska loġika li fiha s-sistema operattiva. Windows 10Din hija l-aktar taħlita naturali ta' diversi strutturi tad-dejta li jinstabu fuq kull kompjuter. Il-kompressjoni ta' dan il-fajl tippermettilna nqabblu l-veloċità u l-proporzjon tal-kompressjoni tal-algoritmu l-ġdid mal-aktar kompressuri avvanzati użati fl-arkivji moderni.

Hawn hu l-fajl tad-dump:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Il-fajl tad-dump kien ikkompressat bl-użu ta 'kompressuri PTT-Mid, 7-zip, u WinRar. Il-kompressur WinRar u 7-zip ġew issettjati għal veloċità massima.

Il-kompressur jaħdem 7-zip:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Huwa jgħabbi l-proċessur b'100%, filwaqt li l-veloċità medja tal-qari tad-dump oriġinali hija ta 'madwar 60 MegaBytes/sec.

Il-kompressur jaħdem Winrar:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Is-sitwazzjoni hija simili, it-tagħbija tal-proċessur hija kważi 100%, il-veloċità medja tal-qari tad-dump hija ta 'madwar 125 Megabytes/sec.

Bħal fil-każ preċedenti, il-veloċità tal-arkivju hija limitata mill-kapaċitajiet tal-proċessur.

Il-programm tat-test tal-kompressur issa qed jaħdem RTT-Nofs:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Il-screenshot turi li l-proċessur huwa mgħobbi f'50% u huwa idle l-bqija tal-ħin, minħabba li m'hemm imkien biex ittella 'd-dejta kkompressata. Id-diska tal-upload tad-data (Disk 0) hija kważi kompletament mgħobbija. Il-veloċità tal-qari tad-dejta (Disk 1) tvarja ħafna, iżda bħala medja aktar minn 200 MegaBytes/sec.

Il-veloċità tal-kompressur hija limitata f'dan il-każ mill-abbiltà li tikteb dejta kkompressata fuq Disk 0.

Issa l-proporzjon tal-kompressjoni tal-arkivji li jirriżultaw:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Wieħed jista 'jara li l-kompressur RTT-Mid għamel l-aħjar xogħol ta' kompressjoni l-arkivju li ħoloq kien 1,3 GigaBytes iżgħar mill-arkivju WinRar u 2,1 GigaBytes iżgħar mill-arkivju 7z;

Ħin mgħoddi biex toħloq l-arkivju:

  • 7-zip – 26 minuta 10 sekondi;
  • WinRar – 17-il minuta 40 sekonda;
  • RTT-Mid – 7 minuti 30 sekonda.

Għalhekk, anke programm tat-test, mhux ottimizzat, li juża l-algoritmu RTT-Mid, kien kapaċi joħloq arkivju aktar minn darbtejn u nofs aktar malajr, filwaqt li l-arkivju rriżulta li kien ferm iżgħar minn dak tal-kompetituri tiegħu...

Dawk li ma jemmnux li l-screenshots jistgħu jiċċekkjaw l-awtentiċità tagħhom huma stess. Il-programm tat-test huwa disponibbli fuq rabta, niżżel u ċċekkja.

Iżda biss fuq proċessuri b'appoġġ AVX-2, mingħajr appoġġ għal dawn l-istruzzjonijiet il-kompressur ma jaħdimx, u ma jittestjax l-algoritmu fuq proċessuri AMD anzjani, huma bil-mod f'termini ta 'eżekuzzjoni ta' struzzjonijiet AVX...

Metodu ta' kompressjoni użat

L-algoritmu juża metodu għall-indiċjar ta 'frammenti ta' test ripetuti fil-granularità tal-byte. Dan il-metodu ta 'kompressjoni ilu magħruf għal żmien twil, iżda ma ntużax minħabba li l-operazzjoni ta' tqabbil kienet għalja ħafna f'termini tar-riżorsi meħtieġa u kienet teħtieġ ħafna aktar ħin mill-bini ta 'dizzjunarju. Allura l-algoritmu RTT-Mid huwa eżempju klassiku ta 'ċaqliq "lura għall-futur"...

Il-kompressur PTT juża skaner uniku ta 'tfittxija ta' taqbila ta 'veloċità għolja, li jippermettilna nħaffu l-proċess ta' kompressjoni. Skaner magħmul minnu nnifsu, dan huwa "seħer tiegħi...", "huwa pjuttost għoli, għax huwa kompletament magħmul bl-idejn" (miktub f'assemblatur).

L-iskaner ta 'tfittxija ta' taqbila huwa magħmul skond skema probabilistika fuq żewġ livelli: l-ewwel, il-preżenza ta '"sinjal" ta' taqbila hija skennjata, u biss wara li s-"sinjal" jiġi identifikat f'dan il-post, il-proċedura biex tinstab taqbila reali. jinbeda.

It-tieqa tat-tfittxija tal-partita għandha daqs imprevedibbli, skont il-grad ta 'entropija fil-blokka tad-dejta pproċessata. Għal data kompletament każwali (inkompressibbli) għandha daqs ta 'megabytes, għal data b'repetizzjonijiet hija dejjem akbar minn megabyte.

Iżda ħafna formati ta 'data moderni huma inkompressibbli u t-tħaddim ta' skaner li juża ħafna riżorsi minnhom huwa inutli u ta 'ħela, għalhekk l-iskaner juża żewġ modi operattivi. L-ewwel, sezzjonijiet tat-test sors b'repetizzjonijiet possibbli huma mfittxija din l-operazzjoni titwettaq ukoll permezz ta 'metodu probabilistiku u titwettaq malajr ħafna (b'veloċità ta' 4-6 GigaBytes/sec). Iż-żoni b'taqbil possibbli mbagħad jiġu pproċessati mill-iskaner prinċipali.

Il-kompressjoni tal-indiċi mhix effiċjenti ħafna, trid tissostitwixxi frammenti duplikati b'indiċi, u l-firxa tal-indiċi tnaqqas b'mod sinifikanti l-proporzjon tal-kompressjoni.

Biex tiżdied il-proporzjon tal-kompressjoni, mhux biss logħbiet kompluti ta 'sekwenzi ta' byte huma indiċjati, iżda wkoll dawk parzjali, meta s-sekwenza jkun fiha bytes mqabbla u mhux imqabbla. Biex tagħmel dan, il-format ta 'l-indiċi jinkludi qasam tal-maskra ta' tqabbil li jindika l-bytes li jaqblu ta 'żewġ blokki. Għal kompressjoni saħansitra akbar, l-indiċjar jintuża biex jissuperponi diversi blokki parzjalment li jaqblu fuq il-blokk kurrenti.

Dan kollu għamilha possibbli li jinkiseb fil-kompressur PTT-Mid proporzjon ta 'kompressjoni komparabbli ma' kompressuri magħmula bl-użu tal-metodu dizzjunarju, iżda li jaħdmu ħafna aktar malajr.

Veloċità tal-algoritmu tal-kompressjoni l-ġdid

Jekk il-kompressur jaħdem b'użu esklussiv tal-memorja cache (4 Megabytes huma meħtieġa għal kull ħajta), allura l-veloċità operattiva tvarja minn 700-2000 Megabytes/sec. għal kull qalba tal-proċessur, skond it-tip ta 'data li tkun ikkompressata u tiddependi ftit fuq il-frekwenza operattiva tal-proċessur.

B'implimentazzjoni b'ħafna kamini tal-kompressur, iskalabbiltà effettiva hija determinata mid-daqs tal-cache tat-tielet livell. Pereżempju, li jkollok 9 MegaBytes ta 'memorja cache "abbord", m'hemm l-ebda punt li tniedi aktar minn żewġ ħjut ta' kompressjoni, il-veloċità mhux se tiżdied minn dan. Iżda b'cache ta '20 Megabytes, diġà tista' tmexxi ħames ħjut ta 'kompressjoni.

Ukoll, il-latency tar-RAM issir parametru importanti li jiddetermina l-veloċità tal-kompressur. L-algoritmu juża aċċess każwali għall-OP, li xi wħud minnhom ma jidħlux fil-memorja cache (madwar 10%) u jrid idle, jistenna data mill-OP, li jnaqqas il-veloċità tal-operazzjoni.

Is-sistema I/O tħalli impatt sinifikanti fuq il-veloċità tal-kompressur. It-talbiet I/O lill-blokka RAM jitolbu dejta mis-CPU, li tnaqqas ukoll il-veloċità tal-kompressjoni. Din il-kwistjoni hija sinifikanti għal-laptops u d-desktops. servers Huwa inqas sinifikanti minħabba unità ta' kontroll tal-aċċess tal-bus tas-sistema aktar avvanzata u RAM b'ħafna kanali.

Matul it-test fl-artikolu nitkellmu dwar il-kompressjoni tibqa 'barra mill-ambitu ta' dan l-artikolu peress li "kollox huwa miksi fiċ-ċikkulata". Id-dekompressjoni hija ħafna aktar mgħaġġla u hija limitata mill-veloċità tal-I/O. Qalba fiżika waħda f'ħajt wieħed faċilment tipprovdi veloċitajiet ta 'spakkjar ta' 3-4 GB/sec.

Dan huwa minħabba n-nuqqas ta 'operazzjoni ta' tfittxija ta 'taqbila matul il-proċess ta' dekompressjoni, li "jiekol" ir-riżorsi ewlenin tal-proċessur u l-memorja cache waqt il-kompressjoni.

Affidabbiltà tal-ħażna tad-dejta kkompressata

Kif jissuġġerixxi l-isem tal-klassi kollha ta’ softwer li juża l-kompressjoni tad-dejta (arkivji), huma ddisinjati għal ħażna ta’ informazzjoni fit-tul, mhux għal snin, iżda għal sekli u millenji...

Waqt il-ħażna, il-midja tal-ħażna titlef xi dejta, hawn eżempju:

Kompressjoni ta' Veloċità Għolja Fail-Safe (Ikompli)

Dan it-trasportatur ta 'informazzjoni "analogu" għandu elf sena, xi frammenti ntilfu, iżda b'mod ġenerali l-informazzjoni hija "jinqara"...

L-ebda wieħed mill-manifatturi responsabbli ta 'sistemi moderni ta' ħażna ta 'dejta diġitali u midja diġitali għalihom ma jipprovdi garanziji ta' sigurtà sħiħa ta 'dejta għal aktar minn 75 sena.
U din hija problema, imma problema posposta, id-dixxendenti tagħna se jsolvuha...

Is-sistemi tal-ħażna tad-dejta diġitali jistgħu jitilfu d-dejta mhux biss wara 75 sena, żbalji fid-dejta jistgħu jidhru fi kwalunkwe ħin, anke waqt ir-reġistrazzjoni tagħhom, jippruvaw jimminimizzaw dawn id-distorsjonijiet billi jużaw redundancy u jikkoreġuhom b'sistemi ta 'korrezzjoni tal-iżbalji. Is-sistemi ta' redundancy u korrezzjoni ma jistgħux dejjem jirrestawraw l-informazzjoni mitlufa, u jekk jagħmlu dan, m'hemm l-ebda garanzija li l-operazzjoni ta 'restawr tkun tlestiet b'mod korrett.

U din hija wkoll problema kbira, iżda mhux differita, iżda attwali.

Kompressuri moderni użati għall-arkivjar tad-dejta diġitali huma mibnija fuq diversi modifiki tal-metodu tad-dizzjunarju, u għal arkivji bħal dawn it-telf ta 'biċċa informazzjoni se jkun avveniment fatali hemm saħansitra terminu stabbilit għal sitwazzjoni bħal din - arkivju "imkisser". ...

L-affidabbiltà baxxa tal-ħażna tal-informazzjoni fl-arkivji b'kompressjoni tad-dizzjunarju hija assoċjata mal-istruttura tad-dejta kkompressata. L-informazzjoni f'arkivju bħal dan ma fihiex it-test sors, in-numri ta 'daħliet fid-dizzjunarju huma maħżuna hemmhekk, u d-dizzjunarju innifsu huwa modifikat dinamikament mit-test kompressat attwali. Jekk framment tal-arkivju jintilef jew ikun korrott, l-entrati kollha tal-arkivju sussegwenti ma jistgħux jiġu identifikati la mill-kontenut u lanqas mit-tul tal-iskrizzjoni fid-dizzjunarju, peress li mhuwiex ċar għal xiex jikkorrispondi n-numru tad-dħul fid-dizzjunarju.

Huwa impossibbli li tirrestawra l-informazzjoni minn arkivju "imkisser" bħal dan.

L-algoritmu RTT huwa bbażat fuq metodu aktar affidabbli ta 'ħażna ta' data kkompressata. Juża l-metodu tal-indiċi tal-kontabilità għal frammenti ripetuti. Dan l-approċċ għall-kompressjoni jippermettilek li timminimizza l-konsegwenzi tad-distorsjoni tal-informazzjoni fuq il-mezz tal-ħażna, u f'ħafna każijiet tikkoreġi awtomatikament id-distorsjonijiet li nqalgħu waqt il-ħażna tal-informazzjoni.
Dan huwa dovut għall-fatt li l-fajl tal-arkivju fil-każ tal-kompressjoni tal-indiċi fih żewġ oqsma:

  • qasam tat-test sors b'sezzjonijiet ripetuti mneħħija minnu;
  • qasam tal-indiċi.

Il-qasam tal-indiċi, li huwa kritiku għall-irkupru tal-informazzjoni, mhuwiex kbir fid-daqs u jista 'jiġi duplikat għal ħażna ta' data affidabbli. Għalhekk, anki jekk tintilef framment tat-test tas-sors jew tal-firxa tal-indiċi, l-informazzjoni l-oħra kollha tiġi rrestawrata mingħajr problemi, bħal fl-istampa b'mezz ta 'ħażna "analogu".

Żvantaġġi tal-algoritmu

M'hemm l-ebda vantaġġi mingħajr żvantaġġi. Il-metodu tal-kompressjoni tal-indiċi ma jikkompressax sekwenzi qosra ripetuti. Dan huwa dovut għal-limitazzjonijiet tal-metodu tal-indiċi. L-indiċi għandhom daqs mill-inqas 3 bytes u jistgħu jkunu sa 12-il bytes fid-daqs. Jekk repetizzjoni tiltaqa 'ma' daqs iżgħar mill-indiċi li jiddeskriviha, allura ma titqiesx, irrispettivament minn kemm dawn ir-repetizzjonijiet jiġu skoperti fil-fajl kompressat.

Il-metodu ta 'kompressjoni tad-dizzjunarju tradizzjonali jikkompressa b'mod effettiv repetizzjonijiet multipli ta' tul qasir u għalhekk jikseb proporzjon ta 'kompressjoni ogħla mill-kompressjoni tal-indiċi. Veru, dan jinkiseb minħabba t-tagħbija għolja fuq il-proċessur ċentrali sabiex il-metodu tad-dizzjunarju jibda jikkompressa d-dejta b'mod aktar effiċjenti mill-metodu tal-indiċi, għandu jnaqqas il-veloċità tal-ipproċessar tad-dejta għal 10-20 megabytes kull sekonda fuq reali; installazzjonijiet tal-kompjuters b'tagħbija sħiħa ta' CPU.

Veloċitajiet baxxi bħal dawn mhumiex aċċettabbli għal sistemi moderni ta 'ħażna ta' data u huma ta 'interess aktar "akkademiku" milli prattiku.

Il-grad ta 'kompressjoni tal-informazzjoni se jiżdied b'mod sinifikanti fil-modifika li jmiss tal-algoritmu RTT (RTT-Max), li diġà jinsab fl-iżvilupp.

Allura, bħal dejjem, biex inkomplu...

Sors: www.habr.com

Ixtri hosting affidabbli għal siti bi protezzjoni DDoS, servers VPS VDS 🔥 Ixtri hosting ta' websajts affidabbli bi protezzjoni DDoS, servers VPS VDS | ProHoster