Maqaalkani waa kii labaad ee taxane ah oo ku saabsan isku-buufinta xogta xawaaraha sare leh. Maqaalkii ugu horreeyay wuxuu qeexay kombaresarka ku shaqeeya 10 GB/sekkiiba halbeegga processor-ka (xakamaynta ugu yar, RTT-Min).
Compressor-kan waxa mar horeba lagu hirgaliyay nuqul ka mid ah forensic forensic-ka oo loogu talagalay isku xidhka xawaaraha sare ee qashinka warbaahinta iyo xoojinta xoogga sirta ah. Waxa kale oo loo isticmaali karaa in lagu cadaadiyo sawirada mashiinka farsamada iyo faylalka isdhaafsiga RAM marka lagu kaydinayo darawallada xawaaraha sare leh ee SSD.
Maqaalkii ugu horreeyay wuxuu sidoo kale ku dhawaaqay horumarinta algorithm isku-darka ah ee lagu cadaadiyo HDD iyo kaydinta SSD (RTT-Mid) oo leh cabbirro xog-ururin ah oo si weyn loo hagaajiyay. Compressor-kan hadda si buuxda ayaa loo horumariyay, maqaalkani waxa uu ku saabsan yahay.
Compressor oo fulinaya algorithm-ka RTT-Mid waxa uu bixiyaa heerar is riix-riix ah oo la barbar dhigi kara kaydiyeyaasha caadiga ah sida WinRar iyo 7-Zip oo ku shaqeeya hab-xawaaraha sareeyo. Isla markaa, xawaarhiisu waa ugu yaraan kala sarreyn heerkiisu sarreeyo.
Xawaaraha isku-duubista/xawaaraha xog-hoosaadka ayaa ah halbeeg muhiim ah oo go'aaminaya baaxadda tignoolajiyada isku-buufinta. Uma badna in qofna uu isku dayo in uu ku cadaadiyo terabyte xog ah 10-15 megabytes ilbiriqsikii (xawaaraha kaydka ee qaabka isku xirka caadiga ah), maxaa yeelay tani waxay u baahan tahay ku dhawaad labaatan saacadood oo waqti ka baaraandeg ah oo ka hooseeya culeyska CPU.
Dhinaca kale, isla terabyte waxa lagu koobiyn karaa xawli ku dhow 2-3 Gigabyte ilbiriqsikiiba ilaa toban daqiiqo gudahood.
Sidaa darteed, isku-buufinta xaddi badan oo xog ah ayaa wax ku ool ah kaliya haddii lagu sameeyo qiime aan ka gaabin heerka wax-gelinta/soo-saarka dhabta ah. Nidaamyada casriga ah, tani waa ugu yaraan 100 megabyte ilbiriqsikii.
Compressors-ka casriga ah waxay ku gaari karaan oo kaliya xawaaraha noocaas ah habka "degdega ah". Waa habkan hadda jira ee aan barbardhigi doono RTT-Mid algorithm iyo kombaresarada dhaqameed.
Tijaabada isbarbardhigga ee algorithm cadaadis cadaadis cusub
Compressor-ka RTT-Mid waxa loo isticmaalay qayb ka mid ah barnaamijka tijaabada. Run ahaantii, codsiga "wax-soo-saarka", si xawli leh ayuu u shaqeeyaa, maadaama uu si caqli-gal ah uga faa'iidaysanayo multithreading oo uu isticmaalo isku-dubarid "caadi" ah, ma aha C #.
Maadaama kombaresarada loo isticmaalo tijaabada isbarbardhigga lagu dhisay mabaadi'o kala duwan oo ay si kala duwan u cadaadiyan noocyada kala duwan ee xogta, habka "celceliska heerkulka isbitaalka" ayaa la isticmaalay si loo hubiyo in baaritaanku uu ahaa mid ujeedo leh.
Fayl-qayb-qayb-qayb-qaadis ah oo saxan macquul ah oo socda Windows 10 ayaa la sameeyay. Tani waa isku dhafka ugu dabiiciga ah ee qaababka xogta kala duwan ee laga helay kombiyuutar kasta. Cadaadiska feylkan waxa ay noo ogolaanaysaa in aan is barbar dhigno xawaaraha iyo saamiga isku xidhka algorithm-ka cusub iyo kombaresarada ugu horumarsan ee loo isticmaalo kaydadka casriga ah.
Waa kan faylka qashinka:

Faylka qashin-qubka waxaa la cufidiyay iyadoo la adeegsanayo PTT-Mid, 7-zip, iyo WinRar. WinRar iyo 7-zip ayaa lagu dejiyay xawaaraha ugu sarreeya.
Compressor-ku wuu shaqaynayaa 7-Zip:

Waxay ku shubaysaa processor-ka 100%, halka celceliska xawaaraha akhrinta qashinka asalka ahi uu ku dhow yahay 60 megabytes/sec.
Compressor-ku wuu shaqaynayaa Winrar:

Xaaladdu waa la mid, culeyska processor-ku wuxuu ku dhow yahay 100%, celceliska xawaaraha akhriska ee ku saabsan 125 Megabytes/sec.
Sida kii hore, xawaarihii kaydiyaha waxa xadiday awooda processor-ka.
Barnaamijka tijaabada kombaresarada ayaa hadda socda. RTT-Mid:

Sawirku wuxuu muujinayaa in Processor-ku uu 50% ka faa'iidaysanayo oo uu shaqaynayo inta ka hadhay wakhtiga sababtoo ah ma jirto meel lagu daadiyo xogta la cufan. Saxanka qashinka ee xogta (Disk 0) ayaa ku dhawaad si buuxda loo isticmaalay. Xawaaraha akhriska xogta (Disk 1) aad buu isu beddelaa, laakiin celcelis ahaan waa in ka badan 200 MB/sek.
Xawaaraha hawlgalka kombaresarada ayaa xaaladan ku xaddidan awoodda uu u qori karo xogta la cufay Disk 0.
Hadda saamiga isku-buufinta ee kaydka natiijada:



Way caddahay in kombaresarada RTT-Mid uu sameeyay sida ugu fiican ee isku-buufinta; Kaydka ay samaysay waxa uu ahaa 1,3 Gigabyte ka yar kaydka WinRar iyo 2,1 Gigabyte oo ka yar kaydka 7z.
Waqtiga lagu qaatay abuurista kaydka:
- 7-zip - 26 daqiiqo 10 ilbiriqsi;
- WinRar - 17 daqiiqo 40 ilbiriqsi;
- RTT-Mid - 7 daqiiqo 30 ilbiriqsi.
Sidaa darteed, xitaa imtixaan, barnaamij aan la hagaajin, iyadoo la adeegsanayo algorithm-ka RTT-Mid, wuxuu awooday inuu abuuro kayd wax ka badan laba jeer iyo badh ka dhakhso badan, halka kaydku uu noqday mid aad uga yar kan tartamayaasha ...
Kuwa aan rumaysan shaashadaha ayaa laftooda xaqiijin kara xaqiiqadooda. Barnaamijka tijaabada waxaa laga heli karaa , soo deji oo hubi.
Laakiin kaliya ku shaqeeyayaasha leh taageerada AVX-2; taageero la'aan tilmaamahan, kombaresarada ma shaqayn doonto. Ha ku tijaabin algorithm-ka soo-saarayaasha AMD ee hore; way ka gaabiyaan fulinta awaamiirta AVX...
Habka cadaadiska ee la isticmaalay
Algorithm waxay isticmaashaa hab lagu tusiyo soo noqnoqda jajabyada qoraalka iyadoo la isticmaalayo granularity byte. Habkan isku-buufinta ayaa la yaqaanay muddo dheer, laakiin si weyn looma isticmaalin sababta oo ah hawlgalka isbarbardhigga ayaa ahaa mid aad u xoog badan oo qaatay wax ka badan dhismaha qaamuuska. Markaa, algorithm-ka RTT-Mid waa tusaale caadi ah oo ah "ku laabashada mustaqbalka."
Compressor-ka PTT waxa uu isticmaalaa iskaanka ciyaarta xawaaraha sare leh ee u gaarka ah, kaas oo dedejiya habka isku xidhka. Sawir-qaaduhu waa guri-guri, "qiimahayga qaaliga ah..." iyo "aad bay qaali u tahay sababtoo ah gabi ahaanba waa gacan lagu sameeyey" (waxay ku qoran tahay luqadda shirka).
Sawirka ciyaarta waxaa la fuliyaa iyadoo la adeegsanayo nidaam macquul ah oo laba heer ah: marka hore, joogitaanka "calaamada" ciyaarta waa la sawiraa, oo kaliya ka dib marka "calaamada" laga helo goobtan waa habka lagu ogaanayo ciyaarta dhabta ah.
Daaqada raadinta waxay leedahay cabbir aan la saadaalin karin, iyadoo ku xiran entropy ee xannibaadda xogta la farsameeyo. Si loo helo xogta gebi ahaanba random (aan la koobi karin), waa megabyte cabbir ahaan; Xogta ka kooban ku celcelinta, had iyo jeer way ka weyn tahay megabyte.
Si kastaba ha ahaatee, qaabab badan oo xogta casriga ah ayaa ah kuwo aan la koobi karin, iyo socodsiinta iskaanka-dhaqdhaqaaqa kheyraadka iyada oo loo marayo waa wax aan faa'iido lahayn oo khasaara, sidaas awgeed sawir-qaaduhu wuxuu isticmaalaa laba hab oo hawlgal ah. Marka hore, qaybo ka mid ah qoraalka isha oo leh ku celcelin suurtagal ah ayaa la raadiyaa. Qalliinkan waxaa sidoo kale loo sameeyaa si macquul ah oo aad u dhaqso badan (xawaaraha 4-6 Gbytes/sek). Ka dib, qaybaha leh tabarrucyada suurtagalka ah ayaa lagu farsameeyaa scanner-ka ugu weyn.
Isku-buufinta index ma aha mid aad waxtar u leh, waxaa lagama maarmaan ah in lagu beddelo jajabyada soo noqnoqda leh indexes, iyo index index ayaa si weyn u yareynaya saamiga cadaadiska.
Si loo kordhiyo cadaadiska, ma aha oo kaliya tabarrucyada xargaha baytka oo dhammaystiran ayaa la tilmaamay, laakiin sidoo kale kuwa qayb ahaan, marka xadhiggu ka kooban yahay baytyo is-waafaqsan iyo kuwo aan is-barbar-dhigin. Ujeedadan awgeed, qaabka tusmada waxa ku jira garoon maaskaro kabriid ah oo tilmaamaya bytes-ka isku midka ah ee laba baloog. Xataa cadaadis weyn, tusmaynta waxaa loo isticmaalaa iyadoo lagu dul-dul-saarayo dhowr baloog oo qayb ahaan is-waafaqaya baloogga hadda jira.
Waxaas oo dhami waxay suurtogal ka dhigeen in la helo saamiga isku-buufinta ee RTT-Mid kombaresarada oo u dhiganta kombaresarada la sameeyay iyadoo la adeegsanayo habka qaamuuska, laakiin si degdeg ah u shaqeynaya.
Xawaaraha algorithm cufan cusub
Haddii kombasarriyuhu uu ku shaqeeyo isticmaalka gaarka ah ee xusuusta kaydinta (4 megabytes ayaa looga baahan yahay durdurkiiba), markaas xawaaruhu waxa uu isu beddelaa inta u dhaxaysa 700-2000 megabyte/sekkiiba processor-ka, taas oo ku xidhan nooca xogta la cufan oo wax yar ayay ku xidhan tahay inta jeer ee processor-ka shaqaynayo.
Iyada oo kombaresarada-xadhkaha badan leh, miisaan waxtar leh ayaa lagu go'aamiyaa xajmiga kaydka L3. Tusaale ahaan, oo leh 9 MB oo kayd ah, socodsiinta in ka badan laba xadhig oo isku xidhka ah ma hagaajin doonto waxqabadka. Si kastaba ha noqotee, adigoo haysta kayd 20 MB ah, waxaad ku wadi kartaa shan xadhig oo cadaadis ah.
Latency RAM sidoo kale waa arrin muhiim ah oo lagu go'aamiyo waxqabadka kombaresarada. Algorithm waxay isticmaashaa codsiyada RAM-ka ee random, kuwaas oo qaarkood (qiyaastii 10%) ay seegaan kaydka, taas oo ku qasbeysa algorithm-ka inuu sugo xogta RAM-ka, taas oo yaraynaysa waxqabadka.
Nidaamka I/O wuxuu si weyn u saameeyaa xawaaraha kombaresarada. I/O wuxuu u codsadaa RAM-ka inuu ku weydiiyo xogta CPU-ga xanniba, taas oo sidoo kale yareysa xawaaraha cadaadiska. Arrintani waxay muhiim u tahay laptop-yada iyo desktop-yada. adeegayaasha Waa wax aan muhiim ahayn sababtoo ah cutubka xakamaynta marin u helidda baska nidaamka oo aad u horumarsan iyo RAM-ka badan ee kanaalka ah.
Maqaalka oo dhan, cadaadis ayaa laga hadlayaa; depression waa ka baxsan baaxadda maqaalkan, maadaama ay tahay "dhammaan ku jira shukulaatada." Depression aad buu u dhaqso badan yahay waxaana xadiday xawaaraha I/O. Hal xudun oo jireed oo ku jirta hal dun ayaa si fudud u gaadha xawli-yarida 3-4 GB/sek.
Tani waxay sabab u tahay maqnaanshaha hawlgalka raadinta ciyaarta inta lagu jiro habka furfurista, kaas oo "cunaya" ilaha ugu muhiimsan ee processor-ka iyo xusuusta kaydinta inta lagu jiro cadaadiska.
Kalsoonida kaydinta xogta cufan
Sida magaca dhammaan qalabka software-ka ee isticmaala xogta xogta (archivers) uu soo jeediyo, waxaa loogu talagalay kaydinta macluumaadka muddada-dheer, ma aha sannado, laakiin qarniyo iyo kun sano ...
Inta lagu jiro kaydinta, warbaahinta kaydinta waxay lumisaa xogtooda qaar, halkan waa tusaale:

Sidaha macluumaadka "analog" waa kun sano jir, qaybo ka mid ah ayaa lumay, laakiin guud ahaan macluumaadka waa "la akhriyi karo" ...
Ma jiro mid ka mid ah soosaarayaasha mas'uulka ka ah nidaamyada kaydinta xogta dhijitaalka ah ee casriga ah iyo warbaahinta dhijitaalka ah iyaga oo dammaanad qaadaya badbaadada xogta dhamaystiran in ka badan 75 sano.
Tanina waa dhibaato, laakiin dhibaato dib loo dhigay, farcankeenu waa inuu xalliyo...
Nidaamyada kaydinta xogta dhijitaalka ah waxay lumin karaan xogta kaliya maahan 75 sano ka dib, laakiin sidoo kale wakhti kasta, xitaa marka la duubo. Khaladaadkan waxaa lagu yareeyaa iyadoo la isticmaalayo dib-u-celinta iyo nidaamyada sixitaanka. Nidaamyada sixitaanka iyo khaladaadka mar walba ma awoodaan inay soo celiyaan macluumaadka lumay, xitaa haddii ay sameeyaan, ma jirto wax dammaanad ah in hawlgalka soo kabashada uu ahaa mid guul leh.
Tani sidoo kale waa dhibaato weyn, laakiin maaha mid dib loo dhigay, laakiin mid socota.
Compressors-ka casriga ah ee loo isticmaalo kaydinta xogta dhijitaalka ah waxa lagu dhisay wax ka beddello kala duwan oo lagu sameeyay habka qaamuuska, kaydadkaas oo kale, waayida qayb ka mid ah macluumaadka waxay noqonaysaa dhimasho. Xitaa waxaa jira eray loo dejiyay xaaladdan oo kale: kayd "jaran"...
Kalsoonida hoose ee kaydinta macluumaadka ee kaydka qaamuuska ku salaysan waxa sabab u ah qaab dhismeedka xogta la cufan. Macluumaadka kaydka noocaas ah kuma jiraan qoraalka asalka ah; waxay kaydisaa nambarada gelitaanka qaamuuska, kuwaas oo si firfircoon wax looga beddelay qoraalka hadda jira. Haddii qayb ka mid ah kaydka ay lunto ama ay xumaato, dhammaan gelitaanka xiga ee kaydka laguma aqoonsan karo nuxurkooda ama dhererka gelitaanka qaamuuska, maadaama aanay caddayn waxa lambarka gelitaanka qaamuuska u dhigma.
Suurtagal ma aha in laga soo kabsado macluumaadka kaydka "jaray" sida.
Algorithm-ka RTT wuxuu ku salaysan yahay hab la isku halayn karo oo lagu kaydinayo xogta cufan. Waxay isticmaashaa habka tusmaynta si ay ugu xisaabtanto soo celinta jajabyada. Habkan cadaadisku wuxuu yareynayaa saamaynta musuqmaasuqa xogta ee dhexdhexaadinta kaydinta iyo, marar badan, si toos ah u saxaya musuqmaasuqa dhaca inta lagu jiro kaydinta.
Tani waxay sabab u tahay xaqiiqda ah in faylka kaydka ee kiiska cufan index uu ka kooban yahay laba qaybood:
- goobta qoraalka isha ee qaybaha soo noqnoqda laga saaray;
- beerta index.
Goobta tusmada, oo muhiim u ah soo kabashada xogta, waa cabbir yar waxaana lagu koobi karaa kaydinta xogta la isku halayn karo. Sidaa darteed, xitaa haddii qayb ka mid ah qoraalka asalka ah ama tusaha tusaha la lumo, dhammaan macluumaadka kale waxaa lagu soo celin karaa dhibaato la'aan, sida ku cad sawirka leh "analog" warbaahinta kaydinta.
Khasaaraha algorithm
Faa'iido kastaa waxay leedahay cilladaheeda. Habka isku-buuqa ee ku salaysan tusmada ma cadaadiyo gaaban, oo isdaba-joog ah. Tani waxay sabab u tahay xaddidaadda habka ku salaysan index. Indexyadu waa ugu yaraan 3 bytes oo cabbir ah waxayna noqon karaan ilaa 12 bytes. Haddii la kulmo ku celis ka yar tusmooyinka qeexaya, waa la iska indhatiraa, iyada oo aan loo eegin inta jeer ee soo noqnoqda ee laga helo faylka la cadaadiyo.
Habka isku xidhka qaamuuska-dhaqameedka ah wuxuu si wax ku ool ah u cadaadiyaa soo noqnoqoshada dhererka gaaban ee badan oo sidaas darteed wuxuu gaaraa saamiga cadaadiska sare marka loo eego cufnaanta ku salaysan index. Si kastaba ha ahaatee, tani waxay ku timaadaa qiimaha isticmaalka CPU sare. Habka ku saleysan qaamuuska si loo gaaro isku-buufin xog ka waxtar badan marka loo eego habka ku saleysan index-ka, waa inay yareysaa xawaaraha socodsiinta xogta ilaa 10-20 megabytes ilbiriqsi kasta nidaamyada xisaabinta dhabta ah ee ka hooseeya culeyska CPU ee buuxa.
Xawaaraha hooseeya ee noocan oo kale ah ayaa ah mid aan la aqbali karin hababka kaydinta xogta casriga ah waxayna leeyihiin xiiso "waxbarasho" oo ka badan kuwa la taaban karo.
Heerka cadaadiska macluumaadka ayaa si weyn loo kordhin doonaa wax ka beddelka xiga ee RTT algorithm (RTT-Max), kaas oo horeyba u socday.
Marka, sida had iyo jeer, in la sii wado...
Source: www.habr.com
