Maidir le modh aisteach chun spás diosca crua a shábháil

Tá úsáideoir eile ag iarraidh píosa nua sonraí a scríobh chuig an tiomántán crua, ach níl go leor spáis saor aige chun é seo a dhéanamh. Níl mé ag iarraidh rud ar bith a scriosadh freisin, ós rud é "tá gach rud an-tábhachtach agus riachtanach." Agus cad ba cheart dúinn a dhéanamh leis?

Níl an fhadhb seo ag éinne. Tá teiribhearta faisnéise ar ár dtiomántáin chrua, agus ní gnách go laghdóidh an méid sin. Ach cé chomh uathúil é? Sa deireadh, níl sna comhaid go léir ach tacair de ghiotáin d'fhad áirithe agus, is dócha, níl an ceann nua i bhfad difriúil ón gceann atá stóráilte cheana féin.

Is léir nach tasc éifeachtach é cuardach a dhéanamh ar phíosaí faisnéise atá stóráilte cheana féin ar dhiosca crua, murar teip é, ar a laghad. Ar an láimh eile, má tá an difríocht beag, is féidir leat é a choigeartú beagán ...

Maidir le modh aisteach chun spás diosca crua a shábháil

TL; DR - an dara iarracht chun labhairt faoi mhodh aisteach chun sonraí a bharrfheabhsú ag baint úsáide as comhaid JPEG, atá anois i bhfoirm níos intuigthe.

Maidir le giotán agus difríocht

Má ghlacann tú dhá phíosa sonraí go hiomlán randamach, ansin ar an meán, leath de na giotáin atá iontu comhtharlú. Go deimhin, i measc na leagan amach féideartha do gach péire (‘00, 01, 10, 11′), tá na luachanna céanna ag leath go díreach, tá gach rud simplí anseo.

Ach ar ndóigh, más rud é nach dtógfaimid ach dhá chomhad agus go gcuirfimid ceann amháin leis an dara ceann, caillfimid ceann acu. Má shábhálaimid na hathruithe, is simplí a dhéanfaimid athchruthú ionchódú delta, atá ann go breá gan dúinn, cé nach bhfuil sé in úsáid de ghnáth chun na críocha céanna. Is féidir linn iarracht a dhéanamh seicheamh níos lú a leabú isteach i gceann níos mó, ach mar sin féin tá an baol ann go gcaillfimid codanna ríthábhachtacha sonraí má úsáidimid go meargánta é le gach rud.

Idir cad agus cad ansin is féidir deireadh a chur leis an difríocht? Bhuel, is é sin, níl i gcomhad nua scríofa ag an úsáideoir ach seicheamh giotán, nach féidir linn aon rud a dhéanamh leo féin. Ansin ní mór duit ach píosaí den sórt sin a fháil ar an tiomáint crua gur féidir iad a athrú gan an difríocht a stóráil, ionas gur féidir leat a gcaillteanas a mhaireachtáil gan iarmhairtí tromchúiseacha. Agus déanann sé ciall a athrú ní hamháin an comhad ar an FS féin, ach roinnt faisnéise nach bhfuil chomh íogair taobh istigh de. Ach cén ceann agus conas?

Modhanna feistiú

Tagann comhaid comhbhrúite Lossy chun an tarrthála. Cé go bhfuil na jpeganna, na mp3anna agus cinn eile seo go léir, cé go bhfuil siad comhbhrú caillte, tá roinnt giotán ar féidir iad a athrú go sábháilte. Is féidir ardteicníochtaí a úsáid a mhodhnaíonn a gcomhpháirteanna go do-airithe ag céimeanna éagsúla den ionchódú. Fan. Ardteicníochtaí ... modhnú do-airithe ... beagán isteach i gceann eile ... tá sé beagnach cosúil steganagrafaíocht!

Go deimhin, is meabhrúchán ar mhodhanna eile í faisnéis amháin a leabú i gceann eile. Táim an-tógtha freisin le do-airitheacht na n-athruithe a rinneadh ar na céadfaí daonna. Áit a bhfuil éagsúlacht idir na cosáin faoi rún: ní mór don úsáideoir faisnéis bhreise a chur isteach ar a thiomáint crua agus ní dhéanfaidh sé ach dochar dó. Déanfaidh sé dearmad arís.

Dá bhrí sin, cé gur féidir linn iad a úsáid, ní mór dúinn roinnt modhnuithe a dhéanamh. Agus ansin inseoidh mé agus taispeánfaidh mé iad ag baint úsáide as an sampla de cheann de na modhanna atá ann cheana féin agus formáid comhaid coitianta.

Maidir le seaicéid

Má tá tú ag brú i ndáiríre, is é an rud is comhbhrúite ar domhan é. Táimid ag caint, ar ndóigh, faoi chomhaid JPEG. Ní hamháin go bhfuil tonna uirlisí agus modhanna atá ann cheana chun sonraí a leabú isteach ann, ach is é an fhormáid grafaic is mó tóir ar an bpláinéad seo.

Maidir le modh aisteach chun spás diosca crua a shábháil

Mar sin féin, d'fhonn gan dul i mbun pórú madraí, ní mór duit do réimse gníomhaíochta a theorannú i gcomhaid den fhormáid seo. Ní maith le duine ar bith cearnóga monacrómacha atá le feiceáil mar gheall ar chomhbhrú iomarcach, mar sin ní mór duit tú féin a theorannú d'oibriú le comhad atá comhbhrúite cheana féin, taifeadadh a sheachaint. Go sonrach, le comhéifeachtaí slánuimhir, a fhanann tar éis oibríochtaí atá freagrach as caillteanas sonraí - DCT agus cainníochtú, atá ar taispeáint go foirfe sa scéim ionchódaithe (a bhuíochas le vicí Leabharlann Náisiúnta Bauman):
Maidir le modh aisteach chun spás diosca crua a shábháil

Tá go leor modhanna féideartha ann chun comhaid jpeg a bharrfheabhsú. Tá optamú gan chailliúint (jpegtran), tá leas iomlán a bhaint "aon chailleadh“, a chuireann rud éigin eile i ndáiríre, ach is cuma linn fúthu. Tar éis an tsaoil, má tá an t-úsáideoir réidh le faisnéis amháin a leabú isteach i gceann eile chun spás diosca saor in aisce a mhéadú, ansin rinne sé a chuid íomhánna a bharrfheabhsú i bhfad ó shin, nó níl sé ag iarraidh é seo a dhéanamh ar eagla go gcaillfí cáilíocht.

F5

Oireann teaghlach iomlán halgartaim na coinníollacha seo, ar féidir leat dul i dtaithí orthu sa chur i láthair maith seo. Is é an algartam an ceann is forbartha acu F5 ag Andreas Westfeld, ag obair le comhéifeachtaí na comhpháirte gile, ós rud é gurb í an tsúil dhaonna an duine is lú íogaire dá hathruithe. Thairis sin, úsáideann sé teicníc leabaithe bunaithe ar ionchódú maitrís, rud a fhágann gur féidir níos lú athruithe a dhéanamh nuair a bhíonn an méid céanna faisnéise á neadú, is mó méid an choimeádáin a úsáidtear.

Na hathruithe féin boil síos go dtí laghdú ar an luach absalóideach na comhéifeachtaí faoi cheann amháin faoi choinníollacha áirithe (is é sin, ní i gcónaí), a ligeann duit a úsáid F5 a optamaithe le stóráil sonraí ar do thiomáint crua. Is é an pointe gur dócha go n-áiteoidh an comhéifeacht tar éis athrú den sórt sin níos lú giotán tar éis ionchódú Huffman mar gheall ar dháileadh staidrimh luachanna i JPEG, agus tabharfaidh na nialais nua gnóthachan nuair a bheidh siad á n-ionchódú ag baint úsáide as RLE.

Na modhnuithe riachtanacha boil síos go dtí deireadh a chur leis an gcuid atá freagrach as rúndacht (athshocrú pasfhocal), a shábhálann acmhainní agus am a fhorghníomhú, agus ag cur meicníocht chun oibriú le go leor comhaid in ionad ceann amháin ag an am. Ní dócha go mbeidh suim níos mine ag an léitheoir sa phróiseas athraithe, mar sin déanaimis bogadh ar aghaidh go dtí cur síos ar an gcur i bhfeidhm.

Ardteicneolaíochta

Chun a léiriú conas a oibríonn an cur chuige seo, chuir mé an modh i bhfeidhm i C íon agus rinne mé roinnt leas iomlán a bhaint i dtéarmaí luas forghníomhaithe agus cuimhne (ní féidir leat a shamhlú cé mhéad a mheáigh na pictiúir seo gan comhbhrú, fiú roimh DCT). Tras-ardán bainte amach ag baint úsáide as meascán de leabharlanna libjpeg, pcre и bídeach, agus gabhaimid buíochas leo as. Tá sé seo go léir curtha le chéile ag 'déanamh', agus mar sin ba mhaith le húsáideoirí Windows roinnt Cygwin a shuiteáil dóibh féin le haghaidh meastóireachta, nó déileáil le Visual Studio agus leabharlanna ina n-aonar.

Tá an cur i bhfeidhm ar fáil i bhfoirm fóntais consól agus leabharlann. Is féidir leo siúd ar spéis leo tuilleadh eolais a fháil faoi úsáid a bhaint as an dara ceann sa readme sa stór ar Github, an nasc a cheangail mé ag deireadh an phoist.

Conas a úsáid?

Go cúramach. Roghnaítear na híomhánna a úsáidtear don phacáistiú trí chuardach a dhéanamh ag baint úsáide as slonn rialta sa fhréamh-eolaire a thugtar. Nuair a bheidh siad críochnaithe, is féidir comhaid a bhogadh, a athainmniú agus a chóipeáil de réir toil laistigh dá dteorainneacha, comhaid a athrú agus córais oibriúcháin, etc. Mar sin féin, ba chóir duit a bheith thar a bheith cúramach agus gan an t-ábhar láithreach a athrú ar bhealach ar bith. Má chailleann tú luach fiú giotán amháin is féidir é a dhéanamh dodhéanta faisnéis a aisghabháil.

Ar chríochnú, fágann an áirgiúlacht comhad cartlainne speisialta ina bhfuil an fhaisnéis go léir is gá chun díphacáil, lena n-áirítear sonraí faoi na híomhánna a úsáidtear. De réir féin, meáchan sé thart ar cúpla cilibheart agus níl aon tionchar suntasach aige ar an spás diosca áitithe.

Is féidir leat an acmhainn fhéideartha a anailísiú ag baint úsáide as an mbratach '-a': './f5ar -a [fillteán cuardaigh] [sloinn rialta Perl-compatible]'. Déantar an pacáil leis an ordú './f5ar -p [fillteán cuardaigh] [sloinn rialta Perl-compatible] [comhad pacáilte] [ainm cartlainne]', agus díphacáil le './f5ar -u [comhad cartlainne] [ainm comhaid aisghafa ]'.

Léiriú ar an obair

Chun éifeachtúlacht an mhodha a léiriú, d’uaslódáil mé bailiúchán de 225 grianghraf madraí saor in aisce ón tseirbhís Unsplash agus fuair sé sna doiciméid pdf mór de 45 méadar den dara imleabhar Ealaín na Ríomhchláraithe Cnó.

Tá an t-ord simplí go leor:

$ du -sh knuth.pdf dogs/
44M knuth.pdf
633M dogs/

$ ./f5ar -p dogs/ .*jpg knuth.pdf dogs.f5ar
Reading compressing file... ok
Initializing the archive... ok
Analysing library capacity... done in 17.0s
Detected somewhat guaranteed capacity of 48439359 bytes
Detected possible capacity of upto 102618787 bytes
Compressing... done in 39.4s
Saving the archive... ok

$ ./f5ar -u dogs/dogs.f5ar knuth_unpacked.pdf
Initializing the archive... ok
Reading the archive file... ok
Filling the archive with files... done in 1.4s
Decompressing... done in 21.0s
Writing extracted data... ok

$ sha1sum knuth.pdf knuth_unpacked.pdf
5bd1f496d2e45e382f33959eae5ab15da12cd666 knuth.pdf
5bd1f496d2e45e382f33959eae5ab15da12cd666 knuth_unpacked.pdf

$ du -sh dogs/
551M dogs/

Seatanna do lucht leanúna

Maidir le modh aisteach chun spás diosca crua a shábháil

Is féidir agus ba chóir an comhad neamhphacáilte a léamh go fóill:

Maidir le modh aisteach chun spás diosca crua a shábháil

Mar a fheiceann tú, ó na sonraí bunaidh 633 + 36 == 669 meigibheart ar an tiomáint crua, tháinig muid go dtí níos taitneamhaí 551. Mínítear difríocht radacach den sórt sin leis an laghdú ar luachanna na gcomhéifeachtaí, a chuireann isteach ar a gcuid. comhbhrú gan chailliúint ina dhiaidh sin: rud a laghdú ceann ar cheann is féidir “ cúpla beart a ghearradh as an gcomhad deiridh. Mar sin féin, is caillteanas sonraí é seo fós, cé gur caillteanas an-bheag é, a mbeidh ort cur suas leis.

Go fortunately, tá siad go hiomlán dofheicthe don tsúil. Faoin spoiler (ós rud é nach féidir le habrastorage comhaid mhóra a láimhseáil), is féidir leis an léitheoir an difríocht a mheas de réir súl agus a déine, a fhaightear trí luachanna an chomhpháirt athraithe a dhealú ón leagan bunaidh: bunaidh, le faisnéis taobh istigh, difríocht (dá níos dorcha an dath, is lú an difríocht sa bhloc).

In ionad a thabhairt i gcrích

Agus na deacrachtaí seo ar fad á gcur san áireamh, d’fhéadfadh gur réiteach i bhfad níos simplí ar an bhfadhb é tiomáint crua a cheannach nó gach rud a uaslódáil chuig an scamall. Ach cé go mairimid in am chomh iontach seo anois, níl aon ráthaíocht ann go mbeidh sé indéanta amárach dul ar líne agus do shonraí breise go léir a uaslódáil áit éigin. Nó téigh go dtí an siopa agus ceannaigh míle terabyte tiomántán crua eile duit féin. Ach is féidir leat tithe atá ann cheana féin a úsáid i gcónaí.

-> GitHub

Foinse: will.com

Add a comment