Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta

Thathas a’ cleachdadh lorg eisimeileachd gnìomh ann an dàta ann an diofar raointean de mhion-sgrùdadh dàta: riaghladh stòr-dàta, glanadh dàta, innleadaireachd cùl stòr-dàta agus sgrùdadh dàta. Tha sinn mar-thà air fhoillseachadh mu na h-eisimeileachd fhèin artaigil Anastasia Birillo agus Nikita Bobrov saor an asgaidh. An turas seo, tha Anastasia, a cheumnaich bhon Ionad Saidheans Coimpiutaireachd am-bliadhna, a 'roinn leasachadh na h-obrach seo mar phàirt den obair rannsachaidh a dhìon i aig an ionad.

Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta

Taghadh gnìomh

Fhad ‘s a bha mi ag ionnsachadh aig an ionad CS, thòisich mi a’ sgrùdadh stòran-dàta ann an doimhneachd, is e sin, a bhith a ’lorg eisimeileachd gnìomh agus eadar-dhealachadh. Bha an cuspair seo co-cheangailte ri cuspair an obair-cùrsa agam aig an oilthigh, agus mar sin fhad ‘s a bha mi ag obair air an obair cùrsa, thòisich mi a’ leughadh artaigilean mu dhiofar eisimeileachd ann an stòran-dàta. Sgrìobh mi lèirmheas air an raon seo - aon den chiad fhear agam artaigilean ann am Beurla agus chuir e a-steach e gu co-labhairt SEIM-2017. Bha mi glè thoilichte nuair a fhuair mi a-mach gun deach gabhail rithe às deidh a h-uile càil, agus cho-dhùin mi sgrùdadh nas doimhne a dhèanamh air a’ chuspair. Chan eil am bun-bheachd fhèin ùr - thòisich e air a chleachdadh air ais anns na 90an, ach eadhon a-nis tha e air a chleachdadh ann an iomadh raon.

Rè an dàrna semeastar agam aig an ionad, thòisich mi air pròiseact rannsachaidh gus algorithms a leasachadh airson eisimeileachd gnìomh a lorg. Dh'obraich i air còmhla ri oileanach ceumnachaidh Oilthigh Stàite St. Petersburg Nikita Bobrov aig JetBrains Research.

Computational iom-fhillteachd a 'lorg eisimeileachd gnìomh

Is e am prìomh dhuilgheadas iom-fhillteachd coimpiutaireachd. Tha an àireamh de dh’ eisimeileachd as lugha agus neo-bheag air a chuingealachadh gu h-àrd leis an luach Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàtacàite Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta - àireamh de fheartan clàr. Tha ùine obrachaidh nan algorithms an urra chan ann a-mhàin air an àireamh de bhuadhan, ach cuideachd air an àireamh de shreathan. Anns na 90n, dh’ fhaodadh algoirmean sgrùdaidh lagh feadarail air PC deasg àbhaisteach seataichean dàta a phròiseasadh anns a bheil suas ri 20 buadhan agus deichean de mhìltean de shreathan ann an suas ri grunn uairean a thìde. Bidh algorithms ùr-nodha a tha a’ ruith air pròiseasairean ioma-cridhe a’ lorg eisimeileachd airson seataichean dàta anns a bheil ceudan de fheartan (suas ri 200) agus ceudan de mhìltean de shreathan ann an timcheall air an aon ùine. Ach, chan eil seo gu leòr: tha àm mar sin neo-iomchaidh airson a’ mhòr-chuid de thagraidhean san t-saoghal fhìor. Mar sin, leasaich sinn dòighean-obrach gus algorithms gnàthaichte a luathachadh.

Sgeama caching airson eadar-ghearraidhean partition

Anns a’ chiad phàirt den obair, leasaich sinn sgeamaichean caching airson clas de dh’ algoirmean a bhios a’ cleachdadh an dòigh eadar-sgaraidh dealachaidh. Is e seata de liostaichean a th’ ann an sgaradh airson feart, far a bheil àireamhan loidhne anns gach liosta leis na h-aon luachan airson feart sònraichte. Canar brabhsair ris gach liosta den leithid. Bidh mòran de algorithms an latha an-diugh a’ cleachdadh sgaraidhean gus faighinn a-mach a bheil eisimeileachd air a chumail no nach eil, is e sin, tha iad a’ cumail ris an lema: eisimeileachd Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta air a chumail ma tha Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta. An seo Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta tha sgaradh air a shònrachadh agus tha bun-bheachd meud sgaradh air a chleachdadh - an àireamh de chlàran a tha ann. Algorithms a bhios a 'cleachdadh sgaraidhean, nuair a thèid an eisimeileachd a bhriseadh, cuir buadhan a bharrachd air taobh clì an eisimeileachd, agus an uairsin ath-àireamhachadh, a' coileanadh obrachadh eadar-ghearradh de phàirtean. Canar speisealachadh anns na h-artaigilean ris an obair seo. Ach mhothaich sinn gum faodar sgaraidhean airson eisimeileachd a bhiodh air an cumail dìreach às deidh beagan chuairtean de shònrachadh ath-chleachdadh gu gnìomhach, a dh’ fhaodadh ùine ruith nan algorithms a lughdachadh gu mòr, leis gu bheil an obair eadar-ghearraidh daor.

Mar sin, mhol sinn heuristic stèidhichte air Shannon Entropy agus Ginny Uncertainty, a bharrachd air ar meatrach, ris an can sinn Reverse Entropy. Is e atharrachadh beag a th’ ann air Shannon Entropy agus bidh e ag àrdachadh mar a tha cho sònraichte sa tha an t-seata dàta a’ dol am meud. Tha an heuristic a thathar a’ moladh mar a leanas:

Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta

tha e Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta - an ìre de dh’aona-ghnothach an sgaradh a chaidh a thomhas o chionn ghoirid Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàtaagus Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta tha e na mheadhan air ìrean àraid airson buadhan fa leth. Chaidh na trì meatrach a chaidh a mhìneachadh gu h-àrd a dhearbhadh mar mheatrach gun samhail. Faodaidh tu cuideachd mothachadh gu bheil dà inneal-atharrachaidh anns an heuristic. Tha a’ chiad fhear a’ sealltainn cho faisg ‘s a tha an sgaradh gnàthach air a’ phrìomh iuchair agus a’ leigeil leat na h-earrainnean sin a tha fada bhon iuchair a dh’ fhaodadh a bhith air an tasgadh gu ìre nas motha. Leigidh an dàrna mion-atharrachaidh leat sùil a chumail air seilbh tasgadan agus mar sin a’ brosnachadh barrachd sgaraidhean a chuir ris an tasgadan ma tha àite an-asgaidh ri fhaighinn. Leig fuasgladh soirbheachail na duilgheadas seo leinn an algairim PYRO a luathachadh le 10-40%, a rèir an t-seata dàta. Is fhiach a bhith mothachail gur e an algairim PYRO an fheadhainn as soirbheachaile san raon seo.

Anns an fhigear gu h-ìosal chì thu na toraidhean bho bhith a’ cur an gnìomh an heuristic a chaidh a mholadh an coimeas ri dòigh-obrach bunaiteach airson tasgadh coin-flip. Tha an X axis logarithmic.

Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta

Dòigh eile airson sgaradh a stòradh

An uairsin mhol sinn dòigh eile airson sgaraidhean a stòradh. Is e seata de chlàran a th’ ann am pàirtean, agus bidh gach fear dhiubh a’ stòradh àireamhan de thuples le luachan co-ionann airson buadhan sònraichte. Faodaidh sreathan fada de àireamhan tuple a bhith anns na cruinneachaidhean sin, mar eisimpleir ma tha an dàta ann an clàr air òrdachadh. Mar sin, mhol sinn sgeama teannachaidh airson stòradh phàirtean, is e sin stòradh luachan eadar-amail ann an cruinneachaidhean de phàirtean:

$$display$$pi(X) = {{fo-thalamh{1, 2, 3, 4, 5}_{A' chiad eadar-ama}, fo-bhratach{7, 8}_{Dara eadar-àm}, 10}}\ saighead sìos{ Compression} \ pi(X) = {{underbrace{$, 1, 5}_{A' chiad~eadar-ama}, fo-chòmhdach{7, 8}_{Dara~eadar-ama}, 10}}$$display$$

Bha an dòigh seo comasach air caitheamh cuimhne a lughdachadh rè obrachadh an algairim TONE bho 1 gu 25%. Tha an algairim TONE na algairim clasaigeach airson a bhith a’ lorg laghan feadarail; bidh e a’ cleachdadh sgaraidhean rè a chuid obrach. Mar phàirt den chleachdadh, chaidh an algairim TONE a thaghadh, leis gu robh e mòran na b’ fhasa stòradh eadar-ama a chuir an gnìomh na, mar eisimpleir, ann am PYRO gus measadh a dhèanamh a bheil an dòigh-obrach a chaidh a mholadh ag obair. Tha na toraidhean a gheibhear air an taisbeanadh anns an fhigear gu h-ìosal. Tha an X axis logarithmic.

Lorg gu h-èifeachdach eisimeileachd gnìomh ann an stòran-dàta

Co-labhairt ADBIS-2019

Stèidhichte air toraidhean an rannsachaidh, san t-Sultain 2019 dh’ fhoillsich mi artaigil Tasgadh glic airson lorg eisimeileachd gnìomh èifeachdach aig an 23mh Co-labhairt Eòrpach air Adhartasan ann an Stòran-dàta agus Siostaman Fiosrachaidh (ADBIS-2019). Rè an taisbeanaidh, chaidh an obair a thoirt fa-near le Bernhard Thalheim, neach cudromach ann an raon nan stòran-dàta. Bha toraidhean an rannsachaidh mar bhunait air an tràchdas agam aig a’ cheum maighstireachd ann am matamataig agus meacanaig aig Oilthigh Stàite St Petersburg, nuair a chaidh an dà dhòigh-obrach a chaidh a mholadh (caching and compression) a chur an gnìomh anns an dà algairim: TANE agus PYRO. A bharrachd air an sin, sheall na co-dhùnaidhean gu bheil na dòighean-obrach a chaidh a mholadh uile-choitcheann, oir air an dà algorithm, leis an dà dhòigh-obrach, chaidh lùghdachadh mòr ann an caitheamh cuimhne fhaicinn, a bharrachd air lùghdachadh mòr ann an ùine obrachaidh nan algorithms.

Source: www.habr.com

Cuir beachd ann