Baintear úsáid as spleáchais fheidhmiúla ar shonraí a aimsiú i réimsí éagsúla anailíse sonraí: bainistíocht bunachar sonraí, glanadh sonraí, innealtóireacht droim ar ais bunachar sonraí agus taiscéalaíocht sonraí. Tá foilsithe againn cheana féin faoi na spleáchais féin Anastasia Birillo agus Nikita Bobrov. An uair seo, roinneann Anastasia, céimí de chuid Ionad Ríomheolaíochta na bliana seo, forbairt na hoibre seo mar chuid den obair thaighde a chosain sí ag an ionad.

Roghnú tascanna
Agus mé ag staidéar ag an ionad CS, thosaigh mé ag déanamh staidéir dhomhain ar bhunachair shonraí, eadhon, cuardach a dhéanamh ar spleáchais fheidhmiúla agus difríochta. Bhain an t-ábhar seo le hábhar m’obair chúrsa san ollscoil, mar sin agus mé ag obair ar an obair chúrsa, thosaigh mé ag léamh ailt faoi spleáchais éagsúla i mbunachair shonraí. Scríobh mé léirmheas ar an réimse seo - ceann de mo chéad uair i mBéarla agus chuir sé faoi bhráid chomhdháil SEIM-2017 é. Bhí an-áthas orm nuair a fuair mé amach gur glacadh léi tar éis an tsaoil, agus chinn mé dul i mbun taighde níos doimhne ar an ábhar. Níl an coincheap féin nua - thosaigh sé le húsáid ar ais sna 90í, ach fiú anois úsáidtear é i go leor réimsí.
Le linn mo dhara seimeastar ag an ionad, chuir mé tús le tionscadal taighde chun halgartaim a fheabhsú chun spleáchais fheidhmiúla a aimsiú. D'oibrigh sí air in éineacht le mac léinn iarchéime Ollscoil Stáit St Petersburg Nikita Bobrov ag JetBrains Research.
Castacht ríomhaireachtúil maidir le spleáchais fheidhmiúla a chuardach
Is í an phríomhfhadhb ná castacht ríomhaireachtúil. Tá líon na spleáchais íosta agus neamhfhánacha teoranta os cionn an luacha
I gcás ina
— líon na n-airíonna tábla. Braitheann am oibriúcháin na n-halgartaim ní hamháin ar líon na tréithe, ach freisin ar líon na sraitheanna. Sna 90idí, d'fhéadfadh algartaim chuardaigh dlí feidearálach ar ríomhaire deisce rialta tacair sonraí a phróiseáil ina bhfuil suas le 20 tréithe agus na mílte sraitheanna i gceann roinnt uaireanta. Aithníonn halgartaim nua-aimseartha a ritheann ar phróiseálaithe illárnacha spleáchais do thacair sonraí ina bhfuil na céadta tréithe (suas le 200) agus na céadta mílte sraitheanna i thart ar an am céanna. Mar sin féin, ní leor é seo: tá am den sórt sin do-ghlactha don chuid is mó d'fheidhmchláir dhomhanda. Mar sin, d’fhorbraíomar cineálacha cur chuige chun halgartaim atá ann cheana a bhrostú.
Scéimeanna taisce le haghaidh trasbhealaí críochdheighilte
Sa chéad chuid den obair, d'fhorbraíomar scéimeanna taisceála d'aicme halgartaim a úsáideann an modh trasnaithe deighilte. Is éard is críochdheighilt le haghaidh aitreabúide ann ná sraith liostaí, ina bhfuil uimhreacha línte leis na luachanna céanna le haghaidh aitreabúide tugtha i ngach liosta. Tugtar braisle ar gach liosta dá leithéid. Úsáideann go leor halgartaim nua-aimseartha deighiltí chun a chinneadh an bhfuil spleáchas ar siúl nó nach bhfuil, eadhon, cloíonn siad leis an lema: Spleáchas
ar siúl má
. Anseo
ainmnítear críochdheighilt agus baintear úsáid as an gcoincheap maidir le méid na críochdheighilte - líon na gcnuasach atá inti. Cuireann halgartaim a úsáideann landairí, nuair a sháraítear an spleáchas, tréithe breise ar thaobh clé an spleáchais, agus ansin é a athríomh, ag comhlíonadh oibriú trasnaithe na ndeighiltí. Tugtar speisialtóireacht sna hailt ar an oibríocht seo. Ach thugamar faoi deara gur féidir landairí le haghaidh spleáchais nach gcoinneofaí ach tar éis cúpla babhta de speisialtóireacht a athúsáid go gníomhach, rud a d'fhéadfadh am reatha na n-algartam a laghdú go suntasach, ós rud é go bhfuil an oibríocht trasnaithe costasach.
Dá bhrí sin, mholamar heuristic bunaithe ar Eantrópacht na Sionainne agus Éiginnteacht Ginny, chomh maith lenár méadrach, ar a dtugamar Eantrópacht Droim ar Ais. Is mionathrú é ar Eantrópacht na Sionainne agus méadaíonn sé de réir mar a mhéadaíonn uathúlacht an tacair sonraí. Is é seo a leanas an heuristic molta:

Anseo
— leibhéal uathúlachta na críochdheighilte a ríomhadh le déanaí
Agus
is é meánmhéid na gcéimeanna uathúlachta do thréithe aonair. Tástáladh na trí mhéadracht a bhfuil cur síos orthu thuas mar mhéadracht uathúlachta. Is féidir leat a thabhairt faoi deara freisin go bhfuil dhá mhodhnóirí sa heuristic. Léiríonn an chéad cheann cé chomh gar agus atá an deighilt reatha don phríomheochair agus ligeann sé duit na Deighiltí sin atá i bhfad ón eochair ionchasach a thaisceadh níos mó. Ligeann an dara modhnóir duit monatóireacht a dhéanamh ar áitíocht taisce agus mar sin spreagann sé tuilleadh deighiltí a chur leis an taisce má tá spás saor in aisce ar fáil. Cheadaigh réiteach rathúil na faidhbe seo dúinn algartam PYRO a bhrostú 10-40%, ag brath ar an tacar sonraí. Is fiú a thabhairt faoi deara gurb é algartam PYRO an ceann is rathúla sa réimse seo.
Sa fhigiúr thíos is féidir leat na torthaí a fheiceáil maidir leis an heuristic molta a chur i bhfeidhm i gcomparáid le cur chuige bunúsach caching mona-smeach. Tá an X ais logartamach.

Bealach eile chun landairí a stóráil
Mholamar ansin bealach eile chun landairí a stóráil. Is sraith de bhraislí iad landairí, a stórálann gach ceann acu uimhreacha tuples le luachanna comhionanna le haghaidh tréithe áirithe. Féadfaidh seichimh fhada d’uimhreacha tuple a bheith sna cnuasaigh seo, mar shampla má tá na sonraí i dtábla in ord. Dá bhrí sin, mholamar scéim comhbhrú chun deighiltí a stóráil, is é sin stóráil eatramh luachanna i gcnuasaigh landairí:
$$display$$pi(X) = {{ underbrace{1, 2, 3, 4, 5}_{An chéad eatramh}, underbrace{7, 8}_{An dara heatramh}, 10}}\ downarrow{ Comhbhrú} \ pi(X) = {{ underbrace{$, 1, 5}_{An chéad~eatramh}, underbrace{7, 8}_{Dara~eatramh}, 10}}$$display$$
Bhí an modh seo in ann tomhaltas cuimhne a laghdú le linn oibriú an algartam TANE ó 1 go 25%. Is algartam clasaiceach é an t-algartam TONE chun dlíthe cónaidhme a chuardach; Mar chuid den chleachtas, roghnaíodh an t-algartam TANE, ós rud é go raibh sé i bhfad níos éasca stóráil eatramh a chur i bhfeidhm ann ná, mar shampla, in PYRO chun a mheas an n-oibríonn an cur chuige atá beartaithe. Tá na torthaí a fuarthas curtha i láthair san fhigiúr thíos. Tá an X ais logartamach.

Comhdháil ADBIS-2019
Bunaithe ar thorthaí an taighde, i Meán Fómhair 2019 d’fhoilsigh mé alt ag an 23ú Comhdháil Eorpach um Dhul Chun Cinn i mBunachair Shonraí agus i gCórais Faisnéise (ADBIS-2019). Le linn an chur i láthair, thug Bernhard Thalheim, duine suntasach i réimse na mbunachair sonraí, an obair faoi deara. Bhí na torthaí taighde mar bhunús le mo thráchtas ag an gcéim mháistreachta sa mhatamaitic agus sa mheicníocht in Ollscoil Stáit St Petersburg, inar cuireadh an dá chur chuige molta (taisce agus comhbhrú) i bhfeidhm sa dá algartam: TANE agus PYRO. Thairis sin, léirigh na torthaí go bhfuil na cineálacha cur chuige molta uilíoch, ós rud é ar an dá algartam, leis an dá chur chuige, breathnaíodh laghdú suntasach ar thomhaltas cuimhne, chomh maith le laghdú suntasach ar am oibriúcháin na n-algartam.
Foinse: will.com
