Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Hauv tsab xov xwm no peb yuav tham txog kev ua haujlwm tau zoo hauv cov ntaub ntawv - lawv yog dab tsi, lawv siv qhov twg thiab cov algorithms muaj nyob los nrhiav lawv.

Peb yuav txiav txim siab ua haujlwm nyob rau hauv cov ntsiab lus ntawm kev sib raug zoo databases. Txhawm rau muab nws roughly, nyob rau hauv xws li databases cov ntaub ntawv khaws cia nyob rau hauv daim ntawv ntawm cov ntxhuav. Tom ntej no, peb siv cov ntsiab lus kwv yees uas tsis hloov pauv hauv txoj kev sib raug zoo nruj: peb yuav hu lub rooj nws tus kheej yog kev sib raug zoo, txhua kab - cov cwj pwm (lawv cov txheej txheem - kev sib txheeb schema), thiab cov txheej txheem ntawm cov nqi ntawm cov khoom sib txawv. - ib tug.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Piv txwv li, nyob rau hauv lub rooj saum toj no, (Benson, M, M organ) yog ib tug tuple ntawm attribute (Tus neeg mob, Paul, tus kws kho mob).
Xav paub ntau ntxiv, qhov no yog sau raws li hauv qab no: Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[Tus neeg mob, poj niam txiv neej, kws kho mob] = (Benson, M, M organ).
Tam sim no peb tuaj yeem qhia lub tswv yim ntawm kev ua haujlwm dependence (FD):

Lus txhais 1. Kev sib raug zoo R txaus siab rau tsoomfwv txoj cai lij choj X → Y (qhov twg X, Y ⊆ R) yog thiab tsuas yog rau ib qho tuples Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm, Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm ∈ R tuav: yog Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[X] = Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[X], ces Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[Y] = Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[Y]. Nyob rau hauv cov ntaub ntawv no, peb hais tias X (tus txiav txim, los yog txhais cov txheej txheem) functionally txiav txim siab Y (lub dependent set).

Hauv lwm lo lus, lub xub ntiag ntawm tsoomfwv txoj cai lij choj X → Y txhais tau tias yog peb muaj ob tuples nyob rau hauv R thiab lawv sib phim hauv cov cwj pwm X, ces lawv yuav coincide nyob rau hauv cov cwj pwm Y.
Thiab tam sim no, nyob rau hauv kev txiav txim. Cia peb saib cov cwj pwm Tus neeg mob и Pw ua ke rau qhov peb xav paub seb puas muaj kev vam meej ntawm lawv lossis tsis. Rau xws li ib tug cwj pwm, cov nram qab no dependencies yuav muaj nyob:

  1. Tus neeg mob → Tub los ntxhais
  2. Poj niam txiv neej → Tus neeg mob

Raws li tau hais los saum toj no, txhawm rau txhawm rau thawj qhov kev cia siab los tuav, txhua tus nqi sib txawv Tus neeg mob tsuas yog ib kab nqi yuav tsum phim Pw ua ke. Thiab rau cov lus piv txwv no yog qhov tseeb. Txawm li cas los xij, qhov no tsis ua haujlwm nyob rau hauv qhov kev taw qhia, uas yog, qhov thib ob dependence tsis txaus siab, thiab tus cwj pwm Pw ua ke tsis yog tus txiav txim rau Tus neeg mob. Ib yam li ntawd, yog peb coj txoj kev vam meej Tus kws kho mob → Tus neeg mob, koj tuaj yeem pom tias nws raug ua txhaum cai, txij li tus nqi Robin tus cwj pwm no muaj ntau lub ntsiab lus sib txawv - Ellis thiab Graham.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Yog li, kev ua haujlwm tau zoo ua rau nws muaj peev xwm txiav txim siab qhov kev sib raug zoo uas twb muaj lawm ntawm cov txheej txheem ntawm cov lus. Txij ntawm no mus peb yuav xav txog cov kev sib txuas zoo tshaj plaws, lossis zoo li ntawd X → Ylawv yog dab tsi:

  • non-trivial, uas yog, sab xis ntawm kev vam khom tsis yog ib qho ntawm sab laug (Y ̸⊆ X);
  • tsawg heev, uas yog, tsis muaj xws li dependence Z → Y, uas Z ⊂ X.

Cov kev vam khom tau txiav txim siab txog qhov no tau nruj, uas yog, lawv tsis tau muab rau kev ua txhaum cai ntawm lub rooj, tab sis ntxiv rau lawv, kuj tseem muaj cov uas tso cai rau qee qhov tsis sib xws ntawm cov txiaj ntsig ntawm tuples. Cov kev cia siab li no tau muab tso rau hauv ib chav kawm cais, hu ua kwv yees, thiab raug tso cai ua txhaum rau qee tus lej ntawm tuples. Tus nqi no yog tswj los ntawm qhov ntsuas qhov ua yuam kev siab tshaj plaws emax. Piv txwv li, tus nqi yuam kev Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm = 0.01 tej zaum yuav txhais tau hais tias qhov kev vam khom tuaj yeem raug ua txhaum cai los ntawm 1% ntawm cov muaj tuples ntawm qhov kev txiav txim siab ntawm cov cwj pwm. Ntawd yog, rau 1000 cov ntaub ntawv, qhov siab tshaj plaws ntawm 10 tuples tuaj yeem ua txhaum Txoj Cai Tseem Ceeb. Peb yuav xav txog qhov sib txawv me ntsis, raws li qhov sib txawv ntawm qhov sib txawv ntawm cov tuples muab piv. Rau kev quav yeeb quav tshuaj X → Y ntawm tus cwj pwm r nws yog xam raws li qhov no:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Wb xam qhov yuam kev rau Tus kws kho mob → Tus neeg mob los ntawm qhov piv txwv saum toj no. Peb muaj ob tuples uas nws muaj nuj nqis sib txawv ntawm tus cwj pwm Tus neeg mob, tab sis coincide rau Tus kws kho mob: Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[Tus kws kho mob, Tus neeg mob] = (Robin, Ellis) thiab Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm[Tus kws kho mob, Tus neeg mob] = (Robin, Graham). Ua raws li lub ntsiab lus ntawm qhov yuam kev, peb yuav tsum coj mus rau hauv tus account tag nrho cov tsis sib haum xeeb khub, uas txhais tau tias yuav muaj ob ntawm lawv: (Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm, Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm) thiab nws cov inverse (Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm, Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm). Cia peb hloov nws rau hauv cov qauv thiab tau txais:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Tam sim no cia peb sim teb cov lus nug: "Vim li cas nws tag nrho rau?" Qhov tseeb, tsoomfwv txoj cai lij choj txawv. Thawj hom yog cov kev vam khom uas tau txiav txim los ntawm tus thawj coj ntawm theem tsim database. Lawv feem ntau yog tsawg tsawg, nruj, thiab daim ntawv thov tseem ceeb yog cov ntaub ntawv normalization thiab kev sib raug zoo schema tsim.

Qhov thib ob yog kev vam khom, uas sawv cev rau "pob ntseg" cov ntaub ntawv thiab yav tas los tsis paub txog kev sib raug zoo ntawm tus cwj pwm. Ntawd yog, xws li kev vam khom tsis tau xav txog thaum lub sijhawm tsim thiab lawv tau pom rau cov ntaub ntawv uas twb muaj lawm, yog li tom qab ntawd, raws li ntau txoj cai lij choj ntawm tsoomfwv, txhua qhov kev txiav txim siab tuaj yeem rub tawm ntawm cov ntaub ntawv khaws cia. Nws yog precisely cov dependencies uas peb ua hauj lwm nrog. Lawv raug cuam tshuam los ntawm tag nrho cov teb ntawm cov ntaub ntawv mining nrog ntau yam kev tshawb fawb thiab algorithms tsim los ntawm lawv lub hauv paus. Cia peb txheeb xyuas seb qhov pom kev ua haujlwm zoo li cas (qhov tseeb lossis kwv yees) hauv cov ntaub ntawv tuaj yeem pab tau.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Niaj hnub no, ib qho ntawm cov kev siv tseem ceeb ntawm kev vam khom yog kev tu cov ntaub ntawv. Nws suav nrog kev tsim cov txheej txheem los txheeb xyuas "cov ntaub ntawv qias neeg" thiab tom qab ntawd kho nws. Cov piv txwv tseem ceeb ntawm "cov ntaub ntawv qias neeg" yog duplicates, cov ntaub ntawv yuam kev lossis typos, tsis muaj qhov tseem ceeb, cov ntaub ntawv qub, qhov chaw ntxiv, thiab lwm yam.

Piv txwv ntawm cov ntaub ntawv yuam kev:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Piv txwv ntawm duplicates hauv cov ntaub ntawv:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Piv txwv li, peb muaj ib lub rooj thiab ib txheej ntawm tsoom fwv cov cai uas yuav tsum tau ua. Kev tu cov ntaub ntawv hauv cov ntaub ntawv no suav nrog kev hloov cov ntaub ntawv kom Tsoom Fwv Teb Chaws Txoj Cai tau raug. Nyob rau hauv cov ntaub ntawv no, tus naj npawb ntawm kev hloov kho yuav tsum tsawg (cov txheej txheem no muaj nws tus kheej algorithms, uas peb yuav tsis tsom rau hauv tsab xov xwm no). Hauv qab no yog ib qho piv txwv ntawm xws li cov ntaub ntawv hloov pauv. Nyob rau sab laug yog thawj kev sib raug zoo, nyob rau hauv uas, pom tseeb, qhov tsim nyog FLs tsis tau raws li (ib qho piv txwv ntawm kev ua txhaum ntawm ib qho ntawm FLs yog highlighted liab). Ntawm sab xis yog qhov kev sib raug zoo tshiab, nrog cov hlwb ntsuab qhia cov txiaj ntsig hloov pauv. Tom qab cov txheej txheem no, qhov tsim nyog dependencies pib tswj.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Lwm daim ntawv thov nrov yog tsim database. Ntawm no nws tsim nyog rov qab cov ntaub ntawv qub thiab normalization. Normalization yog tus txheej txheem ntawm kev coj ib tug kev sib raug zoo nrog ib tug tej yam uas yuav tsum tau, txhua yam yog txhais los ntawm ib txwm daim ntawv nyob rau hauv nws tus kheej txoj kev. Peb yuav tsis piav qhia txog qhov yuav tsum tau ua ntawm ntau hom ntawv ib txwm ua (qhov no yog ua tiav hauv ib phau ntawv ntawm kev kawm database rau cov neeg pib), tab sis peb tsuas yog yuav tsum nco ntsoov tias txhua tus ntawm lawv siv lub tswv yim ntawm kev ua haujlwm ntawm nws tus kheej txoj kev. Tom qab tag nrho, FLs yog qhov tseem ceeb ntawm kev ncaj ncees uas raug coj mus rau hauv tus account thaum tsim cov ntaub ntawv (hauv cov ntsiab lus ntawm txoj haujlwm no, FLs qee zaum hu ua superkeys).

Cia peb xav txog lawv daim ntawv thov rau plaub daim ntawv ib txwm nyob hauv daim duab hauv qab no. Nco qab tias Boyce-Codd ib txwm daim ntawv yog nruj dua li daim ntawv thib peb, tab sis tsis nruj dua li plaub. Peb tsis xav txog yav tom ntej rau tam sim no, txij li nws cov qauv tsim yuav tsum muaj kev nkag siab ntawm ntau qhov muaj txiaj ntsig, uas tsis nthuav rau peb hauv kab lus no.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Lwm thaj chaw uas muaj kev vam khom tau pom lawv daim ntawv thov yog txo qhov seem ntawm qhov chaw tshwj xeeb hauv kev ua haujlwm xws li kev tsim lub chaw tsis zoo Bayes classifier, txheeb xyuas cov yam ntxwv tseem ceeb, thiab rov ua dua tus qauv regression. Hauv cov ntawv qub, txoj haujlwm no yog hu ua qhov kev txiav txim siab ntawm qhov tsis txaus ntseeg thiab qhov tseem ceeb [5, 6], thiab nws tau daws nrog kev siv cov ntsiab lus database. Nrog rau qhov tshwm sim ntawm cov hauj lwm zoo li no, peb tuaj yeem hais tias niaj hnub no muaj kev thov rau cov kev daws teeb meem uas tso cai rau peb los ua ke cov ntaub ntawv, kev tshuaj xyuas thiab kev siv cov teeb meem saum toj no optimization rau hauv ib lub cuab yeej [7, 8, 9].

Muaj ntau lub algorithms (ob qho tib si niaj hnub thiab tsis niaj hnub) rau kev tshawb nrhiav tsoomfwv cov cai hauv cov ntaub ntawv teev tseg. Cov algorithms no tuaj yeem muab faib ua peb pawg:

  • Algorithms siv traversal ntawm algebraic lattices (Lattice traversal algorithms)
  • Algorithms raws li kev tshawb fawb pom zoo qhov tseem ceeb (Qhov txawv- thiab pom zoo-set algorithms)
  • Algorithms raws li kev sib piv ua khub (Kev vam meej induction algorithms)

Cov lus piav qhia luv luv ntawm txhua hom algorithm tau nthuav tawm hauv cov lus hauv qab no:
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Koj tuaj yeem nyeem ntxiv txog qhov kev faib tawm no [4]. Hauv qab no yog cov piv txwv ntawm algorithms rau txhua hom:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Tam sim no, cov algorithms tshiab tau tshwm sim uas muab ntau txoj hauv kev los nrhiav kev ua haujlwm tau zoo. Piv txwv ntawm xws li algorithms yog Pyro [2] thiab HyFD [3]. Kev tsom xam ntawm lawv txoj haujlwm yuav tsum nyob hauv cov kab lus hauv qab no ntawm cov kab no. Nyob rau hauv tsab xov xwm no peb yuav tsuas tshuaj xyuas cov ntsiab lus tseem ceeb thiab lemma uas tsim nyog kom nkag siab txog kev paub txog kev vam meej.

Cia peb pib nrog ib qho yooj yim - qhov sib txawv- thiab pom zoo-teeb, siv nyob rau hauv ob hom algorithms. Difference-set yog ib txheej ntawm tuples uas tsis muaj qhov tseem ceeb, thaum pom zoo-set, ntawm qhov tsis sib xws, yog tuples uas muaj txiaj ntsig zoo ib yam. Nws yog ib nqi sau cia hais tias nyob rau hauv cov ntaub ntawv no peb tab tom txiav txim siab tsuas yog sab laug ntawm lub dependence.

Lwm lub tswv yim tseem ceeb uas tau ntsib saum toj no yog algebraic lattice. Txij li ntau cov algorithms niaj hnub ua haujlwm ntawm lub tswv yim no, peb yuav tsum muaj lub tswv yim ntawm nws yog dab tsi.

Txhawm rau ua kom paub lub tswv yim ntawm lub lattice, nws yog ib qho tsim nyog yuav tsum tau txiav txim siab ib feem ntawm cov txheej txheem (los yog txiav txim ib nrab, luv luv li poset).

Lus txhais 2. Ib txheej S tau hais tias yuav raug txiav txim ib nrab los ntawm kev sib raug zoo binary ⩽ yog tias rau tag nrho a, b, c ∈ S cov khoom hauv qab no txaus siab:

  1. Reflexivity, uas yog, ib tug ⩽ a
  2. Antisymmetry, uas yog, yog tias a ⩽ b thiab b ⩽ a, ces a = b
  3. Transitivity, uas yog, rau a ⩽ b thiab b ⩽ c nws ua raws li qhov ⩽ c


Xws li kev sib raug zoo yog hu ua (loose) ib feem kev txiav txim sib raug zoo, thiab cov txheej txheem nws tus kheej yog hu ua ib feem txiav txim. Formal notation: ⟨S, ⩽⟩.

Raws li qhov yooj yim piv txwv ntawm ib feem txiav txim, peb tuaj yeem nqa cov txheej txheem ntawm txhua tus lej N nrog rau qhov kev txiav txim ib txwm muaj ⩽. Nws yog ib qho yooj yim los xyuas kom meej tias tag nrho cov tsim nyog axioms txaus siab.

Ib qho piv txwv tseem ceeb dua. Xav txog cov txheej txheem ntawm tag nrho cov subsets {1, 2, 3}, txiav txim los ntawm kev suav nrog ⊆. Tseeb tiag, qhov kev sib raug zoo no ua tiav txhua qhov kev txiav txim ib nrab, yog li ⟨P ({1, 2, 3}), ⊆⟩ yog ib feem txiav txim. Daim duab hauv qab no qhia txog cov qauv ntawm cov txheej txheem no: yog tias ib lub caij tuaj yeem ncav cuag los ntawm cov xub mus rau lwm lub caij, ces lawv nyob rau hauv kev sib raug zoo.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Peb yuav xav tau ob lub ntsiab lus yooj yim ntxiv los ntawm kev ua lej - supremum thiab infimum.

Lus txhais 3. Cia ⟨S, ⩽⟩ ua ib feem txiav txim, A ⊆ S. Lub sab sauv ntawm A yog ib lub caij u ∈ S xws li ∀x ∈ S: x ⩽ u. Cia U ua tus txheej txheem ntawm tag nrho cov sab sauv ciam ntawm S. Yog hais tias muaj ib tug tsawg tshaj plaws nyob rau hauv U, ces nws yog hu ua lub supremum thiab yog denoted sup A.

Lub tswv yim ntawm ib qho qis qis yog qhia zoo ib yam.

Lus txhais 4. Cia ⟨S, ⩽⟩ ua ib feem kev txiav txim, A ⊆ S. Qhov infimum ntawm A yog ib lub caij l ∈ S xws li ∀x ∈ S: l ⩽ x. Cia L yog cov txheej txheem ntawm txhua qhov qis ntawm S. Yog tias muaj qhov loj tshaj plaws hauv L, ces nws yog hu ua infimum thiab yog denoted li inf A.

Xav txog qhov piv txwv saum toj no ib feem txiav txim teeb tsa ⟨P ({1, 2, 3}), ⊆⟩ thiab nrhiav qhov zoo tshaj plaws thiab qhov tsis zoo hauv nws:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Tam sim no peb tuaj yeem tsim cov ntsiab lus ntawm algebraic lattice.

Lus txhais 5. Cia ⟨P,⩽⟩ yog ib feem ntawm kev txiav txim siab uas txhua ob lub ntsiab lus subset muaj ib sab qaum thiab qis. Ces P yog hu ua algebraic lattice. Hauv qhov no, sup{x, y} yog sau li x ∨ y, thiab inf {x, y} as x ∧ y.

Cia peb kuaj xyuas tias peb qhov piv txwv ua haujlwm ⟨P ({1, 2, 3}), ⊆⟩ yog ib txoj hlua. Xwb, rau ib qho a, b ∈ P ({1, 2, 3}), a∨b = a∪b, thiab a∧b = a∩b. Piv txwv li, xav txog cov teeb tsa {1, 2} thiab {1, 3} thiab nrhiav lawv cov infimum thiab supremum. Yog tias peb hla lawv, peb yuav tau txais lub teeb {1}, uas yuav yog qhov tsis txaus ntseeg. Peb tau txais qhov zoo tshaj plaws los ntawm kev sib txuas lawv - {1, 2, 3}.

Hauv algorithms rau kev txheeb xyuas cov teeb meem ntawm lub cev, qhov chaw tshawb nrhiav feem ntau sawv cev rau hauv daim ntawv lattice, qhov twg cov txheej txheem ntawm ib lub caij (nyeem thawj theem ntawm kev tshawb nrhiav lattice, qhov chaw sab laug ntawm qhov kev vam khom muaj ib qho cwj pwm) sawv cev rau txhua tus cwj pwm. ntawm qhov qub kev sib raug zoo.
Ua ntej, peb xav txog kev vam khom ntawm daim ntawv ∅ → Ib tus cwj pwm. Cov kauj ruam no tso cai rau koj los txiav txim seb tus cwj pwm twg yog tus yuam sij tseem ceeb (rau cov cwj pwm zoo li no tsis muaj kev txiav txim siab, thiab yog li ntawd sab laug yog khoob). Ntxiv mus, xws li algorithms txav mus rau pem hauv ntej ntawm lub lattice. Nws yog ib qho tsim nyog sau cia tias tsis yog tag nrho cov lattice tuaj yeem hla mus, uas yog, yog tias qhov xav tau siab tshaj plaws ntawm sab laug yog dhau mus rau cov tswv yim, ces cov algorithm yuav tsis mus ntxiv dua ib theem nrog qhov loj me.

Daim duab hauv qab no qhia tau hais tias yuav ua li cas algebraic lattice tuaj yeem siv rau hauv qhov teeb meem ntawm kev nrhiav FZ. Ntawm no txhua tus ntug (X, XY) sawv cev rau kev vam khom X → Y. Piv txwv li, peb tau dhau qib thawj thiab paub tias kev quav yeeb quav tshuaj tau khaws cia A → B (peb yuav tso saib qhov no raws li kev sib txuas ntsuab ntawm cov vertices A и B). Qhov no txhais tau hais tias ntxiv mus, thaum peb txav mus raws li lub lattice, peb yuav tsis xyuas qhov dependence A, C → B, vim nws yuav tsis muaj tsawg. Ib yam li ntawd, peb yuav tsis kuaj nws yog tias muaj kev vam khom C → B.

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Tsis tas li ntawd, raws li txoj cai, tag nrho cov niaj hnub algorithms rau kev tshawb nrhiav tseemfwv txoj cai lij choj siv cov qauv ntaub ntawv xws li muab faib (hauv qhov qub - stripped partition [1]). Lub ntsiab txhais ntawm ib tug muab faib yog raws li nram no:

Lus txhais 6. Cia X ⊆ R ua ib txheej ntawm cov cwj pwm rau kev sib raug zoo r. Ib pawg yog cov txheej txheem ntawm tuples hauv r uas muaj tus nqi tib yam rau X, uas yog, c(t) = {i|ti[X] = t[X]}. Kev faib tawm yog ib pawg ntawm pawg, tsis suav nrog pawg ntawm chav tsev ntev:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Hauv cov lus yooj yim, muab faib rau tus cwj pwm X yog ib pawg ntawm cov npe, qhov twg txhua daim ntawv teev npe muaj cov kab zauv uas muaj cov txiaj ntsig zoo ib yam rau X. Nyob rau hauv cov ntaub ntawv niaj hnub no, cov qauv uas sawv cev rau cov partitions hu ua position list index (PLI). Chav tsev-ntev pawg tsis suav nrog rau PLI compression lub hom phiaj vim tias lawv yog pawg uas tsuas muaj tus lej sau nrog tus nqi tshwj xeeb uas yuav yooj yim txheeb xyuas.

Cia peb saib ib qho piv txwv. Cia peb rov qab mus rau tib lub rooj nrog cov neeg mob thiab tsim cov partitions rau txhua kab Tus neeg mob и Pw ua ke (ib kem tshiab tau tshwm sim nyob rau sab laug, nyob rau hauv uas cov lus kab zauv raug cim):

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Ntxiv mus, raws li lub ntsiab txhais, muab faib rau kab Tus neeg mob yuav tau npliag, txij li ib pawg yog cais tawm ntawm qhov muab faib.

Partitions tuaj yeem tau txais los ntawm ntau tus cwj pwm. Thiab muaj ob txoj hauv kev los ua qhov no: los ntawm kev mus dhau lub rooj, tsim kom muaj kev faib tawm siv tag nrho cov yam ntxwv tsim nyog ib zaug, lossis tsim nws los ntawm kev ua haujlwm ntawm kev sib tshuam ntawm cov partitions siv cov txheej txheem ntawm cov cwj pwm. Tsoom fwv teb chaws txoj cai tshawb nrhiav algorithms siv qhov kev xaiv thib ob.

Hauv cov lus yooj yooj yim, piv txwv li, tau muab faib los ntawm kab ABC, koj tuaj yeem muab faib rau AC и B (los yog lwm yam txheej ntawm disjoint subsets) thiab sib tshuam nrog ib leeg. Kev khiav hauj lwm ntawm kev sib tshuam ntawm ob lub partitions xaiv pawg ntawm qhov ntev tshaj plaws uas muaj rau ob qho tib si partitions.

Cia peb saib ib qho piv txwv:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Nyob rau hauv thawj rooj plaub, peb tau txais ib qho kev faib khoob. Yog tias koj saib ze ntawm lub rooj, ces qhov tseeb, tsis muaj qhov zoo ib yam rau ob tus cwj pwm. Yog tias peb hloov kho me ntsis ntawm lub rooj ( rooj plaub ntawm sab xis), peb yuav tau txais kev sib tshuam tsis yog qhov khoob. Ntxiv mus, kab 1 thiab 2 yeej muaj tib qhov tseem ceeb rau cov cwj pwm Pw ua ke и Tus kws kho mob.

Tom ntej no, peb yuav xav tau xws li lub tswv yim raws li muab faib loj. Raws li txoj cai:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Yooj yim muab tso, qhov loj me me yog cov naj npawb ntawm pawg suav nrog hauv kev faib (nco ntsoov tias ib pawg tsis suav nrog hauv kev faib tawm!):

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Tam sim no peb tuaj yeem txhais tau ib qho ntawm cov ntsiab lus tseem ceeb, uas rau muab faib tso cai rau peb los txiav txim seb qhov kev vam khom puas tau tuav los yog tsis:

Lem 1. Qhov kev vam khom A, B → C tuav yog thiab tsuas yog yog

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Raws li txoj cai, txhawm rau txiav txim siab seb qhov kev vam khom puas muaj, plaub kauj ruam yuav tsum tau ua:

  1. Xam qhov muab faib rau sab laug ntawm qhov kev vam khom
  2. Xam qhov muab faib rau sab xis ntawm qhov kev vam khom
  3. Xam cov khoom ntawm thawj kauj ruam thib ob
  4. Sib piv qhov ntau thiab tsawg ntawm cov partitions tau nyob rau hauv thawj thiab thib peb kauj ruam

Hauv qab no yog ib qho piv txwv ntawm kev tshuaj xyuas seb qhov kev vam khom puas muaj raws li qhov lemma no:

Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm
Taw qhia rau Kev Ua Haujlwm Kev Ua Haujlwm

Hauv tsab xov xwm no, peb tau tshuaj xyuas cov ntsiab lus xws li kev ua haujlwm dependence, kwv yees kev ua haujlwm dependence, saib seb lawv siv qhov twg, nrog rau cov algorithms rau kev tshawb nrhiav lub cev muaj zog. Peb kuj tau tshuaj xyuas kom meej txog cov ntsiab lus tseem ceeb tab sis tseem ceeb uas tau siv rau hauv cov txheej txheem niaj hnub no rau kev tshawb nrhiav tsoomfwv txoj cai lij choj.

Cov ntaub ntawv:

  1. Huhtala Y. et al. TANE: Ib qho algorithm ua tau zoo rau kev tshawb nrhiav kev ua haujlwm thiab kwv yees li kev vam meej // Phau ntawv xov xwm hauv computer. – 1999. – T. 42. – No. 2. – Ib., 100–111.
  2. Kruse S., Naumann F. Kev tshawb pom muaj txiaj ntsig ntawm kwv yees kev vam meej // Kev Ua Haujlwm ntawm VLDB Endowment. – 2018. – T. 11. – No. 7. – p. 759-772 ib.
  3. Papenbrock T., Naumann F. Ib txoj hauv kev sib txuas rau kev ua haujlwm ntawm kev vam khom kev tshawb pom // Kev Ua Haujlwm ntawm 2016 International Conference on Management of Data. – ACM, 2016. – pp. 821-833.
  4. Papenbrock T. et al. Functional dependency discovery: Ib qho kev sim ntsuas ntawm xya lub algorithms // Kev Ua Haujlwm ntawm VLDB Endowment. – 2015. – T. 8. – No. 10. – p. 1082-1093 ib.
  5. Kumar A. et al. Txhawm rau koom lossis tsis koom nrog?: Xav txog ob zaug txog kev koom ua ntej kev xaiv tshwj xeeb // Kev Ua Haujlwm ntawm 2016 International Conference on Management of Data. – ACM, 2016. – pp. 19–34.
  6. Abo Khamis M. et al. Nyob rau hauv-database kev kawm nrog sparse tensors // Cov txheej txheem ntawm 37th ACM SIGMOD-SIGACT-SIGAI Symposium ntawm Cov Ntsiab Cai ntawm Database Systems. – ACM, 2018. – pp. 325–340.
  7. Hellerstein JM et al. Lub tsev qiv ntawv MADlib analytics: lossis MAD kev txawj ntse, SQL // Kev Ua Haujlwm ntawm VLDB Endowment. – 2012. – T. 5. – No. 12.- 1700-1711 Ib.
  8. Qin C., Rusu F. Speculative approximations for terascale distribution gradient descent optimization // Kev Ua Haujlwm ntawm Plaub Rhiav ntawm Cov Ntaub Ntawv analytics hauv Huab. – ACM, 2015. – P. 1.
  9. Meng X. et al. Mllib: Machine learning in apache spark // Phau ntawv Journal of Machine Learning Research. – 2016. – T. 17. – No. 1.– Ib., 1235–1241.

Cov neeg sau xov xwm: Anastasia Birillo, researcher ntawm JetBrains Kev Tshawb Fawb, CS center tub kawm и Nikita Bobrov, researcher ntawm JetBrains Kev Tshawb Fawb

Tau qhov twg los: www.hab.com

Ntxiv ib saib