ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이 κΈ€μ—μ„œλŠ” λ°μ΄ν„°λ² μ΄μŠ€μ˜ ν•¨μˆ˜μ  쒅속성에 λŒ€ν•΄ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. ν•¨μˆ˜μ  쒅속성이 무엇인지, 어디에 μ‚¬μš©λ˜λŠ”μ§€, 그리고 ν•¨μˆ˜μ  쒅속성을 μ°ΎλŠ” μ•Œκ³ λ¦¬μ¦˜μ€ 무엇인지 μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€μ˜ λ§₯λ½μ—μ„œ ν•¨μˆ˜ 쒅속성을 κ³ λ €ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. λŒ€λž΅μ μœΌλ‘œ λ§ν•˜λ©΄, μ΄λŸ¬ν•œ λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œλŠ” 정보가 ν…Œμ΄λΈ” ν˜•νƒœλ‘œ μ €μž₯λ©λ‹ˆλ‹€. λ˜ν•œ, μ—„κ²©ν•œ 관계 μ΄λ‘ μ—μ„œλŠ” μ„œλ‘œ ν˜Έν™˜λ˜μ§€ μ•ŠλŠ” λŒ€λž΅μ μΈ κ°œλ…μ„ μ‚¬μš©ν•˜κ² μŠ΅λ‹ˆλ‹€. ν…Œμ΄λΈ” 자체λ₯Ό λ¦΄λ ˆμ΄μ…˜(Relation), μ—΄(Column)을 속성(Attribute)(속성 집합을 λ¦΄λ ˆμ΄μ…˜ μŠ€ν‚€λ§ˆ(Relation Scheme)라고 ν•˜λ©°, μ†μ„±μ˜ λΆ€λΆ„ 집합에 λŒ€ν•œ ν–‰ κ°’ 집합을 νŠœν”Œ(Tuple)이라고 ν•©λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

예λ₯Ό λ“€μ–΄, μœ„μ˜ ν‘œμ—μ„œ, (Benson, M, M 였λ₯΄κ°„)λŠ” μ†μ„±μ˜ νŠœν”Œμž…λ‹ˆλ‹€ (ν™˜μž, 폴, μ˜μ‚¬).
μ’€ 더 κ³΅μ‹μ μœΌλ‘œ λ§ν•˜λ©΄ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[ν™˜μž, 폴, μ˜μ‚¬] = (벀슨, M, M 였λ₯΄κ°„).
이제 ν•¨μˆ˜μ  쒅속성(FD)의 κ°œλ…μ„ μ†Œκ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ •μ˜ 1. 관계 R이 FD X β†’ Y(μ—¬κΈ°μ„œ X, Y βŠ† R)λ₯Ό λ§Œμ‘±ν•˜λŠ” 것은 였직 νŠœν”Œμ— λŒ€ν•΄μ„œλ§Œ κ°€λŠ₯ν•©λ‹ˆλ‹€. ν•¨μˆ˜ 쒅속성 μ†Œκ°œ, ν•¨μˆ˜ 쒅속성 μ†Œκ°œ ∈ R이 λ§Œμ‘±λ˜λŠ” 경우: ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[μ—‘μŠ€] = ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[X], 그러면 ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[Y] = ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[Y]. μ΄λŸ¬ν•œ 경우 X(κ²°μ •μΈμž λ˜λŠ” μ†μ„±μ˜ μ •μ˜ μ§‘ν•©)κ°€ Y(쒅속 μ§‘ν•©)λ₯Ό ν•¨μˆ˜μ μœΌλ‘œ κ²°μ •ν•œλ‹€κ³  ν•©λ‹ˆλ‹€.

즉, μ—°λ°©λ²•μ˜ 쑴재 X β†’ Y 즉, 두 개의 νŠœν”Œμ΄ μžˆλŠ” 경우 R 그리고 그듀은 μ†μ„±μ—μ„œ μΌμΉ˜ν•©λ‹ˆλ‹€ X그러면 속성이 μΌμΉ˜ν•˜κ²Œ λ©λ‹ˆλ‹€. Y.
이제 μˆœμ„œλŒ€λ‘œ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. 속성을 μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. ν™˜μž ΠΈ 성별 μ΄λŸ¬ν•œ 속성 집합에 λŒ€ν•΄ 쒅속성이 μžˆλŠ”μ§€ μ—¬λΆ€λ₯Ό μ•Œκ³  μ‹ΆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 속성 집합에 λŒ€ν•΄ λ‹€μŒκ³Ό 같은 쒅속성이 μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  1. ν™˜μž β†’ 성별
  2. 성별 β†’ ν™˜μž

μœ„μ˜ μ •μ˜μ— λ”°λ₯΄λ©΄ 첫 번째 쒅속성이 μœ μ§€λ˜λ €λ©΄ μ—΄μ˜ 각 고유 값이 ν™˜μž 단 ν•˜λ‚˜μ˜ μ—΄ κ°’λ§Œ μΌμΉ˜ν•΄μ•Ό ν•©λ‹ˆλ‹€. 성별. 예제 ν…Œμ΄λΈ”μ˜ 경우 μ‹€μ œλ‘œ κ·Έλ ‡μŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ λ°˜λŒ€μ˜ κ²½μš°λŠ” κ·Έλ ‡μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 즉, 두 번째 쒅속성이 μΆ©μ‘±λ˜μ§€ μ•Šκ³  속성이 성별 κ²°μ • μš”μΈμ΄ μ•„λ‹ˆλ‹€ 인내심 μžˆλŠ”. λ§ˆμ°¬κ°€μ§€λ‘œ μš°λ¦¬κ°€ 쒅속성을 μ·¨ν•˜λ©΄ μ˜μ‚¬ β†’ ν™˜μž, 값이 μœ„λ°˜λ˜μ—ˆμŒμ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. λ‚¨μž 이름 이 μ†μ„±μ—λŠ” μ—¬λŸ¬ κ°€μ§€ μ˜λ―Έκ°€ μžˆμŠ΅λ‹ˆλ‹€. μ—˜λ¦¬μŠ€μ™€ κ·Έλ ˆμ΄μ—„.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

λ”°λΌμ„œ ν•¨μˆ˜μ  쒅속성을 톡해 ν…Œμ΄λΈ” ​​속성 μ§‘ν•© κ°„μ˜ κΈ°μ‘΄ 연결을 νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이제 κ°€μž₯ ν₯미둜운 μ—°κ²°, 더 μ •ν™•νžˆλŠ” λ‹€μŒκ³Ό 같은 연결듀을 μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. X β†’ Y, 그듀은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€:

  • μ‚¬μ†Œν•˜μ§€ μ•ŠμŒ, 즉 μ’…μ†μ„±μ˜ 였λ₯Έμͺ½μ΄ μ™Όμͺ½μ˜ ν•˜μœ„ 집합이 μ•„λ‹˜ (Y ΜΈβŠ† X);
  • μ΅œμ†Œν•œ, 즉 κ·ΈλŸ¬ν•œ 쒅속성이 μ—†μŠ΅λ‹ˆλ‹€. Z β†’ Yκ·Έ Z βŠ‚ X.

μ§€κΈˆκΉŒμ§€ 고렀된 쒅속성은 μ—„κ²©ν–ˆμŠ΅λ‹ˆλ‹€. 즉, ν‘œμ—μ„œ μœ„λ°˜ 사항을 ν—ˆμš©ν•˜μ§€ μ•Šμ§€λ§Œ, κ·Έ 외에도 νŠœν”Œ κ°’ 간에 뢈일치λ₯Ό ν—ˆμš©ν•˜λŠ” 쒅속성도 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 쒅속성은 κ·Όμ‚¬μΉ˜(approximate)λΌλŠ” λ³„λ„μ˜ ν΄λž˜μŠ€μ— 배치되며, νŠΉμ • 개수의 νŠœν”Œμ— λŒ€ν•΄ μœ„λ°˜μ΄ ν—ˆμš©λ©λ‹ˆλ‹€. 이 κ°œμˆ˜λŠ” μ΅œλŒ€ 였차 μ§€ν‘œ emax에 μ˜ν•΄ κ²°μ •λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 였차의 λΉ„μœ¨μ€ ν•¨μˆ˜ 쒅속성 μ†Œκ°œ = 0.01은 고렀된 속성 집합에 λŒ€ν•΄ μ‚¬μš© κ°€λŠ₯ν•œ νŠœν”Œμ˜ 1%κ°€ 쒅속성을 μœ„λ°˜ν•  수 μžˆμŒμ„ μ˜λ―Έν•  수 μžˆμŠ΅λ‹ˆλ‹€. 즉, 1000개의 λ ˆμ½”λ“œμ— λŒ€ν•΄ μ΅œλŒ€ 10개의 νŠœν”Œμ΄ 쒅속성 μœ„λ°˜μ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 비ꡐ λŒ€μƒ νŠœν”Œμ˜ μŒλ³„ 고유 값을 기반으둜 μ•½κ°„ λ‹€λ₯Έ μ§€ν‘œλ₯Ό κ³ λ €ν•˜κ² μŠ΅λ‹ˆλ‹€. μ’…μ†μ„±μ˜ 경우 X β†’ Y νƒœλ„μ— λŒ€ν•˜μ—¬ r 계산 방법은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

였차λ₯Ό κ³„μ‚°ν•΄λ³΄μž μ˜μ‚¬ β†’ ν™˜μž μœ„μ˜ μ˜ˆμ—μ„œ. μ†μ„±μ—μ„œ 값이 λ‹€λ₯Έ 두 개의 νŠœν”Œμ΄ μžˆμŠ΅λ‹ˆλ‹€. ν™˜μž, ν•˜μ§€λ§Œ 그듀은 μΌμΉ˜ν•œλ‹€ μ˜μ‚¬: ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[μ˜μ‚¬, ν™˜μž] = (둜빈, μ—˜λ¦¬μŠ€) 그리고 ν•¨μˆ˜ 쒅속성 μ†Œκ°œ[μ˜μ‚¬, ν™˜μž] = (둜빈, κ·Έλ ˆμ΄μ—„). 였λ₯˜μ˜ μ •μ˜μ— 따라 λͺ¨λ“  μƒμΆ©λ˜λŠ” μŒμ„ κ³ λ €ν•΄μ•Ό ν•˜λ©°, μ΄λŠ” 두 쌍이 μ‘΄μž¬ν•¨μ„ μ˜λ―Έν•©λ‹ˆλ‹€. (ν•¨μˆ˜ 쒅속성 μ†Œκ°œ, ν•¨μˆ˜ 쒅속성 μ†Œκ°œ) 및 κ·Έ μ—­μ „(ν•¨μˆ˜ 쒅속성 μ†Œκ°œ, ν•¨μˆ˜ 쒅속성 μ†Œκ°œ). 곡식에 λŒ€μž…ν•˜λ©΄ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이제 "이 λͺ¨λ“  것이 무엇에 μ“°μ΄λŠ”κ°€?"λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 사싀, FDμ—λŠ” μ—¬λŸ¬ μœ ν˜•μ΄ μžˆμŠ΅λ‹ˆλ‹€. 첫 번째 μœ ν˜•μ€ λ°μ΄ν„°λ² μ΄μŠ€ 섀계 λ‹¨κ³„μ—μ„œ κ΄€λ¦¬μžκ°€ μ •μ˜ν•˜λŠ” μ’…μ†μ„±μž…λ‹ˆλ‹€. 일반적으둜 쒅속성은 μˆ˜κ°€ 적고 μ—„κ²©ν•˜λ©°, 주둜 데이터 μ •κ·œν™” 및 관계 체계 섀계에 μ‚¬μš©λ©λ‹ˆλ‹€.

두 번째 μœ ν˜•μ€ "μˆ¨κ²¨μ§„" 데이터와 이전에 μ•Œλ €μ§€μ§€ μ•Šμ€ 속성 κ°„μ˜ 관계λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ’…μ†μ„±μž…λ‹ˆλ‹€. 즉, μ΄λŸ¬ν•œ 쒅속성은 섀계 μ‹œμ μ—λŠ” κ³ λ €λ˜μ§€ μ•Šμ•˜μœΌλ©°, κΈ°μ‘΄ 데이터 μ§‘ν•©μ—μ„œ λ°œκ²¬λ˜μ–΄ λ‚˜μ€‘μ— μ‹λ³„λœ ν•¨μˆ˜ 쒅속성 집합을 기반으둜 μ €μž₯된 정보에 λŒ€ν•œ 결둠을 λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ°”λ‘œ μ΄λŸ¬ν•œ 쒅속성을 ν™œμš©ν•˜μ—¬ μž‘μ—…ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 쒅속성은 λ‹€μ–‘ν•œ 검색 기술과 이λ₯Ό 기반으둜 κ΅¬μΆ•λœ μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜λŠ” 데이터 λ§ˆμ΄λ‹ λΆ„μ•Όμ—μ„œ λ‹€λ£Ήλ‹ˆλ‹€. μ–΄λ–€ λ°μ΄ν„°μ—μ„œλ“  발견된 ν•¨μˆ˜ 쒅속성(μ •ν™•ν•˜κ±°λ‚˜ 근사적인)이 μ–΄λ–»κ²Œ μœ μš©ν•˜κ²Œ ν™œμš©λ  수 μžˆλŠ”μ§€ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

μ˜€λŠ˜λ‚  데이터 μ •λ¦¬λŠ” 쒅속성 ν™œμš©μ˜ μ£Όμš” λΆ„μ•Ό 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€. μ΄λŠ” "더티 데이터"λ₯Ό μ‹λ³„ν•˜κ³  μˆ˜μ •ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€λ₯Ό κ°œλ°œν•˜λŠ” 것을 ν¬ν•¨ν•©λ‹ˆλ‹€. "더티 데이터"의 일반적인 μ˜ˆλ‘œλŠ” 쀑볡, 데이터 였λ₯˜ λ˜λŠ” μ˜€νƒ€, λˆ„λ½λœ κ°’, 였래된 데이터, λΆˆν•„μš”ν•œ 곡백 등이 μžˆμŠ΅λ‹ˆλ‹€.

데이터 였λ₯˜μ˜ 예:

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

λ°μ΄ν„°μ˜ 쀑볡 예:

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

예λ₯Ό λ“€μ–΄, μ‹€ν–‰ν•΄μ•Ό ν•  ν…Œμ΄λΈ”κ³Ό 일련의 FDκ°€ μžˆλ‹€κ³  κ°€μ •ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 이 경우 데이터 μ •λ¦¬λŠ” FDκ°€ 정확해지도둝 데이터λ₯Ό λ³€κ²½ν•˜λŠ” 것을 ν¬ν•¨ν•©λ‹ˆλ‹€. 이 경우 μˆ˜μ • νšŸμˆ˜λŠ” μ΅œμ†Œν™”ν•΄μ•Ό ν•©λ‹ˆλ‹€(이 μ ˆμ°¨μ— λŒ€ν•œ μ•Œκ³ λ¦¬μ¦˜μ΄ μžˆμ§€λ§Œ, 이 κΈ€μ—μ„œλŠ” 닀루지 μ•Šκ² μŠ΅λ‹ˆλ‹€). μ•„λž˜λŠ” μ΄λŸ¬ν•œ 데이터 λ³€ν™˜μ˜ μ˜ˆμž…λ‹ˆλ‹€. μ™Όμͺ½μ€ ν•„μš”ν•œ FDκ°€ μ‹€ν–‰λ˜μ§€ μ•Šμ€ μ›λž˜ κ΄€κ³„μž…λ‹ˆλ‹€(FD 쀑 ν•˜λ‚˜λ₯Ό μœ„λ°˜ν•œ μ˜ˆλŠ” λΉ¨κ°„μƒ‰μœΌλ‘œ κ°•μ‘° ν‘œμ‹œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€). 였λ₯Έμͺ½μ€ λ³€κ²½λœ κ΄€κ³„λ‘œ, 녹색 셀은 λ³€κ²½λœ 값을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. μ΄λŸ¬ν•œ 절차 ν›„, ν•„μš”ν•œ 쒅속성이 μœ μ§€λ˜κΈ° μ‹œμž‘ν–ˆμŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

또 λ‹€λ₯Έ 인기 μžˆλŠ” μ‘μš© λΆ„μ•ΌλŠ” λ°μ΄ν„°λ² μ΄μŠ€ μ„€κ³„μž…λ‹ˆλ‹€. μ—¬κΈ°μ„œ μ •κ·œν˜•κ³Ό μ •κ·œν™”μ— λŒ€ν•΄ λ‹€μ‹œ 생각해 λ³Ό κ°€μΉ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ •κ·œν™”λŠ” 관계λ₯Ό νŠΉμ • μš”κ΅¬ 사항 집합에 맞게 λ§Œλ“œλŠ” 과정이며, 각 μš”κ΅¬ 사항은 κ³ μœ ν•œ λ°©μ‹μœΌλ‘œ μ •κ·œν˜•μ— μ˜ν•΄ μ •μ˜λ©λ‹ˆλ‹€. λ‹€μ–‘ν•œ μ •κ·œν˜•μ˜ μš”κ΅¬ 사항에 λŒ€ν•΄μ„œλŠ” μ„€λͺ…ν•˜μ§€ μ•Šκ² μ§€λ§Œ(μ΄λŠ” 초보자λ₯Ό μœ„ν•œ DB κ³Όμ •μ˜ λͺ¨λ“  책에 λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€), 각 μ •κ·œν˜•μ΄ κ³ μœ ν•œ λ°©μ‹μœΌλ‘œ ν•¨μˆ˜ 쒅속성 κ°œλ…μ„ μ‚¬μš©ν•œλ‹€λŠ” 점만 μ–ΈκΈ‰ν•˜κ² μŠ΅λ‹ˆλ‹€. κ²°κ΅­, FDλŠ” 본질적으둜 λ°μ΄ν„°λ² μ΄μŠ€ 섀계 μ‹œ κ³ λ €λ˜λŠ” 무결성 μ œμ•½ μ‘°κ±΄μž…λ‹ˆλ‹€(이 μž‘μ—…μ—μ„œλŠ” FDλ₯Ό μŠˆνΌν‚€λΌκ³  λΆ€λ₯΄κΈ°λ„ ν•©λ‹ˆλ‹€).

μ•„λž˜ 그림의 λ„€ κ°€μ§€ μ •κ·œν˜•μ— 이듀을 μ μš©ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 보이슀-μ½”λ“œ μ •κ·œν˜•μ€ μ„Έ 번째 μ •κ·œν˜•λ³΄λ‹€ μ—„κ²©ν•˜μ§€λ§Œ λ„€ 번째 μ •κ·œν˜•λ³΄λ‹€λŠ” 덜 μ—„κ²©ν•˜λ‹€λŠ” 점을 κΈ°μ–΅ν•˜μ„Έμš”. λ§ˆμ§€λ§‰ μ •κ·œν˜•μ€ 닀쀑값 쒅속성에 λŒ€ν•œ 이해가 ν•„μš”ν•˜λ―€λ‘œ μ§€κΈˆμ€ κ³ λ €ν•˜μ§€ μ•Šκ² μŠ΅λ‹ˆλ‹€. 이 κΈ€μ—μ„œλŠ” 닀쀑값 쒅속성에 λŒ€ν•΄ 닀루지 μ•ŠμŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

쒅속성이 μ μš©λ˜λŠ” 또 λ‹€λ₯Έ μ˜μ—­μ€ λ‚˜μ΄λΈŒ 베이즈 λΆ„λ₯˜κΈ° ꡬ좕, νŠΉμ§• μΆ”μΆœ, νšŒκ·€ λͺ¨λΈ μž¬λ§€κ°œλ³€μˆ˜ν™”μ™€ 같은 μž‘μ—…μ—μ„œ νŠΉμ§• 곡간 차원 μΆ•μ†Œμž…λ‹ˆλ‹€. 초기 λ…Όλ¬Έμ—μ„œλŠ” 이 μž‘μ—…μ„ νŠΉμ§• 쀑볡성 및 νŠΉμ§• κ΄€λ ¨μ„±[5, 6]이라고 ν•˜λ©°, λ°μ΄ν„°λ² μ΄μŠ€ κ°œλ…μ„ 적극적으둜 ν™œμš©ν•˜μ—¬ ν•΄κ²°ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ—°κ΅¬μ˜ λ“±μž₯으둜, μ˜€λŠ˜λ‚  λ°μ΄ν„°λ² μ΄μŠ€, 뢄석, 그리고 μœ„μ˜ μ΅œμ ν™” 문제 κ΅¬ν˜„μ„ 단일 λ„κ΅¬λ‘œ 톡합할 수 μžˆλŠ” μ†”λ£¨μ…˜μ— λŒ€ν•œ μˆ˜μš”κ°€ μ¦κ°€ν•˜κ³  μžˆλ‹€κ³  ν•  수 μžˆμŠ΅λ‹ˆλ‹€[7, 8, 9].

데이터 μ§‘ν•©μ—μ„œ 연방법 검색을 μœ„ν•œ λ‹€μ–‘ν•œ μ•Œκ³ λ¦¬μ¦˜(μ΅œμ‹  μ•Œκ³ λ¦¬μ¦˜κ³Ό κ·Έλ ‡μ§€ μ•Šμ€ μ•Œκ³ λ¦¬μ¦˜ λͺ¨λ‘)이 μ‘΄μž¬ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ•Œκ³ λ¦¬μ¦˜μ€ μ„Έ κ°€μ§€ 그룹으둜 λ‚˜λˆŒ 수 μžˆμŠ΅λ‹ˆλ‹€.

  • 격자 탐색 μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜
  • 차이 및 λ™μ˜ μ„€μ • μ•Œκ³ λ¦¬μ¦˜
  • 쒅속성 μœ λ„ μ•Œκ³ λ¦¬μ¦˜

각 μ•Œκ³ λ¦¬μ¦˜ μœ ν˜•μ— λŒ€ν•œ κ°„λž΅ν•œ μ„€λͺ…은 μ•„λž˜ ν‘œμ— λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€.
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이 λΆ„λ₯˜μ— λŒ€ν•œ μžμ„Έν•œ λ‚΄μš©μ€ [4]μ—μ„œ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. 각 μœ ν˜•μ— λŒ€ν•œ μ•Œκ³ λ¦¬μ¦˜μ˜ μ˜ˆλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν˜„μž¬ ν•¨μˆ˜ 쒅속성을 μ°ΎλŠ” μ—¬λŸ¬ 접근법을 κ²°ν•©ν•œ μƒˆλ‘œμš΄ μ•Œκ³ λ¦¬μ¦˜λ“€μ΄ λ“±μž₯ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ•Œκ³ λ¦¬μ¦˜μ˜ μ˜ˆλ‘œλŠ” Pyro [2]와 HyFD [3]κ°€ μžˆμŠ΅λ‹ˆλ‹€. 이 μ‹œλ¦¬μ¦ˆμ˜ λ‹€μŒ κΈ€μ—μ„œλŠ” μ΄λŸ¬ν•œ μ•Œκ³ λ¦¬μ¦˜μ˜ μž‘λ™ 방식에 λŒ€ν•œ 뢄석을 μ œκ³΅ν•  μ˜ˆμ •μž…λ‹ˆλ‹€. 이 κΈ€μ—μ„œλŠ” 쒅속성 탐지 기법을 μ΄ν•΄ν•˜λŠ” 데 ν•„μš”ν•œ κΈ°λ³Έ κ°œλ…κ³Ό 보쑰정리(lemma)에 λŒ€ν•΄μ„œλ§Œ λΆ„μ„ν•©λ‹ˆλ‹€.

두 번째 μœ ν˜•μ˜ μ•Œκ³ λ¦¬μ¦˜μ— μ‚¬μš©λ˜λŠ” κ°„λ‹¨ν•œ 차이 μ§‘ν•©κ³Ό λ™μ˜ μ§‘ν•©λΆ€ν„° μ‹œμž‘ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 차이 집합은 값이 μΌμΉ˜ν•˜μ§€ μ•ŠλŠ” νŠœν”Œλ“€μ˜ 집합이고, λ™μ˜ 집합은 κ·Έ λ°˜λŒ€, 즉 값이 μΌμΉ˜ν•˜λŠ” νŠœν”Œλ“€μ˜ μ§‘ν•©μž…λ‹ˆλ‹€. 이 경우 μ’…μ†μ„±μ˜ μ™Όμͺ½ λΆ€λΆ„λ§Œ κ³ λ €ν•œλ‹€λŠ” 점에 μœ μ˜ν•΄μ•Ό ν•©λ‹ˆλ‹€.

μœ„μ—μ„œ μ–ΈκΈ‰ν•œ 또 λ‹€λ₯Έ μ€‘μš”ν•œ κ°œλ…μ€ λŒ€μˆ˜ κ²©μžμž…λ‹ˆλ‹€. λ§Žμ€ ν˜„λŒ€ μ•Œκ³ λ¦¬μ¦˜μ΄ 이 κ°œλ…μœΌλ‘œ μž‘λ™ν•˜κΈ° λ•Œλ¬Έμ—, λŒ€μˆ˜ κ²©μžκ°€ 무엇인지 λ¨Όμ € μ•Œμ•„λ‘˜ ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.

격자의 κ°œλ…μ„ μ†Œκ°œν•˜κΈ° μœ„ν•΄μ„œλŠ” λΆ€λΆ„ μˆœμ„œ μ§‘ν•©(λ˜λŠ” poset)의 μ •μ˜κ°€ ν•„μš”ν•©λ‹ˆλ‹€.

μ •μ˜ 2. μ§‘ν•© Sκ°€ 이진 관계에 μ˜ν•΄ λΆ€λΆ„μ μœΌλ‘œ μ •λ ¬λ˜μ–΄ μžˆλ‹€κ³  ν•˜λŠ” 것은 λͺ¨λ“  a, b, c ∈ S에 λŒ€ν•΄ λ‹€μŒ 속성이 좩쑱될 λ•Œμž…λ‹ˆλ‹€.

  1. λ°˜μ‚¬μ„±, 즉 a β©½ a
  2. λ°˜λŒ€μΉ­μ„±, 즉 a β©½ b이고 b β©½ a이면 a = bμž…λ‹ˆλ‹€.
  3. 전이성, 즉 a β©½ b 및 b β©½ c에 λŒ€ν•΄ a β©½ cκ°€ μ„±λ¦½ν•©λ‹ˆλ‹€.


μ΄λŸ¬ν•œ 관계λ₯Ό (비엄격) λΆ€λΆ„ μˆœμ„œ 관계라고 ν•˜λ©°, μ§‘ν•© 자체λ₯Ό λΆ€λΆ„ μˆœμ„œ 집합이라고 ν•©λ‹ˆλ‹€. ν˜•μ‹μ  ν‘œκΈ°: ⟨S, ⩽⟩.

λΆ€λΆ„ μˆœμ„œ μ§‘ν•©μ˜ κ°„λ‹¨ν•œ 예둜, 일반적인 μˆœμ„œ 관계 β©½λ₯Ό κ°–λŠ” λͺ¨λ“  μžμ—°μˆ˜ μ§‘ν•© N을 λ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λ“  ν•„μˆ˜ 곡리가 μΆ©μ‘±λ˜λŠ”μ§€ ν™•μΈν•˜λŠ” 것은 μ‰½μŠ΅λ‹ˆλ‹€.

더 의미 μžˆλŠ” 예λ₯Ό λ“€μ–΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 포함 관계 βŠ†μ— 따라 μ •λ ¬λœ {1, 2, 3}의 λͺ¨λ“  λΆ€λΆ„μ§‘ν•©μ˜ 집합을 생각해 λ³΄κ² μŠ΅λ‹ˆλ‹€. μ‹€μ œλ‘œ 이 κ΄€κ³„λŠ” λΆ€λΆ„ μˆœμ„œμ˜ λͺ¨λ“  쑰건을 λ§Œμ‘±ν•˜λ―€λ‘œ ⟨P ({1, 2, 3}), βŠ†βŸ©λŠ” λΆ€λΆ„ μˆœμ„œ μ§‘ν•©μž…λ‹ˆλ‹€. μ•„λž˜ 그림은 이 μ§‘ν•©μ˜ ꡬ쑰λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€. ν™”μ‚΄ν‘œλ₯Ό 따라 ν•œ μ›μ†Œμ—μ„œ λ‹€λ₯Έ μ›μ†Œλ‘œ 이동할 수 μžˆλ‹€λ©΄, 두 μ›μ†ŒλŠ” μˆœμ„œ 관계에 μžˆμŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

μˆ˜ν•™ λΆ„μ•Όμ—μ„œλŠ” μƒν•œκ³Ό ν•˜ν•œμ΄λΌλŠ” 두 κ°€μ§€ 더 κ°„λ‹¨ν•œ μ •μ˜κ°€ ν•„μš”ν•©λ‹ˆλ‹€.

μ •μ˜ 3. ⟨S, β©½βŸ©κ°€ λΆ€λΆ„ μˆœμ„œ μ§‘ν•© A βŠ† S라고 ν•˜μž. A의 μƒκ³„λŠ” βˆ€x ∈ S: x β©½ uλ₯Ό λ§Œμ‘±ν•˜λŠ” u ∈ S의 μ›μ†Œμ΄λ‹€. Uλ₯Ό S의 λͺ¨λ“  μƒκ³„μ˜ 집합이라고 ν•˜μž. U에 μ΅œμ†Œ μ›μ†Œκ°€ 있으면, κ·Έ μ›μ†Œλ₯Ό μƒν•œ(supremum)이라고 ν•˜λ©°, sup A둜 ν‘œκΈ°ν•œλ‹€.

μ •ν™•ν•œ ν•˜ν•œμ˜ κ°œλ…λ„ λΉ„μŠ·ν•œ λ°©μ‹μœΌλ‘œ λ„μž…λ©λ‹ˆλ‹€.

μ •μ˜ 4. ⟨S, β©½βŸ©κ°€ λΆ€λΆ„ μˆœμ„œ μ§‘ν•© A βŠ† S라고 ν•˜μž. A의 ν•˜ν•œμ€ βˆ€x ∈ S: l β©½ xλ₯Ό λ§Œμ‘±ν•˜λŠ” μ›μ†Œ l ∈ S이닀. L을 S의 λͺ¨λ“  ν•˜ν•œμ˜ 집합이라고 ν•˜μž. L에 κ°€μž₯ 큰 μ›μ†Œκ°€ μ‘΄μž¬ν•˜λ©΄, κ·Έ μ›μ†Œλ₯Ό ν•˜ν•œ(infimum)이라고 ν•˜λ©° inf A둜 ν‘œκΈ°ν•œλ‹€.

μœ„μ—μ„œ μ£Όμ–΄μ§„ λΆ€λΆ„ μˆœμ„œ μ§‘ν•© ⟨P({1, 2, 3}), βŠ†βŸ©λ₯Ό 예둜 듀어보고 κ·Έ μ•ˆμ—μ„œ μƒν•œκ³Ό ν•˜ν•œμ„ κ΅¬ν•΄λ΄…μ‹œλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이제 μš°λ¦¬λŠ” λŒ€μˆ˜κ²©μžμ˜ μ •μ˜λ₯Ό 곡식화할 수 μžˆμŠ΅λ‹ˆλ‹€.

μ •μ˜ 5. ⟨P, β©½βŸ©κ°€ λͺ¨λ“  두 μ›μ†Œ λΆ€λΆ„ 집합이 μ΅œμ†Œ μƒν•œκ³Ό μ΅œμ†Œ ν•˜ν•œμ„ κ°–λŠ” λΆ€λΆ„ μˆœμ„œ 집합이라고 ν•˜μž. μ΄λ•Œ Pλ₯Ό λŒ€μˆ˜ 격자라고 ν•œλ‹€. μ—¬κΈ°μ„œ sup{x, y}λŠ” x ∨ y둜, inf {x, y}λŠ” x ∧ y둜 λ‚˜νƒ€λ‚Έλ‹€.

우리의 예제 ⟨P({1, 2, 3}), βŠ†βŸ©κ°€ κ²©μžμΈμ§€ 확인해 λ³΄κ² μŠ΅λ‹ˆλ‹€. μ‹€μ œλ‘œ, λͺ¨λ“  a, b ∈ P({1, 2, 3})에 λŒ€ν•΄, a∨b = aβˆͺb이고, a∧b = a∩bμž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ§‘ν•© {1, 2}와 {1, 3}을 κ³ λ €ν•˜κ³  κ·Έλ“€μ˜ ν•˜ν•œκ°’κ³Ό μƒν•œκ°’μ„ ꡬ해 λ³΄κ² μŠ΅λ‹ˆλ‹€. 두 집합을 κ΅μ§‘ν•©μœΌλ‘œ λ§Œλ“€λ©΄ ν•˜ν•œκ°’μΈ μ§‘ν•© {1}이 λ©λ‹ˆλ‹€. μƒν•œκ°’μ€ κ·Έλ“€μ˜ 합집합인 {1, 2, 3}을 톡해 κ΅¬ν•΄μ§‘λ‹ˆλ‹€.

FDλ₯Ό κ°μ§€ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ—μ„œ 검색 곡간은 μ’…μ’… 격자 ν˜•νƒœλ‘œ ν‘œν˜„λ˜λŠ”λ°, μ—¬κΈ°μ„œ ν•œ μš”μ†Œμ˜ μ§‘ν•©(μ’…μ†μ„±μ˜ μ™Όμͺ½μ΄ ν•œ μ†μ„±μœΌλ‘œ κ΅¬μ„±λœ 검색 격자의 첫 번째 μˆ˜μ€€μ„ μ½μ–΄λ³΄μ„Έμš”)은 μ›λž˜ κ΄€κ³„μ˜ 각 속성을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
μ‹œμž‘ μ‹œ βˆ… β†’ μœ ν˜•μ˜ 쒅속성이 κ³ λ €λ©λ‹ˆλ‹€. 단일 속성. 이 단계λ₯Ό 톡해 μ–΄λ–€ 속성이 κΈ°λ³Έ 킀인지 확인할 수 μžˆμŠ΅λ‹ˆλ‹€(μ΄λŸ¬ν•œ 속성에 λŒ€ν•œ κ²°μ •μžκ°€ μ—†μœΌλ―€λ‘œ μ™Όμͺ½μ€ λΉ„μ–΄ 있음). 그런 λ‹€μŒ μ΄λŸ¬ν•œ μ•Œκ³ λ¦¬μ¦˜μ€ 격자λ₯Ό 따라 μœ„λ‘œ μ΄λ™ν•©λ‹ˆλ‹€. 전체 격자λ₯Ό μˆœνšŒν•˜λŠ” 것은 λΆˆκ°€λŠ₯ν•˜λ‹€λŠ” 점에 μœ μ˜ν•΄μ•Ό ν•©λ‹ˆλ‹€. 즉, μ›ν•˜λŠ” μ™Όμͺ½μ˜ μ΅œλŒ€ 크기가 μž…λ ₯으둜 μ „λ‹¬λ˜λ©΄ μ•Œκ³ λ¦¬μ¦˜μ€ ν•΄λ‹Ή 크기의 μˆ˜μ€€μ„ λ„˜μ–΄κ°ˆ 수 μ—†μŠ΅λ‹ˆλ‹€.

μ•„λž˜ 그림은 FDλ₯Ό κ΅¬ν•˜λŠ” λ¬Έμ œμ—μ„œ λŒ€μˆ˜ 격자λ₯Ό μ–΄λ–»κ²Œ μ‚¬μš©ν•  수 μžˆλŠ”μ§€ λ³΄μ—¬μ€λ‹ˆλ‹€. μ—¬κΈ°μ„œ 각 λ³€(μ—‘μŠ€, μ—‘μŠ€μ΄μ—μ΄)λŠ” μ’…μ†μ„±μž…λ‹ˆλ‹€ X β†’ Y예λ₯Ό λ“€μ–΄, μš°λ¦¬λŠ” 첫 번째 λ ˆλ²¨μ„ ν†΅κ³Όν–ˆκ³  쀑독이 μœ μ§€λ˜κ³  μžˆλ‹€λŠ” 것을 μ•Œκ³  μžˆμŠ΅λ‹ˆλ‹€. A β†’ B (이것을 정점 μ‚¬μ΄μ˜ 녹색 μ—°κ²°λ‘œ ν‘œμ‹œν•©λ‹ˆλ‹€. A ΠΈ B). μ΄λŠ” κ·Έλ¦¬λ“œλ₯Ό 더 μœ„λ‘œ μ΄λ™ν•˜λ©΄ 쒅속성을 확인할 수 μ—†μŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€. A, C β†’ B더 이상 μ΅œμ†Œκ°’μ΄ μ•„λ‹ˆκΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. λ§ˆμ°¬κ°€μ§€λ‘œ, 쒅속성이 μœ μ§€λœλ‹€λ©΄ 이λ₯Ό ν™•μΈν•˜μ§€ μ•Šμ„ κ²ƒμž…λ‹ˆλ‹€. γ„· β†’ γ„΄.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

λ˜ν•œ, 일반적으둜 FDλ₯Ό κ²€μƒ‰ν•˜κΈ° μœ„ν•œ λͺ¨λ“  μ΅œμ‹  μ•Œκ³ λ¦¬μ¦˜μ€ νŒŒν‹°μ…˜(μ›λž˜ μ†ŒμŠ€μ—μ„œλŠ” 슀트립된 νŒŒν‹°μ…˜[1])κ³Ό 같은 데이터 ꡬ쑰λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. νŒŒν‹°μ…˜μ˜ 곡식 μ •μ˜λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

μ •μ˜ 6. X βŠ† R을 관계 r의 속성 집합이라 ν•˜μž. ν΄λŸ¬μŠ€ν„°λŠ” r에 μžˆλŠ” X에 λŒ€ν•΄ λ™μΌν•œ 값을 κ°–λŠ” νŠœν”Œλ“€μ˜ 인덱슀 μ§‘ν•©, 즉 c(t) = {i|ti[X] = t[X]}이닀. 뢄할은 길이가 1인 ν΄λŸ¬μŠ€ν„°λ₯Ό μ œμ™Έν•œ ν΄λŸ¬μŠ€ν„°λ“€μ˜ 집합이닀.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

κ°„λ‹¨νžˆ λ§ν•΄μ„œ, 속성에 λŒ€ν•œ λΆ„ν•  X 각 λͺ©λ‘μ— λ™μΌν•œ 값을 κ°–λŠ” ν–‰μ˜ κ°œμˆ˜κ°€ ν¬ν•¨λœ λͺ©λ‘ μ§‘ν•©μž…λ‹ˆλ‹€. Xν˜„λŒ€ λ¬Έν—Œμ—μ„œ νŒŒν‹°μ…˜μ„ λ‚˜νƒ€λ‚΄λŠ” ꡬ쑰λ₯Ό μœ„μΉ˜ λͺ©λ‘ 색인(PLI)이라고 ν•©λ‹ˆλ‹€. 길이가 1인 ν΄λŸ¬μŠ€ν„°λŠ” PLI μ••μΆ•μ—μ„œ μ œμ™Έλ˜λŠ”λ°, μ΄λŠ” 항상 μ‰½κ²Œ νŒλ³„ν•  수 μžˆλŠ” κ³ μœ ν•œ 값을 κ°€μ§„ λ ˆμ½”λ“œ 번호만 ν¬ν•¨ν•˜λŠ” ν΄λŸ¬μŠ€ν„°μ΄κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. patientsκ°€ μžˆλŠ” λ™μΌν•œ ν…Œμ΄λΈ”λ‘œ λŒμ•„κ°€μ„œ 열에 λŒ€ν•œ νŒŒν‹°μ…˜μ„ λ§Œλ“€μ–΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. ν™˜μž ΠΈ 성별 (μ™Όμͺ½μ— μƒˆλ‘œμš΄ 열이 λ‚˜νƒ€λ‚¬μœΌλ©°, 여기에 ν‘œμ˜ ν–‰ λ²ˆν˜Έκ°€ ν‘œμ‹œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€):

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이 경우 μ •μ˜μ— λ”°λ₯΄λ©΄ 열에 λŒ€ν•œ νŒŒν‹°μ…˜μ€ ν™˜μž 단일 ν΄λŸ¬μŠ€ν„°κ°€ νŒŒν‹°μ…˜μ—μ„œ μ œμ™Έλ˜λ―€λ‘œ μ‹€μ œλ‘œλŠ” λΉ„μ–΄ 있게 λ©λ‹ˆλ‹€.

μ—¬λŸ¬ 속성을 톡해 νŒŒν‹°μ…˜μ„ 얻을 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό μˆ˜ν–‰ν•˜λŠ” λ°©λ²•μ—λŠ” 두 κ°€μ§€κ°€ μžˆμŠ΅λ‹ˆλ‹€. ν…Œμ΄λΈ”μ„ νƒμƒ‰ν•˜μ—¬ ν•„μš”ν•œ λͺ¨λ“  속성을 κΈ°μ€€μœΌλ‘œ ν•œ λ²ˆμ— νŒŒν‹°μ…˜μ„ κ΅¬μ„±ν•˜κ±°λ‚˜, μ†μ„±μ˜ λΆ€λΆ„ 집합을 κΈ°μ€€μœΌλ‘œ νŒŒν‹°μ…˜μ˜ ꡐ집합 연산을 μ‚¬μš©ν•˜μ—¬ νŒŒν‹°μ…˜μ„ κ΅¬μ„±ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. FZλ₯Ό κ²€μƒ‰ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ€ 두 번째 방법을 μ‚¬μš©ν•©λ‹ˆλ‹€.

κ°„λ‹¨νžˆ λ§ν•΄μ„œ, 예λ₯Ό λ“€μ–΄ μ—΄λ³„λ‘œ νŒŒν‹°μ…˜μ„ μ–»μœΌλ €λ©΄ ABC, 당신은 νŒŒν‹°μ…˜μ„ μ·¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€ AC ΠΈ B (λ˜λŠ” λ‹€λ₯Έ λΆ„λ¦¬λœ λΆ€λΆ„ μ§‘ν•©μ˜ μ§‘ν•©)을 μ„ νƒν•˜μ—¬ ꡐ집합을 κ΅¬ν•©λ‹ˆλ‹€. 두 λΆ„ν• μ˜ ꡐ집합 연산은 두 뢄할에 κ³΅ν†΅μœΌλ‘œ μ‘΄μž¬ν•˜λŠ” κ°€μž₯ κΈ΄ 길이의 ν΄λŸ¬μŠ€ν„°λ₯Ό μ„ νƒν•©λ‹ˆλ‹€.

예λ₯Ό μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

첫 번째 κ²½μš°μ—λŠ” 빈 νŒŒν‹°μ…˜μ΄ μƒμ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. ν‘œλ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄λ©΄ 두 속성에 λ™μΌν•œ 값이 μ—†λ‹€λŠ” 것을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. ν‘œλ₯Ό μ•½κ°„ μˆ˜μ •ν•˜λ©΄(였λ₯Έμͺ½μ˜ 경우) 이미 λΉ„μ–΄ μžˆμ§€ μ•Šμ€ ꡐ집합이 μƒμ„±λ©λ‹ˆλ‹€. 이 경우, 1번 쀄과 2번 μ€„μ—λŠ” μ‹€μ œλ‘œ 두 속성에 λŒ€ν•΄ λ™μΌν•œ 값이 ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 성별 ΠΈ μ˜μ‚¬.

λ‹€μŒμœΌλ‘œ νŒŒν‹°μ…˜ 크기와 같은 κ°œλ…μ΄ ν•„μš”ν•©λ‹ˆλ‹€. κ³΅μ‹μ μœΌλ‘œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

κ°„λ‹¨νžˆ λ§ν•΄μ„œ, νŒŒν‹°μ…˜ ν¬κΈ°λŠ” νŒŒν‹°μ…˜μ— ν¬ν•¨λœ ν΄λŸ¬μŠ€ν„°μ˜ μˆ˜μž…λ‹ˆλ‹€(단일 ν΄λŸ¬μŠ€ν„°λŠ” νŒŒν‹°μ…˜μ— ν¬ν•¨λ˜μ§€ μ•ŠλŠ”λ‹€λŠ” 점을 κΈ°μ–΅ν•˜μ„Έμš”!).

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이제 μš°λ¦¬λŠ” μ£Όμ–΄μ§„ νŒŒν‹°μ…˜μ— λŒ€ν•΄ 쒅속성이 μœ μ§€λ˜λŠ”μ§€ μ—¬λΆ€λ₯Ό 확인할 수 μžˆλŠ” μ£Όμš” 레마 쀑 ν•˜λ‚˜λ₯Ό μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

레마 1. 쒅속성 A, B β†’ CλŠ” λ‹€μŒ κ²½μš°μ—λ§Œ μ„±λ¦½ν•©λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

λ ˆλ§ˆμ— λ”°λ₯΄λ©΄ 쒅속성이 μœ μ§€λ˜λŠ”μ§€ ν™•μΈν•˜λ €λ©΄ λ‹€μŒ 4단계λ₯Ό μˆ˜ν–‰ν•΄μ•Ό ν•©λ‹ˆλ‹€.

  1. μ’…μ†μ„±μ˜ μ™Όμͺ½μ— λŒ€ν•œ νŒŒν‹°μ…˜ 계산
  2. μ’…μ†μ„±μ˜ 였λ₯Έμͺ½μ— λŒ€ν•œ νŒŒν‹°μ…˜ 계산
  3. 첫 λ²ˆμ§Έμ™€ 두 번째 λ‹¨κ³„μ˜ 곱을 κ³„μ‚°ν•©λ‹ˆλ‹€.
  4. 1단계와 3λ‹¨κ³„μ—μ„œ 얻은 νŒŒν‹°μ…˜μ˜ 크기λ₯Ό λΉ„κ΅ν•˜μ„Έμš”.

λ‹€μŒμ€ 이 보쑰정리에 따라 쒅속성이 μœ μ§€λ˜λŠ”μ§€ ν™•μΈν•˜λŠ” μ˜ˆμž…λ‹ˆλ‹€.

ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ
ν•¨μˆ˜ 쒅속성 μ†Œκ°œ

이 κΈ€μ—μ„œλŠ” ν•¨μˆ˜ 쒅속성, 근사 ν•¨μˆ˜ 쒅속성과 같은 κ°œλ…μ„ μ‚΄νŽ΄λ³΄κ³ , μ΄λŸ¬ν•œ κ°œλ…λ“€μ΄ 어디에 μ‚¬μš©λ˜λŠ”μ§€, 그리고 ν•¨μˆ˜ 쒅속성을 κ²€μƒ‰ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ€ 무엇인지 κ³ μ°°ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ΅œμ‹  ν•¨μˆ˜ 쒅속성 검색 μ•Œκ³ λ¦¬μ¦˜μ—μ„œ ν™œλ°œν•˜κ²Œ μ‚¬μš©λ˜λŠ” κΈ°λ³Έμ μ΄μ§€λ§Œ μ€‘μš”ν•œ κ°œλ…λ“€μ„ μžμ„Ένžˆ μ‚΄νŽ΄λ³΄μ•˜μŠ΅λ‹ˆλ‹€.

λ¬Έν—Œ 링크:

  1. Huhtala Y. et al. TANE: ν•¨μˆ˜μ  쒅속성과 근사적 쒅속성을 λ°œκ²¬ν•˜κΈ° μœ„ν•œ 효율적인 μ•Œκ³ λ¦¬μ¦˜ //컴퓨터 저널. – 1999. – T. 42. – No. 2. – pp. 100-111.
  2. Kruse S., Naumann F. λŒ€λž΅μ  μ’…μ†μ„±μ˜ 효율적 발견 // VLDB 기금 회의둝. – 2018. – T. 11. – No. 7. – pp. 759-772.
  3. Papenbrock T., Naumann F. κΈ°λŠ₯적 쒅속성 λ°œκ²¬μ— λŒ€ν•œ ν•˜μ΄λΈŒλ¦¬λ“œ μ ‘κ·Ό 방식 //2016λ…„ ꡭ제 데이터 관리 컨퍼런슀 λ…Όλ¬Έμ§‘. – ACM, 2016. – 821-833μͺ½.
  4. Papenbrock T. μ™Έ. ν•¨μˆ˜ 쒅속성 발견: 2015개 μ•Œκ³ λ¦¬μ¦˜μ˜ μ‹€ν—˜μ  평가 //VLDB 기금 회의둝. – 8. – T. 10. – No. 1082. – pp. 1093-XNUMX.
  5. Kumar A. μ™Έ. 쑰인할지 말지: ν”Όμ²˜ 선택 μ „ 쑰인에 λŒ€ν•΄ λ‹€μ‹œ μƒκ°ν•˜κΈ° // 2016λ…„ ꡭ제 데이터 관리 컨퍼런슀 λ…Όλ¬Έμ§‘. – ACM, 2016. – pp. 19-34.
  6. Abo Khamis M. μ™Έ. ν¬μ†Œ ν…μ„œλ₯Ό μ΄μš©ν•œ λ°μ΄ν„°λ² μ΄μŠ€ λ‚΄ ν•™μŠ΅ // 제37회 ACM SIGMOD-SIGACT-SIGAI λ°μ΄ν„°λ² μ΄μŠ€ μ‹œμŠ€ν…œ 원리 심포지엄 λ…Όλ¬Έμ§‘. – ACM, 2018. – pp. 325-340.
  7. Hellerstein JM μ™Έ. MADlib 뢄석 라이브러리: λ˜λŠ” MAD 기술, SQL //VLDB 기금 회의둝. – 2012. – T. 5. – No. 12. – pp. 1700-1711.
  8. Qin C., Rusu F. ν…ŒλΌμŠ€μΌ€μΌ λΆ„μ‚° 경사 ν•˜κ°• μ΅œμ ν™”λ₯Ό μœ„ν•œ 좔츑적 근사 //ν΄λΌμš°λ“œμ—μ„œμ˜ 데이터 뢄석에 κ΄€ν•œ 제2015회 μ›Œν¬μˆ 회의둝. – ACM, 1. – P. XNUMX.
  9. Meng X. μ™Έ. Mllib: Apache Sparkμ—μ„œμ˜ λ¨Έμ‹  λŸ¬λ‹ //The Journal of Machine Learning Research. – 2016. – T. 17. – No. 1. – pp. 1235-1241.

기사 μž‘μ„±μž: μ•„λ‚˜μŠ€νƒ€μƒ€ λΉ„λ¦΄λ‘œ, 연ꡬ원 JetBrains 연ꡬ, CS μ„Όν„° 학생 ΠΈ λ‹ˆν‚€νƒ€ λ³΄λΈŒλ‘œν”„, 연ꡬ원 JetBrains 연ꡬ

좜처 : habr.com

DDoS 보호, VPS VDS μ„œλ²„κ°€ μžˆλŠ” μ‚¬μ΄νŠΈλ₯Ό μœ„ν•œ μ•ˆμ •μ μΈ ν˜ΈμŠ€νŒ… κ΅¬μž… πŸ”₯ DDoS 곡격 λ°©μ§€ κΈ°λŠ₯이 νƒ‘μž¬λœ μ•ˆμ •μ μΈ μ›Ήμ‚¬μ΄νŠΈ ν˜ΈμŠ€νŒ…, VPS 및 VDS μ„œλ²„λ₯Ό κ΅¬λ§€ν•˜μ„Έμš” | ProHoster