Bayanin Hanyoyin Zane na Agile DWH

Ƙirƙirar wurin ajiya babban aiki ne mai tsayi kuma mai tsanani.

Yawancin rayuwar aikin ya dogara da yadda ake tunanin samfurin abu da tsarin tushe a farkon.

Hanyar da aka yarda da ita ta kasance kuma ta kasance bambance-bambance daban-daban na haɗa tsarin tauraro tare da tsari na al'ada na uku. A matsayinka na mai mulki, bisa ga ka'ida: bayanan farko - 3NF, nunin - tauraro. Wannan tsarin, wanda aka gwada lokaci kuma yana goyan bayan babban adadin bincike, shine abu na farko (kuma wani lokacin kawai) abin da ke zuwa zuciyar ƙwararren ƙwararren DWH lokacin da yake tunanin yadda ma'ajin bincike ya kamata ya kasance.

A gefe guda, kasuwanci a gaba ɗaya da bukatun abokin ciniki musamman suna canzawa da sauri, kuma bayanai suna yin girma duka biyu "zurfin" da "a cikin faɗin". Kuma wannan shine inda babban hasara na tauraro ya bayyana - iyakance sassauci.

Kuma idan a cikin kwanciyar hankali da kwanciyar hankali a matsayin mai haɓaka DWH ba zato ba tsammani:

  • aikin ya tashi "don yin akalla wani abu da sauri, sa'an nan kuma za mu gani";
  • wani aiki mai tasowa da sauri ya bayyana, tare da haɗin sababbin tushe da sake yin aiki na tsarin kasuwanci a kalla sau ɗaya a mako;
  • abokin ciniki ya bayyana wanda ba shi da masaniyar yadda tsarin ya kamata ya kasance da kuma irin ayyukan da ya kamata ya yi a ƙarshe, amma yana shirye don gwaji da kuma daidaita sakamakon da ake so yayin da yake kusantarsa;
  • Manajan aikin ya faɗi albishir: “Kuma yanzu muna da kuzari!”

Ko kuma idan kuna sha'awar gano yadda kuma zaku iya gina wuraren ajiya - maraba da yanke!

Bayanin Hanyoyin Zane na Agile DWH

Menene ma'anar "sauƙi"?

Da farko, bari mu ayyana waɗanne kaddarorin dole ne tsarin ya kasance don a kira shi “mai sassauƙa”.

Na dabam, yana da daraja ambata cewa kaddarorin da aka kwatanta ya kamata su danganta da su musamman tsarin, ba ga tsari ci gabanta. Sabili da haka, idan kuna son karanta game da Agile azaman hanyar haɓakawa, yana da kyau ku karanta sauran labaran. Misali, a can, akan Habré, akwai abubuwa masu ban sha'awa da yawa (kamar bita и mkuma matsala).

Wannan ba yana nufin cewa tsarin ci gaba da tsarin ma'ajiyar bayanai ba su da alaƙa gaba ɗaya. Gabaɗaya, yakamata ya zama mafi sauƙi don haɓaka wurin ajiyar Agile don gine-ginen agile. Koyaya, a aikace, galibi ana samun zaɓuɓɓuka tare da haɓaka Agile na al'ada DWH bisa ga Kimbal da DataVault - bisa ga Waterfall, fiye da daidaituwar farin ciki na sassauci a cikin nau'ikan sa guda biyu akan aiki ɗaya.

Don haka, waɗanne iyakoki ya kamata ma'ajiyar sassauƙa ta samu? Akwai maki uku a nan:

  1. Bayarwa da wuri da saurin juyawa - wannan yana nufin cewa a zahiri sakamakon kasuwanci na farko (misali, rahotannin aiki na farko) yakamata a samo su da wuri-wuri, wato, tun kafin an tsara tsarin gabaɗaya da aiwatar da shi. Haka kuma, kowane bita na gaba ya kamata kuma ya ɗauki ɗan lokaci kaɗan gwargwadon yiwuwar.
  2. gyare-gyare mai maimaitawa - wannan yana nufin cewa kowane ci gaba na gaba bai kamata ya shafi aikin da ya riga ya yi aiki ba. A wannan lokacin ne sau da yawa yakan zama babban mafarki mai ban tsoro akan manyan ayyuka - ba dade ko ba dade, abubuwa guda ɗaya sun fara samun alaƙa da yawa wanda zai zama da sauƙi a sake maimaita dabaru gaba ɗaya a cikin kwafin kusa fiye da ƙara filin zuwa teburin da ke akwai. Kuma idan kun yi mamakin cewa nazarin tasirin ingantawa akan abubuwan da ake dasu na iya ɗaukar lokaci fiye da ingantawa da kansu, da alama ba ku yi aiki tare da manyan ɗakunan ajiya na banki ko na wayar tarho ba.
  3. Ci gaba da daidaitawa ga canza buƙatun kasuwanci - Ya kamata a tsara tsarin kayan gabaɗaya ba kawai la'akari da yuwuwar haɓakawa ba, amma tare da tsammanin cewa jagorar wannan faɗaɗa ta gaba ba za a iya yin mafarkin a matakin ƙira ba.

Kuma a, saduwa da duk waɗannan buƙatun a cikin tsarin ɗaya yana yiwuwa (ba shakka, a wasu lokuta kuma tare da wasu ajiyar kuɗi).

A ƙasa zan yi la'akari da biyu daga cikin shahararrun hanyoyin ƙirar agile don ɗakunan ajiya na bayanai - Samfurin anka и Data Vault. Hagu daga cikin brackets irin waɗannan kyawawan fasahohi ne kamar, alal misali, EAV, 6NF (a cikin tsarkakakken tsari) da duk abin da ke da alaƙa da mafita na NoSQL - ba saboda sun kasance mafi muni ba, kuma ba ma saboda a wannan yanayin labarin zai yi barazanar siye. ƙarar matsakaicin disser. Kawai duk wannan yana da alaƙa da mafita na ɗan ƙaramin aji - ko dai ga dabarun da zaku iya amfani da su a cikin takamaiman yanayi, ba tare da la'akari da tsarin gine-ginen aikin ku ba (kamar EAV), ko zuwa sauran sigogin ajiyar bayanai na duniya (kamar bayanan bayanan hoto). da sauran zaɓuɓɓukan NoSQL).

Matsalolin tsarin "na gargajiya" da mafitarsu a cikin hanyoyin sassauƙa

Ta hanyar "na gargajiya" ina nufin tsohuwar tauraro mai kyau (ko da kuwa takamaiman aiwatar da matakan da ke ƙasa, bari mabiyan Kimball, Inmon da CDM su gafarta mini).

1. M cardinality na haɗi

Wannan samfurin ya dogara ne akan fayyace rarraba bayanai a ciki Girma и gaskiya. Kuma wannan, tsine shi, yana da ma'ana - bayan haka, nazarin bayanai a cikin mafi yawan lokuta ya zo ne zuwa nazarin wasu alamomi na lambobi (gaskiya) a wasu sassan (girma).

A wannan yanayin, an kafa haɗin kai tsakanin abubuwa a cikin nau'i na dangantaka tsakanin tebur ta amfani da maɓallin waje. Wannan ya dubi quite na halitta, amma nan da nan take kaiwa zuwa farkon iyakancewar sassauci - m ma'anar kadinality na haɗi.

Wannan yana nufin cewa a matakin zane na tebur, dole ne ku ƙayyade daidai ga kowane nau'i na abubuwa masu alaƙa ko za su iya danganta da yawa-zuwa-da yawa, ko kawai 1-zuwa-yawa, da kuma "a wace hanya". Wannan kai tsaye yana ƙayyade ko wane tebur zai sami maɓallin farko kuma wanda zai sami maɓallin ketare. Canza wannan hali lokacin da aka karɓi sabbin buƙatu zai iya haifar da sake yin aikin tushe.

Misali, lokacin zayyana abin “rasidin kuɗi”, ku, dogaro da rantsuwar sashen tallace-tallace, kun ƙaddamar da yuwuwar aiwatarwa. gabatarwa guda ɗaya don wurare masu yawa (amma ba akasin haka ba):

Bayanin Hanyoyin Zane na Agile DWH
Kuma bayan wani lokaci, abokan aiki sun gabatar da sabon dabarun tallan tallace-tallace wanda za su iya aiki a kan matsayi ɗaya tallace-tallace da yawa a lokaci guda. Kuma yanzu kuna buƙatar gyara tebur ta hanyar raba dangantakar cikin wani abu daban.

(Duk abubuwan da aka samo waɗanda aka haɗa rajistan talla a yanzu suma suna buƙatar haɓakawa).

Bayanin Hanyoyin Zane na Agile DWH
Dangantaka a cikin Data Vault da Anchor Model

Gujewa wannan yanayin ya zama mai sauƙi: ba dole ba ne ku amince da sashin tallace-tallace don yin wannan. An fara adana duk haɗin gwiwa a cikin tebur daban kuma sarrafa shi da yawa-zuwa-yawa.

An ba da shawarar wannan hanyar Dan Linstedt a matsayin wani bangare na tsarin Data Vault da cikakken goyon baya Lars Rönnbäck ne в Model Anchor.

A sakamakon haka, muna samun siffa ta farko ta sassauƙan hanyoyin:

Dangantaka tsakanin abubuwa ba a adana su cikin halayen mahallin iyaye, amma nau'in abu ne daban.

В Data Vault Ana kiran irin waɗannan tebur masu haɗawa link, kuma cikin Model Anchor - kunnen doki. A kallo na farko, suna kama da juna, kodayake bambance-bambancen su bai ƙare da sunan ba (wanda za a tattauna a kasa). A cikin duka gine-ginen, teburin haɗin gwiwa na iya haɗawa kowane adadin ƙungiyoyi (ba lallai bane 2).

Wannan sakewa, a kallon farko, yana ba da gagarumin sassauci don gyare-gyare. Irin wannan tsarin ya zama mai jurewa ba kawai ga canje-canje a cikin manyan hanyoyin haɗin yanar gizo ba, har ma da ƙari na sababbi - idan yanzu matsayi na rajista kuma yana da hanyar haɗi zuwa mai karɓar kuɗi wanda ya karya ta, bayyanar irin wannan hanyar haɗin za ta kasance kawai. zama ƙari akan teburi masu wanzuwa ba tare da shafar kowane abu da tsari na yanzu ba.

Bayanin Hanyoyin Zane na Agile DWH

2. Kwafin bayanai

Matsala ta biyu da aka warware ta hanyar sassauƙan gine-ginen ba ta fito fili ba kuma tana da asali a farkon wuri. nau'in SCD2 ma'auni (a hankali canza girman nau'in na biyu), kodayake ba kawai su ba.

A cikin babban ma'ajin ajiya, girma yawanci tebur ne da ke ɗauke da maɓallin maye (a matsayin PK) da saitin maɓallan kasuwanci da sifofi a cikin ginshiƙai daban-daban.

Bayanin Hanyoyin Zane na Agile DWH

Idan girma yana goyan bayan sigar, ana ƙara iyakokin ingancin sigar zuwa daidaitaccen saitin filayen, kuma nau'ikan iri da yawa suna bayyana a cikin ma'ajiya na jere ɗaya a cikin tushen (ɗaya don kowane canji a sifofin da aka ƙirƙira).

Idan girma ya ƙunshi aƙalla sifa mai amfani akai-akai, yawan sigogin irin wannan yanayin zai zama mai ban sha'awa ko kuma taɓa canzawa), kuma idan akwai waɗannan halayen, adadin juyi na iya girma da yawa daga adadin su. Wannan girman na iya ɗaukar sararin faifai mai yawa, kodayake yawancin bayanan da yake adanawa kwafi ne kawai na ƙimar sifa mara canzawa daga wasu layuka.

Bayanin Hanyoyin Zane na Agile DWH

A lokaci guda kuma, ana amfani da shi sosai deormalization - wasu sifofi ana adana su da gangan azaman ƙima, kuma ba azaman hanyar haɗi zuwa littafin tunani ko wani girma ba. Wannan tsarin yana hanzarta samun damar bayanai, yana rage adadin masu shiga lokacin samun damar girma.

Yawanci wannan yana kaiwa zuwa ana adana bayanai iri ɗaya a lokaci guda a wurare da yawa. Alal misali, bayanai game da yankin zama da abokin ciniki category za a iya lokaci guda adana a cikin "Client" girma da kuma "Saya", "Isarwa" da "Kira Center Kira", kazalika a cikin "Client - Client Manager". ” tebur tebur.

Gabaɗaya, abin da aka bayyana a sama ya shafi ma'auni na yau da kullun (wanda ba a haɗa shi ba), amma a cikin waɗanda aka ƙirƙira suna iya samun ma'auni daban-daban: bayyanar sabon sigar wani abu (musamman a baya) yana kaiwa ba kawai ga sabuntawar duk abin da ke da alaƙa ba. Tables, amma ga cascading bayyanar sabon versions na abubuwa masu dangantaka - lokacin da aka yi amfani da Table 1 don gina Table 2, da kuma Table 2 da ake amfani da su gina Table 3, da dai sauransu. Ko da ba sifa guda ɗaya na Table 1 ba ta shiga cikin ginin Teburin 3 (da sauran halayen Tebura 2 da aka samu daga wasu tushe suna da hannu), ƙaddamar da wannan ginin zai kasance mafi ƙarancin kaiwa ga ƙarin sama da ƙasa, kuma a matsakaicin zuwa ƙari. versions a cikin Table 3. wanda ba shi da dangantaka da shi kwata-kwata, kuma ya kara ƙasa da sarkar.

Bayanin Hanyoyin Zane na Agile DWH

3. Rashin daidaituwa na sake yin aiki

A lokaci guda, kowane sabon kantin sayar da kayayyaki da aka gina bisa tushen wani yana ƙara yawan wuraren da bayanai za su iya "rarrabuwa" lokacin da aka yi canje-canje ga ETL. Wannan, bi da bi, yana haifar da karuwa a cikin rikitarwa (da tsawon lokaci) na kowane bita na gaba.

Idan abin da ke sama ya bayyana tsarin tare da tsarin ETL da ba a canza shi ba, zaku iya rayuwa a cikin irin wannan yanayin - kawai kuna buƙatar tabbatar da cewa an yi sabbin gyare-gyare daidai ga duk abubuwan da ke da alaƙa. Idan sake fasalin ya faru akai-akai, yuwuwar “rasa” haɗin kai da yawa na bazata yana ƙaruwa sosai.

Idan, ban da haka, mun yi la'akari da cewa "versioned" ETL ya fi rikitarwa fiye da "wanda ba shi da shi", zai zama da wahala a guje wa kurakurai yayin sabunta wannan kayan aikin akai-akai.

Adana abubuwa da sifofi a cikin Data Vault da Anchor Model

Hanyar da mawallafa na gine-gine masu sassauƙa suka tsara za a iya tsara su kamar haka:

Wajibi ne a raba abin da ke canzawa daga abin da ya rage. Wato, adana makullin daban da halaye.

Duk da haka, kada mutum ya rikice ba a buga ba sifa da ba canzawa: na farko ba ya adana tarihin canje-canjensa, amma yana iya canzawa (misali, lokacin gyara kuskuren shigarwa ko karɓar sabbin bayanai); na biyun baya canzawa.

Ra'ayoyi sun bambanta akan abin da ainihin za a iya la'akari da shi maras canzawa a cikin Data Vault da Model Anchor.

Daga ra'ayi na gine-gine Data Vault, ana iya la'akari da baya canzawa duka saitin maɓallai - halitta (TIN na kungiyar, samfurin code a cikin tushen tsarin, da dai sauransu) da kuma maye. A wannan yanayin, za a iya raba sauran halayen zuwa rukuni bisa ga tushen da / ko yawan canje-canje da Kula da tebur daban don kowane rukuni tare da saitin sigogi masu zaman kansu.

A cikin tsarin Model Anchor la'akari ba canzawa maɓallin maye kawai jigon. Komai (ciki har da maɓallan halitta) wani lamari ne na musamman na halayensa. Inda duk sifofi masu zaman kansu ne da juna ta tsohuwa, don haka ga kowane sifa a tebur daban.

В Data Vault Ana kiran allunan da ke ɗauke da maɓallan mahalli Hubami. Cibiyoyin sadarwa koyaushe suna ƙunshe da kafaffen saitin filayen:

  • Maɓallan Halayen Halitta
  • Maɓallin maye
  • Hanyar haɗi zuwa tushe
  • Yi rikodin ƙara lokacin

Posts a cikin Hubs Kada ku canza kuma ba su da nau'i. A waje, cibiyoyi sun yi kama da tebur nau'in taswirar ID da ake amfani da su a wasu tsarin don samar da masu maye, duk da haka, ana ba da shawarar amfani da zanta daga saitin maɓallan kasuwanci azaman masu maye a cikin Data Vault. Wannan hanyar tana sauƙaƙe alaƙar ɗorawa da sifofi daga tushe (babu buƙatar shiga cibiyar don samun maye, kawai ƙididdige zaton maɓalli na halitta), amma na iya haifar da wasu matsalolin (misali, ga karo, harka da waɗanda ba za a iya bugawa ba). haruffa a cikin maɓallan kirtani, da sauransu.p.), don haka ba a yarda da shi gabaɗaya ba.

Ana adana duk wasu halayen mahalli a cikin tebur na musamman da ake kira Tauraron dan adam. Cibiya ɗaya na iya samun tauraron dan adam da yawa da ke adana nau'ikan halaye daban-daban.

Bayanin Hanyoyin Zane na Agile DWH

Rarraba halayen tsakanin tauraron dan adam yana faruwa ne bisa ka'ida canjin haɗin gwiwa - a cikin wani tauraron dan adam za a iya adana halayen da ba a siffanta su ba (misali, ranar haihuwa da SNILS ga mutum), a cikin wani - da wuya canza nau'ikan nau'ikan (misali, sunan karshe da lambar fasfo), a cikin na uku - masu canzawa akai-akai. (misali, adireshin bayarwa, nau'in, kwanan watan oda na ƙarshe, da sauransu). A wannan yanayin, ana aiwatar da sigar ta a matakin tauraron dan adam guda ɗaya, kuma ba mahaɗan gaba ɗaya ba, don haka yana da kyau a rarraba sifofin don haɗuwar juzu'i a cikin tauraron dan adam guda ɗaya ya kasance kaɗan (wanda ke rage adadin adadin da aka adana). ).

Har ila yau, don inganta tsarin loda bayanai, halayen da aka samo daga wurare daban-daban ana haɗa su a cikin tauraron dan adam guda ɗaya.

Tauraron dan adam suna sadarwa tare da Hub ta hanyar mabudin kasashen waje (wanda yayi daidai da 1-zuwa-yawan kadinality). Wannan yana nufin cewa ƙimar sifa da yawa (misali, lambobin waya da yawa don abokin ciniki ɗaya) suna samun goyan bayan wannan tsarin gine-gine na “tsoho”.

В Model Anchor Tables da ke adana makullin ana kiran su Anchors. Kuma suna kiyaye:

  • Maɓallan maye kawai
  • Hanyar haɗi zuwa tushe
  • Yi rikodin ƙara lokacin

Ana la'akari da maɓallan halitta daga ra'ayi na Model Anchor halaye na yau da kullun. Wannan zaɓin na iya zama kamar ya fi wahalar fahimta, amma yana ba da ƙarin iyaka don gano abin.

Bayanin Hanyoyin Zane na Agile DWH

Misali, idan bayanai game da mahalli guda na iya fitowa daga tsarin daban-daban, kowannensu yana amfani da nasa maɓalli na halitta. A cikin Data Vault, wannan na iya haifar da ƙaƙƙarfan tsari na cibiyoyi da yawa (ɗaya kowace tushe + sigar haɗin kai), yayin da a cikin ƙirar Anchor, maɓallin halitta na kowane tushe ya faɗi cikin sifofinsa kuma ana iya amfani da shi lokacin yin lodi da kansa. duk sauran.

Amma kuma akwai wata ma'ana mai ma'ana a nan: idan an haɗa sifofi daga tsarin daban-daban a cikin mahalli ɗaya, wataƙila akwai wasu. dokokin "gluing", wanda tsarin dole ne ya fahimci cewa bayanan daga tushe daban-daban sun dace da misali ɗaya na mahallin.

В Data Vault waɗannan dokokin za su fi dacewa su ƙayyade samuwar “Cibiyar maye” na babban mahallin kuma ba ta kowace hanya ta yi tasiri ga Hubs ɗin da ke adana maɓallan tushen asali da halayensu na asali. Idan a wani lokaci ƙa'idodin haɗakarwa sun canza (ko kuma an sabunta halayen da ake aiwatar da su), zai isa a sake fasalin wuraren maye gurbin.

В Samfurin anka Irin wannan mahallin zai fi yiwuwa a adana shi a ciki kawai anga. Wannan yana nufin cewa dukkan sifofi, ko ta wane tushe suka fito, za a daure su da makwafi guda. Rarraba bayanan da aka haɗa cikin kuskure kuma, a gaba ɗaya, lura da mahimmancin haɗakarwa a cikin irin wannan tsarin zai iya zama da wahala sosai, musamman idan ƙa'idodin sun kasance masu rikitarwa kuma suna canzawa akai-akai, kuma ana iya samun sifa iri ɗaya daga maɓuɓɓuka daban-daban (ko da yake yana da tabbas. mai yiwuwa, tunda kowane sigar sifa tana riƙe hanyar haɗi zuwa tushen sa).

A kowane hali, idan tsarin ku ya kamata ya aiwatar da ayyukan cirewa, haɗa bayanan da sauran abubuwan MDM, yana da kyau a ba da kulawa ta musamman ga bangarorin adana maɓallan halitta a cikin hanyoyin agile. Wataƙila ƙirar Data Vault mai girma za ta zama mafi aminci kwatsam dangane da kurakuran haɗaka.

Samfurin anka Hakanan yana ba da ƙarin nau'in abu da ake kira Kulli yana da gaske na musamman degenerate irin anka, wanda zai iya ƙunsar sifa ɗaya kawai. Ya kamata a yi amfani da nodes ɗin don adana kundin adireshi (misali, jinsi, matsayin aure, rukunin sabis na abokin ciniki, da sauransu). Sabanin Anchor, Knot ba shi da teburin sifa masu alaƙa, kuma sifa (sunansa) kawai ana adana shi koyaushe a cikin tebur ɗaya tare da maɓalli. An haɗa nodes zuwa Anchors ta hanyar tebur na ɗaure (Tie) kamar yadda aka haɗa Anchors da juna.

Babu takamaiman ra'ayi game da amfani da Nodes. Misali, Nikolay Golov, wanda ke haɓaka yin amfani da Model Anchor a Rasha, ya yi imanin (ba tare da dalili ba) cewa don ba littafi guda ɗaya ba za a iya bayyana shi da tabbaci cewa koyaushe zai kasance a tsaye kuma mataki-daya, don haka yana da kyau a yi amfani da cikakken Anchor nan da nan don duk abubuwa.

Wani muhimmin bambanci tsakanin Data Vault da samfurin Anchor shine samuwa halayen haɗin gwiwa:

В Data Vault Hanyoyin haɗi abubuwa iri ɗaya ne masu cikakken iko kamar Hubs, kuma suna iya samun su nasu halayen. A Samfurin anka Ana amfani da hanyoyin haɗin kai kawai don haɗa Anchors da ba za su iya samun nasu halayen ba. Wannan bambance-bambance yana haifar da mahimman hanyoyin ƙirar ƙira gaskiya, wanda za a kara tattaunawa.

Ma'ajiyar gaskiya

Kafin wannan, mun yi magana musamman game da ƙirar ƙira. Gaskiyar ta ɗan ƙaranci.

В Data Vault abu na yau da kullun don adana bayanai shine mahada, wanda a cikin tauraron dan adam an ƙara alamun gaske.

Wannan tsarin yana kama da ilhama. Yana ba da damar sauƙi ga alamomin da aka bincika kuma gabaɗaya yana kama da tebur na gaskiya na al'ada (kawai ana adana alamun ba a cikin teburin kanta ba, amma a cikin "maƙwabta" ɗaya). Amma akwai kuma ramummuka: daya daga cikin gyare-gyare na yau da kullum na samfurin - fadada maɓallin gaskiya - wajibi ne. ƙara sabon maɓalli na waje zuwa Link. Kuma wannan, bi da bi, "karya" yanayin yanayin kuma yana iya haifar da buƙatar gyare-gyare zuwa wasu abubuwa.

В Samfurin anka Haɗin ba zai iya samun halayen kansa ba, don haka wannan hanyar ba za ta yi aiki ba - ƙwaƙƙwaran duk sifofi da alamomi dole ne a haɗa su da takamaiman anka. Ƙarshe daga wannan abu ne mai sauƙi - Kowace hujja kuma tana buƙatar anka. Ga wasu daga cikin abubuwan da muka saba fahimta a matsayin gaskiya, wannan na iya zama na halitta - alal misali, ana iya rage gaskiyar sayan daidai zuwa abu “oda” ko “rasit”, ziyartar rukunin yanar gizo zuwa zama, da sauransu. Amma akwai kuma abubuwan da ba shi da sauƙi don samun irin wannan "abu mai ɗaukar kaya" na halitta - alal misali, ragowar kayayyaki a cikin ɗakunan ajiya a farkon kowace rana.

Saboda haka, matsaloli tare da modularity lokacin faɗaɗa maɓallin gaskiya a cikin ƙirar Anchor ba ta taso (ya isa kawai ƙara sabon Dangantaka ga Anchor madaidaici), amma ƙirƙira ƙirar don nuna gaskiya ba ta da tabbas; “Artificial” Anchors na iya bayyana wanda ke nuna samfurin abu na kasuwanci ta hanya mara kyau.

Yadda ake samun sassauci

Sakamakon ginin da aka samu a cikin lokuta biyu ya ƙunshi muhimmanci more Tablesfiye da ma'aunin gargajiya. Amma yana iya ɗauka muhimmanci kasa faifai sarari tare da saitin sifofi iri ɗaya kamar na al'ada. A zahiri, babu sihiri a nan - duk game da al'ada ne. Ta hanyar rarraba halaye a cikin Tauraron Dan Adam (a cikin Data Vault) ko tebur na kowane mutum (Anchor Model), muna rage (ko kawar da gaba ɗaya) Kwafin dabi'u na wasu halaye yayin canza wasu.

domin Data Vault nasarar za ta dogara ne akan rarraba halaye tsakanin Tauraron Dan Adam, da kuma Samfurin anka - kusan kai tsaye ya yi daidai da matsakaicin adadin nau'ikan kowane abu na aunawa.

Duk da haka, tanadin sararin samaniya yana da mahimmanci, amma ba babban abu ba, fa'idar adana halaye daban. Tare da keɓanta ma'ajiyar alaƙa, wannan hanyar tana sa shagon na zamani zane. Wannan yana nufin cewa ƙara duka halayen mutum da duka sabbin wuraren da ke cikin irin wannan samfurin yayi kama superstructure akan saitin abubuwan da ke akwai ba tare da canza su ba. Kuma wannan shine ainihin abin da ke sa hanyoyin da aka kwatanta su zama sassauƙa.

Wannan kuma yayi kama da sauyawa daga samar da yanki zuwa samar da taro - idan a cikin tsarin al'ada kowane tebur na samfurin ya zama na musamman kuma yana buƙatar kulawa ta musamman, to, a cikin hanyoyin sassauƙa, ya riga ya kasance saitin daidaitattun "sassa". A gefe guda, akwai ƙarin allunan, kuma matakai na lodawa da dawo da bayanai yakamata su yi kama da rikitarwa. A daya bangaren kuma, sun zama na hali. Wato yana iya yiwuwa atomatik da kuma metadata kore. Tambayar "ta yaya za mu shimfiɗa shi?", Amsar da za ta iya ɗaukar wani muhimmin bangare na aikin don tsara gyare-gyare, yanzu ba ta da daraja (da kuma tambaya game da tasirin canza samfurin akan hanyoyin aiki). ).

Wannan ba yana nufin cewa ba a buƙatar manazarta a cikin irin wannan tsarin kwata-kwata - har yanzu wani ya yi aiki ta hanyar saitin abubuwa tare da halaye kuma ya gano inda kuma yadda za a loda shi duka. Amma adadin aikin, da yiwuwar da kuma farashin kuskure, an rage su sosai. Dukansu a matakin bincike da kuma lokacin haɓaka ETL, wanda a cikin wani muhimmin sashi za a iya rage shi zuwa gyara metadata.

Gashi mai duhu

Duk abubuwan da ke sama suna sa duka hanyoyin biyu su kasance masu sassauƙa da gaske, ci gaba da fasaha kuma sun dace da haɓaka juzu'i. Tabbas, akwai kuma "ganga a cikin maganin shafawa", wanda ina tsammanin za ku iya rigaya tsammani.

Rushewar bayanai, wanda ke ƙunshe da ƙayyadaddun tsarin gine-gine masu sassauƙa, yana haifar da haɓakar adadin tebur kuma, daidai da haka, sama-sama don shiga lokacin yin samfur. Domin kawai samun duk sifofin girma, a cikin kantin kayan gargajiya zaɓi ɗaya ya isa, amma sassauƙan gine-ginen zai buƙaci cikakken jerin haɗin gwiwa. Bugu da ƙari, idan duk waɗannan haɗin gwiwar za a iya rubutawa a gaba, to, manazarta waɗanda suka saba rubuta SQL da hannu za su sha wahala sau biyu.

Akwai abubuwa da yawa da suka sauƙaƙa wannan yanayin:

Lokacin aiki tare da manyan girma, duk halayensa ba a taɓa yin amfani da su a lokaci ɗaya ba. Wannan yana nufin cewa ƙila a sami ƙarancin haɗin kai fiye da yadda ake gani a farkon kallon samfurin. Data Vault kuma na iya yin la'akari da mitar rabawa da ake tsammanin lokacin da ake keɓance sifofi ga tauraron dan adam. A lokaci guda, Hubs ko Anchors da kansu ana buƙatar farko don ƙirƙira da tsara taswira a matakin lodi kuma ba safai ake amfani da su a cikin tambayoyin (wannan gaskiya ne musamman ga Anchors).

Duk abubuwan haɗin suna ta maɓalli. Bugu da kari, hanyar adana bayanai da ta fi “matsi” tana rage saman tebur na duba inda ake bukata (misali, lokacin tacewa ta hanyar sifa). Wannan na iya haifar da gaskiyar cewa yin samfuri daga tsarin bayanai na al'ada tare da tarin haɗin gwiwa zai yi sauri fiye da duban nauyi ɗaya mai nauyi tare da nau'ikan nau'ikan da yawa a jere.

Misali, a nan wannan Labarin ya ƙunshi cikakken gwajin kwatancen aikin ƙirar Anchor tare da samfurin daga tebur ɗaya.

Yawancin ya dogara da injin. Yawancin dandamali na zamani suna da hanyoyin haɓaka haɗin gwiwa na ciki. Misali, MS SQL da Oracle na iya “tsalle” shiga cikin teburi idan ba a yi amfani da bayanansu a ko’ina ba sai dai ga sauran haɗin kai kuma baya shafar zaɓi na ƙarshe (cirewa tebur/haɗin kai), da MPP Vertica. kwarewar abokan aiki daga Avito, ya tabbatar da zama injuna mai kyau don Model Anchor, da aka ba da wasu ingantawa na tsarin tambaya. A gefe guda, adana Model Anchor, alal misali, akan Click House, wanda ke da iyakacin tallafin haɗin gwiwa, bai yi kama da kyakkyawan ra'ayi ba.

Bugu da kari, ga duka gine-gine akwai motsi na musamman, Samar da samun sauƙin bayanai (dukansu daga yanayin aikin tambaya da masu amfani na ƙarshe). Misali, Tebur-In-Lokaci a cikin Data Vault ko ayyuka na tebur na musamman a cikin tsarin Anchor.

Jimlar

Babban mahimmancin la'akari da gine-gine masu sassauƙa shine yanayin yanayin "tsarin su".

Wannan dukiya ce ke ba da izini:

  • Bayan wasu shirye-shiryen farko da suka danganci tura metadata da rubuta ainihin ETL algorithms, da sauri ba abokin ciniki sakamakon farko a cikin nau'ikan rahotanni guda biyu masu ɗauke da bayanai daga wasu abubuwa kaɗan kawai. Ba lallai ba ne a yi tunani gaba ɗaya (har ma a matakin sama) duka samfurin abu.
  • Samfurin bayanai na iya fara aiki (kuma yana da amfani) tare da abubuwa 2-3 kawai, sannan girma a hankali (Game da samfurin Anchor Nikolai amfani kyau kwatanta da mycelium).
  • Yawancin haɓakawa, gami da faɗaɗa yankin batun da ƙara sabbin tushe baya shafar ayyukan da ake da su kuma baya haifar da haɗarin karya wani abu da ke aiki.
  • Godiya ga bazuwa cikin daidaitattun abubuwa, hanyoyin ETL a cikin irin waɗannan tsarin suna kama da juna, rubuce-rubucen su suna ba da kansu ga algorithmization kuma, a ƙarshe, sarrafa kansa.

Farashin wannan sassauci shine yi. Wannan ba yana nufin cewa ba shi yiwuwa a cimma karbuwar aiki akan irin waɗannan samfuran. Mafi sau da yawa, ƙila kawai kuna buƙatar ƙarin ƙoƙari da kulawa ga daki-daki don cimma ma'aunin da kuke so.

Приложения

Nau'in mahallin Data Vault

Bayanin Hanyoyin Zane na Agile DWH

Ƙarin bayani game da Data Vault:
Dan Lystadt's website
Duk game da Data Vault a cikin Rashanci
Game da Data Vault akan Habré

Nau'in mahallin Model Anchor

Bayanin Hanyoyin Zane na Agile DWH

Karin bayani game da Model Anchor:

Yanar Gizo na masu ƙirƙirar Anchor Model
Labarin game da ƙwarewar aiwatar da Model Anchor a Avito

Teburin taƙaitawa tare da fasali gama gari da bambance-bambancen hanyoyin da aka yi la'akari:

Bayanin Hanyoyin Zane na Agile DWH

source: www.habr.com

Add a comment