Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Kab lus no yog kev txhais lus ntawm kuv tsab xov xwm ntawm nruab nrab - Pib nrog Data Lake, uas tau los ua nrov heev, tej zaum vim nws qhov yooj yim. Yog li ntawd, kuv txiav txim siab sau nws ua lus Lavxias thiab ntxiv me ntsis kom paub meej rau tus neeg zoo tib yam uas tsis yog tus kws tshaj lij cov ntaub ntawv dab tsi lub tsev khaws ntaub ntawv (DW) yog dab tsi, thiab cov ntaub ntawv pas dej yog dab tsi (Data Lake), thiab lawv li cas. sib koom ua ke.

Vim li cas kuv thiaj xav sau txog cov ntaub ntawv pas dej? Kuv tau ua haujlwm nrog cov ntaub ntawv thiab kev tshuaj xyuas ntau dua 10 xyoo, thiab tam sim no kuv tau ua haujlwm nrog cov ntaub ntawv loj ntawm Amazon Alexa AI hauv Cambridge, uas nyob hauv Boston, txawm hais tias kuv nyob hauv Victoria ntawm Vancouver Island thiab feem ntau mus xyuas Boston, Seattle. , thiab Hauv Vancouver, thiab qee zaum txawm nyob hauv Moscow, kuv hais lus ntawm cov rooj sib tham. Kuv kuj sau qee lub sij hawm, tab sis kuv sau feem ntau yog lus Askiv, thiab kuv tau sau lawm tej phau ntawv, Kuv kuj muaj qhov xav tau los qhia cov kev txheeb xyuas los ntawm North America, thiab qee zaum kuv sau rau hauv xov tooj.

Kuv ib txwm ua haujlwm nrog cov ntaub ntawv khaws cia, thiab txij li xyoo 2015 kuv tau pib ua haujlwm ze nrog Amazon Web Services, thiab feem ntau hloov mus rau huab analytics (AWS, Azure, GCP). Kuv tau soj ntsuam cov kev hloov pauv ntawm kev tshuaj ntsuam kev daws teeb meem txij li xyoo 2007 thiab txawm tias ua haujlwm rau cov ntaub ntawv chaw muag khoom Teradata thiab siv nws ntawm Sberbank, thiab yog thaum Cov Ntaub Ntawv Loj nrog Hadoop tshwm sim. Txhua leej txhua tus tau pib hais tias lub sijhawm ntawm kev khaws cia tau dhau mus thiab tam sim no txhua yam nyob ntawm Hadoop, thiab tom qab ntawd lawv pib tham txog Data Lake, dua, tias tam sim no qhov kawg ntawm cov ntaub ntawv khaws cia tau los tiag tiag. Tab sis hmoov zoo (tej zaum hmoov tsis zoo rau qee tus uas tau txais nyiaj ntau los teeb tsa Hadoop), cov ntaub ntawv warehouse tsis ploj mus.

Hauv tsab xov xwm no peb yuav saib seb lub pas dej cov ntaub ntawv yog dab tsi. Kab lus no yog npaj rau cov neeg uas muaj tsawg lossis tsis muaj kev paub txog cov ntaub ntawv warehouses.

Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Hauv daim duab yog Lake Bled, qhov no yog ib lub pas dej uas kuv nyiam tshaj plaws, txawm tias kuv nyob ntawd tsuas yog ib zaug xwb, kuv nco txog nws mus tas kuv lub neej. Tab sis peb yuav tham txog lwm hom pas dej - cov ntaub ntawv pas dej. Tej zaum ntau ntawm koj twb tau hnov ​​​​txog lo lus no ntau dua ib zaug, tab sis ib qho ntxiv txhais yuav tsis ua mob rau leej twg.

Ua ntej tshaj plaws, ntawm no yog cov ntsiab lus nrov tshaj plaws ntawm Data Lake:

"ib cov ntaub ntawv khaws cia ntawm txhua hom ntaub ntawv nyoos uas muaj rau kev tshuaj xyuas los ntawm ib tus neeg hauv lub koom haum" - Martin Fowler.

"Yog tias koj xav tias lub tsev khaws ntaub ntawv yog lub raj mis dej - huv, ntim thiab ntim rau kev siv yooj yim, ces lub pas dej cov ntaub ntawv yog lub pas dej loj loj hauv nws daim ntawv ntuj. Cov neeg siv, Kuv tuaj yeem sau dej rau kuv tus kheej, dhia dej tob, tshawb nrhiav " - James Dixon.

Tam sim no peb paub tseeb tias lub pas dej cov ntaub ntawv yog hais txog kev txheeb xyuas, nws tso cai rau peb khaws cov ntaub ntawv ntau hauv nws daim ntawv qub thiab peb muaj qhov tsim nyog thiab yooj yim nkag mus rau cov ntaub ntawv.

Kuv feem ntau nyiam ua kom yooj yim, yog tias kuv tuaj yeem piav qhia cov ntsiab lus nyuaj hauv cov lus yooj yim, ces kuv nkag siab rau kuv tus kheej nws ua haujlwm li cas thiab nws xav tau dab tsi. Muaj ib hnub, kuv tau poking ib ncig ntawm lub iPhone duab gallery, thiab nws kaj ntug rau kuv, qhov no yog ib tug tiag tiag cov ntaub ntawv pas dej, kuv txawm ua ib tug swb rau cov rooj sib tham:

Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Txhua yam yog yooj yim heev. Peb thaij duab hauv xov tooj, daim duab tau txais kev cawmdim hauv xov tooj thiab tuaj yeem khaws cia rau hauv iCloud (cuab cov ntaub ntawv khaws cia). Lub xov tooj kuj sau cov duab metadata: dab tsi yog qhia, geo tag, sijhawm. Raws li qhov tshwm sim, peb tuaj yeem siv tus neeg siv-phooj ywg interface ntawm iPhone kom pom peb cov duab thiab peb txawm pom cov cim qhia, piv txwv li, thaum kuv tshawb nrhiav cov duab nrog lo lus hluav taws, kuv pom 3 daim duab nrog cov duab hluav taws. Rau kuv, qhov no zoo ib yam li Kev Tshawb Fawb Kev Lag Luam uas ua haujlwm sai thiab raug.

Thiab tau kawg, peb yuav tsum tsis txhob hnov ​​​​qab txog kev ruaj ntseg (kev tso cai thiab kev lees paub), txwv tsis pub peb cov ntaub ntawv tuaj yeem yooj yim xaus rau hauv pej xeem sau. Muaj ntau cov xov xwm hais txog cov tuam txhab loj thiab cov lag luam pib uas nws cov ntaub ntawv tau tshaj tawm rau pej xeem vim qhov tsis saib xyuas ntawm cov neeg tsim khoom thiab tsis ua raws li cov cai yooj yim.

Txawm hais tias daim duab yooj yim no pab peb xav txog seb lub pas dej cov ntaub ntawv yog dab tsi, nws qhov sib txawv ntawm lub tsev khaws ntaub ntawv ib txwm muaj thiab nws cov ntsiab lus tseem ceeb:

  1. Chaw thau khoom (Ingestion) yog ib qho tseem ceeb ntawm cov ntaub ntawv pas dej. Cov ntaub ntawv tuaj yeem nkag mus rau hauv cov ntaub ntawv warehouse hauv ob txoj kev - batch (loading ntawm ntu) thiab streaming (cov ntaub ntawv ntws).
  2. Cov ntaub ntawv cia (Storage) yog qhov tseem ceeb ntawm Data Lake. Peb xav tau qhov chaw cia kom yooj yim scalable, tsis tshua muaj kev ntseeg siab, thiab tus nqi qis. Piv txwv li, hauv AWS nws yog S3.
  3. Catalog thiab Nrhiav (Catalog thiab Tshawb Nrhiav) - txhawm rau kom peb zam cov ntaub ntawv Swamp (qhov no yog thaum peb muab tag nrho cov ntaub ntawv pov tseg hauv ib pawg, thiab tom qab ntawd nws tsis tuaj yeem ua haujlwm nrog nws), peb yuav tsum tsim cov txheej txheem metadata los faib cov ntaub ntawv. kom cov neeg siv tuaj yeem nrhiav tau cov ntaub ntawv yooj yim, uas lawv xav tau kev tshuaj xyuas. Tsis tas li ntawd, koj tuaj yeem siv cov kev tshawb nrhiav ntxiv xws li ElasticSearch. Kev tshawb nrhiav pab tus neeg siv pom cov ntaub ntawv xav tau los ntawm kev siv tus phooj ywg interface.
  4. Ua (Process) - Cov kauj ruam no yog lub luag haujlwm rau kev ua thiab hloov cov ntaub ntawv. Peb tuaj yeem hloov cov ntaub ntawv, hloov nws cov qauv, ntxuav nws, thiab ntau ntxiv.
  5. Kev ruaj ntseg (Security) - Nws yog ib qho tseem ceeb uas yuav tau siv sij hawm los tsim kev ruaj ntseg ntawm kev daws teeb meem. Piv txwv li, cov ntaub ntawv encryption thaum khaws cia, ua thiab thauj khoom. Nws yog ib qho tseem ceeb uas yuav tau siv cov kev lees paub thiab kev tso cai. Thaum kawg, yuav tsum muaj cov cuab yeej tshawb xyuas.

Los ntawm cov tswv yim pom zoo, peb tuaj yeem ua tus yam ntxwv ntawm cov ntaub ntawv pas dej los ntawm peb tus cwj pwm:

  1. Sau thiab khaws txhua yam - lub pas dej cov ntaub ntawv muaj tag nrho cov ntaub ntawv, ob qho tib si raw cov ntaub ntawv tsis tau ua tiav rau txhua lub sijhawm thiab cov ntaub ntawv ua tiav / ntxuav.
  2. Sib sib zog nqus Scan - lub pas dej cov ntaub ntawv tso cai rau cov neeg siv tshawb nrhiav thiab txheeb xyuas cov ntaub ntawv.
  3. Yooj yim nkag - Lub pas dej cov ntaub ntawv muab kev nkag tau yooj yim rau cov ntaub ntawv sib txawv thiab cov xwm txheej sib txawv.

Tam sim no peb tuaj yeem tham txog qhov sib txawv ntawm lub tsev khaws ntaub ntawv thiab lub pas dej cov ntaub ntawv. Feem ntau cov neeg nug:

  • Yuav ua li cas yog cov ntaub ntawv warehouse?
  • Puas yog peb hloov lub tsev khaws ntaub ntawv nrog lub pas dej cov ntaub ntawv lossis puas yog peb nthuav nws?
  • Puas tseem muaj peev xwm ua yam tsis muaj cov ntaub ntawv pas dej?

Hauv luv, tsis muaj lus teb meej. Nws tag nrho yog nyob ntawm qhov xwm txheej tshwj xeeb, kev txawj ntawm pab pawg thiab cov peev nyiaj. Piv txwv li, tsiv teb tsaws chaw khaws ntaub ntawv mus rau Oracle rau AWS thiab tsim cov ntaub ntawv pas dej los ntawm Amazon cov chaw muag khoom - Woot - Peb cov ntaub ntawv pas dej zaj dab neeg: Yuav ua li cas Woot.com ua ib lub pas dej serverless ntawm AWS.

Ntawm qhov tod tes, tus neeg muag khoom Snowflake hais tias koj tsis tas yuav xav txog lub pas dej cov ntaub ntawv, txij li lawv cov ntaub ntawv platform (txog xyoo 2020 nws yog lub tsev khaws ntaub ntawv) tso cai rau koj los ua ke ob lub pas dej thiab cov ntaub ntawv khaws cia. Kuv tsis tau ua haujlwm ntau nrog Snowflake, thiab nws yog ib qho khoom tshwj xeeb uas tuaj yeem ua qhov no. Tus nqi ntawm qhov teeb meem yog lwm qhov teeb meem.

Hauv kev xaus, kuv tus kheej lub tswv yim yog tias peb tseem xav tau lub tsev khaws ntaub ntawv cov ntaub ntawv uas yog lub hauv paus ntawm cov ntaub ntawv rau peb qhov kev tshaj tawm, thiab txhua yam tsis haum peb khaws cia hauv lub pas dej cov ntaub ntawv. Tag nrho lub luag haujlwm ntawm kev tshuaj xyuas yog muab kev nkag tau yooj yim rau kev lag luam los txiav txim siab. Txawm li cas los xij ib tus yuav hais, cov neeg siv kev lag luam ua haujlwm tau zoo dua nrog lub tsev khaws ntaub ntawv ntau dua li cov ntaub ntawv pas dej, piv txwv li hauv Amazon - muaj Redshift (cov ntaub ntawv txheeb xyuas cov khoom lag luam) thiab muaj Redshift Spectrum / Athena (SQL interface rau cov ntaub ntawv pas dej hauv S3 raws li. Hive/Presto). Tib yam siv rau lwm cov ntaub ntawv tshawb fawb niaj hnub no.

Cia peb saib cov ntaub ntawv warehouse niaj hnub:

Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Qhov no yog ib qho kev daws teeb meem classic. Peb muaj cov txheej txheem, siv ETL / ELT peb luam cov ntaub ntawv mus rau hauv cov ntaub ntawv tshuaj ntsuam xyuas thiab txuas mus rau Kev Tshawb Fawb Kev Lag Luam (Kuv nyiam yog Tableau, koj li cas?).

Cov tshuaj no muaj qhov tsis zoo hauv qab no:

  • ETL / ELT cov haujlwm yuav tsum muaj sijhawm thiab cov peev txheej.
  • Raws li txoj cai, lub cim xeeb rau khaws cov ntaub ntawv hauv lub tsev khaws ntaub ntawv txheeb xyuas tsis yog pheej yig (piv txwv li Redshift, BigQuery, Teradata), vim peb yuav tsum tau yuav tag nrho pawg.
  • Cov neeg siv khoom lag luam tau nkag mus rau cov ntaub ntawv huv thiab feem ntau sib sau ua ke thiab tsis muaj kev nkag mus rau cov ntaub ntawv nyoos.

Tau kawg, txhua yam nyob ntawm koj rooj plaub. Yog tias koj tsis muaj teeb meem nrog koj lub tsev khaws ntaub ntawv, ces koj tsis tas yuav muaj cov ntaub ntawv pas dej txhua. Tab sis thaum muaj teeb meem tshwm sim nrog qhov tsis muaj chaw, lub zog, lossis tus nqi ua lub luag haujlwm tseem ceeb, ces koj tuaj yeem xav txog qhov kev xaiv ntawm cov ntaub ntawv pas dej. Qhov no yog vim li cas lub pas dej cov ntaub ntawv yog nrov heev. Ntawm no yog ib qho piv txwv ntawm cov ntaub ntawv pas dej architecture:
Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?
Siv cov ntaub ntawv pas dej mus kom ze, peb thauj cov ntaub ntawv raw rau hauv peb cov ntaub ntawv pas dej (batch lossis streaming), ces peb ua cov ntaub ntawv raws li xav tau. Lub pas dej cov ntaub ntawv tso cai rau cov neeg siv kev lag luam los tsim lawv tus kheej cov ntaub ntawv hloov pauv (ETL / ELT) lossis tshuaj xyuas cov ntaub ntawv hauv Kev Tshawb Fawb Kev Lag Luam (yog tias tsim nyog tsav tsheb muaj).

Lub hom phiaj ntawm txhua qhov kev tshuaj ntsuam xyuas yog los pab cov neeg siv kev lag luam. Yog li ntawd, peb yuav tsum ua haujlwm raws li kev xav tau ntawm kev lag luam. (Ntawm Amazon qhov no yog ib qho ntawm cov hauv paus ntsiab lus - ua haujlwm rov qab).

Ua haujlwm nrog ob lub tsev khaws ntaub ntawv thiab lub pas dej cov ntaub ntawv, peb tuaj yeem sib piv ob qho kev daws teeb meem:

Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Lub ntsiab lus xaus uas tuaj yeem kos tau yog tias cov ntaub ntawv warehouse tsis sib tw nrog cov ntaub ntawv pas dej, tab sis ua kom tiav nws. Tab sis nws yog nyob ntawm koj txiav txim siab seb qhov twg yog qhov zoo rau koj rooj plaub. Nws yog ib txwm nthuav kom sim koj tus kheej thiab kos cov lus xaus.

Kuv kuj xav qhia rau koj txog ib qho xwm txheej thaum kuv pib siv cov ntaub ntawv pas dej mus kom ze. Txhua yam yog qhov tsis tseem ceeb, kuv tau sim siv cov cuab yeej ELT (peb muaj Matillion ETL) thiab Amazon Redshift, kuv cov kev daws teeb meem ua haujlwm, tab sis tsis haum rau cov kev xav tau.

Kuv yuav tsum tau coj lub vev xaib, hloov pauv thiab sib sau ua ke los muab cov ntaub ntawv rau 2 rooj plaub:

  1. Pab pawg ua lag luam xav txheeb xyuas cov haujlwm bot rau SEO
  2. IT xav saib cov kev ntsuas kev ua haujlwm hauv lub vev xaib

Yooj yim heev, yooj yim heev log. Nov yog ib qho piv txwv:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Ib cov ntaub ntawv hnyav 1-4 megabytes.

Tab sis muaj ib qho nyuaj. Peb muaj 7 lub teb chaws thoob ntiaj teb, thiab 7000 txhiab cov ntaub ntawv raug tsim nyob rau hauv ib hnub. Qhov no tsis yog ntau npaum li cas, tsuas yog 50 gigabytes. Tab sis qhov loj ntawm peb pawg Redshift kuj tseem me me (4 nodes). Loading ib cov ntaub ntawv nyob rau hauv ib txwm txoj kev siv li ib feeb. Ntawd yog, qhov teeb meem tsis tau daws lub taub hau. Thiab qhov no yog rooj plaub thaum kuv txiav txim siab siv cov ntaub ntawv pas dej mus kom ze. Txoj kev daws teeb meem zoo li no:

Peb puas xav tau lub pas dej da dej? Yuav ua li cas nrog cov ntaub ntawv warehouse?

Nws yog qhov yooj yim heev (Kuv xav kom nco ntsoov tias qhov zoo ntawm kev ua haujlwm hauv huab yog qhov yooj yim). Kuv siv:

  • AWS Elastic Map Reduce (Hadoop) for Compute Power
  • AWS S3 ua cov ntaub ntawv cia nrog lub peev xwm los encrypt cov ntaub ntawv thiab txwv kev nkag
  • Spark li InMemory suav lub zog thiab PySpark rau logic thiab cov ntaub ntawv hloov pauv
  • Parquet raws li qhov tshwm sim ntawm Spark
  • AWS Glue Crawler ua tus sau metadata txog cov ntaub ntawv tshiab thiab muab faib
  • Redshift Spectrum ua SQL interface rau cov ntaub ntawv pas dej rau cov neeg siv Redshift uas twb muaj lawm

Qhov tsawg tshaj plaws EMR + Spark pawg ua tiav tag nrho pawg ntawm cov ntaub ntawv hauv 30 feeb. Muaj lwm qhov xwm txheej rau AWS, tshwj xeeb tshaj yog muaj feem cuam tshuam nrog Alexa, qhov twg muaj cov ntaub ntawv ntau.

Tsis ntev los no kuv tau kawm ib qho tsis zoo ntawm cov ntaub ntawv pas dej yog GDPR. Qhov teeb meem yog thaum tus neeg thov kom rho tawm thiab cov ntaub ntawv yog nyob rau hauv ib qho ntawm cov ntaub ntawv, peb siv tsis tau cov ntaub ntawv Manipulation Language thiab DELETE ua hauj lwm zoo li nyob rau hauv ib tug database.

Kuv vam tias tsab xov xwm no tau qhia meej qhov txawv ntawm lub tsev khaws ntaub ntawv thiab lub pas dej cov ntaub ntawv. Yog tias koj txaus siab, kuv tuaj yeem txhais ntau yam ntawm kuv cov ntawv lossis cov lus ntawm cov kws tshaj lij uas kuv tau nyeem. Thiab kuj qhia txog cov kev daws teeb meem uas kuv ua haujlwm nrog thiab lawv cov architecture.

Tau qhov twg los: www.hab.com

Ntxiv ib saib