Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Peb nyob hauv lub sijhawm zoo kawg nkaus thaum koj tuaj yeem txuas tau sai thiab yooj yim txuas ntau cov cuab yeej qhib qhib, teeb tsa lawv nrog koj "kev nco qab muab tua" raws li cov lus qhia ntawm stackoverflow, tsis muaj delving rau hauv "ntau tsab ntawv", thiab tso tawm lawv. mus rau kev lag luam kev lag luam. Thiab thaum koj xav tau hloov kho / nthuav tawm lossis ib tus neeg yuam kev rov pib dua ob peb lub tshuab - koj paub tias qee yam kev npau suav phem tau pib, txhua yam tau dhau los ua qhov nyuaj dhau qhov kev lees paub, tsis muaj kev tig rov qab, yav tom ntej tsis meej thiab muaj kev nyab xeeb dua, es tsis txhob programming, yug muv thiab ua cheese.

Nws tsis yog rau tsis muaj dab tsi uas cov npoj yaig paub ntau dua, nrog lawv lub taub hau strewn nrog cov kab thiab yog li ntawd twb grey, xav txog kev xa tawm sai heev ntawm cov pob khoom ntawm "cov thawv" hauv "cubes" ntawm ntau lub servers hauv "fashionable languages" nrog kev txhawb nqa rau asynchronous tsis thaiv I/O, luag nyav modestly. Thiab lawv nyob twj ywm rov nyeem dua "tus txiv neej ps", delve rau hauv "nginx" qhov chaws kom txog thaum lawv ob lub qhov muag los ntshav, thiab sau, sau, sau cov ntawv xeem. Cov npoj yaig paub tias qhov txaus nyiam tshaj plaws yuav los thaum "tag nrho qhov no" ib hnub dhau los ua koom nrog hmo ntuj ntawm Xyoo Tshiab Eve. Thiab lawv tsuas yog yuav pab tau los ntawm kev nkag siab tob txog qhov xwm txheej ntawm unix, lub cim nco txog TCP / IP lub xeev cov lus thiab cov kev txheeb xyuas-kev tshawb nrhiav algorithms. Yuav kom coj lub system rov qab mus rau lub neej raws li lub chimes tawm tsam.

Huag yog, kuv tau txais kev cuam tshuam me ntsis, tab sis kuv vam tias kuv tau tswj xyuas lub xeev ntawm kev cia siab.
Niaj hnub no kuv xav qhia peb cov kev paub dhau los hauv kev siv cov khoom siv yooj yim thiab pheej yig rau DataLake, uas daws cov haujlwm feem ntau ntawm kev txheeb xyuas hauv lub tuam txhab rau kev faib cov qauv sib txawv.

Qee lub sij hawm dhau los, peb tau nkag siab tias cov tuam txhab xav tau cov txiv hmab txiv ntoo ntawm ob qho tib si khoom thiab kev tshuaj ntsuam xyuas (tsis yog hais txog icing ntawm lub ncuav mog qab zib nyob rau hauv daim ntawv ntawm kev kawm tshuab) thiab kom nkag siab txog tiam sis thiab kev pheej hmoo - peb yuav tsum tau sau thiab txheeb xyuas. ntau thiab ntau metrics.

Basic technical analytics hauv Bitrix24

Ob peb xyoos dhau los, ib txhij nrog kev tshaj tawm ntawm Bitrix24 kev pabcuam, peb nquag nqis peev sijhawm thiab cov peev txheej hauv kev tsim lub platform yooj yim thiab txhim khu kev qha uas yuav pab sai sai pom cov teeb meem hauv cov txheej txheem thiab npaj cov kauj ruam tom ntej. Tau kawg, nws raug nquahu kom siv cov cuab yeej ua tiav uas yooj yim thiab nkag siab li sai tau. Raws li qhov tshwm sim, nagios tau raug xaiv los saib xyuas thiab munin rau kev tshuaj xyuas thiab kev pom. Tam sim no peb muaj ntau txhiab daim tshev hauv nagios, ntau pua daim duab hauv munin, thiab peb cov npoj yaig siv lawv ua tiav txhua hnub. Cov kev ntsuas tau pom tseeb, cov duab qhia meej meej, lub kaw lus tau ua haujlwm ntseeg tau ntau xyoo thiab cov kev sim tshiab thiab cov duab tau ntxiv rau nws tsis tu ncua: thaum peb muab cov kev pabcuam tshiab rau kev ua haujlwm, peb ntxiv ntau qhov kev xeem thiab cov duab. Hmoov zoo.

Ntiv tes ntawm Pulse - Advanced Technical Analytics

Lub siab xav tau txais cov ntaub ntawv hais txog cov teeb meem "ntau npaum li sai tau" coj peb mus rau kev sim ua haujlwm nrog cov cuab yeej yooj yim thiab nkag siab - pinba thiab xhprof.

Pinba xa peb cov txheeb cais hauv UDP pob ntawv hais txog qhov ceev ntawm kev ua haujlwm ntawm cov nplooj ntawv web hauv PHP, thiab peb tuaj yeem pom hauv online hauv MySQL cia (Pinba los nrog nws tus kheej MySQL cav rau kev soj ntsuam ceev ceev) cov npe luv ntawm cov teeb meem thiab teb rau lawv. Thiab xhprof cia li tso cai rau peb los sau cov duab ntawm qhov kev ua tiav ntawm cov nplooj ntawv PHP qeeb tshaj plaws los ntawm cov neeg siv khoom thiab tshuaj xyuas seb yuav ua li cas rau qhov no - calmly, nchuav tshuaj yej lossis ib yam dab tsi muaj zog.

Qee lub sij hawm dhau los, cov cuab yeej siv tau ntxiv nrog lwm lub cav yooj yim thiab nkag siab zoo raws li qhov rov qab ntsuas ntsuas algorithm, ua tiav zoo hauv lub tsev qiv ntawv lus dab neeg Lucene - Elastic / Kibana. Lub tswv yim yooj yim ntawm ntau txoj xov kaw ntawm cov ntaub ntawv rau hauv qhov inverse Lucene Performance index raws li cov xwm txheej hauv cov cav thiab kev tshawb nrhiav ceev los ntawm lawv siv facet division ua tau zoo heev.

Txawm hais tias qhov kev pom zoo ntawm kev pom hauv Kibana nrog cov ntsiab lus qis xws li "lub thoob" "kawm nce" thiab cov lus rov ua dua tshiab ntawm qhov tseem tsis tau hnov ​​​​qab txog kev sib raug zoo algebra, cov cuab yeej tau pib pab peb zoo hauv cov haujlwm hauv qab no:

  • Muaj pes tsawg PHP yuam kev ua tus neeg siv khoom Bitrix24 muaj nyob rau ntawm p1 portal hauv teev dhau los thiab qhov twg? Nkag siab, zam txim thiab kho sai sai.
  • Muaj pes tsawg tus hu video tau ua nyob rau hauv lub portals hauv lub teb chaws Yelemees nyob rau hauv 24 teev dhau los, nrog dab tsi zoo thiab puas muaj teeb meem nrog lub channel / network?
  • Lub kaw lus ua haujlwm tau zoo npaum li cas (peb C txuas ntxiv rau PHP), muab tso ua ke los ntawm qhov chaw hauv qhov kev pabcuam tshiab thiab nthuav tawm rau cov neeg siv khoom, ua haujlwm? Puas muaj segfaults?
  • Cov neeg siv cov ntaub ntawv puas haum rau hauv PHP nco? Puas muaj tej yam yuam kev txog kev tshaj lub cim xeeb faib rau cov txheej txheem: "tawm ntawm lub cim xeeb"? Nrhiav thiab neutralize.

Ntawm no yog ib qho piv txwv. Txawm hais tias kev ntsuam xyuas nruj thiab ntau theem, tus neeg siv khoom, nrog cov ntaub ntawv tsis zoo heev thiab cov ntaub ntawv tawm tswv yim puas, tau txais kev ntxhov siab thiab tsis xav txog qhov yuam kev, lub suab nrov nrov thiab cov txheej txheem kho sai sai pib:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Tsis tas li ntawd, kibana tso cai rau koj los npaj cov ntawv ceeb toom rau cov xwm txheej tshwj xeeb, thiab nyob rau lub sijhawm luv luv cov cuab yeej hauv lub tuam txhab tau pib siv los ntawm ntau tus neeg ua haujlwm los ntawm ntau lub tuam tsev - los ntawm kev txhawb nqa thiab kev loj hlob mus rau QA.

Kev ua haujlwm ntawm ib lub tuam txhab hauv lub tuam txhab tau ua kom yooj yim rau kev taug qab thiab ntsuas - tsis yog siv cov ntawv txheeb xyuas ntawm cov servers, koj tsuas yog yuav tsum teeb tsa cov ntawv txheeb cais ib zaug thiab xa lawv mus rau pawg elastic kom txaus siab, piv txwv li, xav txog hauv kibana. dashboard tus naj npawb ntawm muag ob lub taub hau kittens luam tawm ntawm 3-D tshuab luam ntawv rau lub hli dhau los.

Basic Business Analytics

Txhua tus paub tias kev txheeb xyuas kev lag luam hauv cov tuam txhab feem ntau pib nrog kev siv ntau heev, yog, Excel. Tab sis qhov tseem ceeb yog tias nws tsis xaus rau ntawd. Huab-raws li Google Analytics kuj ntxiv roj rau hluav taws - koj sai sai pib siv cov khoom zoo.

Hauv peb lub tuam txhab tsim kev sib haum xeeb, ntawm no thiab muaj "cov yaj saub" ntawm kev ua haujlwm hnyav dua nrog cov ntaub ntawv loj dua pib tshwm. Qhov xav tau rau ntau qhov tob thiab ntau qhov kev tshaj tawm pib tshwm sim tsis tu ncua, thiab los ntawm kev siv zog ntawm cov txiv neej los ntawm ntau lub tuam tsev, qee lub sij hawm dhau los ib qho kev daws teeb meem yooj yim thiab siv tau - kev sib xyaw ntawm ClickHouse thiab PowerBI.

Tau ntev heev, qhov kev daws teeb meem yooj yim no tau pab ntau, tab sis maj mam nkag siab tau pib tuaj tias ClickHouse tsis yog roj hmab thiab tsis tuaj yeem thuam li ntawd.

Ntawm no nws yog ib qho tseem ceeb kom nkag siab zoo tias ClickHouse, zoo li Druid, zoo li Vertica, zoo li Amazon RedShift (uas yog raws li postgres), yog cov cav analytical optimized rau kev yooj yim analytics (sums, aggregations, yam tsawg kawg nkaus-ntau tshaj ntawm kab thiab ob peb ua tau koom. ), vim txhim kho kom muaj txiaj ntsig zoo ntawm txhua kab ntawm cov rooj sib raug zoo, tsis zoo li MySQL thiab lwm yam (kab taw qhia) databases paub rau peb.

Hauv cov ntsiab lus, ClickHouse tsuas yog qhov muaj peev xwm ntau dua "cov ntaub ntawv", uas tsis yooj yim heev los ntawm cov ntsiab lus nkag (qhov ntawd yog qhov nws tau npaj, txhua yam yog ua tau), tab sis kev soj ntsuam zoo siab thiab cov txheej txheem nthuav dav rau kev ua haujlwm nrog cov ntaub ntawv. Yog lawm, koj tuaj yeem tsim ib pawg - tab sis koj nkag siab tias hammering rau tes nrog lub tshuab tsom iav tsis yog tag nrho thiab peb pib nrhiav lwm txoj hauv kev.

Xav tau python thiab cov kws tshuaj ntsuam

Peb lub tuam txhab muaj ntau tus neeg tsim khoom uas sau code yuav luag txhua hnub rau 10-20 xyoo hauv PHP, JavaScript, C#, C / C ++, Java, Go, Rust, Python, Bash. Kuj tseem muaj ntau tus thawj tswj hwm uas tau ntsib ntau dua ib qho kev puas tsuaj loj heev uas tsis haum rau cov kev cai ntawm kev txheeb cais (piv txwv li, thaum feem ntau ntawm cov disks hauv kev tua-10 raug puas tsuaj los ntawm xob laim muaj zog). Hauv cov xwm txheej zoo li no, ntev ntev nws tsis paub meej tias "tus kws tshuaj xyuas python" yog dab tsi. Python zoo li PHP, tsuas yog lub npe ntev dua me ntsis thiab muaj cov cim me ntsis ntawm lub siab hloov cov tshuaj hauv tus neeg txhais lus qhov chaws. Txawm li cas los xij, raws li ntau thiab ntau cov ntaub ntawv txheeb xyuas tau tsim, cov neeg tsim khoom paub txog pib nkag siab txog qhov tseem ceeb ntawm kev nqaim tshwj xeeb hauv cov cuab yeej xws li numpy, pandas, matplotlib, seaborn.
Lub luag haujlwm txiav txim siab, feem ntau yuav, tau ua si los ntawm kev poob siab sai ntawm cov neeg ua haujlwm los ntawm kev sib xyaw ntawm cov lus "logistic regression" thiab ua qauv qhia txog kev qhia zoo ntawm cov ntaub ntawv loj siv, yog, yog, pyspark.

Apache Spark, nws txoj kev ua haujlwm ntawm qhov kev sib raug zoo algebra haum zoo kawg nkaus, thiab nws lub peev xwm ua rau muaj kev zoo siab rau cov neeg tsim khoom siv rau MySQL tias qhov xav tau los ntxiv dag zog rau cov qib nrog cov kws tshuaj ntsuam tau paub meej los ntawm hnub.

Kev sim ntxiv ntawm Apache Spark / Hadoop tshem tawm thiab dab tsi tsis mus zoo raws li tsab ntawv

Txawm li cas los xij, tsis ntev nws tau pom tseeb tias qee yam tsis zoo nrog Spark, lossis nws tsuas yog tsim nyog los ntxuav koj txhais tes zoo dua. Yog tias Hadoop/MapReduce/Lucene pawg tau tsim los ntawm cov programmers uas muaj kev paub dhau los, uas yog qhov pom tseeb yog tias koj saib ze ntawm qhov chaws hauv Java lossis Doug Cutting cov tswv yim hauv Lucene, ces Spark, dheev, sau ua lus kab txawv Scala, uas yog. heev controversial los ntawm qhov pom ntawm practicality thiab yog tam sim no tsis tsim. Thiab qhov kev poob qis hauv kev suav ntawm Spark pawg vim qhov tsis txaus ntseeg thiab tsis pom kev ua haujlwm nrog lub cim xeeb faib rau kev txo qis kev ua haujlwm (ntau tus yuam sij tuaj txog ib zaug) tau tsim lub halo nyob ib puag ncig nws ntawm qee yam uas muaj chaw loj hlob. Tsis tas li ntawd, qhov xwm txheej tau hnyav zuj zus los ntawm ntau qhov chaw nres nkoj txawv txawv, cov ntaub ntawv ib ntus loj hlob nyob rau hauv qhov chaw tsis nkag siab tshaj plaws thiab lub ntuj raug txim ntawm hub dependencies - uas ua rau cov thawj tswj hwm muaj ib qho kev xav uas tau paub zoo txij thaum yau: kev ntxub ntxaug (los yog tej zaum. lawv yuav tsum tau ntxuav tes nrog xab npum).

Raws li qhov tshwm sim, peb tau "muaj sia nyob" ntau qhov kev soj ntsuam sab hauv uas nquag siv Apache Spark (xws li Spark Streaming, Spark SQL) thiab Hadoop ecosystem (thiab lwm yam). Txawm hais tias lub sijhawm dhau los peb tau kawm los npaj thiab saib xyuas "nws" zoo heev, thiab "nws" xyaum tau nres tam sim ntawd poob vim qhov hloov pauv ntawm cov ntaub ntawv thiab qhov tsis sib xws ntawm RDD hashing, lub siab xav ua ib yam dab tsi uas twb tau npaj lawm. , kho tshiab thiab tswj qhov chaw hauv huab tau loj hlob tuaj thiab muaj zog dua. Nws yog lub sijhawm no uas peb tau sim siv cov huab sib sau ua ke ntawm Amazon Web Services - EMR thiab, tom qab ntawd, sim daws cov teeb meem siv nws. EMR yog Apache Spark npaj los ntawm Amazon nrog software ntxiv los ntawm ecosystem, zoo li Cloudera / Hortonworks tsim.

Roj hmab cov ntaub ntawv cia rau kev txheeb xyuas yog qhov xav tau ceev

Kev paub ntawm "ua noj" Hadoop / Spark nrog kub hnyiab rau ntau qhov chaw ntawm lub cev tsis yog qhov tsis muaj txiaj ntsig. Qhov xav tau los tsim ib qho, pheej yig thiab txhim khu kev qha cov ntaub ntawv khaws cia uas yuav tiv taus cov khoom lag luam tsis ua haujlwm thiab nyob rau hauv uas nws yuav muaj peev xwm khaws cov ntaub ntawv hauv ntau hom los ntawm cov tshuab sib txawv thiab ua kom muaj txiaj ntsig thiab siv sijhawm zoo rau cov ntaub ntawv los ntawm cov ntaub ntawv no tau nce zuj zus. meej.

Kuv kuj xav tau tias kev hloov kho software ntawm lub platform no tsis tig mus rau Xyoo Tshiab npau suav phem nrog kev nyeem 20-nplooj Java kab thiab txheeb xyuas cov lus qhia txog mais ntev ntawm pawg siv Spark History Server thiab backlit magnifying iav. Kuv xav kom muaj cov cuab yeej yooj yim thiab pob tshab uas tsis tas yuav tsum dhia dhia hauv qab lub hood yog tias tus tsim tawm tus qauv MapReduce thov nres ua haujlwm thaum tus neeg ua haujlwm txo cov ntaub ntawv poob ntawm lub cim xeeb vim yog qhov tsis zoo heev xaiv cov ntaub ntawv muab faib algorithm.

Puas yog Amazon S3 tus neeg sib tw rau DataLake?

Kev paub nrog Hadoop/MapReduce qhia peb tias peb xav tau cov ntaub ntawv muaj peev xwm, txhim khu kev qha thiab cov neeg ua haujlwm scalable nyob rau sab saum toj ntawm nws, "los" los ze zog rau cov ntaub ntawv kom tsis txhob tsav cov ntaub ntawv hla lub network. Cov neeg ua haujlwm yuav tsum muaj peev xwm nyeem cov ntaub ntawv sib txawv, tab sis zoo dua tsis nyeem cov ntaub ntawv tsis tsim nyog thiab tuaj yeem khaws cov ntaub ntawv ua ntej hauv cov qauv yooj yim rau cov neeg ua haujlwm.

Ib zaug ntxiv, lub tswv yim yooj yim. Tsis muaj lub siab xav "dhau" cov ntaub ntawv loj rau hauv ib lub cav ntsuas ib pawg, uas yuav sai dua los yog tom qab choke thiab koj yuav tsum tau shard nws dab tuag. Kuv xav khaws cov ntaub ntawv, tsuas yog cov ntaub ntawv, hauv hom nkag siab thiab ua cov lus nug zoo rau lawv siv cov cuab yeej sib txawv tab sis nkag siab. Thiab yuav muaj ntau thiab ntau cov ntaub ntawv nyob rau hauv ntau hom ntawv. Thiab nws yog qhov zoo dua rau shard tsis yog lub cav, tab sis cov ntaub ntawv qhov chaw. Peb xav tau ib qho kev nthuav dav thiab dav dav DataLake, peb txiav txim siab ...

Yuav ua li cas yog tias koj khaws cov ntaub ntawv nyob rau hauv cov paub thiab paub zoo scalable huab cia Amazon S3, tsis tas yuav npaj koj tus kheej chops los ntawm Hadoop?

Nws paub meej tias cov ntaub ntawv tus kheej yog "tsawg", tab sis yuav ua li cas txog lwm cov ntaub ntawv yog tias peb muab nws tawm thiab "tsav nws zoo"?

Cluster-bigdata-analytics ecosystem ntawm Amazon Web Services - hauv cov lus yooj yim heev

Kev txiav txim siab los ntawm peb cov kev paub dhau los nrog AWS, Apache Hadoop / MapReduce tau siv sijhawm ntev los ntawm ntau cov kua ntses, piv txwv li hauv DataPipeline kev pabcuam (Kuv khib kuv cov npoj yaig, lawv kawm paub npaj nws kom raug). Ntawm no peb teeb tsa cov thaub qab los ntawm cov kev pabcuam sib txawv los ntawm DynamoDB cov lus:
Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Thiab lawv tau ua haujlwm tsis tu ncua ntawm embedded Hadoop / MapReduce pawg xws li clockwork rau ntau xyoo tam sim no. "Tsim nws thiab tsis nco qab nws":

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Koj tseem tuaj yeem koom nrog cov ntaub ntawv dab ntxwg nyoog los ntawm kev teeb tsa Jupiter laptops hauv huab rau cov kws tshuaj ntsuam thiab siv AWS SageMaker kev pabcuam los cob qhia thiab xa cov qauv AI mus rau hauv kev sib ntaus sib tua. Nov yog qhov nws zoo li rau peb:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Thiab yog, koj tuaj yeem nqa lub laptop rau koj tus kheej lossis tus kws tshuaj ntsuam hauv huab thiab xa mus rau Hadoop / Spark pawg, ua cov kev suav thiab tom qab ntawd ntsia txhua yam hauv qab no:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Nws yooj yim heev rau ib tus neeg txheeb xyuas cov haujlwm thiab rau qee qhov peb tau ua tiav siv EMR kev pabcuam rau kev suav loj thiab kev tshuaj xyuas. Yuav ua li cas txog qhov kev daws teeb meem rau DataLake, nws puas yuav ua haujlwm? Lub sijhawm no peb tau nyob ntawm qhov kev cia siab thiab kev poob siab thiab txuas ntxiv kev tshawb nrhiav.

AWS Glue - packed zoo Apache Spark ntawm steroids

Nws muab tawm tias AWS muaj nws tus kheej version ntawm "Hive/Pig/Spark" pawg. Lub luag haujlwm ntawm Hive, i.e. Cov catalog ntawm cov ntaub ntawv thiab lawv hom hauv DataLake yog ua los ntawm "Cov ntaub ntawv catalog" cov kev pabcuam, uas tsis zais nws qhov kev sib raug zoo nrog Apache Hive hom. Koj yuav tsum tau ntxiv cov ntaub ntawv rau qhov kev pabcuam no txog qhov chaw koj cov ntaub ntawv nyob thiab nyob rau hauv hom ntawv twg. Cov ntaub ntawv tuaj yeem ua tsis tau tsuas yog hauv s3, tab sis kuj nyob rau hauv cov ntaub ntawv, tab sis qhov ntawd tsis yog cov ntsiab lus ntawm cov ncej no. Nov yog li cas peb DataLake cov ntaub ntawv teev npe raug teeb tsa:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Cov ntaub ntawv tau sau npe, zoo heev. Yog tias cov ntaub ntawv tau hloov kho, peb tso cov crawlers los ntawm manually lossis ntawm lub sijhawm, uas yuav hloov kho cov ntaub ntawv hais txog lawv los ntawm lub pas dej thiab txuag lawv. Tom qab ntawd cov ntaub ntawv los ntawm lub pas dej tuaj yeem ua tiav thiab cov txiaj ntsig tau muab tso rau qhov chaw. Hauv qhov yooj yim tshaj plaws, peb kuj upload rau s3. Kev ua cov ntaub ntawv tuaj yeem ua tiav txhua qhov chaw, tab sis nws tau qhia tias koj teeb tsa kev ua haujlwm ntawm Apache Spark pawg siv cov peev txheej siab dhau los ntawm AWS Glue API. Qhov tseeb, koj tuaj yeem nqa tus lej zoo qub thiab paub tus lej python siv lub tsev qiv ntawv pyspark thiab teeb tsa nws qhov kev ua tiav ntawm N nodes ntawm ib pawg ntawm qee lub peev xwm nrog kev saib xyuas, yam tsis tau khawb rau hauv lub siab ntawm Hadoop thiab rub cov docker-moker ntim thiab tshem tawm cov kev tsis sib haum xeeb. .

Ib zaug ntxiv, lub tswv yim yooj yim. Tsis muaj qhov yuav tsum tau teeb tsa Apache Spark, koj tsuas yog yuav tsum tau sau cov lej python rau pyspark, sim nws hauv zos ntawm koj lub desktop thiab tom qab ntawd khiav nws ntawm pawg loj hauv huab, qhia qhov twg cov ntaub ntawv yog qhov twg thiab qhov twg yuav muab cov txiaj ntsig. Qee zaum qhov no yog qhov tsim nyog thiab muaj txiaj ntsig, thiab ntawm no yog li cas peb teeb tsa:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Yog li, yog tias koj xav tau xam ib yam dab tsi ntawm Spark pawg siv cov ntaub ntawv hauv s3, peb sau cov lej hauv python / pyspark, sim nws, thiab hmoov zoo rau huab.

Yuav ua li cas yog lub orchestration? Yuav ua li cas yog tias txoj haujlwm poob thiab ploj mus? Yog lawm, nws tau npaj siab los ua cov raj xa dej zoo nkauj hauv Apache Pig style thiab peb txawm sim lawv, tab sis tam sim no peb tau txiav txim siab siv peb cov kev hloov kho siab heev hauv PHP thiab JavaScript (Kuv nkag siab, muaj kev paub tsis meej, tab sis nws ua haujlwm, rau xyoo thiab tsis muaj qhov yuam kev).

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Cov hom ntaub ntawv khaws cia hauv lub pas dej yog tus yuam sij rau kev ua haujlwm

Nws yog ib qho tseem ceeb heev kom nkag siab txog ob lub ntsiab lus tseem ceeb ntxiv. Txhawm rau kom cov lus nug ntawm cov ntaub ntawv hauv lub pas dej kom ua tiav sai li sai tau thiab kev ua haujlwm tsis txhob degrade thaum cov ntaub ntawv tshiab ntxiv, koj yuav tsum:

  • Khaws cov kab ntawv sib cais (kom koj tsis tas yuav nyeem tag nrho cov kab kom nkag siab tias muaj dab tsi hauv kab). Rau qhov no peb coj parquet hom nrog compression
  • Nws yog ib qho tseem ceeb heev rau shard cov ntaub ntawv rau hauv folders xws li: lus, xyoo, hli, hnub, lub lim tiam. Cov cav uas nkag siab txog hom kev sib faib no tsuas yog saib ntawm cov ntaub ntawv tsim nyog, yam tsis muaj sifting los ntawm tag nrho cov ntaub ntawv ua ke.

Qhov tseem ceeb, nyob rau hauv txoj kev no, koj nteg tawm cov ntaub ntawv hauv cov ntaub ntawv muaj txiaj ntsig zoo tshaj plaws rau cov tshuab tshuaj ntsuam xyuas dai rau saum toj, uas txawm tias nyob hauv cov folders sharded tuaj yeem xaiv nkag thiab nyeem tsuas yog cov kab tsim nyog los ntawm cov ntaub ntawv. Tsis tas yuav "sau" cov ntaub ntawv nyob qhov twg (qhov chaw cia yuav tawg yooj yim) - tam sim ntawd muab tso rau hauv cov ntaub ntawv kom raug. Tau kawg, nws yuav tsum paub meej ntawm no tias khaws cov ntaub ntawv csv loj loj hauv DataLake, uas yuav tsum xub nyeem kab los ntawm kab los ntawm pawg txhawm rau txhawm rau rho tawm txhua kab, tsis yog qhov xav tau. Xav txog ob lub ntsiab lus saum toj no dua yog tias nws tseem tsis tau paub meej tias vim li cas txhua qhov no tshwm sim.

AWS Athena - the jack-in-the-box

Thiab tom qab ntawd, thaum tsim lub pas dej, peb ua li cas yuam kev hla Amazon Athena. Tam sim ntawd nws tau muab tawm tias los ntawm kev ua tib zoo npaj peb cov ntaub ntawv log loj rau hauv cov ntaub ntawv shards hauv qhov tseeb (parquet) kem hom, koj tuaj yeem ua cov ntaub ntawv xaiv tau sai heev los ntawm lawv thiab tsim cov ntawv ceeb toom TSIS TAU, tsis muaj Apache Spark / Glue pawg.

Lub cav Athena powered los ntawm cov ntaub ntawv hauv s3 yog raws li cov lus dab neeg Presto - tus neeg sawv cev ntawm MPP (kev ua tiav loj heev) tsev neeg ntawm txoj hauv kev rau kev ua cov ntaub ntawv, noj cov ntaub ntawv nyob qhov twg, los ntawm s3 thiab Hadoop mus rau Cassandra thiab cov ntawv nyeem zoo tib yam. Koj tsuas yog yuav tsum nug Athena kom ua tiav cov lus nug SQL, thiab tom qab ntawd txhua yam "ua haujlwm sai thiab tau txais." Nws yog ib qho tseem ceeb uas yuav tsum nco ntsoov tias Athena yog "ntse", nws tsuas yog mus rau qhov tsim nyog sharded folders thiab nyeem tsuas yog cov kab uas xav tau hauv qhov kev thov.

Tus nqi rau kev thov rau Athena kuj nthuav. Peb them rau ntim ntawm cov ntaub ntawv scanned. Cov. tsis yog rau tus naj npawb ntawm cov tshuab hauv pawg ib feeb, tab sis ... rau cov ntaub ntawv tiag tiag scanned ntawm 100-500 tshuab, tsuas yog cov ntaub ntawv tsim nyog los ua kom tiav qhov kev thov.

Thiab los ntawm kev thov tsuas yog cov kab ntawv tsim nyog los ntawm cov folders uas raug muab tshem tawm, nws tau pom tias qhov kev pabcuam Athena raug nqi peb kaum daus las ib hlis. Zoo, zoo heev, yuav luag dawb, piv rau kev txheeb xyuas ntawm pawg!

Los ntawm txoj kev, ntawm no yog li cas peb shard peb cov ntaub ntawv nyob rau hauv s3:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

Yog li ntawd, nyob rau hauv ib lub sij hawm luv luv, tag nrho cov tuam tsev sib txawv nyob rau hauv lub tuam txhab, los ntawm cov ntaub ntawv kev ruaj ntseg mus rau analytics, pib nquag thov rau Athena thiab sai sai, nyob rau hauv vib nas this, tau txais cov lus teb muaj txiaj ntsig los ntawm "loj" cov ntaub ntawv nyob rau lub sij hawm ntev: lub hlis, ib nrab xyoo, thiab lwm yam P.

Tab sis peb mus ntxiv thiab pib mus rau saum huab rau cov lus teb ntawm ODBC tsav tsheb: tus kws tshuaj ntsuam sau cov lus nug SQL hauv lub console paub, uas ntawm 100-500 tshuab "rau pennies" xa cov ntaub ntawv mus rau s3 thiab xa cov lus teb feem ntau hauv ob peb feeb. Yooj yim. Thiab ceev ceev. Kuv tseem ntseeg tsis tau.

Raws li qhov tshwm sim, tau txiav txim siab khaws cov ntaub ntawv hauv s3, nyob rau hauv ib qho txiaj ntsig columnar hom thiab nrog tsim nyog sharding cov ntaub ntawv rau hauv folders ... peb tau txais DataLake thiab ceev thiab pheej yig analytical engine - dawb. Thiab nws tau nrov heev hauv lub tuam txhab, vim tias ... nkag siab SQL thiab ua haujlwm ntawm qhov kev txiav txim siab sai dua los ntawm kev pib / nres / teeb tsa pawg. "Thiab yog tias qhov tshwm sim zoo ib yam, vim li cas thiaj them nyiaj ntau dua?"

Kev thov rau Athena zoo li qhov no. Yog xav tau, tau kawg, koj tuaj yeem tsim txaus complex thiab ntau nplooj ntawv SQL lus nug, tab sis peb yuav txwv peb tus kheej kom yooj yim pab pawg. Cia peb saib seb cov lus teb li cas tus neeg siv khoom muaj ob peb lub lis piam dhau los hauv lub vev xaib server thiab xyuas kom tsis muaj qhov yuam kev:

Yuav ua li cas peb txhim kho DataLake ua haujlwm tau zoo thiab pheej yig thiab vim li cas qhov no yog li ntawd

tshawb pom

Tau dhau mus, tsis hais ib txoj kev ntev, tab sis mob siab rau, tsis tu ncua txaus ntsuas qhov txaus ntshai thiab theem ntawm qhov nyuaj thiab tus nqi ntawm kev txhawb nqa, peb pom muaj kev daws teeb meem rau DataLake thiab kev tshuaj ntsuam xyuas uas tsis tas yuav ua rau peb txaus siab nrog ob qho tib si ceev thiab tus nqi ntawm cov tswv cuab.

Nws muab tawm tias tsim kom muaj txiaj ntsig, nrawm thiab pheej yig los khiav lag luam DataLake rau cov kev xav tau ntawm cov tuam haujlwm sib txawv ntawm lub tuam txhab yog tag nrho hauv lub peev xwm ntawm cov neeg tsim khoom uas tau paub dhau los uas tsis tau ua haujlwm ua tus kws tsim vaj tsev thiab tsis paub yuav ua li cas kos squares ntawm squares nrog. xub thiab paub 50 nqe lus los ntawm Hadoop ecosystem.

Thaum pib ntawm txoj kev taug kev, kuv lub taub hau tau tawg los ntawm ntau cov tsiaj qus uas qhib thiab kaw software thiab nkag siab txog lub luag haujlwm ntawm lub luag haujlwm rau cov xeeb ntxwv. Tsuas yog pib tsim koj DataLake los ntawm cov cuab yeej yooj yim: nagios / munin -> elastic / kibana -> Hadoop / Spark / s3 ..., sau cov lus tawm tswv yim thiab nkag siab tob txog physics ntawm cov txheej txheem tshwm sim. Txhua yam nyuaj thiab ntxhov siab - muab rau cov yeeb ncuab thiab cov neeg sib tw.

Yog tias koj tsis xav mus rau huab thiab nyiam txhawb nqa, hloov kho thiab kho thaj chaw qhib cov phiaj xwm, koj tuaj yeem tsim cov tswv yim zoo ib yam li peb hauv zos, ntawm cov tshuab ua haujlwm pheej yig nrog Hadoop thiab Presto rau saum. Qhov tseem ceeb tshaj plaws yog tsis txhob nres thiab txav mus tom ntej, suav, nrhiav kev daws teeb meem yooj yim thiab meej, thiab txhua yam yuav ua tiav! Hmoov zoo rau sawv daws thiab ntsib koj dua!

Tau qhov twg los: www.hab.com

Ntxiv ib saib