Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

Matou te ola i se taimi ofoofogia e mafai ai ona e faʻafesoʻotaʻi vave ma faigofie le tele o mea faigaluega faʻapipiʻi, faʻapipiʻi i luga ma lou "mafaufau ua tape" e tusa ai ma le fautuaga a le stackoverflow, e aunoa ma le suʻesuʻeina o le "tele mataitusi", ma faʻalauiloa. i latou i galuega faapisinisi. Ma afai e te manaʻomia le faʻafouina / faʻalautele pe toe faʻafuaseʻi e se tasi ni masini se lua - e te iloa o se ituaiga o miti leaga ua amata, o mea uma ua matua faigata lava e le mafai ona iloa, e leai se toe foʻi i tua, o le lumanaʻi e le mautonu ma saogalemu, nai lo polokalame, fafaga pi ma fai sisi.

E le o se mea fua e sili atu le poto masani a paaga, ma o latou ulu o loʻo tumu i pusi ma o lea ua efuefu, mafaufau i le vave tele o le faʻapipiʻiina o pusa o "conite" i "cubes" i luga o le tele o sapalai i "gagana faʻaonaponei" faʻatasi ai ma lagolago faʻapipiʻi mo asynchronous le poloka I/O, ataata tauagafau . Ma latou faʻaauau pea ona toe faitau le "man ps", suʻesuʻe i totonu o le "nginx" source code seia tafe toto o latou mata, ma tusi, tusi, tusi suʻega iunite. Ua iloa e uo faigaluega o le mea e sili ona manaia o le a oʻo mai pe a "mea uma" i se tasi aso e faʻatau i le po i le Po o le Tausaga Fou. Ma o le a fesoasoani ia i latou e ala i le malamalama loloto i le natura o le unix, le taulotoina TCP/IP setete laulau ma faavae faavasega-suʻesuʻe algorithms. Ina ia toe faafo'isia le faiga a'o ta'i leo.

Oi ioe, ua fai si faalavefau, ae ou te faamoemoe na mafai ona ou faailoa atu le tulaga o le faamoemoe.
O le asō ou te manaʻo e faʻasoa atu lo matou poto masani i le faʻapipiʻiina o se faʻaputuga faigofie ma taugofie mo DataLake, lea e foia ai le tele o galuega suʻesuʻe i totonu o le kamupani mo vaevaega faʻavae eseese.

I se taimi ua tuanaʻi, na matou oʻo mai ai i le malamalama o kamupani ua faʻateleina le manaʻomia o fua o oloa uma ma faʻamatalaga faʻapitoa (ae le o le taʻua o le aisa i luga o le keke i le tulaga o le aʻoaʻoina o masini) ma ia malamalama i faiga ma tulaga lamatia - e manaʻomia ona aoina ma auʻiliʻili. sili atu ma sili atu metrics.

Fa'amatalaga fa'apitoa fa'apitoa ile Bitrix24

I ni nai tausaga talu ai, i le taimi lava e tasi ma le faʻalauiloaina o le Bitrix24 auaunaga, matou te faʻaalu malosi le taimi ma punaoa i le fatuina o se faʻataʻitaʻiga faigofie ma faʻatuatuaina e fesoasoani e vave vaʻai faʻafitauli i atinaʻe ma fuafua le isi laasaga. O le mea moni, sa fautuaina e ave ni meafaigaluega ua saunia e faigofie ma malamalama e mafai. O se taunuuga, na filifilia nagios mo le mataʻituina ma le munin mo auʻiliʻiliga ma faʻaaliga. O lea ua i ai le faitau afe o siaki i nagios, selau siata i munin, ma o matou paaga latou te faʻaaogaina ma le manuia i aso uma. O metrics e manino, o kalafi e manino, o le faiga o loʻo galue faʻalagolago mo le tele o tausaga ma o suʻega fou ma kalafi e masani ona faʻaopoopo i ai: pe a matou faʻaogaina se auaunaga fou, matou te faʻaopoopoina ni suʻega ma kalafi. Ia maua se laki.

Tamatamailima i luga o le Pulse - Fa'amatalaga Fa'atekinisi Fa'apitoa

O le manaʻo e maua faʻamatalaga e uiga i faʻafitauli "i le vave e mafai ai" na taʻitaʻia ai i matou i faʻataʻitaʻiga faʻamalosi ma meafaigaluega faigofie ma malamalama - pinba ma xhprof.

Na auina mai e Pinba ia i matou fuainumera i totonu o pusa UDP e uiga i le saoasaoa o le faagaoioiga o vaega o itulau uepi i PHP, ma e mafai ona matou vaʻai i luga o le initaneti i le teuina o MySQL (Pinba e sau ma lana lava masini MySQL mo faʻataʻitaʻiga vave) o se lisi puupuu o faʻafitauli ma tali atu i latou. Ma o le xhprof e otometi lava ona faʻatagaina i matou e aoina kalafi o le faʻatinoina o itulau PHP sili ona lemu mai tagata faʻatau ma iloilo mea e mafai ona oʻo atu ai i lenei mea - filemu, sasaa lauti poʻo se mea malosi.

I se taimi ua tuanaʻi, na toe faʻatumu ai le meafaigaluega i se isi masini faigofie ma malamalama e faʻavae i luga o le faʻasologa faʻasolosolo algorithm, faʻatinoina lelei i le faletusi lauiloa a Lucene - Elastic/Kibana. O le manatu faigofie o le tele o filo faʻamaumauga o pepa i totonu o le Lucene index faʻavae e faʻavae i luga o mea na tutupu i totonu o ogalaau ma se suʻesuʻega vave ia i latou e faʻaaoga ai le vaega facet na matua aoga lava.

E ui lava i foliga faʻapitoa faʻapitoa o faʻaaliga i Kibana faʻatasi ai ma manatu maualalo e pei o le "pakete" "faʻafefe i luga" ma le gagana toe faʻafouina o le algebra fesoʻotaʻiga e leʻi galo atoa, o le meafaigaluega na amata ona fesoasoani lelei ia i matou i galuega nei:

  • E fia ni fa'aletonu PHP na maua e le Bitrix24 client i luga o le p1 portal i le itula mulimuli ma o fea na? Ia malamalama, faamagalo ma vave faasa'o.
  • E fia telefoni vitio na faia i luga o faitotoa i Siamani i le 24 itula talu ai, ma o le a le tulaga lelei ma sa i ai ni faʻafitauli i le alalaupapa / fesoʻotaʻiga?
  • O le a le lelei o le faʻaogaina o le polokalama (o la matou faʻaopoopoga C mo PHP), tuʻufaʻatasia mai le faʻapogai i le faʻafouga lata mai o auaunaga ma taʻavale atu i tagata faʻatau, galue? E i ai segfaults?
  • E fetaui fa'amaumauga a tagata fa'atau ile PHP manatua? E i ai ni mea sese e uiga i le sili atu o le manatua na tuʻuina atu i faiga: "ua le manatua"? Su'e ma fa'ate'a.

O se fa'ata'ita'iga mautu lea. E ui i le maeʻaeʻa ma le tele o suʻega, o le tagata o tausia, ma se tulaga e le masani ai ma faʻaleagaina faʻamatalaga faʻapipiʻi, na maua se faʻalavelave faʻafuaseʻi ma le faʻafuaseʻi, na faʻalogoina se leo ma amata le faagasologa o le vave faʻaleleia:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

E le gata i lea, o le kibana e mafai ai e oe ona faʻatulagaina faʻamatalaga mo mea faʻapitoa, ma i se taimi puupuu na amata ai ona faʻaaogaina le meafaigaluega i le kamupani e le tele o tagata faigaluega mai matagaluega eseese - mai le lagolago faʻapitoa ma atinaʻe i le QA.

O le gaioiga a soʻo se matagaluega i totonu o le kamupani ua faigofie ona siaki ma fuaina - nai lo le suʻesuʻeina ma le lima o ogalaau i luga o sapalai, e naʻo lou manaʻomia e faʻapipiʻi faʻatasi ogalaau ma auina atu i latou i le fuifui elastis e fiafia ai, mo se faʻataʻitaʻiga, mafaufau i le kibana dashboard le aofa'i o tama'i pusi ulu lua fa'atau na lolomi ile lomitusi 3-D mo le masina talu ai.

Fa'amatalaga Pisinisi Fa'avae

E iloa e tagata uma o suʻesuʻega pisinisi i kamupani e masani ona amata i le faʻaaogaina malosi o, ioe, Excel. Ae o le mea autu e le gata ai iina. Google Analytics e fa'avae i luga ole ao e fa'aopoopoina ai le suau'u i le afi - e vave lava ona e fa'aaogaina mea lelei.

I totonu o la matou kamupani atinaʻe sologa lelei, i i ma iina "perofeta" o galuega sili atu ona mamafa ma faʻamatalaga tetele na amata ona aliali mai. O le manaʻomia mo le tele o faʻamatalaga loloto ma le tele na amata ona faʻaalia i taimi uma, ma e ala i taumafaiga a tama mai matagaluega eseese, i se taimi ua mavae na faʻatulagaina ai se fofo faigofie ma aoga - o se tuufaatasiga o ClickHouse ma PowerBI.

Mo se taimi umi, o lenei fofo fetuutuunai na fesoasoani tele, ae na faasolosolo malie ona oʻo mai le malamalama o le ClickHouse e le o se paʻu ma e le mafai ona ulagia faapena.

O iinei e taua ai le malamalama lelei o ClickHouse, pei o Druid, pei o Vertica, pei o Amazon RedShift (lea e faʻavae i luga o postgres), o masini suʻesuʻe e sili ona lelei mo auʻiliʻiliga talafeagai (aofaʻi, faʻapipiʻi, laʻititi-maualuga i koluma ma nai mea e mafai ona tuʻufaʻatasia. ), ona fa'atulagaina mo le teuina lelei o koluma o laulau fa'afeso'ota'i, e le pei o MySQL ma isi (laina-laina) fa'amaumauga o lo'o iloa e matou.

O le mea moni, o le ClickHouse e naʻo se "faʻamaumauga" sili atu ona gafatia, ma e le faigofie tele le faʻapipiʻiina o le faʻailoga (o le mea lena e faʻamoemoeina, o mea uma e lelei), ae faʻalelei auʻiliʻiliga ma se seti o galuega manaia mamana mo le galue ma faʻamaumauga. Ioe, e mafai foʻi ona e faia se fuifui - ae e te malamalama o le sasaina o fao i se microscope e le saʻo atoatoa ma na amata ona matou suʻeina isi fofo.

Manaoga mo python ma tagata suʻesuʻe

O la matou kamupani o loʻo i ai le tele o atinaʻe o loʻo tusia code toetoe lava i aso uma mo le 10-20 tausaga ile PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. O loʻo i ai foi le tele o pulega faʻapitoa faʻapitoa ua oʻo i le sili atu ma le tasi le faʻalavelave mataʻutia e le fetaui i tulafono o fuainumera (mo se faʻataʻitaʻiga, pe a faʻaumatia le tele o tisiketi i se osofaʻiga-10 e se uila malosi). I ia tulaga, mo se taimi umi e le o manino pe o le a le "python analyst". O le Python e pei o le PHP, na'o le igoa e fai si umi ma e la'ititi la'ititi o mea e suia ai le mafaufau i totonu o le fa'amatalaga fa'apogai. Ae ui i lea, a'o faia le tele ma le tele o lipoti au'ili'ili, na amata ona malamalama atili le au atina'e poto i le taua o le vaapiapi fa'apitoa i meafaigaluega e pei o numpy, pandas, matplotlib, seaborn.
O le matafaioi taua, e foliga mai, na faia e le matapogia faʻafuaseʻi o tagata faigaluega mai le tuʻufaʻatasia o upu "regression logistic" ma le faʻataʻitaʻiga o lipoti lelei i luga o faʻamatalaga tetele e faʻaaoga ai, ioe, ioe, pyspark.

Apache Spark, o lana faʻataʻitaʻiga faʻatino lea e fetaui lelei le algebra fesoʻotaʻiga, ma o ona gafatia na faʻaalia ai se lagona i luga o le au atinaʻe ua masani i MySQL e faʻapea o le manaʻoga e faʻamalosia tulaga faʻatasi ma tagata suʻesuʻe poto na manino mai i le aso.

O isi taumafaiga a Apache Spark/Hadoop e alu ese ma mea e leʻi alu e tusa ai ma le tusitusiga

Ae ui i lea, e leʻi umi ae manino mai o loʻo i ai se mea e leʻo saʻo i le Spark, pe na manaʻomia le fufuluina lelei o ou lima. Afai o le Hadoop / MapReduce / Lucene stack na faia e le au fai polokalame poto masani, lea e manino pe a e vaʻavaʻai totoʻa i le faʻamatalaga puna i Java poʻo Doug Cutting manatu i Lucene, ona faʻafuaseʻi lea ona tusia Spark i le gagana ese Scala, o le matua fefinauai mai le tulaga o le faʻatinoga ma e le o atinaʻe i le taimi nei. Ma o le pa'ū masani o faʻatusatusaga i luga o le Spark cluster ona o le le talafeagai ma le le manino o galuega faʻatasi ai ma le faʻasoaina o manatuaga mo le faʻaitiitia o gaioiga (tele ki e taunuu i le taimi e tasi) ua fausia ai se faʻataʻamilomilo o se mea e avanoa e tupu ai. E le gata i lea, o le tulaga na faʻateleina e le tele o vaʻa matala ese, faila le tumau o loʻo tuputupu aʻe i nofoaga e sili ona le malamalama i ai ma seoli o faʻalagolago i fagu - lea na mafua ai ona i ai i le pulega o le polokalama se lagona e tasi na lauiloa mai le laʻitiiti: o le ita tele (pe atonu foi. sa tatau ona fufulu o latou lima i le fasimoli).

O le iʻuga, ua matou "ola" i le tele o galuega suʻesuʻe i totonu o loʻo faʻaaogaina Apache Spark (e aofia ai Spark Streaming, Spark SQL) ma le Hadoop ecosystem (ma isi ma isi). E ui lava i le mea moni o le aluga o taimi na matou aʻoaʻo ai e saunia ma mataʻituina lelei "ia", ma "e" na toetoe lava a taofi faʻafuaseʻi ona paʻu ona o suiga i le natura o faʻamaumauga ma le le paleni o le toniga RDD hashing, o le manaʻo e ave se mea ua uma ona saunia. , faʻafouina ma faʻatautaia i se mea i le ao na faʻateleina ma malosi. O le taimi lea na matou taumafai ai e faʻaoga le faʻapotopotoga faʻapipiʻi a le Amazon Web Services - EMR ma, mulimuli ane, taumafai e foia faafitauli i le faaaogaina. O le EMR o Apache Spark na saunia e Amazon faʻatasi ai ma polokalama faʻaopoopo mai le faʻalapotopotoga faʻanatura, pei o Cloudera / Hortonworks fausia.

O le teuina o faila faila mo au'ili'iliga ose mana'oga fa'anatinati

O le poto masani o le "kuka" Hadoop / Spark ma mu i vaega eseese o le tino e leʻi faʻaumatia. O le manaʻomia o le fatuina o se faila faila e tasi, taugofie ma faʻatuatuaina e mafai ona faʻasaʻo i faʻaletonu o masini ma e mafai ai ona teuina faila i faʻasologa eseese mai faiga eseese ma faia faʻataʻitaʻiga lelei ma le taimi mo lipoti mai nei faʻamatalaga ua faʻateleina. manino.

Na ou manaʻo foʻi o le faʻafouina o le polokalama o lenei faʻavae e leʻi avea ma se miti taufaamataʻu o le Tausaga Fou i le faitauina o 20-itulau Java faʻasologa ma suʻesuʻeina ogalaau auiliili kilomita-umi o le fuifui e faʻaaoga ai le Spark History Server ma se tioata faʻalauteleina. Na ou manaʻo e maua se meafaigaluega faigofie ma manino e le manaʻomia ai le maulu masani i lalo o le pulou pe a fai e taofi le faʻatinoina o le talosaga a le tagata e faia le MapReduce pe a paʻu le mafaufau o le tagata faigaluega faʻaitiitiga ona o le le filifilia lelei o faʻamaumauga faʻamaumauga algorithm.

O Amazon S3 o se sui tauva mo DataLake?

O le poto masani ma Hadoop / MapReduce na aʻoaʻo mai ai matou te manaʻomia se faila faila, faʻatuatuaina ma tagata faigaluega faʻapitoa i luga, "o mai" latalata i faʻamatalaga ina ia aua neʻi aveina faʻamaumauga i luga o le upega tafailagi. E tatau i tagata faigaluega ona mafai ona faitau faʻamatalaga i faʻamatalaga eseese, ae sili atu le le faitauina o faʻamatalaga e le manaʻomia ma mafai ona teuina faʻamatalaga i luma o faʻamaumauga e faigofie mo tagata faigaluega.

Toe tasi, le manatu faavae. E leai se manaʻoga e "sasaa" faʻamatalaga tetele i totonu o se afi suʻesuʻe faʻapipiʻi e tasi, lea o le a vave pe mulimuli ane e titina ma e tatau ona e faʻafefeteina leaga. Ou te manaʻo e teu faila, naʻo faila, i se faʻatulagaga malamalama ma faʻatino suʻesuʻega auʻiliʻili lelei ia i latou e faʻaaoga ai meafaigaluega eseese ae malamalama. Ma o le a tele ma sili atu faila i faʻatulagaga eseese. Ma e sili atu le vaʻaia e le o le afi, ae o faʻamatalaga faʻamatalaga. Matou te manaʻomia se faʻalauteleina ma lautele DataLake, matou filifili...

Ae fa'afefea pe a e teuina faila i le masani ma lauiloa scalable cloud storage Amazon S3, e aunoa ma le saunia o au lava tipi mai Hadoop?

E manino lava o faʻamatalaga patino e "maualalo", ae faʻafefea isi faʻamatalaga pe a tatou ave i fafo ma "aveina lelei"?

Cluster-bigdata-analytics ecosystem of Amazon Web Services - i upu faigofie lava

Faʻamasinoina i lo matou poto masani i le AWS, Apache Hadoop / MapReduce ua leva ona faʻaaogaina iina i lalo o sosi eseese, mo se faʻataʻitaʻiga i le DataPipeline service (Ou te matauʻa i aʻu paaga, na latou aʻoaʻoina pe faʻapefea ona saunia saʻo). O iinei matou te setiina ai faʻamaumauga mai auaunaga eseese mai laulau DynamoDB:
Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

Ma o loʻo latou tamoʻe masani i luga o faʻapipiʻi Hadoop / MapReduce fuifui pei o le uati mo ni nai tausaga i le taimi nei. “Ia seti ma faagalo”:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

E mafai foi ona e auai lelei i faʻamatalaga satanism e ala i le setiina o le komepiuta Jupiter i le ao mo tagata suʻesuʻe ma faʻaogaina le AWS SageMaker auaunaga e toleni ma faʻapipiʻi AI faʻataʻitaʻiga i le taua. O foliga ia mo i matou:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

Ma ioe, e mafai ona e pikiina se komepiuta mo oe lava poʻo se tagata suʻesuʻe i le ao ma faʻapipiʻi i le Hadoop/Spark cluster, fai le faʻatusatusaga ona faʻapipiʻi lea o mea uma i lalo:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

E matua faigofie mo galuega su'esu'e ta'ito'atasi ma mo nisi ua matou fa'aogaina lelei le auaunaga EMR mo fa'atatauga tetele ma au'ili'iliga. Ae fa'afefea se fofo faʻaogaina mo DataLake, e aoga? O le taimi lea sa matou i ai i le faatausiusiuga o le faamoemoe ma le faanoanoa ma faaauau ai le sailiga.

AWS Glue - fa'apipi'i lelei Apache Spark i vaila'au

Na aliali mai o le AWS o loʻo i ai lana lava faʻasologa o le faaputuga "Hive / Pig / Spark". O le matafaioi a Hive, i.e. O le lisi o faila ma o latou ituaiga i DataLake o loʻo faia e le "Data catalog" auaunaga, lea e le natia ai lona fetaui ma le Apache Hive format. E mana'omia lou fa'aopoopoina o fa'amatalaga i lenei 'au'aunaga e uiga i le mea o lo'o i ai au faila ma pe o le a le fa'atulagaga. O faʻamaumauga e le gata i le s3, ae faʻapea foʻi i totonu o faʻamaumauga, ae e le o le autu lea o lenei pou. O le auala lea e fa'atulaga ai le matou fa'amaumauga o fa'amaumauga o DataLake:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

O faila ua resitalaina, lelei. Afai ua toe fa'afouina faila, matou te fa'aulu i le lima po'o luga o se fa'atulagaga, lea o le a fa'afouina fa'amatalaga e uiga ia i latou mai le vaituloto ma fa'asaoina. Ona mafai lea ona faʻatautaia faʻamaumauga mai le vaituloto ma faʻapipiʻi iʻuga i se mea. I le tulaga sili ona faigofie, matou te lafoina foi i le s3. E mafai ona faia faʻamatalaga faʻamatalaga i soʻo se mea, ae e fautuaina e te faʻatulagaina le gaioiga i luga o le Apache Spark cluster e faʻaaoga ai tomai faʻapitoa e ala i le AWS Glue API. O le mea moni, e mafai ona e ave le code tuai ma masani o le python e faʻaaoga ai le faletusi pyspark ma faʻapipiʻi lona faʻatinoga i N nodes o se fuifui o nisi gafatia ma le mataʻituina, e aunoa ma le eliina i totonu o le manava o Hadoop ma tosoina koneteina docker-moker ma faʻaumatia feeseeseaiga faʻalagolago. .

Toe tasi, o se manatu faigofie. E leai se manaʻoga e faʻapipiʻi Apache Spark, naʻo lou manaʻomia e tusi le code python mo pyspark, faʻataʻitaʻi i le lotoifale i luga o lau laulau ma faʻataʻitaʻi i luga o se fuifui tele i le ao, faʻamaonia le mea o loʻo i ai faʻamaumauga ma le mea e tuʻu ai le iʻuga. O nisi taimi e manaʻomia ma aoga, ma o le auala lenei matou te setiina ai:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

O lea, afai e te manaʻomia le faʻatulagaina o se mea i luga o le Spark cluster e faʻaaoga ai faʻamatalaga i le s3, matou te tusia le code i le python / pyspark, faʻataʻitaʻi, ma manuia i le ao.

Ae faapefea le fa'aupuga? Ae faapefea pe a pa'u le galuega ma mou atu? Ioe, ua fautuaina e fai se paipa matagofie i le Apache Pig style ma na matou faʻataʻitaʻiina foi i latou, ae mo le taimi nei na matou filifili e faʻaoga a matou faʻasalalauga loloto faʻapitoa i le PHP ma le JavaScript (Ou te malamalama, o loʻo i ai le dissonance cognitive, ae e aoga, mo tausaga ma leai ni mea sese).

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

O le faatulagaga o faila e teu i le vaituloto o le ki lea i le faatinoga

E matua taua tele le malamalama i isi manatu autu e lua. Ina ia mafai ona faʻataunuʻuina faʻamatalaga i faila faila i le vaituloto i se taimi vave e mafai ai ma le faʻatinoga e le faʻaleagaina pe a faʻaopoopo faʻamatalaga fou, e te manaʻomia:

  • Teu ese koluma o faila (ina ia e le tau faitauina uma laina e te malamalama ai i mea o loʻo i totonu o koluma). Mo lenei mea na matou ave ai le parquet format ma le faʻamalosi
  • E taua tele le faʻapipiʻiina o faila i faila e pei o: gagana, tausaga, masina, aso, vaiaso. O masini e malamalama i lenei ituaiga o sharding o le a vaʻavaʻai naʻo faila e manaʻomia, e aunoa ma le suʻeina uma o faʻamaumauga i se laina.

O le mea moni, i lenei auala, e te tuʻuina atu faʻamatalaga faʻamatalaga i le tulaga sili ona lelei mo masini suʻesuʻe o loʻo tautau i luga, lea e oʻo lava i faʻailoga faʻapipiʻi e mafai ona filifili faʻaoga ma faitau naʻo koluma talafeagai mai faila. E te le manaʻomia le "faʻatumu" faʻamatalaga i soʻo se mea (o le teuina o le a naʻo le malepelepe) - ia vave lava ona tuʻu i totonu o le faila faila i le faatulagaga saʻo. Ioe, e tatau ona manino iinei o le teuina o se faila csv tele i DataLake, lea e tatau ona faitau muamua i lea laina ma lea laina e le fuifui ina ia mafai ai ona aveese ia koluma, e le fautuaina tele. Toe mafaufau i manatu e lua o loʻo i luga pe afai e leʻo manino pe aisea ua tutupu ai nei mea uma.

AWS Athena - o le jack-in-the-box

Ona sosoo ai lea ma le faia o se vaituloto, na matou tau atu i le Amazon Athena. Na fa'afuase'i ona fa'aalia e ala i le fa'atulagaina ma le fa'aeteete o matou faila ogalaau tetele i totonu o le fa'ailoga fa'apipi'i i le fa'asologa sa'o (parquet) koluma, e mafai ona e vave faia ni fa'amatalaga fa'amatalaga mai ia i latou ma fausia ai lipoti e aunoa ma se Apache Spark/Glue cluster.

O le afi Athena faʻamalosia e faʻamaumauga i le s3 e faʻavae i luga o le tala Presto - o se sui o le MPP (massive parallel processing) aiga o auala e faʻatautaia ai faʻamaumauga, ave faʻamaumauga i mea o loʻo taoto ai, mai le s3 ma Hadoop i Cassandra ma faila masani masani. E tatau ona e fai atu ia Athena e fai se fesili SQL, ona "galue vave ma otometi mea uma." E taua le maitauina o Athena e "atamai", e alu naʻo faʻailoga e manaʻomia ma faitau naʻo koluma e manaʻomia i le talosaga.

O le tau mo talosaga ia Athena e manaia foi. Matou te totogia le tele o fa'amaumauga su'esu'e. O na. e le mo le numera o masini i le fuifui i le minute, ae ... mo faʻamatalaga moni suʻesuʻe i luga o 100-500 masini, naʻo faʻamatalaga e manaʻomia e faʻamaeʻa ai le talosaga.

Ma e ala i le talosagaina naʻo koluma manaʻomia mai faʻailoga saʻo, na faʻaalia ai o le auaunaga a Athena e tau ai i matou i le sefulu tala i le masina. Ia, lelei, toetoe a leai se totogi, faʻatusatusa i auʻiliʻiliga i luga o fuifui!

Ile auala, o le auala lenei e faʻasoa ai a matou faʻamatalaga i le s3:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

O se taunuuga, i se taimi puʻupuʻu, eseese uma matagaluega i totonu o le kamupani, mai le saogalemu o faʻamatalaga i auʻiliʻiliga, na amata ona faia ma le malosi talosaga ia Athena ma vave, i sekone, maua tali aoga mai faʻamatalaga "tele" mo ni taimi umi: masina, ono masina, ma isi P.

Ae sa matou o atu i luma ma amata ona o atu i le ao mo ni tali e ala i le avetaavale ODBC: e tusia e se tagata suʻesuʻe se fesili SQL i se faʻamafanafana masani, lea i luga o 100-500 masini "mo pene" e tuʻuina atu faʻamatalaga i le s3 ma toe faʻafoʻi mai se tali masani i ni nai sekone. Fa'amafanafana. Ma vave. Ou te le talitonu lava i ai.

O se taunuuga, ina ua uma ona filifili e teuina faʻamatalaga i le s3, i se faʻasologa lelei o le columnar ma faʻatasi ai ma le faʻavasegaina talafeagai o faʻamaumauga i totonu o faila ... matou maua DataLake ma se masini suʻesuʻe vave ma taugofie - e leai se totogi. Ma na avea o ia ma tagata lauiloa i le kamupani, aua ... malamalama i le SQL ma galue i poloaiga o le tele vave nai lo le amataina / taofi / setiina fuifui. “Ae afai e tutusa le iʻuga, aisea e te totogia atili ai?”

O se talosaga ia Athena e pei o lenei. Afai e manaʻo ai, ioe, e mafai ona e faʻapipiʻi lava faigata ma tele-itulau SQL fesili, ae o le a tatou faatapulaaina i tatou lava i vaega faigofie. Se'i va'ai po'o le a le tali na maua e le kalani i ni nai vaiaso talu ai i le upegatafa'ilagi ogalaau ma ia mautinoa e leai ni mea sese:

Na fa'afefea ona matou fa'atulagaina se DataLake e sili ona lelei ma taugofie ma pe aisea

sailiiliga

I le uia, e le o se auala umi, ae tiga, iloilo lelei i taimi uma tulaga lamatia ma le maualuga o le lavelave ma le tau o le lagolago, na matou maua ai se fofo mo DataLake ma auʻiliʻiliga e le mafai ona faʻamalieina i matou i le saoasaoa ma le tau o le umiaina.

Na aliali mai o le fausiaina o se faʻaoga lelei, vave ma taugofie le DataLake mo manaʻoga o matagaluega eseese uma a le kamupani e atoatoa i totonu o le gafatia e oʻo lava i tagata atinaʻe poto masani e leʻi galue o ni tusiata ma e le iloa pe faapefea ona tusi sikuea i sikuea ma aū ma iloa 50 faaupuga mai le fa'anatura o le Hadoop.

I le amataga o le faigamalaga, sa vaeluaina loʻu ulu mai le tele o pa manu vao o polokalama tatala ma tapuni ma le malamalama i le avega o le tiutetauave i fanau. Na'o le amata fausia o lau DataLake mai meafaigaluega faigofie: nagios/munin -> elastic/kibana -> Hadoop/Spark/s3..., aoina o manatu faaalia ma malamalama loloto i le fisiki o faiga o loo faia. O mea uma e lavelave ma faanenefu - tu'u atu i fili ma tagata tauva.

Afai e te le manaʻo e te alu i le ao ma e te manaʻo e lagolago, faʻafouina ma faʻapipiʻi poloketi tatala, e mafai ona e fausia se polokalame e tutusa ma matou i le lotoifale, i luga o masini ofisa taugofie ma Hadoop ma Presto i luga. O le mea autu e le o le taofi ma agai i luma, faitau, vaavaai mo ni fofo faigofie ma manino, ma o mea uma o le a mautinoa lava! Manuia tagata uma ma toe feiloa'i!

puna: www.habr.com

Faaopoopo i ai se faamatalaga