Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Re phela nakong e makatsang ha u ka khona ho kenya lisebelisoa tse bulehileng ka potlako le ka mokhoa o bonolo, u li lokise ka "kelello e holofetseng" ka keletso ea stackoverflow, ntle le ho hlahloba "li-multiletter", 'me u li kenye tšebetsong ea khoebo. Mme ha o hloka ho nchafatsa / ho holisa kapa motho ka phoso o qala mechini e 'maloa - ho hlokomela hore litoro tse mpe tse mpe li se li qalile, ntho e' ngoe le e 'ngoe e se e rarahane ka mokhoa o makatsang ho feta ho tsebahala, ha ho na ho khutlela morao, bokamoso bo lerootho ebile bo bolokehile, sebakeng sa mananeo, tsoalisa linotsi 'me u etse chisi.

Ha se lefeela hore basebetsi-mmoho ba nang le boiphihlelo, ba nang le litšitšili ebile ba se ba le hlooho e putswa, ba nahana ka ho romelloa ka potlako ho makatsang ha lipakete tsa "lits'oants'o" ka "li-cubes" ho li-server tse ngata ka "lipuo tsa feshene" tse nang le ts'ehetso e hahiloeng bakeng sa li-asynchronous non- ho thiba I / O - bososela ka boinyenyefatso . 'Me u tsoele pele ho bala hape "mon ps", u kene ka har'a mehloli ea "nginx" ho fihlela ho tsoa mali mahlong le ho ngola-ngola-ngola liteko tsa yuniti. Basebetsi-'moho le bona ba tseba hore ho tla ba le lintho tse thahasellisang ka ho fetisisa, ha "tsena tsohle" ka letsatsi le leng li tla fetoha thupa bosiung ba Selemo se Secha. 'Me ke kutloisiso e tebileng feela ea mofuta oa unix, tafole ea boemo ba TCP / IP e ithutoang le li-algorithms tsa mantlha tsa ho batla li tla ba thusa. Ho khutlisetsa tsamaiso bophelong tlas'a li-chimes.

Oh ee, ke ile ka ferekana hanyane, empa ke tšepa hore ke khonne ho fetisa boemo ba tebello.
Kajeno ke batla ho arolelana le boiphihlelo ba rona ba ho tsamaisa stack ea DataLake e bonolo le e theko e tlaase e rarollang boholo ba mesebetsi ea tlhahlobo k'hamphaning bakeng sa likarohano tse fapaneng tsa meralo.

Nakong e fetileng, re ile ra utloisisa hore lik'hamphani li hloka litholoana tse ngata tsa lihlahisoa le lisebelisoa tsa theknoloji (re sa bue ka icing ka kaka ka mokhoa oa ho ithuta mochine) le ho utloisisa mekhoa le likotsi, u lokela ho bokella. le ho sekaseka metrics e mengata le ho feta.

Litlhahlobo tsa mantlha tsa tekheniki ho Bitrix24

Lilemong tse 'maloa tse fetileng, ka nako e ts'oanang le ts'ebetso ea ts'ebeletso ea Bitrix24, re ile ra tsetela nako le lisebelisoa ka mafolofolo ho theha sethala sa tlhahlobo se bonolo le se ka tšeptjoang se neng se tla thusa ho bona mathata ka potlako lits'ebetsong le ho rera mohato o latelang. Ha e le hantle, ho ne ho lakatseha ho nka lisebelisoa tse lokiselitsoeng le tse bonolo le tse utloisisoang ka hohle kamoo ho ka khonehang. Ka lebaka leo, nagios e ile ea khethoa bakeng sa ho beha leihlo le munin bakeng sa analytics le pono. Hona joale re na le licheke tse likete ho nagios, makholo a lichate ho munin le basebetsi-'moho le bona ba li sebelisa letsatsi le letsatsi le ka katleho. Li-metrics li hlakile, li-graph li hlakile, tsamaiso e 'nile ea sebetsa ka botšepehi ka lilemo tse' maloa 'me liteko tse ncha le li-graph li eketsoa khafetsa ho eona: re kenya ts'ebeletso e ncha ts'ebetsong - re eketsa liteko le li-graph tse' maloa. Mahlohonolo.

Hantle ho pulse - analytics e tsoetseng pele ea tekheniki

Takatso ea ho fumana tlhahisoleseling ka mathata "kapele kamoo ho ka khonehang" e ile ea etsa hore re leke ka mafolofolo lisebelisoa tse bonolo le tse utloisisoang - pinba le xhprof.

Pinba e re romelletse lipalo-palo ka lebelo la likarolo tsa maqephe a marang-rang a PHP ka lipaketeng tsa UDP 'me u ka bona marang-rang polokelong ea MySQL (pinba e tla le enjene ea eona ea MySQL bakeng sa tlhahlobo ea liketsahalo tse potlakileng) lethathamo le lekhutšoane la mathata le ho li araba. Mme xhprof ka bo eona e ile ea etsa hore ho khonehe ho bokella li-graph tsa phepelo ea maqephe a liehang ho feta a PHP ho tsoa ho bareki le ho sekaseka se ka lebisang ho sena - ka khutso, ho tšela tee kapa ho hong ho matla.

Nakong e fetileng, sesebelisoa sa lisebelisoa se ile sa tlatsoa ka enjine e 'ngoe e bonolo le e utloisisoang e ipapisitse le algorithm ea reverse indexing, e kentsoeng tšebetsong hantle laebraring ea nalane ea Lucene - Elastic / Kibana. Mohopolo o bonolo oa ho ngola litokomane tse nang le likhoele tse ngata ho index ea Lucene e fapaneng e ipapisitseng le liketsahalo tse ka har'a marako le ho li batlisisa ka potlako u sebelisa li-faceting e bile molemo haholo.

Leha ho na le chebahalo ea botekgeniki ea lipono tsa Kibana tse nang le "ho phalla holimo" mehopolo ea boemo bo tlase joalo ka "bakete" le puo e nchafalitsoeng ea algebra ea kamano e e-so lebaloe ka botlalo, sesebelisoa se fetohile thuso e ntle ho rona mesebetsing e latelang. :

  • Ke liphoso tse kae tsa PHP tseo moreki oa Bitrix24 a bileng le tsona ho portal ea p1 horeng e fetileng mme ke life? Utloisisa, tšoarela 'me u lokise kapele.
  • Ke li-call tse kae tsa video tse entsoeng li-portal tsa Jeremane lihoreng tse 24 tse fetileng, ka boleng bofe mme ho bile le mathata afe kapa afe ka mocha / marang-rang?
  • Ts'ebetso ea sistimi (katoloso ea rona ea C bakeng sa PHP) e hlophisitsoeng hantle ho tsoa mohloling oa ntlafatso ea litšebeletso tsa morao-rao le ho fetisetsoa ho bareki e sebetsa hantle hakae? Na ha ho na segfaults?
  • Na data ea bareki e kena mohopolong oa PHP? Na ho na le liphoso tsa ho feta memori e abetsoeng lits'ebetso: "ho tsoa mohopolong"? Fumana mme o senye.

Mohlala o khethehileng ke ona. Leha ho lekoa ka hloko le ka maemo a mangata, moreki, ea nang le nyeoe e sa tloaelehang haholo le data e senyehileng ea ho kenya, o bile le phoso e khopisang le e neng e sa lebelloa, ho ile ha lla siren, 'me mokhoa oa ho e lokisa kapele oa qala:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Ho phaella moo, kibana e u lumella ho hlophisa litsebiso ka liketsahalo tse boletsoeng, 'me ka nako e khutšoanyane basebetsi ba bangata ba tsoang mafapheng a fapaneng ba ile ba qala ho sebelisa sesebelisoa k'hamphaning - ho tloha ho tšehetso ea tekheniki le nts'etsopele ho QA.

Ho se ho le bonolo ho lekola le ho lekanya tšebetso ea karohano efe kapa efe ka har'a k'hamphani - ho fapana le ho sekaseka lits'oants'o tsa li-server, ho lekane ho theha marang-rang a marang-rang hang ebe o li romella sehlopheng sa elastic hore o natefeloe. , mohlala, ho thuisa ka har'a dashboard ea kibana ea palo ea likatsana tse lihlooho tse peli tse rekisitsoeng tse hatisitsoeng khatisong ea 3-d khoeling e fetileng.

Bohlale ba motheo ba khoebo

Motho e mong le e mong oa tseba hore hangata bohlale ba khoebo lik'hamphaning bo qala ka ts'ebeliso e matla haholo, e, e, Excel. Empa, ntho e ka sehloohong ke hore ha e felle moo. Google Analytics e thehiloeng marung e ntse e eketsa mafura mollong - o potlakela ho tloaela se molemo.

K'hamphaning ea rona e ntseng e tsoela pele ka kutloano, "baprofeta" ba mosebetsi o matla haholoanyane ba nang le lintlha tse kholoanyane ba ile ba qala ho hlaha mona le mane. Litlhoko tsa litlaleho tse tebileng le tse ngata li ile tsa qala ho hlaha kamehla, 'me ka boiteko ba bahlankana ba tsoang mafapheng a fapaneng, ho ile ha hlophisoa tharollo e bonolo le e sebetsang nakong e fetileng - sehlopha sa ClickHouse le PowerBI.

Ka nako e telele, tharollo ena e bonolo e thusitse haholo, empa butle-butle kutloisiso e ile ea qala ho tla ea hore ClickHouse ha se rabara 'me u ke ke ua e soma joalo.

Ho bohlokoa ho utloisisa hantle mona hore ClickHouse, joalo ka Druid, joalo ka Vertica, joalo ka Amazon RedShift (e ipapisitseng le li-postgres), ke lienjineri tsa tlhahlobo tse ntlafalitsoeng bakeng sa li-analytics tse bonolo haholo (lipalo, kakaretso, bonyane-boholo ka kholomo le hanyane kopanya).), hobane li hlophisitsoe bakeng sa polokelo e nepahetseng ea litšiea tsa litafole tse amanang, ho fapana le MySQL le li-database tse ling (tse sekametseng mela) tseo re li tsebang.

Ha e le hantle, ClickHouse ke "setsi" sa "data" se nang le bokhoni, se nang le lintlha tse sa lokelang haholo (joalokaha ho reretsoe, ntho e 'ngoe le e' ngoe e lokile), empa li-analytics tse ntle le sete sa mesebetsi e matla e thahasellisang bakeng sa ho sebetsa le data. E, u ka ba ua theha sehlopha - empa, ua utloisisa, ho otla lipekere tse nang le microscope ha hoa nepahala ka ho feletseng, 'me re ile ra qala ho batla litharollo tse ling.

Tlhokahalo ea python le bahlahlobisisi

Ho na le bahlahisi ba bangata k'hamphaning ea rona ba ngolang khoutu hoo e ka bang letsatsi le leng le le leng bakeng sa lilemo tse 10-20 ho PHP, JavaScript, C #, C/C++, Java, Go, Rust, Python, Bash. Hape ho na le balaoli ba bangata ba nang le phihlelo ba nang le phihlelo ba nang le koluoa ​​​​e fetang e le 'ngoe e hlollang ka ho feletseng e sa lumellaneng le melao ea lipalo-palo (mohlala, ha li-disk tse ngata tse hlaselang-10 li senngoa nakong ea seteraeke se matla sa lehalima). Maemong a joalo, ka nako e telele ho ne ho sa hlaka hore na "python analyst" ke eng. Python e tšoana le PHP, ke lebitso feela le lelelele hanyenyane mme mesaletsa ea lintho tse fetolang kelello ho khoutu ea mohloli oa mofetoleli e nyane hanyane. Leha ho le joalo, ha ho ntse ho etsoa litlaleho tse ngata tsa tlhahlobo, bahlahisi ba nang le boiphihlelo ba se ba ntse ba hlokomela bohlokoa ba ho ikamahanya le maemo ho lisebelisoa tse kang numpy, pandas, matplotlib, seaborn.
Karolo ea makhaola-khang, e ka 'nang ea e-ba teng, e ne e bapaloa ke ho akheha ha basebetsi ka tšohanyetso ho tsoa ho motsoako oa mantsoe "logistic regression" le pontšo ea tlaleho e sebetsang ea data ea volumetric ho sebelisa e, e, pyspark.

Apache Spark, paradigm ea eona e sebetsang, e ikahelang hantle ho algebra ea kamano, 'me bokhoni ba eona bo entse maikutlo a joalo ho bahlahisi ba tloaetseng MySQL hore tlhokahalo ea ho matlafatsa maemo a ntoa ke bahlahlobisisi ba nang le boiphihlelo e hlakile joalo ka letsatsi.

Boiteko bo bong ba Apache Spark/Hadoop ba ho tloha le se sa tsamaeeng hantle

Leha ho le joalo, kapele ho ile ha hlaka hore ka Spark, ho hlakile hore ho na le ho hong ho neng ho sa loka ka mokhoa o hlophisitsoeng, kapa o hloka feela ho hlatsoa matsoho hantle. Haeba stack ea Hadoop/MapReduce/Lucene e entsoe ke baetsi ba mananeo ba nang le boiphihlelo, ho totobetseng haeba u sheba ka tjantjello ho khoutu ea mohloli ho Java kapa mehopolo ea Doug Cutting ho Lucene, joale Spark e ngotsoe ka tšohanyetso ka phehisano e kholo mabapi le ts'ebetso le ts'ebetso. ha joale ha e hlahise puo e sa tloaelehang ea Scala. 'Me ho theoha ho tloaelehileng ha lipalo ho sehlopha sa Spark ka lebaka la mosebetsi o sa utloahaleng le o sa bonahaleng haholo o nang le kabo ea mohopolo bakeng sa ho fokotsa ts'ebetso (linotlolo tse ngata li fihla hang-hang) li thehile halo ho potoloha ntho e nang le sebaka sa ho hola. Ho phaella moo, boemo bona bo ile ba mpefatsoa ke palo e kholo ea likou tse sa tloaelehang tse bulehileng, lifaele tsa nakoana tse ntseng li hōla libakeng tse sa utloisisoang ka ho fetisisa, le ho itšetleha ka lihele tsa nkho - e leng se ileng sa etsa hore batsamaisi ba tsamaiso ba ikutloe ba le boikutlo bo tsebahalang ho tloha bongoaneng: lehloeo le bohale (kapa mohlomong ba ka be ba hlapile matsoho a bona ka sesepa).

Ka lebaka leo, re "pholohile" merero e mengata ea tlhahlobo ea kahare e sebelisang Apache Spark ka mafolofolo (ho kenyeletsoa Spark Streaming, Spark SQL) le Hadoop ecosystem (le tse ling). Leha taba ea hore ha nako e ntse e ea re ile ra ithuta ho pheha le ho beha leihlo "eona" hantle, mme "e" e ile ea emisa ka tšohanyetso ho oa ka lebaka la phetoho ea sebopeho sa data le ho se leka-lekane ha hashing ea RDD, takatso ea ho nka ntho e itseng. e seng e lokile, e nchafalitsoe le ho tsamaisoa kae-kae Leru le ile la matlafala le ho feta. E ne e le ka nako ena moo re ileng ra leka ho sebelisa mohaho o entsoeng ka maru oa Amazon Web Services − EMR 'me, ka mor'a moo, o ile a leka ho rarolla mathata a seng a ntse a le teng. EMR ke Apache Spark e entsoeng ka Amazon e nang le software e eketsehileng e tsoang ho ecosystem, joalo ka Cloudera/Hortonworks builds.

"Rubber" polokelo ea faele bakeng sa analytics - tlhokahalo e potlakileng

Phihlelo ea "ho pheha" Hadoop / Spark ka ho chesoa ha likarolo tse fapaneng tsa 'mele e ne e se lefeela. Tlhokahalo ea ho theha polokelo e le 'ngoe e theko e tlaase le e tšepahalang e ka hananang le liphoso tsa Hardware le eo ho eona ho neng ho tla khonahala ho boloka lifaele ka mefuta e fapaneng ho tsoa lits'ebetsong tse fapaneng le ho etsa likhetho tse sebetsang le tse utloahalang bakeng sa litlaleho tse thehiloeng ho data ena e se e hlakile haholoanyane. .

Ke ne ke boetse ke batla hore ntlafatso ea software ea sethala sena e se ke ea fetoha toro ea Selemo se Secha ka ho bala maqephe a 20 a Java le ho sekaseka li-cluster tse nang le lintlha tse bolelele ba lik'hilomithara tse sebelisang Spark History Server le magnifier. Ke ne ke batla ho ba le sesebelisoa se bonolo le se pepeneneng se sa hlokeng ho qoela khafetsa tlas'a hood haeba mohlahlami a ne a emisa ho etsa potso e tloaelehileng ea MapReduce ha mosebeletsi oa ho fokotsa data a oela mohopolong ka algorithm e sa khethoang hantle haholo ea ho arola data.

Na Amazon S3 ke Mokhethoa oa DataLake?

Phihlelo ka Hadoop / MapReduce e nthutile hore re hloka tsamaiso ea lifaele tse ka tšeptjoang le basebetsi ba scalable ka holimo ho eona ba "tlang" haufi le data e le hore re se ke ra khanna data holim'a marang-rang. Basebetsi ba lokela ho tseba ho bala data ka liforomo tse fapaneng, empa ke ntho e lakatsehang hore ba se ke ba bala tlhahisoleseling e sa hlokahaleng le hore data e ka bolokoa esale pele ka liforomo tse loketseng basebetsi.

Hang hape, mohopolo oa sehlooho. Ha ho na takatso ea ho "tlatsa" data e kholo ka har'a enjine e le 'ngoe ea tlhahlobo ea sehlopha, e tlang kapele kapa hamorao e tla tlameha ho petsoha hampe. Ke batla ho boloka lifaele, lifaele feela, ka mokhoa o utloisisoang le ho etsa lipotso tse sebetsang hantle ho tsona ka lisebelisoa tse fapaneng, empa tse utloisisoang. 'Me ho tla ba le lifaele tse ngata le ho feta ka mekhoa e fapaneng. 'Me ho molemo ho shard eseng enjene, empa data ea mohloli. Re hloka DataLake e atolositsoeng le e tenyetsehang, re nkile qeto ...

Mme ho thoe'ng haeba u boloka lifaele sebakeng se tsebahalang le se tsebahalang sa polokelo ea maru sa Amazon S3 ntle le ho pheha chops ea hau ea Hadoop?

Ho hlakile hore data ke "nizya", empa haeba lintlha tse ling li ntšoa moo 'me li "khannoa ka katleho"?

Amazon Web Services Cluster-Bigdata-Analytic Ecosystem - Ka Mantsoe a Bonolo Haholo

Ha re nahana ka phihlelo ea rona le AWS, Apache Hadoop / MapReduce e 'nile ea sebelisoa ka mafolofolo moo ka nako e telele tlas'a li-sauces tse sa tšoaneng, mohlala, tšebeletsong ea DataPipeline (Ke honohela basebetsi-'moho le 'na, ba ithutile ho e pheha ka nepo). Mona re theha li-backups tse tsoang lits'ebeletso tse fapaneng tse tsoang litafoleng tsa DynamoDB:
Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

'Me esale ba matha khafetsa ho lihlopha tse kenyellelitsoeng tsa Hadoop/MapReduce joalo ka oache ka lilemo tse ngata joale. "Beha 'me u lebale":

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Hape, o ka kenella ka katleho ho satanism ea data ka ho phahamisa lilaptop tsa Jupiter marung bakeng sa bahlahlobisisi le ho sebelisa ts'ebeletso ea AWS SageMaker bakeng sa koetliso le ho kenya mefuta ea AI ntoeng. Mona ke hore na e shebahala joang ho rona:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

E, u ka inkela laptop kapa ua inkela li-analytics ka har'a leru, 'me u li kopanye le sehlopha sa Hadoop / Spark, u li bale, ebe u li "khokhothela" tsohle:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

E thusa haholo bakeng sa merero ea tlhahlobo ea motho ka mong mme ho ba bang re sebelisitse tšebeletso ea EMR ka katleho bakeng sa lipalo tse kholo le litlhahlobo. Mme ho thoe'ng ka tharollo ea sistimi bakeng sa DataLake, na e tla sebetsa? Mothating ona, re ne re le mothating oa ho ba le tšepo le ho nyahama ’me re ile ra tsoela pele ho batla.

AWS Glue - Apache Spark e pakiloeng ka makhethe ho li-steroids

Ho ile ha fumaneha hore AWS e na le "mofuta oa eona" oa "Hive / Pig / Spark" stack. Karolo ea Hive, i.e. lethathamo la lifaele le mefuta ea tsona ho DataLake e etsoa ke tšebeletso ea "Data catalog", e sa patang ho lumellana ha eona le sebopeho sa Apache Hive. Ts'ebeletsong ena, o hloka ho eketsa tlhahisoleseling mabapi le hore na lifaele tsa hau li hokae le hore na li ka sebopeho sefe. Lintlha li ka se be feela ho s3, empa hape le ho database, empa sena ha se posong ena. Mona ke kamoo lethathamo la data la DataLake le hlophisitsoeng bakeng sa rona:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Lifaele li ngolisitsoe, li ntle. Haeba lifaele li ntlafalitsoe, re hlahisa li-crawlers ka letsoho kapa ka kemiso, tse tla nchafatsa lintlha ka tsona ho tsoa letšeng le ho li boloka. Ho feta moo, lintlha tse tsoang letšeng li ka sebetsoa 'me liphetho tsa kenngoa kae-kae. Boemong bo bonolo, re boetse re e kenya ho s3. Ts'ebetso ea data e ka etsoa kae kapa kae, empa ho khothaletsoa ho theha ts'ebetso ho sehlopha sa Apache Spark ho sebelisa bokhoni bo tsoetseng pele ka AWS Glue API. Ebile, o ka nka khoutu e ntle ea khale le e tloaelehileng ea python o sebelisa laeborari ea pyspark mme o lokise ts'ebetso ea eona ho li-node tsa N tsa sehlopha sa bokhoni bo itseng ka ho beha leihlo, ntle le ho cheka ka har'a li-giblets tsa Hadoop le ho hula lijana tsa docker-mocker le ho felisa likhohlano tsa ho itšetleha.

Hang hape, mohopolo o bonolo. Ha ho hlokahale hore u lokise Apache Spark, u hloka feela ho ngola khoutu ea python bakeng sa pyspark, e leke sebakeng sa heno ho komporo ea hau ebe u e tsamaisa sehlopheng se seholo marung, u hlalosa hore na mohloli oa data o hokae le hore na u ka beha sephetho hokae. . Ka linako tse ling e ea hlokahala ebile e na le thuso, 'me ke kamoo e hlophisitsoeng le rona kateng:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Kahoo, haeba o hloka ho bala ho hong ho sehlopha sa Spark ho data ho s3, re ngola khoutu ho python / pyspark, e leke 'me re be le leeto le letle la ho ea marung.

Ho thoe'ng ka 'mino oa liletsa? 'Me haeba mosebetsi o ile oa oa' me oa nyamela? E, ho reriloe ho etsa pipeline e ntle ka mokhoa oa Apache Pig mme re bile re e leka, empa re nkile qeto ea ho sebelisa 'mino oa rona o hlophisitsoeng ka botebo ho PHP le JavaScript hajoale (kea utloisisa, ho na le dissonance ea kelello, empa e sebetsa ka lilemo. le ntle le diphoso).

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Letša le bolokiloeng la faele senotlolo sa ho sebetsa

Ho bohlokoa haholo ho utloisisa lintlha tse ling tse peli tsa bohlokoa. Ho etsa bonnete ba hore likopo tsa data ea faele letšeng li etsoa kapele kamoo ho ka khonehang le hore ts'ebetso ha e theohe ha tlhahisoleseling e ncha e eketsoa, ​​​​o hloka ho:

  • Boloka litšiea tsa lifaele ka thoko (e le hore u se ke ua bala mela eohle ho utloisisa se ka har'a mela). Ho etsa sena, re nkile sebopeho sa parquet ka compression
  • Ho bohlokoa haholo ho arola lifaele ka lifoldara moeeng: puo, selemo, khoeli, letsatsi, beke. Li-engines tse utloisisang mofuta ona oa sharding li tla sheba feela li-folders tse nepahetseng, ntle le ho phunya data eohle ka tatellano.

Ebile, ka tsela ena, o beha ka mokhoa o sebetsang hantle oa data ea mohloli bakeng sa lienjineri tsa tlhahlobo tse fanyehiloeng holimo, tse ka khethang ho kenya le ho bala litšiea tse hlokahalang feela ho tsoa ho lifaele ho ea lifoldareng tse sharded. Ha ho hlokahale hore u "tlatse" data kae kapa kae (sebaka sa polokelo se tla phatloha) - hang-hang u li behe ka bohlale tsamaisong ea faele ka mokhoa o nepahetseng. Ha e le hantle, ho lokela ho hlaka mona hore ho boloka faele e kholo ea csv ho DataLake, e lokelang ho baloa pele mola ka mola ke sehlopha ho ntša litšiea, ha ho bohlale haholo. Nahana ka lintlha tse peli tse ka holimo hape, haeba ho e-s'o hlake hore na ke hobane'ng ha sena sohle se le teng.

AWS Athena - "lihele" ho tloha lebokoseng la snuff

'Me joale, ha re ntse re theha letša, rona, ka tsela e itseng ha re feta, re ile ra khoptjoa ho Amazon Athena. Ka tšohanyetso ho ile ha fumaneha hore ka ho phutha lifaele tsa rona tse kholo tsa li-log ho li-shard-daddies ka sebopeho se nepahetseng sa likholomo (parquet), o ka etsa likhetho tse rutang haholo ho tsona mme oa theha litlaleho KA NTLE, ntle le sehlopha sa Apache Spark / Glue.

Enjene ea Athena e tsamaisoang ke data ho s3 e ipapisitse le nalane Presto - moemeli oa MPP (massive parallel processing) lelapa la mekhoa ea ho sebetsana le data, ho nka data moo e leng teng, ho tloha s3 le Hadoop ho ea Cassandra le lifaele tse tloaelehileng tsa mongolo. U hloka feela ho kopa Athena ho etsa potso ea SQL, ebe ntho e 'ngoe le e' ngoe e "sebetsa kapele le ka boeona". Ke habohlokoa ho hlokomela hore Athena ke "bohlale", e ea feela ho li-folders tse hlokahalang tse sharded mme e bala feela litšiea tse hlokahalang potsong.

Likōpo ho Athena le tsona li lefisoa ka mokhoa o thahasellisang. Re lefella palo ea data e hlahlobiloeng. Tseo. eseng bakeng sa palo ea mechine ka har'a sehlopha ka motsotso, empa ... bakeng sa lintlha tse hlileng li hlahlobiloeng ka mechine ea 100-500, ke lintlha tse hlokahalang feela ho tlatsa kopo.

'Me ka ho kopa litšiea tse hlokahalang feela ho li-folders tse sharded ka nepo, ho ile ha fumaneha hore tšebeletso ea Athena e re lefella lidolara tse mashome ka khoeli. Che, e ntle, e batla e lokolohile, ha e bapisoa le li-analytics tsa lihlopha!

Ka tsela, mona ke kamoo re arolang data ea rona ho s3:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

Ka lebaka leo, ka nako e khuts'oane, mafapha a fapaneng ka ho felletseng k'hamphaning, ho tloha ts'ireletso ea tlhahisoleseling ho ea ho li-analytics, a ile a qala ho etsa likopo ho Athena mme kapele, ka metsotsoana, a fumana likarabo tsa bohlokoa ho tsoa ho data "tse kholo" ka nako e kholo: likhoeli, halofo ea selemo, joalo-joalo P.

Empa re ile ra tswela pele mme ra qala ho ya lerung bakeng sa dikarabo. ka mokhanni oa ODBC: mohlahlobi o ngola potso ea SQL ka console e tloaelehileng, eo ka mechine ea 100-500 "bakeng sa penny" e hlahisa data ka s3 'me e khutlisetsa karabo, hangata ka metsotsoana e seng mekae. E phutholohile. Mme kapele. Ke ntse ke sa kholoe.

Ka lebaka leo, kaha re nkile qeto ea ho boloka data ho s3, ka mokhoa o nepahetseng oa kholumo le ka ho arola data ka lifoldara ... re fumane DataLake le enjene ea tlhahlobo e potlakileng le e theko e tlase - mahala. Mme a tuma haholo k'hamphaning, hobane. e utloisisa SQL mme e sebetsa ka litaelo tsa boholo ka potlako ho feta ka litlhophiso tsa ho qala / ho emisa / lihlopha. 'Me haeba sephetho se tšoana, ke hobane'ng ha u lefa ho feta?"

Kopo ho Athena e shebahala tjena. Haeba o lakatsa, ho hlakile, o ka etsa ho lekaneng Potso e rarahaneng le e nang le likarolo tse ngata tsa SQL, empa re tla iphelisa feela ka lihlopha tse bonolo. Ha re boneng hore na moreki o ne a e-na le likhoutu life libekeng tse 'maloa tse fetileng ho li-database tsa marang-rang mme o netefatse hore ha ho na liphoso:

Re hlophisitse joang DataLake e sebetsang hantle haholo ebile e sa turu le hobaneng

fumanoeng ke

Ha re se re fetile, re sa bolele hore tsela e telele, empa e bohloko, ho hlahloba ka ho lekaneng likotsi le boemo ba ho rarahana le litšenyehelo tsa tšehetso, re fumane tharollo bakeng sa DataLake le analytics, e sa khaotseng ho re khahlisa ka lebelo le litšenyehelo. tsa borui.

Ho ile ha fumaneha hore ho aha dataLake e sebetsang hantle, e potlakileng le e theko e tlaase bakeng sa litlhoko tsa mafapha a fapaneng ka ho felletseng a k'hamphani e ka har'a matla a bahlahisi ba nang le boiphihlelo ba e-so ka ba sebetsa e le litsebi tsa meralo le ba sa tsebeng ho hula lisekoere mabaleng. ka metsu le ba tsebang mantsoe a 50 a tsoang ho Hadoop ecosystem.

Qalong ea leeto, hlooho ea ka e ne e robeha ho tloha bongata ba libaka tsa liphoofolo tse hlaha tsa software e bulehileng le e koetsoeng le kutloisiso ea moroalo oa boikarabelo ho litloholo. Qala feela ho haha ​​​​DataLake ea hau ho lisebelisoa tse bonolo: nagios / munin -> elastic / kibana -> Hadoop / Spark / s3 ..., ho bokella maikutlo le ho utloisisa ka botebo fisiks ea mekhoa e tsoelang pele. Ntho e 'ngoe le e' ngoe e rarahaneng le e seretse - e fe lira le bahlolisani.

Haeba u sa batle ho ea marung 'me u rata ho boloka, ho ntlafatsa le ho bula merero e bulehileng, u ka haha ​​​​sekema se tšoanang le sa rona sebakeng sa heno, ka mechine ea liofisi e theko e tlaase e nang le Hadoop le Presto holimo. Ntho e ka sehloohong ha se ho emisa le ho ea pele, ho bala, ho batla litharollo tse bonolo le tse hlakileng, 'me ka sebele ntho e' ngoe le e 'ngoe e tla sebetsa! Mahlohonolo ho bohle 'me ke tla u bona haufinyane!

Source: www.habr.com

Eketsa ka tlhaloso