Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Tha sinn beò ann an àm iongantach nuair as urrainn dhut grunn innealan stòr fosgailte deiseil a cheangal gu sgiobalta agus gu furasta, an stèidheachadh leis an “mhothachadh agad air a chuir dheth" a rèir comhairle stackoverflow, gun a bhith a’ dol a-steach do na “ioma litrichean”, agus a chuir air bhog iad gu gnìomhachd malairteach. Agus nuair a dh’ fheumas tu ùrachadh / leudachadh no ma dh’ ath-chuireas cuideigin inneal no dhà gun fhiosta - tuigidh tu gu bheil seòrsa de dhroch aisling obsessive air tòiseachadh, tha a h-uile dad air fàs gu math toinnte gun aithneachadh, chan eil tionndadh air ais, tha an àm ri teachd neo-shoilleir agus nas sàbhailte, an àite prògramadh, briodadh seilleanan agus dèan càise.

Chan ann airson rud sam bith a tha co-obraichean nas eòlaiche, le an cinn air an sgapadh le biastagan agus mar sin mar-thà liath, a’ beachdachadh air a bhith a’ cleachdadh phasganan de “soithichean” ann an “ciùban” air dusanan de luchd-frithealaidh ann an “cànanan fasanta” le taic stèidhichte airson I/O neo-bhacadh asyncronach, gàire gu modhail. Agus bidh iad gu sàmhach a’ leantainn orra ag ath-leughadh “man ps”, a’ dol a-steach don chòd stòr “nginx” gus am bi an sùilean a ’bleith, agus a’ sgrìobhadh, a ’sgrìobhadh, a’ sgrìobhadh deuchainnean aonaid. Tha fios aig co-obraichean gun tig an rud as inntinniche nuair a thèid “seo uile” aon latha a chuir an sàs air an oidhche air Oidhche Challainn. Agus cha bhith iad air an cuideachadh ach le tuigse dhomhainn air nàdar unix, an clàr stàite TCP/IP air a chuimhneachadh agus algorithms lorg seòrsachaidh bunaiteach. Gus an siostam a thoirt air ais beò fhad ‘s a tha na claigeann a’ bualadh.

O seadh, ghabh mi beagan dragh orm, ach tha mi an dòchas gun d’ fhuair mi air adhart an suidheachadh ris an robh dùil agam.
An-diugh tha mi airson ar n-eòlas a cho-roinn ann a bhith a’ cleachdadh stac goireasach is saor airson DataLake, a dh’ fhuasglas a’ mhòr-chuid de ghnìomhan mion-sgrùdaidh sa chompanaidh airson roinnean structarail gu tur eadar-dhealaichte.

O chionn ùine, thàinig sinn chun tuigse gu bheil barrachd is barrachd feum aig companaidhean air toradh an dà chuid toradh agus mion-sgrùdadh teignigeach (gun luaidh air an icing air a’ chèic ann an cruth ionnsachadh innealan) agus gus gluasadan agus cunnartan a thuigsinn - feumaidh sinn cruinneachadh agus mion-sgrùdadh. barrachd is barrachd metrics.

Mion-sgrùdadh teicnigeach bunaiteach ann am Bitrix24

O chionn grunn bhliadhnaichean, aig an aon àm ri cur air bhog seirbheis Bitrix24, chuir sinn gu gnìomhach ùine agus goireasan an seilbh ann a bhith a ’cruthachadh àrd-ùrlar anailis sìmplidh agus earbsach a chuidicheadh ​​​​gu luath gus duilgheadasan sa bhun-structair fhaicinn agus an ath cheum a dhealbhadh. Gu dearbh, bha e ciallach innealan deiseil a ghabhail a bha cho sìmplidh agus cho furasta a thuigsinn. Mar thoradh air an sin, chaidh Nagios a thaghadh airson sgrùdadh agus munin airson anailisean agus fradharc. A-nis tha mìltean de sgrùdaidhean againn ann an nagios, ceudan de chlàran ann am munin, agus bidh ar co-obraichean gan cleachdadh gu soirbheachail a h-uile latha. Tha na meatrach soilleir, tha na grafaichean soilleir, tha an siostam air a bhith ag obair gu earbsach airson grunn bhliadhnaichean agus bidh deuchainnean agus grafaichean ùra gan cur ris gu cunbhalach: nuair a chuireas sinn seirbheis ùr an gnìomh, bidh sinn a’ cur grunn dheuchainnean agus ghrafaichean ris. Beannachd leat.

Finger on the Pulse - Mion-sgrùdadh Teicnigeach Adhartach

Thug am miann fiosrachadh fhaighinn mu dhuilgheadasan “cho luath sa ghabhas” sinn gu deuchainnean gnìomhach le innealan sìmplidh agus so-thuigsinn - pinba agus xhprof.

Chuir Pinba staitistig thugainn ann am pacaidean UDP mu astar gnìomhachd pàirtean de dhuilleagan lìn ann am PHP, agus chitheadh ​​​​sinn air-loidhne ann an stòradh MySQL (tha Pinba a’ tighinn leis an einnsean MySQL aige fhèin airson mion-sgrùdadh tachartais luath) liosta ghoirid de dhuilgheadasan agus freagairt. iad. Agus thug xhprof cead dhuinn gu fèin-obrachail a bhith a 'cruinneachadh ghrafaichean de choileanadh nan duilleagan PHP as slaodaiche bho luchd-dèiligidh agus a' sgrùdadh dè a dh'fhaodadh leantainn gu seo - gu socair, a 'dòrtadh tì no rudeigin nas làidire.

O chionn ùine, chaidh an inneal ath-lìonadh le einnsean eile a bha gu math sìmplidh agus so-thuigsinn stèidhichte air an algairim clàr-amais cùil, air a chuir an gnìomh gu foirfe ann an leabharlann uirsgeulach Lucene - Elastic / Kibana. Bha am beachd sìmplidh air clàradh ioma-snàithlean de sgrìobhainnean a-steach do chlàr-amais Lucene inverse stèidhichte air tachartasan anns na logaichean agus sgrùdadh sgiobalta troimhe a’ cleachdadh roinneadh facet gu math feumail.

A dh’ aindeoin coltas caran teignigeach de fhradharc ann an Kibana le bun-bheachdan ìre ìosal mar “bucaid” “a’ sruthadh suas ”agus cànan ath-chruthaichte an ailseabra dàimheach nach deach a dhìochuimhneachadh fhathast, thòisich an inneal gar cuideachadh gu math anns na gnìomhan a leanas:

  • Cia mheud mearachd PHP a bha aig an neach-dèiligidh Bitrix24 air an portal p1 anns an uair mu dheireadh agus dè an fheadhainn? Tuig, thoir maitheanas agus ceartaich gu sgiobalta.
  • Cia mheud fios bhidio a chaidh a dhèanamh air portals sa Ghearmailt anns na 24 uairean roimhe, le dè an càileachd agus an robh duilgheadasan sam bith leis an t-sianal / lìonra?
  • Dè cho math ’s a tha gnìomhachd an t-siostaim (an leudachadh C againn airson PHP), air a chur ri chèile bhon stòr san ùrachadh seirbheis as ùire agus air a sgaoileadh a-mach gu teachdaichean, ag obair? A bheil segfaults ann?
  • A bheil dàta teachdaiche a’ freagairt air cuimhne PHP? A bheil mearachdan sam bith ann mu bhith a’ dol thairis air a’ chuimhne a chaidh a thoirt do phròiseasan: “a-mach às a’ chuimhne”? Lorg agus neodachadh.

Seo eisimpleir concrait. A dh’ aindeoin deuchainn mionaideach agus ioma-ìre, fhuair an neach-dèiligidh, le cùis fìor neo-àbhaisteach agus dàta cuir a-steach millte, mearachd neònach ris nach robh dùil, fuaim dùdach agus thòisich am pròiseas airson a chàradh gu sgiobalta:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

A bharrachd air an sin, leigidh kibana leat fiosan a chuir air dòigh airson tachartasan sònraichte, agus ann an ùine ghoirid thòisich an inneal sa chompanaidh air a chleachdadh le dusanan de luchd-obrach bho dhiofar roinnean - bho thaic theicnigeach agus leasachadh gu QA.

Tha gnìomhachd roinn sam bith taobh a-staigh a’ chompanaidh air a thighinn gu bhith goireasach airson lorg agus tomhas - an àite a bhith a’ dèanamh anailis le làimh air logaichean air frithealaichean, cha leig thu leas ach logaichean parsaidh a stèidheachadh aon uair agus an cur chun bhuidheann elastagach gus tlachd fhaighinn, mar eisimpleir, a’ beachdachadh air an kibana. deas-bhòrd an àireamh de phiseagan dà-cheann a chaidh a reic air an clò-bhualadh air clò-bhualadair 3-D airson a’ mhìos gealaich mu dheireadh.

Analytics gnìomhachais bunaiteach

Tha fios aig a h-uile duine gu bheil mion-sgrùdadh gnìomhachais ann an companaidhean gu tric a’ tòiseachadh le cleachdadh air leth gnìomhach de, tha, Excel. Ach is e am prìomh rud nach tig e gu crìch an sin. Bidh Google Analytics stèidhichte air Cloud cuideachd a’ cur connadh ris an teine ​​- bidh thu gu luath a’ tòiseachadh a’ fàs cleachdte ris an stuth math.

Anns a’ chompanaidh againn a tha a’ leasachadh gu co-chòrdail, an seo agus an sin thòisich “fàidhean” de dh ’obair nas dian le dàta nas motha a’ nochdadh. Thòisich an fheum air aithisgean nas doimhne agus ioma-thaobhach a’ nochdadh gu cunbhalach, agus tro oidhirpean ghillean bho dhiofar roinnean, o chionn ùine air ais chaidh fuasgladh sìmplidh agus practaigeach a chuir air dòigh - measgachadh de ClickHouse agus PowerBI.

Airson ùine mhòr, chuidich am fuasgladh sùbailte seo mòran, ach mean air mhean thòisich an tuigse a ’tighinn nach e rubair a th’ ann an ClickHouse agus nach urrainnear a bhith air a magadh mar sin.

An seo tha e cudromach tuigsinn gu math gu bheil ClickHouse, leithid Druid, mar Vertica, leithid Amazon RedShift (a tha stèidhichte air postgres), nan einnseanan mion-sgrùdaidh air an ùrachadh airson mion-sgrùdaidhean a tha gu math goireasach (suimean, cruinneachaidhean, as àirde tron ​​​​cholbh agus beagan cheanglaichean comasach. ), oir air a chuir air dòigh airson colbhan de chlàran co-cheangailte a stòradh gu h-èifeachdach, eu-coltach ri MySQL agus stòran-dàta eile (stèidhichte air sreath) as aithne dhuinn.

Gu dearbh, tha ClickHouse dìreach na “stòr-dàta” nas comasaiche, le cuir a-steach puing-air-puing nach eil gu math goireasach (sin mar a thathar an dùil, tha a h-uile dad ceart gu leòr), ach mion-sgrùdaidhean tlachdmhor agus seata de ghnìomhan cumhachdach inntinneach airson a bhith ag obair le dàta. Faodaidh, faodaidh tu eadhon cruinneachadh a chruthachadh - ach tuigidh tu nach eil e gu tur ceart a bhith a’ bualadh ìnean le miocroscop agus thòisich sinn a’ coimhead airson fuasglaidhean eile.

Iarrtas airson python agus sgrùdairean

Tha mòran de luchd-leasachaidh aig a ’chompanaidh againn a bhios a’ sgrìobhadh còd cha mhòr a h-uile latha airson 10-20 bliadhna ann am PHP, JavaScript, C #, C / C ++, Java, Go, Rust, Python, Bash. Tha mòran de luchd-rianachd siostam eòlach ann cuideachd a tha air eòlas fhaighinn air barrachd air aon mhòr-thubaist iongantach nach eil a 'freagairt ri laghan staitistig (mar eisimpleir, nuair a tha a' mhòr-chuid de na diosgan ann an ionnsaigh-10 air an sgrios le stailc dealanaich làidir). Ann an leithid de shuidheachaidhean, airson ùine mhòr cha robh e soilleir dè a bh’ ann an “anailisiche python”. Tha Python coltach ri PHP, chan eil ach an t-ainm beagan nas fhaide agus tha beagan nas lugha de lorgan de stuthan a tha ag atharrachadh inntinn ann an còd stòr an eadar-theangair. Ach, mar a chaidh barrachd is barrachd aithisgean anailis a chruthachadh, thòisich luchd-leasachaidh eòlach a’ sìor fhàs a’ tuigsinn cho cudromach sa tha speisealachadh cumhang ann an innealan leithid numpy, pandathan, matplotlib, seaborn.
Bha an dreuchd chinnteach, as coltaiche, air a chluich le bhith a’ fannachadh gu h-obann air luchd-obrach bhon mheasgachadh de na faclan “loidsistigs regression” agus taisbeanadh aithris èifeachdach air dàta mòr a’ cleachdadh, tha, tha, pyspark.

Thug Apache Spark, am paradigm gnìomh aige air a bheil ailseabra dàimheach a’ freagairt gu foirfe, agus na comasan aige a’ toirt a leithid de bheachd air luchd-leasachaidh a bha cleachdte ri MySQL gun robh an fheum air na h-ìrean le sgrùdairean eòlach a neartachadh air fàs soilleir mar latha.

Oidhirpean eile bho Apache Spark / Hadoop airson a thoirt dheth agus dè nach deach gu tur a rèir an sgriobt

Ach, cha b 'fhada gus an do dh'fhàs e soilleir nach robh rudeigin ceart gu riaghailteach le Spark, no gu robh e riatanach dìreach do làmhan a nighe nas fheàrr. Ma chaidh an stac Hadoop / MapReduce / Lucene a dhèanamh le luchd-prògramaidh gu math eòlach, rud a tha follaiseach ma choimheadas tu gu dlùth air a’ chòd stòr ann an Java no beachdan Doug Cutting ann an Lucene, an uairsin tha Spark, gu h-obann, sgrìobhte anns a’ chànan exotic Scala, is e sin gu math connspaideach bho thaobh practaigeach agus chan eil e a’ leasachadh an-dràsta. Agus tha an àireamhachadh cunbhalach ann an cruinneachadh Spark mar thoradh air obair aineolach agus nach eil gu math follaiseach le riarachadh cuimhne airson gnìomhachd lughdachadh (mòran iuchraichean a’ ruighinn aig an aon àm) air halo a chruthachadh timcheall air de rudeigin aig a bheil àite airson fàs. A bharrachd air an sin, chaidh an suidheachadh a dhèanamh nas miosa le àireamh mhòr de phuirt fosgailte neònach, faidhlichean sealach a 'fàs anns na h-àiteachan as do-chreidsinneach agus ifrinn de eisimeileachd jar - a thug air luchd-rianachd an t-siostaim aon fhaireachdainn a bha aithnichte bho òige: fuath fiadhaich (no is dòcha dh'fheumadh iad an làmhan a nighe le siabann).

Mar thoradh air an sin, tha sinn air “mairsinn” grunn phròiseactan mion-sgrùdaidh taobh a-staigh a bhios gu gnìomhach a’ cleachdadh Apache Spark (a ’toirt a-steach Spark Streaming, Spark SQL) agus eag-shiostam Hadoop (agus mar sin air adhart is mar sin air adhart). A dh 'aindeoin gun do dh' ionnsaich sinn thar ùine a bhith ag ullachadh agus a 'cumail sùil air "it" gu math, agus "e" cha mhòr nach do stad sinn gu h-obann air sgàth atharrachaidhean ann an nàdar an dàta agus mì-chothromachadh ann an èideadh RDD hashing, am miann rudeigin a dhèanamh deiseil mar-thà. , air ùrachadh agus air a rianachd an àiteigin san sgòth dh'fhàs e na bu làidire agus na bu làidire. B’ ann aig an àm seo a dh’ fheuch sinn ris a’ cho-chruinneachadh sgòthan deiseil de Sheirbheisean Lìn Amazon a chleachdadh - EMR agus, an dèidh sin, dh'fheuch e ri fuasgladh fhaighinn air duilgheadasan le bhith ga cleachdadh. Is e EMR Apache Spark ullachadh le Amazon le bathar-bog a bharrachd bhon eag-shiostam, coltach ri Cloudera / Hortonworks a’ togail.

Tha feum èiginneach air stòradh fhaidhlichean rubair airson anailisean

Cha robh an eòlas air “còcaireachd” Hadoop/Spark le uillt gu diofar phàirtean den bhodhaig dìomhain. Dh’ fhàs an fheum air stòradh faidhle singilte, saor agus earbsach a chruthachadh a bhiodh an aghaidh fàilligidhean bathar-cruaidh agus anns am biodh e comasach faidhlichean a stòradh ann an diofar chruthan bho dhiofar shiostaman agus sampallan èifeachdach is ùineail a dhèanamh airson aithisgean bhon dàta seo a’ sìor fhàs. soilleir.

Bha mi cuideachd ag iarraidh nach tionndaidh ùrachadh bathar-bog an àrd-ùrlar seo gu bhith na trom-laighe na Bliadhn ’Ùire le bhith a’ leughadh lorgan Java 20-duilleag agus a ’dèanamh anailis air logaichean mionaideach de chilemeatair den bhuidheann a’ cleachdadh Spark History Server agus glainne meudachaidh backlit. Bha mi airson inneal sìmplidh agus follaiseach a bhith agam nach fheumadh dàibheadh ​​​​cunbhalach fon chochall nan stadadh iarrtas àbhaisteach MapReduce an leasaiche a chuir an gnìomh nuair a thuit an neach-obrach dàta lughdachadh a-mach à cuimhne air sgàth algairim sgaradh dàta stòr nach deach a thaghadh gu math.

A bheil Amazon S3 na thagraiche airson DataLake?

Dh’ ionnsaich eòlas le Hadoop / MapReduce dhuinn gu bheil feum againn air siostam faidhle scalable, earbsach agus luchd-obrach scalable a bharrachd air, “a’ tighinn ”nas fhaisge air an dàta gus nach draibheadh ​​​​sinn an dàta thairis air an lìonra. Bu chòir gum biodh e comasach do luchd-obrach dàta a leughadh ann an diofar chruthan, ach is fheàrr gun a bhith a’ leughadh fiosrachadh neo-riatanach agus a bhith comasach air dàta a stòradh ro làimh ann an cruthan a tha iomchaidh don luchd-obrach.

A-rithist, am beachd bunaiteach. Chan eil miann ann dàta mòr a “dhòrtadh” a-steach do aon einnsean anailis brabhsair, a bhios a ’tachdadh nas luaithe no nas fhaide air adhart agus feumaidh tu a shìoladh gu grànda. Tha mi airson faidhlichean a stòradh, dìreach faidhlichean, ann an cruth a tha furasta a thuigsinn agus ceistean anailis èifeachdach a dhèanamh orra a’ cleachdadh innealan eadar-dhealaichte ach a tha furasta an tuigsinn. Agus bidh barrachd is barrachd fhaidhlichean ann an diofar chruthan. Agus tha e nas fheàrr chan e an einnsean a shìneadh, ach an stòr dàta. Feumaidh sinn DataLake leudachail agus uile-choitcheann, cho-dhùin sinn ...

Dè ma tha thu a’ stòradh fhaidhlichean anns an Amazon S3 stòraidh sgòthan scalable eòlach agus ainmeil, gun a bhith agad ri do chops fhèin ullachadh bho Hadoop?

Tha e soilleir gu bheil an dàta pearsanta “ìosal”, ach dè mu dheidhinn dàta eile ma bheir sinn a-mach e agus “ga stiùireadh gu h-èifeachdach”?

Eag-shiostam Cluster-bigdata-analytics de Sheirbheisean Lìn Amazon - ann am faclan gu math sìmplidh

A ’breithneachadh leis an eòlas a th’ againn le AWS, tha Apache Hadoop / MapReduce air a bhith air a chleachdadh gu gnìomhach an sin airson ùine mhòr fo dhiofar shàilean, mar eisimpleir anns an t-seirbheis DataPipeline (tha farmad agam ri mo cho-obraichean, dh’ ionnsaich iad mar a dheasaicheas iad e gu ceart). An seo stèidhich sinn cùl-taic bho dhiofar sheirbheisean bho chlàran DynamoDB:
Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Agus tha iad air a bhith a’ ruith gu cunbhalach air cruinneachaidhean stèidhichte Hadoop/MapReduce mar obair-cloc airson grunn bhliadhnaichean a-nis. “Suidhich e agus dìochuimhnich e”:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Faodaidh tu cuideachd a dhol an sàs gu h-èifeachdach ann an satanism dàta le bhith a’ stèidheachadh coimpiutairean-glùine Jupiter san sgòth airson luchd-anailis agus a’ cleachdadh seirbheis AWS SageMaker gus modalan AI a thrèanadh agus a chuir a-steach don bhlàr. Seo cò ris a tha e coltach dhuinn:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Agus tha, faodaidh tu laptop a thogail dhut fhèin no do mhion-sgrùdair san sgòth agus a cheangal ri cruinneachadh Hadoop / Spark, dèan an àireamhachadh agus an uairsin cuir sìos a h-uile càil:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Gu math goireasach airson pròiseactan mion-sgrùdaidh fa leth agus dha cuid tha sinn air an t-seirbheis EMR a chleachdadh gu soirbheachail airson àireamhachadh agus anailisean mòra. Dè mu dheidhinn fuasgladh siostam airson DataLake, an obraich e? Aig an àm seo bha sinn faisg air dòchas agus eu-dòchas agus lean sinn air adhart leis an rannsachadh.

AWS Glue - Apache Spark air a phacadh gu sgiobalta air steroids

Thionndaidh e a-mach gu bheil an dreach aige fhèin aig AWS den chruach “Hive / Pig / Spark”. Tha dreuchd Hive, i.e. Tha an catalog de fhaidhlichean agus an seòrsa ann an DataLake air a choileanadh leis an t-seirbheis “Data catalog”, nach eil a’ falach a cho-chòrdalachd le cruth Apache Hive. Feumaidh tu fiosrachadh a chur ris an t-seirbheis seo a thaobh far a bheil na faidhlichean agad suidhichte agus dè an cruth anns a bheil iad. Faodaidh an dàta a bhith chan ann a-mhàin ann an s3, ach cuideachd san stòr-dàta, ach chan e sin cuspair na dreuchd seo. Seo mar a tha an clàr dàta DataLake againn air a chuir air dòigh:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Tha na faidhlichean clàraichte, sgoinneil. Ma chaidh na faidhlichean ùrachadh, bidh sinn a’ cur air bhog crawlers le làimh no air clàr-ama, a bheir ùrachadh air fiosrachadh mun loch agus a shàbhaladh. An uairsin faodar an dàta bhon loch a phròiseasadh agus na toraidhean a luchdachadh suas am badeigin. Anns a 'chùis as sìmplidh, bidh sinn cuideachd a' luchdachadh suas gu s3. Faodar giullachd dàta a dhèanamh an àite sam bith, ach thathas a’ moladh gun rèitich thu an giullachd air cruinneachadh Apache Spark a’ cleachdadh comasan adhartach tro API Glue AWS. Gu dearbh, faodaidh tu an seann chòd python eòlach a ghabhail a ’cleachdadh an leabharlann pyspark agus a chuir gu bàs a rèiteachadh air nodan N de bhuidheann de chuid de chomas le sgrùdadh, gun a bhith a’ cladhach a-steach gu cnapan Hadoop agus a ’slaodadh soithichean docker-moker agus a’ cur às do chòmhstri eisimeileachd. .

A-rithist, beachd sìmplidh. Chan eil feum air Apache Spark a rèiteachadh, cha leig thu leas ach còd python a sgrìobhadh airson pyspark, dèan deuchainn air gu h-ionadail air an deasg agad agus an uairsin ruith e air cruinneachadh mòr san sgòth, a’ sònrachadh far a bheil an dàta tùsail agus càite an cuir thu an toradh. Uaireannan tha seo riatanach agus feumail, agus seo mar a chuir sinn air dòigh e:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Mar sin, ma dh’ fheumas tu rudeigin obrachadh a-mach air cruinneachadh Spark a’ cleachdadh dàta ann an s3, bidh sinn a’ sgrìobhadh còd ann am python/pyspark, dèan deuchainn air, agus deagh fhortan don sgòth.

Dè mu dheidhinn an orchestration? Dè ma thuit an obair agus a dhol à bith? Tha, thathas a’ moladh loidhne-phìoban breagha a dhèanamh ann an stoidhle Apache Muc agus dh ’fheuch sinn eadhon iad, ach airson a-nis chuir sinn romhainn ar n-orcastra gnàthaichte domhainn a chleachdadh ann am PHP agus JavaScript (tha mi a’ tuigsinn, tha eas-aonta inntinneil ann, ach tha e ag obair, airson bliadhnaichean agus gun mhearachdan).

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Is e cruth nam faidhlichean a tha air an stòradh san loch an iuchair gu coileanadh

Tha e glè, glè chudromach dà phrìomh phuing eile a thuigsinn. Gus an tèid ceistean mu dhàta faidhle san loch a chuir an gnìomh cho luath ‘s a ghabhas agus gun a bhith a’ lughdachadh coileanadh nuair a thèid fiosrachadh ùr a chuir ris, feumaidh tu:

  • Glèidh colbhan de fhaidhlichean air leth (gus nach fheum thu na loidhnichean gu lèir a leughadh gus tuigsinn dè a tha anns na colbhan). Airson seo ghabh sinn an cruth parquet le teannachadh
  • Tha e glè chudromach faidhlichean a shìneadh a-steach do phasganan mar: cànan, bliadhna, mìos, latha, seachdain. Bidh einnseanan a thuigeas an seòrsa seo de sharding a 'coimhead dìreach air na pasganan riatanach, gun a bhith a' gluasad tron ​​​​dàta gu lèir ann an sreath.

Gu bunaiteach, san dòigh seo, bidh thu a’ cur a-mach an dàta stòr anns an fhoirm as èifeachdaiche airson na h-einnseanan anailis crochte air a’ mhullach, a dh’ fhaodas eadhon ann am pasganan gearraichte a dhol a-steach gu roghnach agus dìreach na colbhan riatanach bho fhaidhlichean a leughadh. Cha leig thu leas an dàta a “lìonadh” an àite sam bith (bidh an stòradh dìreach a ’spreadhadh) - dìreach cuir sa bhad e gu ciallach san t-siostam faidhle anns a’ chruth cheart. Gu dearbh, bu chòir dha a bhith soilleir an seo nach eil e glè fheumail faidhle csv mòr a stòradh ann an DataLake, a dh’ fheumas a bhith air a leughadh loidhne air loidhne leis a’ bhuidheann gus na colbhan a thoirt a-mach. Smaoinich air an dà phuing gu h-àrd a-rithist mura h-eil e soilleir fhathast carson a tha seo uile a’ tachairt.

AWS Athena - an jack-in-the-box

Agus an uairsin, fhad ‘s a bha sinn a’ cruthachadh loch, ann an dòigh air choreigin thàinig sinn tarsainn air Amazon Athena. Gu h-obann thionndaidh e a-mach le bhith a’ rèiteachadh na faidhlichean loga mòra againn gu faiceallach ann am pasganan ann an cruth colbh ceart (parquet), faodaidh tu gu sgiobalta taghaidhean fìor fhiosrachail a dhèanamh bhuapa agus aithisgean a thogail GUN, às aonais cruinneachadh Apache Spark / Glue.

Tha an einnsean Athena le cumhachd dàta ann an s3 stèidhichte air an uirsgeul Presto - riochdaire bhon teaghlach MPP (giollachd mòr co-shìnte) de dhòighean-obrach airson làimhseachadh dàta, a’ toirt dàta far a bheil e na laighe, bho s3 agus Hadoop gu Cassandra agus faidhlichean teacsa àbhaisteach. Feumaidh tu dìreach iarraidh air Athena ceist SQL a chuir an gnìomh, agus an uairsin bidh a h-uile dad “ag obair gu sgiobalta agus gu fèin-ghluasadach.” Tha e cudromach cuimhneachadh gu bheil Athena “smart”, chan eil e a’ dol ach gu na pasganan gearraidh riatanach agus a ’leughadh dìreach na colbhan a tha a dhìth san iarrtas.

Tha prìsean iarrtasan gu Athena inntinneach cuideachd. Bidh sinn a’ pàigheadh ​​airson meud an dàta a chaidh a sganadh. An fheadhainn sin. chan ann airson an àireamh de dh'innealan anns a' bhuidheann gach mionaid, ach... airson an dàta a chaidh a sganadh air innealan 100-500, dìreach an dàta a tha riatanach gus an t-iarrtas a choileanadh.

Agus le bhith ag iarraidh dìreach na colbhan riatanach bho phasganan air an sgapadh gu ceart, thionndaidh e a-mach gu bheil seirbheis Athena a ’cosg deichean de dhollairean gach mìos dhuinn. Uill, sgoinneil, cha mhòr an-asgaidh, an taca ri mion-sgrùdaidhean air cruinneachaidhean!

Co-dhiù, seo mar a bhios sinn a’ roinneadh ar dàta ann an s3:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

Mar thoradh air an sin, ann an ùine ghoirid, thòisich roinnean gu tur eadar-dhealaichte sa chompanaidh, bho thèarainteachd fiosrachaidh gu anailisean, gu gnìomhach a ’dèanamh iarrtasan gu Athena agus gu sgiobalta, ann an diogan, a’ faighinn freagairtean feumail bho dhàta “mòr” thar ùine gu math fada: mìosan, leth-bhliadhna, etc. P.

Ach chaidh sinn na b’ fhaide agus thòisich sinn air a dhol dhan sgòth airson freagairtean Air sgàth ODBC driver: bidh sgrùdaire a’ sgrìobhadh ceist SQL ann an tòcan eòlach, a bhios air innealan 100-500 “airson sgillinnean” a’ cur dàta gu s3 agus a’ tilleadh freagairt mar as trice ann am beagan dhiog. Comhfhurtail. Agus luath. Chan urrainn dhomh a chreidsinn fhathast.

Mar thoradh air an sin, às deidh dhuinn co-dhùnadh dàta a stòradh ann an s3, ann an cruth colbh èifeachdach agus le bhith a’ roinneadh dàta gu pasganan gu reusanta... fhuair sinn DataLake agus einnsean anailis luath is saor - an-asgaidh. Agus dh'fhàs e mòr-chòrdte anns a 'chompanaidh, oir ... a’ tuigsinn SQL agus ag obair òrdughan meudachd nas luaithe na tro bhith a’ tòiseachadh / a’ stad / a’ stèidheachadh chlàran. “Agus ma tha an toradh mar an ceudna, carson a phàigheas tu barrachd?

Tha iarrtas gu Athena a’ coimhead rudeigin mar seo. Ma thogras tu, gu dearbh, faodaidh tu gu leòr a chruthachadh ceist SQL iom-fhillte agus ioma-dhuilleag, ach cuingichidh sinn sinn fhìn gu buidhnean sìmplidh. Chì sinn dè na còdan freagairt a bh’ aig an neach-dèiligidh o chionn beagan sheachdainean ann an logaichean an fhrithealaiche lìn agus dèan cinnteach nach eil mearachdan ann:

Mar a chuir sinn air dòigh DataLake fìor èifeachdach agus saor agus carson a tha seo fìor

toraidhean

Às deidh dhuinn a dhol troimhe, gun a bhith ag ràdh slighe fhada, ach pianail, an-còmhnaidh a’ measadh nan cunnartan agus an ìre iom-fhillteachd agus cosgais taic, lorg sinn fuasgladh airson DataLake agus anailisean nach sguir gar toileachadh le astar agus cosgais seilbh.

Thionndaidh e a-mach gu bheil togail DataLake èifeachdach, luath agus saor airson obrachadh airson feumalachdan roinnean gu tur eadar-dhealaichte den chompanaidh gu tur taobh a-staigh comasan eadhon luchd-leasachaidh eòlach nach robh a-riamh ag obair mar ailtirean agus aig nach eil fios ciamar a tharraingeas tu ceàrnagan air ceàrnagan le. saighdean agus eòlas air 50 teirmean bho eag-shiostam Hadoop.

Aig toiseach an turais, bha mo cheann a 'sgoltadh bhon iomadh sùthan fiadhaich de bhathar-bog fosgailte agus dùinte agus tuigse air uallach uallach do shliochd. Dìreach tòisich a ’togail do DataLake bho innealan sìmplidh: nagios / munin -> elastagach / kibana -> Hadoop/Spark/s3…, a’ cruinneachadh fios air ais agus a’ tuigsinn fiosaigs nam pròiseasan a tha a’ gabhail àite gu domhainn. A h-uile dad iom-fhillte agus meallta - thoir dha nàimhdean agus farpaisich.

Mura h-eil thu airson a dhol don sgòth agus gu bheil thu airson taic a thoirt do phròiseactan stòr fosgailte, ùrachadh agus ùrachadh, faodaidh tu sgeama coltach ris an fhear againn a thogail gu h-ionadail, air innealan oifis saor le Hadoop agus Presto air a’ mhullach. Is e am prìomh rud gun a bhith a 'stad agus a' gluasad air adhart, cunntadh, coimhead airson fuasglaidhean sìmplidh agus soilleir, agus obraichidh a h-uile dad gu cinnteach! Gur math a thèid leis a h-uile duine agus chì sinn a-rithist thu!

Source: www.habr.com

Cuir beachd ann