Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Tá cónaí orainn in am iontach nuair is féidir leat roinnt uirlisí foinse oscailte réidh-déanta a nascadh go tapa agus go héasca, iad a shocrú le do “chomhfhiosacht múchta” de réir chomhairle an chruachshreabhadh, gan dul isteach sna “illitreacha”, agus seoladh iad a chur i bhfeidhm tráchtála. Agus nuair is gá duit nuashonrú / leathnú nó go ndéanann duine cúpla meaisín a atosú de thaisme - tuigeann tú go bhfuil tús curtha le droch-aisling obsessive éigin i ndáiríre, tá gach rud níos casta go tobann gan aitheantas, níl aon casadh ar ais, tá an todhchaí doiléir. agus níos sábháilte, in ionad ríomhchlárú, pórú beacha agus cáis a dhéanamh.

Ní haon rud é go bhfuil comhghleacaithe le níos mó taithí, a gceann fite fuaite le fabhtanna agus mar sin liath cheana féin, ag smaoineamh ar imscaradh thar a bheith tapa pacáistí “coimeádáin” i “ciúbanna” ar an iliomad freastalaithe i “teangacha faiseanta” le tacaíocht ionsuite do I/O neamhbhloic asincrónach, aoibh gháire go measartha . Agus leanann siad ar aghaidh go ciúin ag athléamh “man ps”, ag dul isteach sa chód foinse “nginx” go dtí go mbíonn a súile ag fuiliú, agus ag scríobh, ag scríobh, ag scríobh tástálacha aonaid. Tá a fhios ag comhghleacaithe go dtiocfaidh an rud is suimiúla nuair a éiríonn “an méid seo go léir” lá amháin i ngeall ar an oíche Oíche Chinn Bhliana. Agus ní bheidh siad ina gcabhair ach trí thuiscint dhomhain ar nádúr Unix, an tábla meabhrúcháin TCP/IP stáit agus algartaim bhunúsacha sórtála-chuardaigh. Chun an córas a thabhairt ar ais beo de réir mar a bhuaileann na clingíní.

Ó sea, tháinig rud beag seachrán orm, ach tá súil agam gur éirigh liom staid na hionchais a chur in iúl.
Sa lá atá inniu ba mhaith liom ár dtaithí a roinnt maidir le stack áisiúil agus saor a imscaradh do DataLake, a réitíonn formhór na dtascanna anailíse sa chuideachta le haghaidh rannáin struchtúracha go hiomlán difriúil.

Tamall ó shin, tháinig muid ar an tuiscint go bhfuil gá ag cuideachtaí níos mó le torthaí na hanailísí táirgí agus teicniúla araon (gan trácht ar an icing ar an gcíste i bhfoirm meaisínfhoghlama) agus chun treochtaí agus rioscaí a thuiscint - ní mór dúinn a bhailiú agus a anailísiú. méadracht níos mó agus níos mó.

Anailís theicniúil bhunúsach i Bitrix24

Roinnt blianta ó shin, ag an am céanna le seoladh na seirbhíse Bitrix24, d'infheistíomar go gníomhach am agus acmhainní chun ardán anailíseach simplí agus iontaofa a chruthú a chabhródh le fadhbanna sa bhonneagar a fheiceáil go tapa agus an chéad chéim eile a phleanáil. Ar ndóigh, bhí sé inmholta uirlisí réamhdhéanta a ghlacadh a bhí chomh simplí agus sothuigthe agus is féidir. Mar thoradh air sin, roghnaíodh nagios le haghaidh monatóireachta agus munin le haghaidh anailísíochta agus léirshamhlaithe. Anois tá na mílte seiceálacha againn i nagios, na céadta cairteacha i munin, agus úsáideann ár gcomhghleacaithe iad go rathúil gach lá. Tá na méadrachtaí soiléir, tá na graif soiléir, tá an córas ag obair go hiontaofa le roinnt blianta anuas agus cuirtear tástálacha agus graif nua leis go rialta: nuair a chuirimid seirbhís nua i bhfeidhm, cuirimid roinnt tástálacha agus graif leis. Ádh mór.

Finger on the Pulse - Ardanailís Theicniúil

Mar gheall ar an dúil faisnéis a fháil faoi fhadhbanna “chomh tapa agus ab fhéidir” rinneamar turgnaimh ghníomhacha le huirlisí simplí sothuigthe - pinba agus xhprof.

Sheol Pinba staitisticí dúinn i bpacáistí UDP faoi luas oibríochta codanna de leathanaigh ghréasáin i PHP, agus d'fhéadfaimis a fheiceáil ar líne i stóráil MySQL (Tagann Pinba lena inneall MySQL féin le haghaidh anailísí imeachtaí tapa) liosta gearr fadhbanna agus freagra a thabhairt orthu. leo. Agus thug xhprof deis dúinn go huathoibríoch graif a bhailiú de na leathanaigh PHP is moille a fhorghníomhú ó chliaint agus anailís a dhéanamh ar cad a d'fhéadfadh a bheith mar thoradh air seo - go socair, ag stealladh tae nó rud éigin níos láidre.

Tamall ó shin, rinneadh an fhoireann uirlisí a athlánú le hinneall simplí agus intuigthe eile a bhí bunaithe ar an algartam innéacsaithe droim ar ais, a cuireadh i bhfeidhm go foirfe i leabharlann finscéal Lucene - Elastic/Kibana. Bhí an smaoineamh simplí maidir le doiciméid a thaifeadadh il-snáithithe isteach in innéacs inbhéartach Lucene bunaithe ar imeachtaí sna logaí agus cuardach tapa tríothu ag baint úsáide as deighilt facet i ndáiríre úsáideach.

In ainneoin cuma sách teicniúil na léirshamhlaithe i Kibana le coincheapa ísealleibhéil cosúil le “buicéad” “ag sileadh aníos” agus teanga athchruthaithe an ailgéabar choibhneasta nach bhfuil dearmad déanta fós uirthi, thosaigh an uirlis ag cabhrú linn go maith sna tascanna seo a leanas:

  • Cé mhéad earráid PHP a bhí ag cliant Bitrix24 ar an tairseach p1 san uair dheireanach agus cé na cinn? Tuig, logh agus ceartaigh go tapa.
  • Cé mhéad físghlao a rinneadh ar thairseacha sa Ghearmáin sna 24 uair an chloig roimhe sin, cén cháilíocht agus an raibh aon deacrachtaí leis an gcainéal/líonra?
  • Cé chomh maith agus a oibríonn feidhmiúlacht an chórais (ár síneadh C do PHP), a tiomsaíodh ón bhfoinse sa nuashonrú seirbhíse is déanaí agus a rolladh amach do chliaint? An bhfuil segfaults ann?
  • An luíonn sonraí custaiméirí le cuimhne PHP? An bhfuil aon earráidí ann maidir leis an gcuimhne a dháiltear ar phróisis a shárú: “as cuimhne”? Aimsigh agus neodraigh.

Seo sampla nithiúil. In ainneoin tástála críochnúil agus il-leibhéil, fuair an cliant, le cás an-neamhchaighdeánach agus sonraí ionchuir damáiste, earráid chorraitheach gan choinne, fuaim siren agus cuireadh tús leis an bpróiseas chun é a shocrú go tapa:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Ina theannta sin, ligeann kibana duit fógraí a eagrú le haghaidh imeachtaí sonraithe, agus i mbeagán ama thosaigh an uirlis sa chuideachta á úsáid ag mórán fostaithe ó ranna éagsúla - ó thacaíocht theicniúil agus forbairt go QA.

Tá gníomhaíocht aon roinne laistigh den chuideachta tar éis éirí áisiúil a rianú agus a thomhas - in ionad anailís a dhéanamh de láimh ar logaí ar fhreastalaithe, ní mór duit ach logaí parsála a shocrú uair amháin agus iad a sheoladh chuig an mbraisle leaisteacha chun taitneamh a bhaint as, mar shampla, ag smaoineamh ar an kibana. Painéal na nIonstraimí: líon na gcipíní dhá cheann a díoladh atá priontáilte ar phrintéir 3-T le haghaidh na míosa gealaí seo caite.

Anailísíocht Ghnó Bunúsach

Tá a fhios ag gach duine gur minic a thosaíonn anailísíocht ghnó i gcuideachtaí le húsáid thar a bheith gníomhach, sea, Excel. Ach is é an rud is mó ná nach gcríochnaíonn sé ansin. Cuireann Google Analytics scamall-bhunaithe breosla leis an tine freisin - tosaíonn tú go tapa ag dul i dtaithí ar na rudaí maithe.

Inár gcuideachta atá ag forbairt go comhchuí, thosaigh “fáithe” d’obair níos déine le sonraí níos mó le feiceáil anseo agus ansiúd. Thosaigh an gá le tuarascálacha níos doimhne agus ilghnéitheacha le feiceáil go rialta, agus trí iarrachtaí guys ó ranna éagsúla, tamall ó shin eagraíodh réiteach simplí agus praiticiúil - meascán de ClickHouse agus PowerBI.

Le fada an lá, chabhraigh an réiteach solúbtha seo go mór, ach de réir a chéile tháinig an tuiscint nach rubair é ClickHouse agus nach féidir magadh a dhéanamh air mar sin.

Anseo tá sé tábhachtach a thuiscint go maith gur innill anailíse iad ClickHouse, cosúil le Druid, cosúil le Vertica, cosúil le Amazon RedShift (atá bunaithe ar postgres), atá optamaithe le haghaidh anailísíochta measartha áisiúil (suimeanna, comhiomláin, íosmhéid de réir colúin agus cúpla nasc féideartha. ), mar eagraithe chun colúin de tháblaí coibhneasta a stóráil go héifeachtúil, murab ionann agus MySQL agus bunachair shonraí eile (dírithe ar an tsraith) atá ar eolas againn.

Go bunúsach, níl i ClickHouse ach “bunachar sonraí” níos cumasaí, gan a bheith an-áisiúil curtha isteach pointe ar phointe (sin mar atá sé beartaithe, tá gach rud ceart go leor), ach anailísíocht thaitneamhach agus sraith feidhmeanna cumhachtacha suimiúla chun oibriú le sonraí. Sea, is féidir leat braisle a chruthú fiú - ach tuigeann tú nach bhfuil casúr tairní le micreascóp ceart go hiomlán agus thosaigh muid ag lorg réitigh eile.

Éileamh ar python agus anailísithe

Tá go leor forbróirí ag ár gcuideachta a scríobhann cód beagnach gach lá ar feadh 10-20 bliain i PHP, JavaScript, C #, C / C ++, Java, Go, Rust, Python, Bash. Tá go leor riarthóirí córais a bhfuil taithí acu freisin a bhfuil taithí acu ar níos mó ná tubaiste dochreidte amháin nach luíonn isteach i ndlíthe staitisticí (mar shampla, nuair a scriostar tromlach na dioscaí i ruathar-10 ag stailc tintreach láidir). I gcúinsí den sórt sin, le fada an lá ní raibh sé soiléir cad a bhí i gceist le “anailísí python”. Tá Python cosúil le PHP, níl ach an t-ainm beagán níos faide agus tá beagán níos lú rianta de shubstaintí a athraíonn aigne i gcód foinse an ateangaire. Mar sin féin, de réir mar a cruthaíodh tuarascálacha anailíse níos mó agus níos mó, thosaigh forbróirí a bhfuil taithí acu ag tuiscint níos mó ar an tábhacht a bhaineann le speisialtóireacht chúng in uirlisí mar numpy, pandas, matplotlib, seaborn.
Ba é an ról cinntitheach, is dócha, ná gur tháinig laghdú tobann ar fhostaithe ón gcomhcheangal de na focail “aischéimniú lóistíochta” agus léiriú ar thuairisciú éifeachtach ar shonraí móra ag baint úsáide as, sea, tá, pyspark.

Chuir Apache Spark, a pharaidím feidhmiúil ar a n-oireann an ailgéabar gaolmhar go foirfe, agus a chumais chomh mór sin le tuiscint ar fhorbróirí a bhí i dtaithí ar MySQL gur tháinig sé soiléir ón lá go raibh gá leis na céimeanna a neartú le hanailísithe a bhfuil taithí acu.

Iarrachtaí breise Apache Spark / Hadoop chun éirí de thalamh agus cad nach ndeachaigh go maith de réir na scripte

Mar sin féin, ba léir go luath nach raibh rud éigin ceart go leor go córasach le Spark, nó go raibh sé riachtanach do lámha a ní níos fearr. Más ríomhchláraitheoirí a bhfuil an-taithí acu a rinne an chruach Hadoop/MapReduce/Lucene, rud atá soiléir má fhéachann tú go géar ar an gcód foinse i Java nó ar smaointe Doug Cutting i Lucene, ansin tá Spark, go tobann, scríofa sa teanga choimhthíocha Scala, mar atá. an-chonspóideach ó thaobh praiticiúlacht de agus níl sé ag forbairt faoi láthair. Agus an titim rialta i ríomhanna ar bhraisle Spark mar gheall ar obair ainleolaíoch agus nach bhfuil an-trédhearcach le leithdháileadh cuimhne le haghaidh oibríochtaí laghdaithe (sroicheann go leor eochracha ag an am céanna) chruthaigh halo timpeall air de rud éigin a bhfuil spás ann le fás. Ina theannta sin, bhí an scéal ag dul in olcas mar gheall ar líon mór calafoirt oscailte aisteach, comhaid shealadacha ag fás sna háiteanna is dothuigthe agus ifreann de spleáchais jar - rud a d'fhág go raibh mothú amháin ag riarthóirí córais a raibh aithne mhaith orthu ó óige: fuath fíochmhar (nó b'fhéidir b'éigean dóibh a lámha a ní le gallúnach).

Mar thoradh air sin, tá roinnt tionscadal anailíse inmheánach "mair" againn a úsáideann Apache Spark go gníomhach (lena n-áirítear Spark Streaming, Spark SQL) agus éiceachóras Hadoop (agus mar sin de agus mar sin de). In ainneoin gur fhoghlaim muid le himeacht ama conas “é” a ullmhú agus monatóireacht a dhéanamh air go maith, agus gur stop “é” go tobann ag tuairteáil go tobann mar gheall ar athruithe ar nádúr na sonraí agus éagothroime hashing aonfhoirmeach RDD, an fonn rud éigin a thógáil réidh cheana féin. , a nuashonrú agus a riar áit éigin sa scamall d'fhás níos láidre agus níos láidre. Is ag an am seo a rinneamar iarracht an tionól scamall réamhdhéanta de Sheirbhísí Gréasáin Amazon a úsáid - EMR agus, ina dhiaidh sin, rinne sé iarracht fadhbanna a réiteach agus é á úsáid. Is é EMR ná Apache Spark ullmhaithe ag Amazon le bogearraí breise ón éiceachóras, cosúil le Cloudera/Hortonworks builds.

Tá géarghá le stóráil comhaid rubair le haghaidh anailíse

Ní raibh an taithí ar “chócaireacht” Hadoop/Spark le dónna go codanna éagsúla den chorp in vain. Tháinig méadú níos mó ar an ngá atá le stór comhad amháin, neamhchostasach agus iontaofa a chruthú a bheadh ​​in aghaidh teipeanna crua-earraí agus ina bhféadfaí comhaid a stóráil i bhformáidí éagsúla ó chórais éagsúla agus samplaí éifeachtúla agus tíosach ar am a dhéanamh le haghaidh tuarascálacha ó na sonraí seo. soiléir.

Theastaigh uaim freisin nach n-iompódh nuashonrú bogearraí an ardáin seo ina thromluí don Bhliain Nua le rianta Java 20 leathanach a léamh agus le hanailís a dhéanamh ar logaí mionsonraithe ciliméadar ar fhad den bhraisle ag baint úsáide as Spark History Server agus gloine formhéadúcháin backlit. Theastaigh uaim uirlis shimplí thrédhearcach a bheith agam nach raibh gá le tumadóireacht rialta faoin gcochall dá stopfadh iarratas caighdeánach MapReduce an fhorbróra d’fheidhmiú nuair a thit an t-oibrí sonraí laghdaithe as cuimhne mar gheall ar algartam deighilte sonraí foinse nach bhfuil roghnaithe go han-mhaith.

An bhfuil Amazon S3 ina iarrthóir ar DataLake?

Mhúin taithí le Hadoop/MapReduce dúinn go bhfuil gá againn le córas comhaid inscálaithe iontaofa agus oibrithe inscálaithe ar a bharr, ag “teacht” níos gaire do na sonraí ionas nach gcuirfí na sonraí ar aghaidh thar an líonra. Ba cheart go mbeadh oibrithe in ann sonraí a léamh i bhformáidí éagsúla, ach b’fhearr gan faisnéis neamhriachtanach a léamh agus a bheith in ann sonraí a stóráil roimh ré i bhformáidí atá áisiúil d’oibrithe.

Arís eile, an smaoineamh bunúsach. Níl fonn ar bith sonraí móra a “dhoirteadh” isteach in inneall anailíse braisle amháin, a tachtfaidh luath nó mall agus beidh ort iad a shilt go gránna. Ba mhaith liom comhaid, díreach comhaid, a stóráil i bhformáid intuigthe agus fiosrúcháin anailíse éifeachtacha a dhéanamh orthu ag baint úsáide as uirlisí éagsúla ach intuigthe. Agus beidh comhaid níos mó agus níos mó i bhformáidí éagsúla. Agus is fearr gan an t-inneall a ghearradh, ach na sonraí foinseacha. Tá gá againn le DataLake uileghabhálach, shocraigh muid...

Cad a tharlaíonn má stórálann tú comhaid sa stóráil scamall inscálaithe Amazon S3 atá ar eolas agus go maith, gan a bheith ort do chops féin a ullmhú ó Hadoop?

Is léir go bhfuil na sonraí pearsanta “íseal”, ach cad faoi shonraí eile má thógaimid amach ansin iad agus “é a thiomáint go héifeachtach”?

Éiceachóras braisle-bigdata-analytics de Sheirbhísí Gréasáin Amazon - i bhfocail an-simplí

Ag meas ár dtaithí le AWS, tá Apache Hadoop/MapReduce in úsáid go gníomhach ann le fada an lá faoi anlainn éagsúla, mar shampla sa tseirbhís DataPipeline (tá éad orm le mo chomhghleacaithe, d'fhoghlaim siad conas é a ullmhú i gceart). Anseo bhunaíomar cúltacaí ó sheirbhísí éagsúla ó tháblaí DynamoDB:
Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Agus tá siad ag rith go rialta ar bhraislí leabaithe Hadoop/MapReduce cosúil le hobair chloig le roinnt blianta anuas anois. “Socraigh é agus déan dearmad air”:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Is féidir leat freisin dul i ngleic go héifeachtach le satanism sonraí trí ríomhairí glúine Iúpatar a chur ar bun sa scamall le haghaidh anailísithe agus úsáid a bhaint as seirbhís AWS SageMaker chun samhlacha AI a oiliúint agus a imscaradh i gcath. Seo an chuma atá air dúinne:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Agus is féidir, is féidir leat ríomhaire glúine a phiocadh duit féin nó d'anailísí sa scamall agus é a cheangal de bhraisle Hadoop/Spark, déan na ríomhanna agus ansin gach rud a ingne síos:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Tá sé an-áisiúil do thionscadail anailíse aonair agus do roinnt daoine d'éirigh linn an tseirbhís EMR a úsáid le haghaidh ríomhanna agus anailísíochta ar scála mór. Cad mar gheall ar réiteach córais do DataLake, an n-oibreoidh sé? Ag an nóiméad seo bhíomar ar imeall dóchais agus éadóchais agus leanamar ar aghaidh leis an gcuardach.

AWS Glue - Apache Spark pacáistithe go néata ar stéaróidigh

Tharla sé go bhfuil a leagan féin ag AWS den chruach “Hive/Pig/Spark”. Ról Hive, i.e. Déanann an tseirbhís “Catalóg Sonraí” catalóg na gcomhad agus a gcineálacha in DataLake, rud nach gceilíonn a chomhoiriúnacht le formáid Apache Hive. Ní mór duit faisnéis a chur leis an tseirbhís seo faoin áit a bhfuil do chomhaid suite agus cén fhormáid ina bhfuil siad. Is féidir leis na sonraí a bheith ní hamháin in s3, ach sa bhunachar sonraí freisin, ach ní hé sin ábhar an phoist seo. Seo mar a eagraítear ár n-eolaire sonraí DataLake:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Tá na comhaid cláraithe, go hiontach. Má tá na comhaid nuashonraithe, seolann muid crawlers de láimh nó de réir sceidil, a nuashonróidh faisnéis fúthu ón loch agus a shábháil. Ansin is féidir na sonraí ón loch a phróiseáil agus na torthaí a uaslódáil áit éigin. Sa chás is simplí, déanaimid uaslódáil chuig s3 freisin. Is féidir próiseáil sonraí a dhéanamh in áit ar bith, ach moltar duit an phróiseáil a chumrú ar bhraisle Apache Spark ag baint úsáide as cumais chun cinn trí API Glue AWS. Go deimhin, is féidir leat an cód python maith sean agus eolach ag baint úsáide as an leabharlann pyspark agus a fhorghníomhú a chumrú ar nóid N de bhraisle de chumas áirithe le monatóireacht, gan tochailt isteach i inní Hadoop agus coimeádáin docker-moker a tharraingt agus deireadh a chur le coinbhleachtaí spleáchais. .

Arís eile, smaoineamh simplí. Níl gá le Apache Spark a chumrú, ní mór duit ach cód python a scríobh le haghaidh pyspark, é a thástáil go háitiúil ar do dheasc agus ansin é a rith ar bhraisle mór sa scamall, ag sonrú cá bhfuil na sonraí foinse agus cén áit chun an toradh a chur. Uaireanta bíonn sé seo riachtanach agus úsáideach, agus seo mar a shocraímid é:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Mar sin, más gá duit rud éigin a ríomh ar bhraisle Spark ag baint úsáide as sonraí in s3, scríobhaimid cód i python/pyspark, déanaimid tástáil air, agus ádh mór ar an scamall.

Cad mar gheall ar an cheolfhoireann? Cad a tharlaíonn má thit an tasc agus imithe? Sea, tá sé beartaithe píblíne álainn a dhéanamh i stíl Apache Muc agus rinneamar iarracht fiú iad, ach faoi láthair shocraigh muid ár n-orcheoltóireacht dhomhain saincheaptha a úsáid i PHP agus JavaScript (tuigim, tá easaontas cognaíocha ann, ach oibríonn sé, le haghaidh bliana agus gan earráidí).

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Is é formáid na gcomhad atá stóráilte sa loch an eochair don fheidhmíocht

Tá sé thar a bheith tábhachtach dhá phríomhphointe eile a thuiscint. Ionas gur féidir fiosrúcháin ar shonraí comhaid sa loch a chur i gcrích chomh tapa agus is féidir agus nach mbeidh an fheidhmíocht díghrádaithe nuair a chuirtear faisnéis nua leis, ní mór duit:

  • Stóráil colúin de chomhaid ar leithligh (ionas nach mbeidh ort na línte go léir a léamh chun a bhfuil sna colúin a thuiscint). Chun seo a thógamar an fhormáid iontlaise le comhbhrú
  • Tá sé an-tábhachtach comhaid a roinnt i bhfillteáin mar: teanga, bliain, mí, lá, seachtain. Ní dhéanfaidh innill a thuigeann an cineál seo bearrtha ach breathnú ar na fillteáin riachtanacha, gan scagadh trí na sonraí go léir i ndiaidh a chéile.

Go bunúsach, ar an mbealach seo, leagann tú amach na sonraí foinseacha san fhoirm is éifeachtaí do na hinnill anailíse atá ar crochadh ar a mbarr, ar féidir leo fiú amháin i bhfillteáin sharded a iontráil go roghnach agus na colúin riachtanacha ó chomhaid amháin a léamh. Ní gá duit na sonraí a “líonadh suas” áit ar bith (ní dhéanfaidh ach an stóráil pléasctha) - déan é a chur go ciallmhar láithreach sa chóras comhaid san fhormáid cheart. Ar ndóigh, ba cheart go mbeadh sé soiléir anseo nach bhfuil sé inmholta comhad csv ollmhór a stóráil i DataLake, a chaithfidh an braisle a léamh líne ar líne ar dtús chun na colúin a bhaint as. Smaoinigh arís ar an dá phointe thuas mura bhfuil sé soiléir fós cén fáth a bhfuil sé seo ag tarlú.

AWS Athena - an jack-sa-bhosca

Agus ansin, agus loch á chruthú againn, tháinig muid trasna Amazon Athena de thaisme. Go tobann tháinig sé amach, trínár gcomhaid logála ollmhóra a shocrú go cúramach ina shardaí fillteán san fhormáid cheart (iontlaise), gur féidir leat roghanna fíor-fhaisnéiseacha a dhéanamh uathu agus tuarascálacha a thógáil GAN, gan braisle Apache Spark/Glue.

Tá an t-inneall Athena faoi thiomáint ag sonraí i s3 bunaithe ar an seanscéal Presto - ionadaí de theaghlach cur chuige MPP (ollphróiseáil chomhthreomhar) maidir le próiseáil sonraí, ag tógáil sonraí san áit a bhfuil siad, ó s3 agus Hadoop go Cassandra agus gnáthchomhaid téacs. Ní mór duit ach iarraidh ar Athena ceist SQL a fhorghníomhú, agus ansin oibríonn gach rud “go tapa agus go huathoibríoch.” Tá sé tábhachtach a thabhairt faoi deara go bhfuil Athena “cliste”, ní théann sé ach chuig na fillteáin ghearrtha riachtanacha agus ní léann sé ach na colúin a theastaíonn san iarratas.

Tá praghas na n-iarratas chuig Athena suimiúil freisin. Íocaimid as toirt na sonraí scanta. Iad siúd. ní le haghaidh líon na n-innill sa bhraisle in aghaidh an nóiméid, ach... maidir leis na sonraí a scanadh iarbhír ar 100-500 meaisín, gan ach na sonraí is gá chun an t-iarratas a chomhlánú.

Agus gan ach na colúin riachtanacha a iarraidh ó fhillteáin atá bearrtha i gceart, tharla sé go gcosnaíonn seirbhís Athena na mílte dollar in aghaidh na míosa dúinn. Bhuel, iontach, beagnach saor in aisce, i gcomparáid le hanailísíocht ar bhraislí!

Dála an scéil, seo an chaoi a ndéanaimid ár sonraí a chomhroinnt in s3:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Mar thoradh air sin, i mbeagán ama, thosaigh ranna go hiomlán difriúil sa chuideachta, ó shlándáil faisnéise go anailísíocht, ag déanamh iarratais go gníomhach chuig Athena agus go tapa, i soicindí, faigheann siad freagraí úsáideacha ó shonraí “mór” thar thréimhsí measartha fada: míonna, leathbhliain, etc P.

Ach chuaigh muid níos faide agus thosaigh muid ag dul go dtí an scamall le haghaidh freagraí Trí ODBC tiománaí: scríobhann anailísí ceist SQL i gconsól aithnidiúil, a sheolann sonraí chuig s100 ar 500-3 meaisín “le haghaidh pinginí” agus a sheolann freagra ar ais i gceann cúpla soicind de ghnáth. Compordach. Agus go tapa. Ní féidir liom a chreidiúint go fóill.

Mar thoradh air sin, tar éis cinneadh a dhéanamh sonraí a stóráil i s3, i bhformáid cholún éifeachtach agus le roinnt réasúnta sonraí i bhfillteáin... fuaireamar DataLake agus inneall anailíse tapa agus saor - saor in aisce. Agus tháinig an-tóir air sa chuideachta, mar gheall ar ... tuigeann SQL agus oibríonn sé orduithe méide níos tapúla ná trí bhraislí a thosú/a stopadh/a chur ar bun. "Agus má tá an toradh mar an gcéanna, cén fáth a íoc níos mó?"

Breathnaíonn iarratas chuig Athena rud éigin mar seo. Más mian, ar ndóigh, is féidir leat foirm go leor ceist casta agus il-leathanach SQL, ach cuirfimid teorainn le grúpáil shimplí. Feicfimid cad iad na cóid freagartha a bhí ag an gcliant cúpla seachtain ó shin i logaí an fhreastalaí gréasáin agus cinntigh nach bhfuil aon earráidí ann:

Conas a d’eagraíomar DataLake atá thar a bheith éifeachtach agus neamhchostasach agus cén fáth go bhfuil sé seo amhlaidh

Torthaí

Tar éis dúinn dul tríd, gan a rá cosán fada ach pianmhar, agus measúnú leordhóthanach á dhéanamh i gcónaí ar na rioscaí agus ar an leibhéal castachta agus ar an gcostas tacaíochta, d’aimsigh muid réiteach le haghaidh DataLake agus anailísíocht nach n-éireoidh linn go deo ár sásamh le luas agus le costas na húinéireachta.

Iompaigh sé amach go bhfuil tógáil DataLake éifeachtach, tapa agus saor a oibriú do riachtanais na ranna go hiomlán difriúil de chuid na cuideachta go hiomlán laistigh de chumais fiú forbróirí taithí acu riamh a d'oibrigh mar ailtirí agus níl a fhios conas a cearnóga a tharraingt ar chearnóga le. saigheada agus bíodh a fhios agat 50 téarma ó éiceachóras Hadoop.

Ag tús an turais, bhí mo cheann ag scoilteadh ó na zúnna fiáin iomadúla de bhogearraí oscailte agus dúnta agus tuiscint ar ualach na freagrachta ar shliocht. Tosaigh ag tógáil do DataLake ó uirlisí simplí: nagios/munin -> leaisteacha/kibana -> Hadoop/Spark/s3..., ag bailiú aiseolais agus ag tuiscint domhain ar fhisic na bpróiseas atá ar siúl. Gach rud casta agus murky - é a thabhairt do naimhde agus iomaitheoirí.

Mura bhfuil tú ag iarraidh dul chuig an scamall agus gur mhaith leat tacú le tionscadail foinse oscailte, iad a nuashonrú agus a phaisteáil, is féidir leat scéim cosúil leis an gceann atá againne a thógáil go háitiúil, ar mheaisíní oifige saor le Hadoop agus Presto ar a bharr. Is é an rud is mó ná stop a chur agus dul ar aghaidh, comhaireamh, réitigh shimplí agus soiléire a lorg, agus is cinnte go n-oibreoidh gach rud amach! Ádh mór do gach duine agus feicfidh tú arís!

Foinse: will.com

Add a comment