Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Mirabili tempore vivimus, cum multa instrumenta prompta prompta ac facile connectere potes, ea cum tua "conscientia aversa" secundum consilium StackOverflui, quin in "multiplices litteras" intromittas, et deducas. eos in operationem commercialem. Et cum debes renovare/diplicare vel aliquem accidens reboots duos machinis - cognoscis quod aliquod malum obsessivum somnii incepit, omnia dramatically perplexa facta sunt praeter agnitionem, reversio nulla est, futura vaga et tutior est; pro programmandi apes gignunt et caseum faciunt.

Nihil non est quod peritiores collegae, capitibus cimicibus sparsis et ideo iam griseo, contemplantes incredibile ieiunium instruere sarcinas "continentium" in "cubi" de justo ministrantium in "linguis plasmatibus" constructis in subsidiis. asynchronous non-obturans EGO / O, ridere modeste. Et tacite pergunt legere "hominem ps", in "nginx" fontem codicem influere donec oculi eorum minuant, et unitatem scribent, scribent, scribeant probationes. Socii collegae sciunt rem maxime interesting venturam cum "haec omnia" dies unus noctu in Novo Anno Eve agitur. Et solum adiuvabuntur per altam cognitionem naturae unix, memoriae TCP/IP tabulae publicae et algorithmorum praecipuorum sortiturarum inquisitionum. To bring the systems back to life Ut cymbala percutiunt.

Immo paulum distrahuntur, sed spero statum exspectationis perferre.
Hodie experientiam nostram communicare cupimus in explicanda ACERVA opportuna et vilis pro DataLake, quae plures partes analyticae in societate solvit ad divisiones structurarum omnino diversas.

Dudum ad intellectum pervenimus societates magis magisque egent fructibus analyticis tam productis quam technicis (ne dicam vico in placenta in forma discendi machinae) et ad intellegendas trends et pericula — necesse est colligere et resolvere. magis ac magis metrice.

Basic analytica technica in Bitrix24

Aliquot abhinc annos, simul cum servitio Bitrix24 deducendo, tempus et facultates strenue collocavimus in creando suggestu simplici et certo analytico, qui cito adiuvaret difficultates in infrastructura et proximum gradum cogitationis videre. Utique visum fuit ut instrumenta fabricata praeparata quae quam maxime simplicia erant et intelligantur. Quam ob rem electa est nagios vigilantia et munin pro analyticis et visualisationi. Iam millia frenorum in nagio, centena chartis in munin habemus, et collegae nostri quotidie feliciter utuntur. Metri perspicui sunt, graphae clarae sunt, systema certo laboratum est per aliquot annos ac novas probationes ac graphes regulariter adiectas: cum novum ministerium in operando ponimus, plures probationes et graphes addimus. Bene vale.

Digitus in Pulsus - Provectus Technical Analytics

Desiderium notitiarum de quaestionibus "quam celerrime" nos ad experimenta activa per instrumenta simplicibus et comprehensivis - pinba et xhprof duxit.

Pinba nos statisticas in UDP facis de celeritate operationis partium paginarum in PHP misit, et potuimus videre online in MySQL repositione (Pinba venit cum suo suo MySQL machinamento pro analytica velocitatis eventu) brevem problematum indicem et respondere ad eos. Et xhprof automatice permisit nobis colligere graphas exsecutionis tardissimas paginas PHP clientium et analyses quid ad hoc - placide ducere posset, tea vel aliquid fortius fundens.

Dudum instrumentum instrumenti alterius satis simplicis et comprehensibilis machinae repletum est, ex contrario algorithm indicens, perfecte impletum in bibliotheca legendaria Lucene - Elastic/Kibana. Simplex idea documentorum multi-filati in inversum Lucene indicem innixam eventuum in lignis ac pervestigationem vivam per illas utens divisionis faceti usus evasit vere utilis esse.

Quamvis species magis technicae visualizationum in Kibana notionibus humilibus, sicut " situla" "sursum fluentis" et lingua reinventa nondum omnino oblita algebra relationis, instrumentum nos adiuvare in sequenti labore coepit:

  • Quot PHP errores Cliens Bitrix24 habuit in porta p1 hora ultima et quae? Intellige, ignosce et cito corrige.
  • Quot electronicae video factae sunt in portalibus in Germania superioribus 24 horis, cum qualitatibus et difficultates canalis/retis?
  • Quomodo bene ratio functionis (nostrae C extensio pro PHP) a fonte exarata in recentissima renovatione servitii et ad clientium opera evolvit? Suntne segfaults?
  • Num mos notitia apta in PHP memoria? An aliqui errores superexcedentem memoriam processuum sortiantur: « e memoria »? Invenies et corrumpebant.

En exemplum concretum. Quamvis pervestigatio accurata et multi- gradua, cliens, cum casus admodum non-commodus et initus initus notatus, molestus et inopinatus error accepit, sirene sonuit et processum celeriter figendi incepit;

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Insuper kibana permittit te notificationes pro certo eventuum ordinare, et brevi tempore instrumentum in societate adhibitum a justo conductorum e diversis rebus - ex technicis auxiliis et evolutione ad QA adhiberi coepit.

Actio cuiuslibet department in comitatu opportuna facta est ad investigandum et metiendum - loco manually ligna in servientibus dividendis, tantum opus est ut ligna parsing semel erigas et ad botrum elasticum ad fruendum, exempli gratia, contemplando in kibana mittas. ashboardday numerus venditi bicipitis kittens impressorum in 3-D typographo ultimo mense lunari.

Basic Business Analytics

Quisque scit negotia analytica in societatibus saepe ab usu maximo activo inchoari, immo Excel. Sed summa est quod ibi non terminatur. Cloud-substructio Google Analytica etiam ignis addit focum - cito incipe ad bonam supellectilem uti.

In societate nostra harmonice elaborando, passim "prophetae" maioris operis intensioris cum amplioribus notitiis apparere coeperunt. Necessitas nuntiationum profundiorum et multifacientium regulariter apparere coepit, et per conatus guys ex diversis Dicasteriis, solutio olim simplex et practica ordinata est - coniunctio ClickHouse et PowerBI.

Satis enim diu, haec solutio flexibilis multum adiuvabat, sed paulatim intellectus venire coepit quod ClickHouse non est Flexilis et non potest illudi sic.

Hic interest ut bene intellegatur ClickHouse, sicut Druida, sicut Vertica, sicut Amazon RedShift (quae in postgres innititur), tormenta analytica optimized pro analyticis satis convenientibus (summarum, aggregationum, minimum-maximarum per columnam et paucas coniunctiones possibilium. ), quod ordinatae ad efficiens tabulas columnarum relationum tabularum relationum, MySQL et aliae databases notae (row-oriented) nobis notae.

Essentialiter, ClickHouse iustus capacior "database" est, cum puncto-by-puncto insertio non admodum convenient (id est quomodo intendit, omnia bene est), sed analytica iucunda et praefinita functionum interesting potentissimas operandi cum data. Etiam botrum facere potes - sed intelligas clavos microscopii malleoli minus recte esse et alias solutiones quaerere coepimus.

Exigere pythonis et analystae

Societas nostra multas habet tincidunt, qui codicem scribunt fere cotidie per 10-20 annos in PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Multi sunt administratores systematis periti qui plus quam unam omnino incredibilem calamitatem experti sunt quae in legibus statisticis non convenit (exempli gratia, cum maior pars orbis in expeditione 10 vehementi ictu fulminis interiit). Qua in re diu quid "python analysta" erat, non liquebat. Python PHP similis est, solum nomen est paulo longiore et paulo minus vestigia substantiae mentis alterantis in fonte interpretis codice sunt. Tamen, cum magis ac magis analyticas relationes creatae sunt, tincidunt periti coeperunt in dies magis intellegere momentum specializationis angustae in instrumentis, sicut numpy, pandas, matplotlib, seaborn.
Munus decretorium, quod fere verisimile est, subita defectione operariorum e compositione verborum "regressionis logisticae" egit et demonstratio effectiva renuntiationis magnae notitiae utentis, immo, immo, pyspark.

Apache Spark, paradigma functionis eius cui algebra relationis perfecte convenit, et eius facultates talem impressionem in machinis MySQL consuetis effecit ut necessitatem confirmandi ordines cum peritis analystibus claresceret sicut dies.

Ulteriores conatus Apache Spark/Hadoop tollere et quid non satis secundum scripturam egrederetur

Sed mox apparuit aliquid systemice non recte cum Scintilla fuisse, vel simpliciter necessarium fuit ut manus tuas melius ablueret. Si acervus Hadoop/MapReduce/Lucene a satis peritis programmatibus factus est, quod patet si inspicias fontem codicem in Java vel Doug notiones in Lucene Cutting, tunc Scintilla repente in lingua exotica Scala, quae est. valde controversiae ex parte practicae et actu non enucleatur. Et regularis gutta in calculis in Botrus Scintillae propter inconveniens et non admodum perspicuum opus cum destinatione memoriae ad operationes reducendas (multae claves statim perveniunt) halonem circa illud rei quae ad crescendum locum habet creavit. Accedit, rerum condicio aggravata est per magnas prodigium extranearum apertas, in incomprehensibilibus locis et in inferno vasorum clientelas crescentes, ad tempus augendum, quae ratio administratorum rationi unum sensum ab infantia notum habuit: ferox odium (vel fortasse manus sapone lavandas indigebant).

Quam ob rem complura incepta analytica interna "superavimus" quae active utuntur Apache Scintilla (including Spark Streaming, Spark SQL) et Hadoop ecosystem (et sic porro). Non obstante quod supra tempus didicimus satis bene praeparare et monitorem " illud " et " illud " propemodum substitit subito fragor ob mutationum naturae notitiarum et inaequalitas uniformis RDD hashing, cupido aliquid iam paratum sumendi. atque alicubi in nubilo renovata ac corroborata est. Hoc tempore conabamur uti nube parata nubes conventuum Amazonium interretialium interretialium uti - EMR et mox utentes quaestiones solvere conatus est. EMR est Apache scintilla ab Amazone parata ab oecosystematis additis programmatibus, multa sicut Cloudera/Hortonworks aedificat.

Flexilis lima repono pro analytica urgente necessitate

Experientia Hadoop/Scare cum ambustis in varias corporis partes coquendi non frustra fuit. Necessitas creare unum, vilis et certa tabularia repositionis quae repugnaret ferramentis defectibus et in quibus fieri posset fasciculos in diversis formatorum diversis systematibus condere, et exempla efficientis et temporis efficientis pro relationibus ex hac notitia in dies magis invalescere. purgare.

Volui etiam quod programmatio huius suggesti adaequationis non declinavit in somnum Novum Annum cum legendis 20-page vestigia Javae et analysin kilometer-longa singula ligna botri utens Spark History Servo et vitrum magnificantis backlit. Simplex et perspicuum instrumentum habere volui, quod regularis sollicitudinis sub cucullo non requirebat, si vexillum MapReduce petitio cessavit exsecutionis elit, cum notitia operariorum redacta ex memoria cecidit propter notam algorithmum partiendi non admodum electum principium.

Estne Amazon S3 candidatum DataLake?

Experientia apud Hadoop/MapReduce nos docuit nos egere scalable, certa ratio lima et operarii scalable super eam "venire" ad notitias propius ut datas per reticulum non pellere. Operarii notitias in variis formatis legere possint, sed potius non necessarias notitias legere ac notitias in antecessum in formatis operariis opportunas condere possint.

Iterum, idea fundamentalis. Nulla cupido magnas notitias in unum botrum analyticum machinam effundere, quae citius aut serius suffocat et turpis testa habebis. Documenta recondere, sicut fasciculas, in forma intelligibili formare volo et inquisitiones analyticas efficaces efficere in eis utentes instrumentis diversis sed intellegibilibus. Et plura ac magis lima in diversis formatis erunt. Et melius est machinam non testa, sed datorum principium. Nobis dataLake opus est extensibile et universale, constituimus...

Quid si tabellas in nota et nota scalable nubes repositas Amazon S3 repone, nisi ad parandum abscissionem tuam ab Hadoop?

Patet notitias personales "humilis" esse, sed quid de alia notitia si eam ibi accipimus et "effective expellere"?

Botrus-bigdata-analytica ecosystematis Amazonii interretialis - in verbis simplicissimis

Ex nostra experientia iudicantes cum AWS, Apache Hadoop/MapReduce diu sub variis condimentis ibi actuose adhibitum est, exempli gratia in servitio DataPipeline (invideo collegas meos, quam recte praeparare didicerunt). Hic tergum constituimus ex diversis officiis e tabulis DynamoDB;
Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Et currentes regulariter in Hadoop/MapReduce racemos sicut horologii iam aliquot annos emunt. " Pone eam et obliviscere ":

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Etiam efficaciter in notitia satanismum conserere potes, Iovem laptop in nube analystarum instituens et opera AWS SageMker utens ad AI exempla in proelium instruendi et explicandi. Hic est quod nobis videtur:

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Et sic, laptop tibi vel analyticum in nube colligere potes et illud ad botrum Hadoop/Spark appone, calculas fac et omnia deprime;

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Vere opportunum est ad singulas analyticas inceptas et pro aliquibus bene operas EMR usui ad rationes magnas et analyticas. Quid de solutione systematis DataLake, operabitur? Hoc momento in extrema spe ac desperatione fuimus et inquisitionem continuavimus.

AWS gluten - eleganter packaged Apache scintilla in steroids

Evenit ut AWS suam versionem "Alve/Pig/Spart" habeat. Partes Alvei, i.e. Catalogus imaginum et eorum specierum in DataLake exercetur per servitium "Datae catalogi", quod suam convenientiam cum Apache Hive format non celat. Informationes addere debes huic servitio de quo documenta tua sita sunt et in qua forma sunt. Notitia non solum in s3, sed etiam in datorum esse potest, sed id non est subiectum huius stationis. Ecce quomodo indicis notitiae nostrae DataLake conponitur:

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Tabulae conscriptae sunt, magnae. Si documenta renovata sunt, reptantes vel manually vel in schedula deducimus, quae informationes de lacu e lacu renovabit et eas servabit. Tunc notitia lacus discursum esse potest et alicubi uploaded eventus. In simplicissimo casu etiam oneramus ad s3. Processus datorum alicubi fieri potest, sed suggeritur te configurare processus botrum in Apache Scintilla utentis facultatibus provectis per Glue API AWS. Re vera, codicem pythonis vetustum et familiarem uti potes bibliotheca pyspark et eius executionem in N nodi botri alicuius capacitatis cum vigilantia configurare, quin in viscera Hadoopi fodiatur et vasculis scelestorum trahens et certamina dependentiae eliminans. .

Iterum, simplex idea. Non opus est Apache Spark configurare, tibi tantum opus est ut pythonis codicem pro pyspark scriberes, eum localiter in escritorio tuo experiaris et in magnum botrum in nube curras, ubi fons notitiae sit et ubi exitum ferat. Interdum necessarium et utile est, et hic est quomodo illud posuimus:

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Ita, si aliquid computare debes in scintilla botro utens notitia in s3, scribimus codicem in python/pyspark, experire, et bonam fortunam ad nubem.

Quid de orchestratione? Quid si negotium cecidit et evanuit? Ita proponitur ut pulchram fistulam in Apache Pig stilo et eas etiam probavimus, sed nunc in PHP et JavaScript (intelligo, dissonantia cognitiva est, sed operatur; annis et sine mendis).

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Forma files in lacu condita est clavis ad perficiendum

Is est valde maximus ut duo plura cardinis puncta intelligant. Ut quaesita de notitia fasciculi in lacu quam celerrime exequantur, ac perficiendi non degradare, cum novae informationes adduntur, necesse est:

  • Repono columnas imaginum separatim (ut omnes lineas legere non debes intellegere quid est in columnis). Hoc enim schedulam cum compressione cepimus
  • Magni interest ut lima in folders shards similia: linguam, annum, mensem, diem, hebdomadam. Machinae, quae hoc genus sharding intellegunt, solum ad folder necessarios spectant, sine excutiendis per omnia data in ordine.

Essentialiter, hoc modo, fonte data in efficacissima forma machinas analyticas super suspensas ponis, quae etiam in folders sharded selective intrare et legere solum necessarias columnas ex fasciculis possunt. Non opus est ubilibet notitias "implere" (repono simpliciter rumpetur) - modo statim sapienter eam in tabella ratio in recta forma pone. Utique hic patet, fasciculum ingentem csv in DataLake recondere, quae prius linea per botrum ad columnas extrahendas linea legenda est, non admodum expedit. Iterum de praedictis duobus cogita, si nondum constat cur haec omnia fiant.

AWS Athenae

Et tunc, dum lacum creamus, casu quodam modo Athenam Amazonem transvenimus. Repente evenit ut cum ingentes tabellas in texturas folders shards in forma columna recta (parquet) diligenter disponens, celerrime ex illis excerpta et notitias apprime facere potes et relationes sine Apache Spark/Glue botri fabricare.

Athena engine powered by data in s3 is based on the legendary Gloria - repraesentativum MPP (paralleli processus massive) familiae accessuum ad processus notitias accipiendas, ubi iacet, ab s3 et Hadoop ad Cassandram et ad ordinarias paginas textus. Tantum opus est ut Athenam petas ut interrogationem SQL exequaris, deinde omnia "celeriter et automatice". Illud notandum est Athenam "dolorem" esse, solum ad necessarios folders sharded accedit et tantum columnas in petitione legit.

Morbi cursus petitiones Athenae etiam iucunda est. Nos poenas volumen de notitia lustrabat lumine. Illae. non pro numero machinis in botro per minutos, sed... pro notitia actualiter in machinis 100-500 lustrata, tantum notitia necessaria ad petitionem perficiendam.

Et petens solum necessarias columnas a foldersis rectis sharded, evenit ut Athena munus nobis decem dollariorum in mense constaret. Magna, fere libera, racemis analyticis comparata!

Obiter hic est quomodo notitias nostras in s3 ferremus;

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Quam ob rem, brevi tempore, omnino diversae rei in comitatu, ex notitia securitatis ad analytica, Athenam petere coeperunt, et cito in secundis responsa ex "magnis" data per satis longam periodum accipere coeperunt: menses; dimidium annum, P etc.

Sed ulterius processimus, et responsa adire cepimus ad nubem per ODBC exactorisAnalysta scribit interrogationem SQL in familiari consolatorio, quod in machinas 100-500 "pro denariis" data s3 mittit et responsum fere brevi tempore reddit. Solatium. & jejunium. Ego tamen non possum credere.

Quam ob rem, cum notitias in s3 condere decrevimus, in forma efficiente columnari et cum rationabili notitiarum in folders communicatio ... DataLake accepimus et ieiunium et vilis machinam analyticam - gratis. Et factus est valde popularis in comitatu, quia... ordines magnitudinis velocius SQL et opera intelligit quam per ligaturas incipiendo/sistendo/erando. "Et si idem effectus, cur plura"?

Hoc aliquid spectat Athena petentibus. Si placet, sane satis formare potes multiplex et multi pagina SQL quaesitum estsed nosmet ipsos finiemus ad simplicem copulam. Videamus quae responsio codicibus client ante aliquot septimanas in instrumentis interretialibus habuit et fac errores nullos esse;

Quomodo ordinavimus DataLake efficax et insumptuosus et cur ita sit

Inventiones

Peragrantes, non longum dicamus, sed dolens iter, semperque adaequate aestimantes pericula ac complexionem et sumptus subsidii, solutionem DataLake invenimus et analyticis quae numquam nobis placere cessant tam celeritate quam dispendio possessionis.

Evenit ut aedificatio efficax, ieiunium et vilis operandi DataLake ad necessitates omnino diversas rei societatis prorsus intra facultates etiam peritorum peritorum qui numquam operati sunt architecti et nesciunt quadrata quadrata trahere cum quadratis. sagittas et cognoscere 50 vocabula ab Hadoop ecosystematis.

Initio itineris, caput meum e multis zoos silvestribus anaglypha aperta et clausa programmata scindebat et intelligentiam oneris erga posteros. Iustus satus tuum DataLake aedificas ex instrumentis simplicibus: nagios/munin -> elastica/kibana -> Hadoop/Spark/s3..., opiniones colligens ac penitus cognoscendo physicam processuum fiendi. Omnia complexa et feda - hostibus et competitoribus da.

Si ad nubem ire non vis et ut subsidia, renovatio et repeciare inceptis apertis, consilium similem nostro localiter aedificare potes, in machinis insumptuosus cum Hadoop et Presto supra. Summa est, non cessare et progredi, numerare, quaerat solutiones simplices et claras, et omnia definite elaborare! Bene vale ad omnes et iterum te videbo!

Source: www.habr.com

Add a comment