Mauris eget lacus enim? Quid agat cum notitia horreis?

Hic articulus est translatio articuli mei super medium - Questus Coepi cum Data lacumquod admodum populare probabiliter evasit propter simplicitatem. Ideo illud in Russian scribere decrevi et parum addere ut patefaceret homini ordinario qui non est artifex notitiarum quid sit notitia horreorum (DW) et quid lacus notitiae (datae Lake), et quomodo adepto simul.

Cur lacus notitia scribere volo? Data et analytica plus X annos laboravi, et nunc certa notitia laborat apud Alexa AI in Cambridge, quod est in Boston, cum Victoria in Vancouver in Islandia vivo et saepe Boston, Seattle. et in Vancuverio, interdum etiam Moscuae, in colloquiis loquor. Etiam subinde scribo, sed maxime Anglice scribo, et iam scripsi quidam libri, Mihi quoque opus est ut trends analyticas ex America Septentrionali communicet, et interdum in scribendo telegraphum.

Semper in notitia apothecarum laboravi, et cum MMXV operas interretiales Amazonicae arctius laborare coepi, et plerumque analyticas obnubilare (AWS, Azure, GCP). evolutionem solutionum analyticorum ab 2015 observavi et etiam laboraverunt pro notitia venditoris Teradata horreis et in Sberbank impleverunt, et cum Big Data apud Hadoop apparuit. Omnes coeperunt dicere tempus repositionis praeteriisse et iam omnia in Hadoop esse, et tunc demum de Data Lake loqui coeperunt, iam finem notitiae horreorum certo venisse. Sed peropportune (fortasse dolendum est aliquibus qui Hadoop multam pecuniam constituerunt), notitia horreorum non discessit.

In dictum lacus a mauris aliquam dictum at quis enim. Articulus hic destinatur pro hominibus qui parum aut nihil habent cum notitia horreorum.

Mauris eget lacus enim? Quid agat cum notitia horreis?

Lacus Bled in pictura est, hoc unum ex carissimis meis lacubus, cum semel tantum ibi essem, pro reliqua vita recordatus sum. Sed de alio lacus - a Mauris lacus. Multi fortasse iam plus quam semel de hoc vocabulo audisti, sed una definitio nulli nocebit.

Imprimis hic sunt populares definitiones cuiusdam lacus Datae:

"Tabula tabularia omnium generum rudium notitiarum quae a quovis in ordinatione praesto sunt" - Martin Fowler.

"Si putatis mercaturam datam esse utrem aquae - purgatae, sarcinatae et commodae ad consummationem accommodatae, tunc lacus data est ingens alveus aquae in forma naturali. Users, aquam mihi colligere possum, profundam intendere, explorare” - James Dixon.

Nunc pro certo scimus lacus notitias circa analyticas esse, nobis permittit ut magnas copiae notitiarum in pristina sua forma congreget ac necessarios et opportunos aditus ad notitias habeamus.

Saepe res simpliciores libet, si simplicibus verbis complexum explicare possum, tunc mihi intellego quomodo opus sit et quid opus sit. Uno die circumvolebam in gallery photographica iPhone, et in me illuxit, haec vera notitia lacus est, etiam lapsus colloquiorum feci:

Mauris eget lacus enim? Quid agat cum notitia horreis?

Omnia simplicissima sunt. Imaginem photographicam in telephonum accipimus, photo in telephonum servata et ad iCloud (nubila tabularia reposita). Telephonium etiam metadata photologica colligit: quod demonstratur, geo tag, tempus. Quam ob rem, interface-amica uti possumus pro iPhone ut photo nostram invenire et indicibus etiam videmus, exempli gratia, cum imagines verbi ignis quaero, 3 imagines cum imagine ignis invenio. Mihi, hoc est sicut instrumentum intelligenti Negotia, quod celerrime et clare operatur.

Et sane non debemus oblivisci circa securitatem (auctoritatem et authenticationem), alioquin notitia nostra facile finire potest in dominio publico. Multus nuntius est de magnis collegiis et statibus, quorum notitia publice praesto facta est propter negligentiam tincidunt et defectum ad regulas simplices sequendas.

Etiam talis imago simplex nobis adiuvat ut cogitemus quid sit lacus notitiae, differentiae a tradito notitia horreorum et eius elementorum principalium;

  1. Data loading (Ingestion) pars praecipuus lacus notitiarum est. Data horreis notitias duas vias ingredi potest, massam (per intervalla onerantem) et fluentem (notitia fluentum).
  2. Tabularium (Storage) principale elementum lacus Data est. Repositione indigemus ut facile scalabiles, perquam certae, et humiles essent sumptus. Exempli gratia in AWS est S3.
  3. Catalogum et inquisitionem (Catalogus et Quaerere) - ut nobis data Palus vitanda sit (hoc est cum omnia indicia in uno acervo effundimus et tunc impossibile est cum eo laborare), necesse est ut tabulam metadatam creare notitias indicandi. ut utentes notitias facile invenire possint, quas analysi indigent. Insuper solutionibus quaestionis additis uti potes ut ElasticSearch. Quaerere adiuvat utentem invenire data inquisita per interface usoris.
  4. processus (Processus) - Hic gradus est responsabilis notitiae processus et commutationis. Data transmutare possumus, structuram mutare, eam mundare, et multo magis.
  5. salutem (Securitatis) - Est tempus terere solutionis consilium securitatis. Exempli gratia, data encryption in repositione, dispensando et oneratione. Aliquam sit amet utendi modos authenticas et auctoritatis. Instrumentum computi denique necessarium est.

Ex parte practica notificari possumus per tres attributa data lacum;

  1. Colligunt et reponunt aliquid - Lacus notitiae omnia continet, tam rudis notitias quamlibet temporis non procedentes, et notitia purgationis discursum.
  2. Altum Scan - lacus data permittit utentes ad explorandum et analysim data.
  3. Flexibile accessum β€” Lacus notitiae flexibilem accessum praebet pro diversis notitiis et diversis missionibus.

Nunc loqui possumus de discrimine inter forum notitia et lacus notitia. Plerumque quaeritur:

  • Quid de notitia CELLA?
  • Ponimusne notitias cellae cum lacu data an expandimus illum?
  • Licetne sine data lacus facere?

In summa, non est manifesta responsio. Refert ad condicionem specialem, peritia societatis et elit. Exempli gratia, notitia horrea ad Oraculum AWS migrans et data lacum creando subsidiaria Amazonum - Woot - Nostra notitia lacus fabulae: Quomodo Woot.com aedificavit data serverless lacus in AWS.

Ex altera parte, venditor Snowflake dicit te iam non oportere cogitare de data lacu, cum suggestum eorum notitiarum (donec ad 2020 datum horreum sit) permittat te utrumque lacum notitiae et cellae datae coniungi. Non multum cum Snowflake laboravi, et vere singulare opus est quod hoc facere potest. Pretium litis, alia materia.

Demum, mea sententia est nos adhuc egere in horreis notitiis tamquam principale principium notitiae nostrae renuntiationis, et quidquid non convenit, in lacum data condimus. Totum analyticorum munus est faciles accessus ad negotia decernendi. Quidquid quis dicat, negotiatores utentes efficacius operantur cum notitia horreis quam lacus notitiae, exempli gratia in Amazonibus - est Redshift (analytica CELLA) et est Imaginis Redshift/Athenae (SQL interfacies pro data lacu in S3 innixa. Hive/Presto). Eadem ratio est de aliis apothecarum notitiis modernis analyticis.

Intueamur typicam notitia CELLA architecturae:

Mauris eget lacus enim? Quid agat cum notitia horreis?

Haec est classica solutio. Fontes systematis habemus, utendo ETL/ELT datas in analyticas notitias horreis transcriberemus et eam ad solutionem Intelligentiae Negotiationis applicamus (meus ventus est Tableau, quid de tuo?).

Haec solutio sequentis incommodi habet:

  • ETL/ELT operationes tempus et opes requirunt.
  • Pro regula, memoria notitiarum thesaurorum in notitiis analyticis horreis non vilis est (exempli gratia Redshift, BigQuery, Teradata), quia opus est botrum integrum emere.
  • Negotiatores utentes accessum habent ad purgandum et saepe ad notitias aggregatas et ad notitias rudis non habent accessum.

Nempe in tua causa positum est. Si problemata cum horreis data non habes, tunc lacu dato non debes. Sed cum difficultates oriuntur cum defectu spatii, potentiae vel pretii partes clavis agit, tunc considerare potes optionem datae lacus. Inde est quod lacus notitiarum est valde popularis. Hic est exemplum architecturae lacus notitiae:
Mauris eget lacus enim? Quid agat cum notitia horreis?
Lacus accessus notitiae utentes, rudis notitias in nostrum lacum (batch vel effusionem) oneramus, notitias necessarias tunc processimus. Notitia lacus permittit utentes negotia sua creare transmutationes suas (ETL/ELT) vel solutiones intelligentiae analyses datas in Negotia (si opus exactoris praesto est).

Propositum cuiuslibet solutionis analyticorum est inservire negotiis utentibus. Ergo oportet nos semper operari secundum requisita negotia. (Apud Amazonum hoc est unum e principiis β€” retrogrado laborat).

Adlaborantes cum notitia horreis et lacu dato, utrumque solutiones comparare possumus;

Mauris eget lacus enim? Quid agat cum notitia horreis?

Praecipua conclusio, quae sumi potest, est notitia horreorum non certare cum lacu notitiae, sed cum eo complere. Sed usque ad te est, quid de tua causa aequum sit diiudicare. Semper interest te ipsum experiri et rectas conclusiones ducere.

Etiam unum de casibus tibi dicere velim cum accessu notitiarum lacuum uti coepi. Omnia admodum levia sunt, instrumento ELT uti conatus sum (Matillion ETL) et Amazon Redshift, solutionem meam laboravi, sed requisitis non convenit.

Opus erat ut trabes interretialis, eas transformaret et aggregaret ut notitias pro 2 casibus praeberet:

  1. Manipulus venalicius voluit analysim bot activitatem pro SEO
  2. IT spectare voluerunt metrics perficientur in website

Simplicissima, tigna simplicissima. Ecce exemplum:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Fasciculus unus 1-4 megabytarum appendebatur.

Erat autem una difficultas. Ditiones circiter 7 habuimus in mundo, et 7000 milia imaginum uno die creata sunt. Haec non multo plura volumina, modo 50 gigabytes. Magnitudo autem botri nostri Redshift erat etiam parva (4 nodis). Onere fasciculum unum more maiorum sumpsit de minuto. Id est, non solutum caput. Et hoc casu accidit cum lacus notitia utendi accessu. Solutio vidi aliquid simile hoc:

Mauris eget lacus enim? Quid agat cum notitia horreis?

Prorsus simplex est (notare volo quod utilitas in nube operandi est simplicitas). solebam;

  • AWS Elastica Map Reduce (Hadoop) pro Computo Power
  • AWS S3 ut lima repono cum facultatem encrypt notitia et limit accessum
  • Scintilla quasi InMemoria computandi vim et PySpark ad logicam et datam transmutationem
  • Parquet sicut propter scintillam
  • AWS Glue Crawler tamquam metadata collector de novis data et partitionibus
  • Redshift Imaginis in SQL interface in notitia lacus ut existentium Redshift users

Minimus EMR+ Botrus Spark totam acervum fasciculorum in 30 minuta processit. Alii casus AWS sunt, praesertim multi ad Alexa pertinentia, ubi multa notitia est.

Nuper unum ex incommodis datae lacus GDPR didici. Difficultas est cum client quaerit eam delere et data in uno ex tabulariorum, Data Manipulatione Language uti non possumus et operatione delere sicut in database.

Spero hunc articulum declarasse differentiam inter notitia horreorum et lacus notitiae. Si interesses, plura ex meis articulis vel articulis doctorum legi possum interpretari. Necnon de solutionibus operis cum earum architectura.

Source: www.habr.com