Qui sunt datae fabrum et quomodo fiunt unum?

Salve iterum! Tituli articuli de se ipso loquitur. Ante initium cursus Data Engineer offerimus ad instar siccorum quinam sint haec data fabrum. Articulus multum utilis nexus habet. Lectio Felix.

Qui sunt datae fabrum et quomodo fiunt unum?

Simplex dux, quam capere machinam Datae undam nec te in abyssum trahat.

Ut quisque vult esse Data Scientist his diebus videtur. Sed quid de Data Engineering? Re quidem vera haec est quaedam hybridarum analystae et notitiae phisicae; fectum data plerumque reus est operandi workflows, fistularum dispensando et processuum ETL. Ob momentum harum lineamentorum, hoc nunc est alia popularis linguarum professionalium quae momentum activum accipit.

In stipendio magno et ingentis petitionis sunt tantum parva pars eorum quae hoc officium valde venustum facit! Si heroum ordines iungere vis, nunquam sero est discere. In hac statione, collegi omnia informationes quae debes adiuvare ut primos gradus capias.

Lets 'satus!

Quid est Data Engineering?

Honeste nihil melius quam hoc explicandum est;

“Phisicus novam stellam invenire potest, sed unam creare non potest. Ipsum fabrum petat ut ei id faciam."

-Gordon Lindsay Glegg

Ita, munus fectum notitiae satis significant.

Ex nomine sequitur quod notitia machinalis cum notitia coniungitur, scilicet cum traditione, repositione et processu. Itaque praecipuum munus fabrum est certa infrastructura pro notitia praebere. Si in AI hierarchiam necessitatum spectemus, notitia machinalis primos 2-3 gradus sumit; collectio, motus et repositio, notitia praeparationis.

Qui sunt datae fabrum et quomodo fiunt unum?

Quid a data ingeniarius facis?

Adventu magnae notitiae, ambitus responsabilitatis obturbationem mutavit. Si antea isti periti magnas quaestiones SQL scripserunt et notitias distillaverunt utentes instrumenta informatica ETL, Pentaho ETL, Talend, nunc requisita pro notis fabrum creverunt.

Plurimae societates cum vacationibus apertis pro positione fectum datarum habent sequentia requisita:

  • SQL et Pythonis scientia egregia.
  • Usus est rostra nubis, imprimis Services Web Amazonicae.
  • Scientia Java/Scala praeferenda est.
  • Intellectus bonus SQL et NoSQL databases (exemplaturae notitiae, notitia repono).

Meminerint, hoc solum essentialia nuda. Ex hoc indice, sumi potest notitias mechanicas esse speciales in progressione et progressione software.
Exempli gratia, si societas magnam copiam notitiarum e diversis fontibus generare incipit, munus tuum ut machinator notitiarum collectionem notitiarum, eius processus et repositiones disponat.

Elenchus instrumentorum in hoc casu differre potest, totum pendet a volumine huius notitiae, celeritatis accepti et heterogeneitatis. Pleraque societatum cum magnis data omnino non tractant, ut repositio centralised, notitia horreorum sic dicta, database SQL (PostgreSQL, MySQL, etc.) cum parva copia scriptorum quae in horreum mittat notitia. .

Gigantes IT sicut Google, Amazon, Facebook vel Dropbox altiora requiruntur: scientia Pythonis, Java vel Scala.

  • Usus cum magna notitia: Hadoop, Scintilla, Kafka.
  • Algorithmorum notitia et structurarum notitia.
  • Intellectus fundamentales systematum distributorum.
  • Usus in instrumentis visualizationis datae sicut Tableau vel ElasticSearch magnum plus futurum esset.

Hoc est, manifesta mutatio ad magnas notitias, scilicet in processui sub oneribus altis. Hae societates auctae sunt propter culpae tolerantiam requisita ratio.

Data Engineers Vs. notitia scientists

Qui sunt datae fabrum et quomodo fiunt unum?
Bene, simplex et ridicula comparatio (nihil personale), sed actu multo magis implicata est.

Primum, scire debes multam confusionem esse circa partes et artes datae scientist et machinae datae. Hoc est, facile commoveri potes quibus artibus opus sit ut fectum fectum data sit. Nimirum certae sunt artes quae cum utraque parte insidunt. Sed sunt etiam plures artes e diametro oppositae.

Scientiae datae res magnae sunt, sed movemur ad mundum notitiarum operativarum ubi medici sua analytica facere possunt. Ut fistulas datas et datas structuras integratas faciant, data fabrum, non scientiarum debes.

Estne data ingeniarius plus in postulatio quam scientificus notitia?

- Ita, quia antequam pastinacam placentam facere potes, primum debes colligere, cortices et in amet!

Data fectum programmandi melius quam aliqua notitia scientifica intelligit, sed cum ad statisticam venit, omnia prorsus contraria sunt.

Sed hic utilitas data fectum est;

sine ipso, valor prototypi exemplaris, saepissime constans particula terribilium qualitatis in codice Pythonis, e notitia scientifico consecuta et aliquo modo euentu producente, ad nihilum tendit.

Sine fectum datae, hoc signum numquam inceptum fiet nec problema negotii sine effectu solvetur. Ingeniarius data omnia in opus vertere conatur.

Basic notitia ut a data ingeniarius scire debet

Qui sunt datae fabrum et quomodo fiunt unum?

Si ergo hoc officium scintillae in te lucem accedunt et tu alacres plenus es - hoc discere potes, omnes artes necessarias domare potes et verum sidus petrae in agro notitiarum fodiendarum fias. Et, ita, etiam sine arte programmatis vel aliis technicis cognitionibus id facere potes. Difficile est, sed possibile est!

Qui sunt primi gradus?

Communis idea quid est.

Imprimis, Data Engineering ad scientiam computatrum refertur. Specialius, intelligere debes algorithmos efficientes et structuras datas. Secundo, cum notitia fabrum cum notitia operantur, necesse est intelligere quomodo database operantur et structurae quae eis subiacent.

Exempli gratia, conventionales B-arboris SQL databases in structuram datorum B-Arbor fundantur, ac in recentioribus repositoriis distributis, LSM-Arbor aliisque modificationibus tabularum Nullam.

Hi gradus magni articuli nituntur Adilya Khashtamova. Si igitur scis Russianis, hunc auctorem adiuva et lege eius post.

1. Algorithms et notitia structurae

Recta data structura utens, algorithmum perficiendum valde emendare potest. Probe, omnes nos disceremus notitias structuras et algorithmos in scholis nostris, sed hoc raro semper opertum est. Certe numquam serum est invenire.
Ita, hic ventus cursus liberorum est studiorum structurarum et algorithmarum datarum:

Plus, noli oblivisci circa opus classicum in algorithms Thomae Kormen - Introductio ad Algorithmos. Haec perfecta est relatio cum opus est in memoria tua decutiat.

Potes etiam in mundum datorum intendere cum his miris Carnegie Mellon Youtube videos:

2. discere SQL

Tota vita nostra data est. Et ut haec notitia ex datorum capias, necesse est eandem linguam cum illa "loqui" dicere.

SQL (Quaestio Structura Lingua) est lingua communicationis in dominio data. Quidquid quis dicat, SQL vixerit, vivit et diutissime vivet.

Si diu in progressione fuisti, probabiliter animadverti te SQL mortem imminere rumores subinde pop. Lingua in veterum 70s evoluta est et adhuc popularis est inter analystas, tincidunt et mox enthusiastas.
Sine scientia SQL, in notitia machinalis nihil est faciendum, cum inevitabiliter habeas interrogationes creare ut notitias capias. Omnes moderni magna notitia thesaurorum SQL support:

  • Amazon RedShift
  • HP Vertica
  • Oraculum
  • SQL Servo

... et multi alii.

Ad analysim magnas notitiarum stratas in systematibus distributis sicut HDFS, SQL machinas inventae sunt: ​​Apache Alveare, Impala, etc.

Quomodo discere SQL? Justo facere in usu.

Quod ut facias, te optimo doceo, quoe in via liber est, te adsuescere tibi commendo. Modus Analytics.

  1. medium SQL
  2. Data coniungens in SQL

Proprium horum cursuum notam est praesentia interactivae environment in qua scribere et exsequi SQL queries rectum in navigatro potes. Resource Modern SQL non vacet. Et hanc scientiam adhibere potes ad Leetcode tasks in sectione database.

3. Programming in Pythone et Java/Scala

Cur Pythonis programmandi linguam discere digna sit, iam scripsi in articulo Python vs R. Optimum instrumentum eligens AI, ML et Data Scientiae. As Java and Scala, plurima instrumenta ad condendum et expediendum ingentes notitiarum copia in his linguis scripta sunt. Exempli gratia:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Scintilla (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Ad cognoscendum quomodo instrumenta haec operantur, debes scire linguas quae scriptae sunt. Accessus functionis Scalae tibi permittit ut problemata parallelarum processus notitiarum efficaciter solvas. Python, proh dolor, non potest iactare celeritatem et processum parallelum. In genere, cognitio plurium linguarum et paradigmatum programmatis prodest ad latitudinem accessionum ad problema solvendum.

Scala in linguam intendere, legere potes Programming in Scala ab auctor linguae. Etiam, Twitter Scala School.

Quod ad Pythonem attinet, credo Python fluens medio gradu liber optimus.

4. Tools operandi cum magna notitia

Hic est index instrumentorum popularium in magnis notitiis mundi:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Feminae Cassandrae Fidelis Apache

Plura de aedificandis caudices notitiarum in hoc stupendo invenire potes interactive environment. Instrumenta popularia maxime sunt Scintilla et Kafka. Certi sunt cognitu digna, optabile est intelligere quomodo ab intus operantur. Jay Kreps (co-auctor Kafka) opus monumenti edidit anno 2013 Log: Quid Omnis Software Developer Scire debet de Real-time Data eget AbstractioObiter notiones principales ex Talmud hac Apache Kafka creare solebant.

5. nubis suggestus

Qui sunt datae fabrum et quomodo fiunt unum?

Cognitio unius saltem nubis suggestus est in indice postulatorum postulatorum pro positione datarum machinarum. Locatores praeferre Officia interretiali interretiali, secundo loco est suggestum Google nubilum, et Microsoft Azure summum tres claudit.

Nota esse debes Amazonum EC2, AWS Labda, Amazonum S3, DynamoDB.

6. systemata Distributa

Operatio magnis data implicat praesentiam ligaturae computatorum independentium operantium, nexum qui inter retia exercetur. Botrus maior, eo verisimilius est membrum eius nodis deficere. Ut magnus notitia peritus fias, debes cognoscere difficultates et solutiones exsistentes ad systemata distributa. Haec regio vetus et multiplex est.

Andreas Tanenbaum auctor in hoc campo censetur. Pro iis qui theoriam non timent, librum suum commendo "Systematum Distributum"incipientibus enim multiplex videri potest, sed vere adiuvabit artes tuas acuere.

cogito "Excogitans Data-intensiva Applications" per Martin Kleppmann liber optimus introductorius. Viam miram habet Martinus блог. Operam eius adiuvabit cognitionem de aedificando infrastructuram modernam ad magnas notitias recondendas et dispensandas.
Pro iis qui videre videos, cursus in Youtube est Systemata computatrum distribui.

7. Data pipelines

Qui sunt datae fabrum et quomodo fiunt unum?

Tibiae datae sunt aliquid quod vivere non potes sine artificio datae.

Frequentius fectum machinarum diem sic dictum pipelineum aedificat, id est, processum facit ad notitias ab uno loco in alium tradendas. Haec consuetudo esse potest scriptorum quae ad servitium externum API eunt vel interrogationem SQL faciunt, notitias complere et in repositione centralised (notitia warehouse) vel informa notitias repositionis (lacus data).

Ut perorare, basic notitia ingeniarius maculosus

Qui sunt datae fabrum et quomodo fiunt unum?

In summa, requiritur bonum intellectus sequentis;

  • Information Systems;
  • Software development (Agile, DevOps, Design Techniques, SOA);
  • Systemata distributa et programmatio parallela;
  • Fundamenta Database - ratio, consilium, operatio et fermentum;
  • Design Experimenta - A/B probationes ad conceptus probandos, adhibendos fidem, agendi rationem, et vias robustas explicandas ad bonas solutiones celeriter liberandas.

Hae sunt sicut paucae necessitatum ut fectum notitiarum efficiatur, ita discat et comprehendat systemata data, systemata informatica, continuam traditionem/instruendi/integrationem, programmandi linguas, aliaque thema scientiarum computatrum (non in omnibus locis subiectis).

Denique hoc ultimum, sed magni refert, dicere volo.

Via ad ipsum Data Engineering non tam facilis est quam ut videtur. Non dimittit, frustrat, et ad hoc parandus est. Momenta quaedam in hoc itinere te impellunt ut omnia excedant. Sed hoc est verum opus et discendi processum.

Non modo ab initio ornem. Totum iter est quam maxime et ad novas provocationes discere.
Magna hic imago incidi per quae hoc punctum bene illustrat.

Qui sunt datae fabrum et quomodo fiunt unum?

Atque ita, burnout et quies vitare noli. Etiam id ipsum. Bene vale!

Quomodo te delectat articulus, amici? Nos invitamus te liberum webinarquae hodie ad 20.00 fient. Per webinar, tractabimus quomodo condendi systematis efficientis et scalabiles notificationes parvae societatis vel minimi sumptus incipiendi sunt. In praxi, cum instrumentorum processus notitiarum Google Cloud cognoscamus. Te videre!

Source: www.habr.com

Add a comment