Magna et parva notitia testor: trends, theoria mea fabula

Salve omnes, nomen meum Alexander est, et ingeniarius Data Qualitatis sum qui notitias pro qualitate eius impedit. Articulus hic loquetur quomodo ad hoc veni et quare anno 2020 haec area tentationis in summis fluctus fuit.

Magna et parva notitia testor: trends, theoria mea fabula

Global trend

Mundus hodiernus aliam technologicam revolutionem experitur, quarum una est usus notitiarum coacervatarum per omnes societates ad promovendum suum volatum venditio, quaestus, PR. Videtur quod praesentia bonae (qualitatis) notitiae, tum docta cerebra qui pecuniam ex eo facere possunt (recte processus, visualisare, apparatus discendi exempla aedificandi, etc.), clavis effectae sunt hodie per multos successus. Si ante 15-20 annos magnae societates maxime intensive operis cum notitia cumulationis et monetizationis implicatae erant, hodie haec sors est omnium fere sanarum hominum.

Hac de re, ante aliquot annos, omnes portae ad officium quaerendi circum orbem terrarum vacantibus pro Data Scientistis impleri coeperunt, cum quisque certus esset, talem artifex conduxisset, supermodelem machinae eruditionis aedificari posse. , futura praedicere et "quantum saltum" pro coetu facere. Subinde homines intellexerunt hanc accessionem fere nunquam operari alicubi, cum non omnes notitiae quae in manus talium artifices inciderunt, ad exempla formanda apta sint.

Et postulationes a Data Scientistae inceperunt: "Multa ex his et illis data emite...", "Non habemus satis notitiarum...", "Notitia plura desideramus, potius qualitatem. . Ex his petitionibus, multae interationes aedificari coeperunt inter societates quae unum vel alterum constitutum notitiarum habent. Naturaliter hoc requiritur ordo technicae huius processus - connectens cum notitia fonte, deprimendo illum, annotando quod erat plenum plenum, etc. Numerus talium processuum crescere incepit, et hodie ingens opus est pro alio genere. specialitas - Data Qualitas fabrum - eos qui fluxum notitiarum in systematis (pipelines datae), qualitatem notitiarum in input et output, concludunt, et de eorum sufficientia, integritate et aliis notis conclusiones trahunt.

Declinatio Data Quality fabrum ex USA ad nos venit, ubi, in media aetate capitalismi saevientis, nemo paratus est pro notitia pugna amittere. Infra emissiones e duobus maximis popularibus locis quaerendi in US officium providi; www.monstr.com ΠΈ www.dice.com - quae notitias exhibet sicut ante diem 17 mensis Martii anno 2020 in numero vacationum missarum acceptis per keywords: Data Qualitas et Data Scientist.

www.monstr.com

Data Scientists - 21416 vacantes
Data Quality

Magna et parva notitia testor: trends, theoria mea fabula
Magna et parva notitia testor: trends, theoria mea fabula

www.dice.com

Data Scientists - 404 Ti
Data Quality - 2020 Ti

Magna et parva notitia testor: trends, theoria mea fabula
Magna et parva notitia testor: trends, theoria mea fabula

Uti patet, hae professiones nullo modo inter se contendunt. Cum eenshotsscrae, solum praesentem condicionem laboris laboris illustrare volui secundum postulationes machinarum Data Quality, quorum multo plura nunc sunt necessaria quam Data Scientistae.

Mense Iunio MMXIX, EPAM, necessitatibus respondens mercatus IT moderni, Data Qualitas in usum separatum separavit. Data Qualitas fabrum, in opere cotidiano, notitias administrare, mores suos in novis condicionibus et systematibus coercere, monitor notitiarum congruentia, eius sufficientia ac congruentia. His omnibus, in sensu practico, Data Qualitas fabrum revera modicum tempus incumbit ad munus experiendi classicum; SED hoc valde pendet a proposito (exemplum infra dabo).

Officia datorum ingeniariorum Qualitatis non limitantur solum ad usum manualem/automaticum compescendi pro "nullas, comitum et summarum" in tabulis datorum, sed altam intelligentiam requirunt negotiandi emptoris ac proinde facultas datas in promptu transformandi res utilis notitia.

Data Quality Theoria

Magna et parva notitia testor: trends, theoria mea fabula

Ut plenius fingas munus talis architecti, excipe quid Data Quality in theoria.

Species Data - unus e stadiis Datae Procurationis (totum mundum quod in tuo studio relinquemus) et responsabilis est notitiarum analysandi secundum sequentia criteria:

Magna et parva notitia testor: trends, theoria mea fabula
Singula puncta (in theoria "data dimensiones" vocantur, nihil opus esse puto), satis bene descriptum in pictura. Sed ipse processus probationis stricte imprimens has notas in casibus experimentis non implicat easque inhibet. In Data Quality, sicut in quovis alio genere temptationis, necesse est, ante omnia, aedificare in notitia qualitatis requisita, quae cum consilio participantium negotium constituunt.

Secundum Propositum Data Qualitatis, ingeniarius varias functiones exercere potest: ab ordinario automationis probatore cum superficiali aestimatione datarum qualitatis, ei qui altum profi- gitat notitiarum secundum normas superius.

Perquam accurata descriptio Data Management, Data Quality et processuum cognatorum perbelle describitur in libro qui dicitur "DAMA-DMBOK: Data Management Corpus Scientiarum: 2nd Edition". Magnopere commendo hunc librum ut introductio huic argumento (in fine articuli invenias vinculum).

Mea fabula

In IT industria viam meam laboravi a Iuniore teste in societatibus productis ad plumbum Data Quality Engineering apud EPAM. Post duos circiter annos ut testis laborandi, firmam persuasionem habui me omnia omnino genera tentationis egisse: regressionem, functionem, vim, firmitatem, securitatem, III, etc. simul in tribus programmandis linguis laboravit: Java, Scala, Python.

Respiciens intellego cur arte mea tam diversae essentβ€”coniectae inceptis, magnis et parvis, implicatus sum. Hoc est quod me induxit in mundum multa instrumenta et opportunitates ad incrementum.

Ad cognoscendam varietatem instrumentorum et opportunitatum novas scientias et artes acquirendi, vide infra picturam, quae maxime populares in mundo "Datae & AI" ostendit.

Magna et parva notitia testor: trends, theoria mea fabula
Hoc genus illustrationis quotannis compilavit ab uno e celeberrimis capitalistarum venture Matt Turck, qui progressus programmandi venit. Hic Link ad blog and audere capitis firmibi se socium.

Maxime celeriter suscepto munere crevi cum unicus in rei probator, vel saltem in principio incepti eram. Tantis momenti est, ut tota tentationis processu responsabilis sis, et regrediendi occasio, modo progrediendi nulla est. Primo FORMIDULOSUS fuit, nunc omnia commoda talis examinis manifesta mihi sunt;

  • Incipis communicare cum tota turma sicut numquam antea, cum non sit ineundo ad communicationem: nec procurator nec testium commilitonum.
  • Immissio in project incredibilis fit profunda, et informationes habes de omnibus, tam in genere quam in specie.
  • Tincidunt non te ut "homunem illum tentare qui quid agat nesciat", sed ut par, qui incredibilia beneficia pro bigas cum probationibus automatis et exspectatione cimicum apparentis in certa parte ipsius uber.
  • Quam ob rem efficacior es, magis idoneus, et magis in demanda.

Procedente consilio, in C% casuum matrona factus sum pro novis probatoribus, docens eos et transiens in cognitionem quam me didici. Eodem tempore, secundum consilium, summum gradum auto- ritorum experimentorum ab administratione non semper suscepi et opus erat eos aut in automatione (pro iis quorum interest) aut instrumenta pro usu in actionibus quotidianis creare (instrumenta) . ad notitias generandas et eas in systemate onerandas, instrumentum ad onus experiendum / stabilitatem faciendam probandi "cito", etc.

Exemplum cuiusdam propositi

Infeliciter, ob obligationes non aperiendi, singillatim loqui non possum de inceptis in quibus laboravi, sed exempla praebebo munerum typicarum Datae Qualitatis Ingenitoris in una inceptis.

Essentia consilii est efficere suggestum ad parandum notitias instruendi apparatus discendi exempla in ea fundata. Lorem erat magna turma pharmaceutica ex USA. Technice erat botrus KubernetesSurgentes autem AWS EC2 instantiae, cum pluribus microservices et instrumenti Open Source proposita EPAM - legion, ad necessitates certae emptoris (nunc inceptum renatum est" odahu). ETL processus utens instituta sunt Apache editi et movetur notitia ex * Venditio vis Lorem systemata in S 3 AWS Situlas. Deinceps, Docker imago machinae discendi exemplar in suggestum explicavit, quae in notitia recenti instructa erat et, ceteris API instrumenti adhibitis, praedictiones commodae ad negotium produxit et certas difficultates solvebat.

Visum, omnia sic intuebantur:

Magna et parva notitia testor: trends, theoria mea fabula
Copia erat muneris probatio in hoc incepto, et celeritas plumae evolutionis et necessitas cycli emissionis conservandi passum (duo-septimanas sprints), necesse erat statim cogitare de probatione automating partium criticarum maxime. systema. Maxime suggestum ipsum Kubernetes-substructio ab autotestis effectis in . tegebatur robot Framework + Python, sed etiam sustentare et amplificare necesse erat. Praeterea, pro opportunitate emptoris, GUI creatus est ad apparatus discentium administrandi exempla ad botrum direxit, necnon facultatem specificandi ubi et ubi notitiae ad exempla formanda transferenda sunt. Haec ampla additatio expansionem functionis automated probationis implicavit, quae maxime per REST API vocat et parvum numerum finium 2-finium UI probationum implevit. Circum aequinoctialem horum omnium motuum sumus coniuncti sumus cum probatore manuali, qui egregium officium fecit cum acceptatione probatio productorum versionum et communicantes cum emptore de acceptatione proximae emissionis. Praeterea, ob adventum novi specialistis, documentum laboris nostri potuimus addere et nonnullas gravissimas machinas manuales quae difficiliores erant statim automate.

Et tandem, postquam stabilitatem e suggestu consecuti sumus et GUI super illud addendi, aedificaremus fistulas ETL utentes Apache Airflow DAGs incepimus. Qualitas notitiae automatae recognitionis factae sunt scribendo speciales Airflow DAGs qui notitias in eventibus ETL processuum coercuit. Cum ex parte consilii, fortunati sumus et emptorem nobis accessum dedit ad anonymizata notitia ponit in quibus probavimus. Data linea per lineam ad obsequia typorum, praesentia notitiarum fractarum, numerum tabularum ante et post, comparationem mutationum factarum ab ETL processu aggregationis, mutatis columnis nominibus, et aliis rebus. Praeterea hae impedimenta ad diversos fontes datae sunt, exempli gratia, praeter SalesForce, etiam ad MySQL.

Finalis notitiae qualitates compescendi exercebantur iam in gradu S3, ubi repositae erant et paratae erant ad usum instruendi apparatus discendi exempla. Ut notitias obtineas ex tabella finali CSV in S3 Situla positam atque convalidandum, codice usus est scriptus boto3 clients.

Necessitas etiam a emptoris fuit ut partem notitiarum in uno S3 Situla reponeret, partim in alio. Hoc etiam in scribendo postulabat adiectis coercendis ad reprimendam fidem talis diribitii.

Communis usus ab aliis inceptis

Exemplum indicem generalissimum actionum machinalis Datae Qualitatis;

  • Para test data (magnum parvum irritum validum) per instrumentum automated.
  • Praeparatas notitias onerare ad principium originis positas et inspicias ut ad usum parata sit.
  • Processus duc ETL ad expediendas notitias a fonte repositionis usque ad ultimam vel intermediam repositionis utendo certae ambitus (si fieri potest, parametris configurabiles ad ETL negotium pone).
  • Comproba notitia processus per ETL processum pro qualitate et obsequio cum negotiis requisitis.

Eodem tempore, praecipuus umbilicus coercetionum debet esse non solum ex eo quod notitia in systematis influit, in principio, operata et peracta (quae est pars probati muneris), sed maxime in reprimendis et certis confirmandis notitias. obsequia cum expectatis requisitis, anomaliis et aliis rebus distinguendis.

vasa cantici

Una technicarum talium datarum moderatio potest esse ordo catenae coercens in singulis stadiis notitiis, sic dicta "catena data" in litteris - imperium notitiarum a fonte usque ad punctum usus finalis. Haec genera compescuum plerumque implent scribendo inspiciendo SQL queries. Patet huiusmodi interrogationes quam maxime leves esse et singulas partes notarum qualitatis (mensas metadatas, lineas blank, nullos, errores in syntaxi - aliis attributis reprimendis requisitis).

In casu regressionis probatio, qui utitur notitiarum copiarum paratarum (inmutabili, leviter mutabili), codice autotest reponendas paratas factas templates ad reprimendum notitias pro obsequio cum qualitate (descriptiones metadatarum tabularum expectatarum, ordo obiecti exempli, quod esse potest. electus passim in test, etc.).

Etiam, in probatione, processus testium ETL scribere debes utentes compagibus ut Apache Airflow, Apache Spark vel atra-arca nubem genus instrumentum GCP Dataprep, GCP Dataflow Et sic porro. Haec circumstantia cogit test fectum ut se in principiis operationis instrumentorum supradictorum immergat, et etiam efficacius utrumque probatio muneris functionis (exempli gratia processus EXISTENTES ETL in project) utatur et ad notitias inspiciendas utatur. Praesertim Apache Airflow has promptos operatores ad operandum cum databases popularibus analyticis, eg GCP BigQuery. Praecipuum exemplum eius usus iam adumbrata est hicsic ego non repeto.

Praeter solutiones paratas, nemo vos vetat suas artes et instrumenta peragere. Hoc non solum utile est ad propositum, sed etiam ad ipsum Quality ipsum Datae, qui propterea fines suos technicas et artes coding emendabit.

Quomodo operatur in project reali

Bona illustratio superiorum paragraphorum de "catena data", ETL et ubiquitous compescit, processus sequens ex uno e inceptis realibus est:

Magna et parva notitia testor: trends, theoria mea fabula

Hic variae notitiae (naturaliter a nobis paratae) initus nostri systematis "infundibulum" intrant: valida, invalida, mixta, etc., tunc percolantur et finiuntur in repositione media, iterum seriem mutationum subeunt. et in tabulario finali collocantur, e quibus, vicissim, analytica, notitias marts aedificantes et pervestigationes negotiatorum peragenda erunt. In tali systemate, sine operatione ETL processuum officiario inhibito, qualitatem notitiarum ante et post conversiones intendunt, necnon in analyticis output.

Summatim ut supra, pro locorum in quibus laboravi, ubique incidimus in inceptis quae sequentes notas communicabant;

  • Tantum per automationem aliquos casus experiri potes et cyclum emissio accepta negotio consequi.
  • Probator in tali incepto unum ex honestissimis sodalibus quadrigis est, quod magnas utilitates unicuique participantium affert (acceleratio probationis, bona notitia a Data Scientist, agnitio defectuum in primis temporibus).
  • Nihil refert utrum in ferramentis tuis an in nubibus laboras - in botro abstrahuntur omnes facultates ut Hortonworks, Cloudera, Mesos, Kubernetes, etc.
  • Incepta in microserviae accessu, distributa et parallela computando praedominantur, superaedificantur.

Notare velim quod, cum in agro Data Qualitatis ageret, artifex experiens suum umbilicum professionalem ad codicem producti et instrumenta adhibita transfert.

Proprietates ex Data Quality temptationis

Praeterea, apud me, sequentia identificavi (statim reservationem facere valde generativam et solum subiectivam) notas proprias probationis in Data (Big Data) inceptis (systematibus) et aliis locis;

Magna et parva notitia testor: trends, theoria mea fabula

Nexus utilis

  1. Theoria: DAMA-DMBOK: Data Management Corpus Scientiarum: 2nd Edition.
  2. Lorem centrum EPAM 
  3. Commendatur materiae ad principium Data Quality engineer:
    1. Liberum cursum in Stepik: Introductio ad databases
    2. Scilicet in LinkedIn Learning: Data Fundamenta Scientiae: Data Engineering.
    3. Articuli:
    4. videos:

conclusio,

Species Data admodum adulescentulus pollicetur partem, quam significat partem satus esse. Semel in Data Qualitate, in magna multitudine recentiorum, technologiarum in- poscitis, sed potissimum occasiones enormes tibi aperient ad tuas ideas generandas et perficiendas. Continua emendatione uti poteris, non solum ad propositum, sed etiam ad te ipsum, continuum elaborandum ut artifex.

Source: www.habr.com