Profwr data mawr a bach: tueddiadau, theori, fy stori

Helo bawb, fy enw i yw Alexander, ac rwy'n beiriannydd Ansawdd Data sy'n gwirio data am ei ansawdd. Bydd yr erthygl hon yn siarad am sut y deuthum i hyn a pham yn 2020 roedd y maes profi hwn ar frig ton.

Profwr data mawr a bach: tueddiadau, theori, fy stori

Tuedd fyd-eang

Mae'r byd heddiw yn profi chwyldro technolegol arall, ac un agwedd arno yw'r defnydd o ddata cronedig gan bob math o gwmnïau i hyrwyddo eu olwynion gwerthu, elw a chysylltiadau cyhoeddus eu hunain. Mae'n ymddangos bod presenoldeb data (ansawdd) da, yn ogystal ag ymennydd medrus sy'n gallu gwneud arian ohono (prosesu'n gywir, delweddu, adeiladu modelau dysgu peiriannau, ac ati), wedi dod yn allweddol i lwyddiant i lawer heddiw. Os 15-20 mlynedd yn ôl roedd cwmnïau mawr yn ymwneud yn bennaf â gwaith dwys gyda chronni data ac arian, heddiw dyma lawer o bron pob person call.

Yn hyn o beth, sawl blwyddyn yn ôl, dechreuwyd llenwi pob porth sy'n ymroddedig i chwilio am swyddi ledled y byd â swyddi gwag ar gyfer Gwyddonwyr Data, gan fod pawb yn siŵr, ar ôl llogi arbenigwr o'r fath, y byddai'n bosibl adeiladu model dysgu peirianyddol. , rhagfynegi'r dyfodol a pherfformio “naid cwantwm” i'r cwmni. Dros amser, sylweddolodd pobl nad yw'r dull hwn bron byth yn gweithio yn unrhyw le, gan nad yw'r holl ddata sy'n disgyn i ddwylo arbenigwyr o'r fath yn addas ar gyfer modelau hyfforddi.

A dechreuodd ceisiadau gan Wyddonwyr Data: “Gadewch i ni brynu mwy o ddata gan y rhain a'r rheini...”, “Nid oes gennym ddigon o ddata...”, “Mae angen mwy o ddata arnom, yn ddelfrydol un o ansawdd uchel...” . Yn seiliedig ar y ceisiadau hyn, dechreuwyd adeiladu nifer o ryngweithiadau rhwng cwmnïau sy'n berchen ar set neu set arall o ddata. Yn naturiol, roedd hyn yn gofyn am drefniadaeth dechnegol y broses hon - cysylltu â'r ffynhonnell ddata, ei lawrlwytho, gwirio ei fod wedi'i lwytho'n llawn, ac ati. Dechreuodd nifer y prosesau o'r fath dyfu, a heddiw mae angen mawr am fath arall o arbenigwyr - Peirianwyr Ansawdd Data - y rhai a fyddai'n monitro llif data yn y system (piblinellau data), ansawdd y data yn y mewnbwn a'r allbwn, ac yn dod i gasgliadau am eu digonolrwydd, cywirdeb a nodweddion eraill.

Daeth y duedd ar gyfer peirianwyr Ansawdd Data atom o UDA, lle, yng nghanol cyfnod cynddeiriog cyfalafiaeth, nid oes unrhyw un yn barod i golli'r frwydr am ddata. Isod rwyf wedi darparu sgrinluniau o ddau o'r gwefannau chwilio am swyddi mwyaf poblogaidd yn yr Unol Daleithiau: www.monster.com и www.dice.com — sy'n dangos data o 17 Mawrth, 2020 ar nifer y swyddi gwag a bostiwyd a dderbyniwyd gan ddefnyddio'r geiriau allweddol: Data Quality and Data Scientist.

www.monster.com

Gwyddonwyr Data – 21416 o swyddi gwag
Ansawdd Data – 41104 o swyddi gwag

Profwr data mawr a bach: tueddiadau, theori, fy stori
Profwr data mawr a bach: tueddiadau, theori, fy stori

www.dice.com

Gwyddonwyr Data – 404 o swyddi gwag
Ansawdd Data – swyddi gwag 2020

Profwr data mawr a bach: tueddiadau, theori, fy stori
Profwr data mawr a bach: tueddiadau, theori, fy stori

Yn amlwg, nid yw'r proffesiynau hyn mewn unrhyw ffordd yn cystadlu â'i gilydd. Gyda sgrinluniau, roeddwn i eisiau dangos y sefyllfa bresennol ar y farchnad lafur o ran ceisiadau am beirianwyr Ansawdd Data, y mae angen llawer mwy ohonynt nawr na Gwyddonwyr Data.

Ym mis Mehefin 2019, gwahanodd EPAM, gan ymateb i anghenion y farchnad TG fodern, Ansawdd Data yn bractis ar wahân. Mae peirianwyr Ansawdd Data, yn ystod eu gwaith beunyddiol, yn rheoli data, yn gwirio ei ymddygiad o dan amodau a systemau newydd, yn monitro perthnasedd y data, ei ddigonolrwydd a'i berthnasedd. Gyda hyn i gyd, mewn ystyr ymarferol, ychydig iawn o amser y mae peirianwyr Ansawdd Data yn ei neilltuo i brofion swyddogaethol clasurol, OND mae hyn yn dibynnu'n fawr ar y prosiect (byddaf yn rhoi enghraifft isod).

Nid yw cyfrifoldebau peiriannydd Ansawdd Data yn gyfyngedig yn unig i wiriadau llaw/awtomatig arferol ar gyfer “nwls, cyfrif a symiau” mewn tablau cronfa ddata, ond mae angen dealltwriaeth ddofn o anghenion busnes y cwsmer ac, yn unol â hynny, y gallu i drawsnewid y data sydd ar gael yn ddata sydd ar gael. gwybodaeth fusnes ddefnyddiol.

Damcaniaeth Ansawdd Data

Profwr data mawr a bach: tueddiadau, theori, fy stori

Er mwyn dychmygu rôl peiriannydd o'r fath yn llawnach, gadewch i ni ddarganfod beth yw Ansawdd Data mewn theori.

Ansawdd Data — un o gamau Rheoli Data (byd cyfan y byddwn yn ei adael i chi ei astudio ar eich pen eich hun) ac sy'n gyfrifol am ddadansoddi data yn unol â'r meini prawf canlynol:

Profwr data mawr a bach: tueddiadau, theori, fy stori
Rwy'n meddwl nad oes angen dehongli pob un o'r pwyntiau (mewn theori fe'u gelwir yn "ddimensiynau data"), maent wedi'u disgrifio'n eithaf da yn y llun. Ond nid yw'r broses brofi ei hun yn awgrymu copïo'r nodweddion hyn yn llym i achosion prawf a'u gwirio. O ran Ansawdd Data, fel mewn unrhyw fath arall o brofion, mae angen, yn gyntaf oll, adeiladu ar y gofynion ansawdd data y cytunwyd arnynt gyda chyfranogwyr y prosiect sy'n gwneud penderfyniadau busnes.

Yn dibynnu ar y prosiect Ansawdd Data, gall peiriannydd gyflawni swyddogaethau gwahanol: o brofwr awtomeiddio cyffredin gydag asesiad arwynebol o ansawdd data, i berson sy'n cynnal proffilio dwfn o'r data yn unol â'r meini prawf uchod.

Mae disgrifiad manwl iawn o'r prosesau Rheoli Data, Ansawdd Data a phrosesau cysylltiedig wedi'u disgrifio'n dda yn y llyfr a elwir "DAMA-DMBOK: Corff Gwybodaeth Rheoli Data: 2il Argraffiad". Rwy'n argymell y llyfr hwn yn fawr fel cyflwyniad i'r pwnc hwn (fe welwch ddolen iddo ar ddiwedd yr erthygl).

Fy hanes

Yn y diwydiant TG, gweithiais fy ffordd i fyny o fod yn brofwr Iau mewn cwmnïau cynnyrch i fod yn Beiriannydd Ansawdd Data Arweiniol yn EPAM. Ar ôl tua dwy flynedd o weithio fel profwr, cefais yr argyhoeddiad cadarn fy mod wedi gwneud pob math o brofion: atchweliad, swyddogaethol, straen, sefydlogrwydd, diogelwch, UI, ac ati - a rhoi cynnig ar nifer fawr o offer profi, ar ôl gweithio ar yr un pryd mewn tair iaith raglennu: Java, Scala, Python.

Wrth edrych yn ôl, deallaf pam yr oedd fy set sgiliau mor amrywiol—roeddwn yn ymwneud â phrosiectau a yrrir gan ddata, mawr a bach. Dyma beth ddaeth â mi i fyd o lawer o offer a chyfleoedd ar gyfer twf.

I werthfawrogi'r amrywiaeth o offer a chyfleoedd i ennill gwybodaeth a sgiliau newydd, edrychwch ar y llun isod, sy'n dangos y rhai mwyaf poblogaidd yn y byd “Data & AI”.

Profwr data mawr a bach: tueddiadau, theori, fy stori
Mae'r math hwn o ddarlun yn cael ei lunio'n flynyddol gan un o'r cyfalafwyr menter enwog Matt Turck, sy'n dod o faes datblygu meddalwedd. Yma cyswllt i'w blog a cwmni cyfalaf menter, lle mae'n gweithio fel partner.

Tyfais yn broffesiynol yn arbennig o gyflym pan fi oedd yr unig brofwr ar y prosiect, neu o leiaf ar ddechrau'r prosiect. Ar y fath foment y mae'n rhaid ichi fod yn gyfrifol am y broses brofi gyfan, ac nid oes gennych gyfle i encilio, dim ond ymlaen. Ar y dechrau roedd yn frawychus, ond nawr mae holl fanteision prawf o'r fath yn amlwg i mi:

  • Rydych chi'n dechrau cyfathrebu â'r tîm cyfan fel erioed o'r blaen, gan nad oes dirprwy ar gyfer cyfathrebu: nid rheolwr y prawf na chyd-brofwyr.
  • Mae'r trochi yn y prosiect yn dod yn anhygoel o ddwfn, ac mae gennych chi wybodaeth am yr holl gydrannau, yn gyffredinol ac yn fanwl.
  • Nid yw datblygwyr yn edrych arnoch chi fel “y boi hwnnw o brofi nad yw'n gwybod beth mae'n ei wneud,” ond yn hytrach fel rhywun cyfartal sy'n cynhyrchu buddion anhygoel i'r tîm gyda'i brofion awtomataidd a'i ragweld y bydd bygiau'n ymddangos mewn cydran benodol o'r cynnyrch.
  • O ganlyniad, rydych chi'n fwy effeithiol, yn fwy cymwys, ac mae mwy o alw amdanynt.

Wrth i'r prosiect dyfu, mewn 100% o achosion deuthum yn fentor i brofwyr newydd, gan eu haddysgu a throsglwyddo'r wybodaeth roeddwn i wedi'i dysgu fy hun. Ar yr un pryd, yn dibynnu ar y prosiect, nid oeddwn bob amser yn derbyn y lefel uchaf o arbenigwyr profi ceir gan reolwyr ac roedd angen naill ai eu hyfforddi mewn awtomeiddio (ar gyfer y rhai â diddordeb) neu greu offer i'w defnyddio mewn gweithgareddau bob dydd (offer ar gyfer cynhyrchu data a'u llwytho i mewn i'r system , offeryn ar gyfer cynnal profion llwyth / profi sefydlogrwydd "yn gyflym", ac ati).

Enghraifft o brosiect penodol

Yn anffodus, oherwydd rhwymedigaethau peidio â datgelu, ni allaf siarad yn fanwl am y prosiectau y bûm yn gweithio arnynt, ond rhoddaf enghreifftiau o dasgau nodweddiadol Peiriannydd Ansawdd Data ar un o'r prosiectau.

Hanfod y prosiect yw gweithredu llwyfan ar gyfer paratoi data ar gyfer hyfforddi modelau dysgu peiriant yn seiliedig arno. Roedd y cwsmer yn gwmni fferyllol mawr o UDA. Yn dechnegol roedd yn glwstwr Kubernetes, yn codi i AWS EC2 achosion, gyda sawl microwasanaeth a phrosiect Ffynhonnell Agored sylfaenol EPAM - Lleng, wedi'i addasu i anghenion cwsmer penodol (yn awr mae'r prosiect wedi'i aileni i mewn iddo odahu). Trefnwyd prosesau ETL gan ddefnyddio Llif Awyr Apache a symud data o Salesforce systemau cwsmeriaid yn Strategaeth Cymru Gyfan S3 Bwcedi. Nesaf, gosodwyd delwedd Docker o fodel dysgu peiriant ar y platfform, a hyfforddwyd ar ddata ffres a, thrwy ddefnyddio rhyngwyneb REST API, cynhyrchodd ragfynegiadau a oedd o ddiddordeb i'r busnes ac a ddatrysodd broblemau penodol.

Yn weledol, roedd popeth yn edrych fel hyn:

Profwr data mawr a bach: tueddiadau, theori, fy stori
Roedd digon o brofion swyddogaethol ar y prosiect hwn, ac o ystyried cyflymder datblygu nodweddion a'r angen i gynnal cyflymder y cylch rhyddhau (gwibio pythefnos), roedd angen meddwl ar unwaith am awtomeiddio profion ar gydrannau mwyaf hanfodol. y system. Roedd y rhan fwyaf o'r platfform yn Kubernetes ei hun wedi'i gwmpasu gan awtobrofion a weithredwyd ynddo Fframwaith Robot + Python, ond roedd angen eu cefnogi a'u hehangu hefyd. Yn ogystal, er hwylustod y cwsmer, crëwyd GUI i reoli modelau dysgu peirianyddol a ddefnyddir i'r clwstwr, yn ogystal â'r gallu i nodi ble a ble mae angen trosglwyddo data ar gyfer hyfforddi'r modelau. Roedd yr ychwanegiad helaeth hwn yn golygu ehangu profion swyddogaethol awtomataidd, a wnaed yn bennaf trwy alwadau REST API a nifer fach o brofion UI diwedd 2-diwedd. O amgylch cyhydedd yr holl symudiad hwn, ymunodd profwr llaw â ni a wnaeth waith rhagorol gyda phrofion derbyn fersiynau cynnyrch a chyfathrebu â'r cwsmer ynghylch derbyn y datganiad nesaf. Yn ogystal, oherwydd dyfodiad arbenigwr newydd, roeddem yn gallu dogfennu ein gwaith ac ychwanegu nifer o wiriadau llaw pwysig iawn a oedd yn anodd eu hawtomeiddio ar unwaith.

Ac yn olaf, ar ôl i ni gyflawni sefydlogrwydd o'r platfform a'r ychwanegiad GUI drosto, dechreuon ni adeiladu piblinellau ETL gan ddefnyddio Apache Airflow DAGs. Cyflawnwyd gwirio ansawdd data awtomataidd trwy ysgrifennu DAGs Airflow arbennig a oedd yn gwirio'r data yn seiliedig ar ganlyniadau'r broses ETL. Fel rhan o'r prosiect hwn, buom yn ffodus a rhoddodd y cwsmer fynediad i setiau data dienw y gwnaethom brofi arnynt. Fe wnaethom wirio'r data fesul llinell ar gyfer cydymffurfiad â mathau, presenoldeb data wedi'i dorri, cyfanswm nifer y cofnodion cyn ac ar ôl, cymhariaeth o drawsnewidiadau a wnaed gan y broses ETL ar gyfer agregu, newid enwau colofnau, a phethau eraill. Yn ogystal, graddiwyd y gwiriadau hyn i wahanol ffynonellau data, er enghraifft, yn ogystal â SalesForce, hefyd i MySQL.

Cynhaliwyd gwiriadau ansawdd data terfynol eisoes ar lefel S3, lle cawsant eu storio ac roeddent yn barod i'w defnyddio ar gyfer hyfforddi modelau dysgu peirianyddol. I gael data o'r ffeil CSV derfynol sydd wedi'i lleoli ar y Bwced S3 a'i ddilysu, ysgrifennwyd cod gan ddefnyddio boto3 cleientiaid.

Roedd gofyniad hefyd gan y cwsmer i storio rhan o'r data mewn un bwced S3 a rhan mewn bwced arall. Roedd hyn hefyd yn gofyn am ysgrifennu gwiriadau ychwanegol i wirio dibynadwyedd didoli o'r fath.

Profiad cyffredinol o brosiectau eraill

Enghraifft o restr fwyaf cyffredinol o weithgareddau peiriannydd Ansawdd Data:

  • Paratoi data prawf (dilys annilys bach mawr) trwy offeryn awtomataidd.
  • Llwythwch y set ddata a baratowyd i fyny i'r ffynhonnell wreiddiol a gwiriwch ei bod yn barod i'w defnyddio.
  • Lansio prosesau ETL ar gyfer prosesu set o ddata o'r storfa ffynhonnell i'r storfa derfynol neu ganolradd gan ddefnyddio set benodol o osodiadau (os yn bosibl, gosodwch baramedrau ffurfweddadwy ar gyfer y dasg ETL).
  • Gwirio data a brosesir gan y broses ETL ar gyfer ei ansawdd a'i gydymffurfiaeth â gofynion busnes.

Ar yr un pryd, dylai prif ffocws y gwiriadau fod nid yn unig ar y ffaith bod y llif data yn y system, mewn egwyddor, wedi gweithio ac wedi'i gwblhau (sy'n rhan o brofion swyddogaethol), ond yn bennaf ar wirio a dilysu data ar gyfer cydymffurfio â gofynion disgwyliedig, nodi anghysondebau a phethau eraill.

Offer

Un o'r technegau ar gyfer rheoli data o'r fath yw trefnu gwiriadau cadwyn ar bob cam o brosesu data, yr hyn a elwir yn "gadwyn ddata" yn y llenyddiaeth - rheoli data o'r ffynhonnell i'r pwynt defnydd terfynol. Mae'r mathau hyn o wiriadau yn cael eu gweithredu amlaf trwy ysgrifennu ymholiadau gwirio SQL. Mae'n amlwg y dylai ymholiadau o'r fath fod mor ysgafn â phosibl a gwirio darnau unigol o ansawdd data (metadata tablau, llinellau gwag, NULLs, Gwallau mewn cystrawen - priodoleddau eraill sydd eu hangen ar gyfer gwirio).

Yn achos profion atchweliad, sy'n defnyddio setiau data parod (anghyfnewidiol, ychydig yn newidiol), gall y cod awtotest storio templedi parod ar gyfer gwirio data i weld a yw'n cydymffurfio ag ansawdd (disgrifiadau o fetadata tabl disgwyliedig; gwrthrychau sampl rhes y gellir eu a ddewiswyd ar hap yn ystod y prawf, ac ati).

Hefyd, yn ystod y profion, mae'n rhaid i chi ysgrifennu prosesau prawf ETL gan ddefnyddio fframweithiau fel Apache Airflow, Apache Spark neu hyd yn oed offeryn math cwmwl blwch du Paratoi Data GCP, Llif Data GCP Ac yn y blaen. Mae'r amgylchiad hwn yn gorfodi'r peiriannydd prawf i ymgolli yn egwyddorion gweithredu'r offer uchod a hyd yn oed yn fwy effeithiol cynnal profion swyddogaethol (er enghraifft, prosesau ETL presennol ar brosiect) a'u defnyddio i wirio data. Yn benodol, mae gan Apache Airflow weithredwyr parod ar gyfer gweithio gyda chronfeydd data dadansoddol poblogaidd, er enghraifft GCP BigQuery. Mae'r enghraifft fwyaf sylfaenol o'i ddefnydd eisoes wedi'i hamlinellu yma, felly ni fyddaf yn ailadrodd fy hun.

Ar wahân i atebion parod, nid oes neb yn eich gwahardd rhag gweithredu'ch technegau a'ch offer eich hun. Bydd hyn nid yn unig o fudd i'r prosiect, ond hefyd i'r Peiriannydd Ansawdd Data ei hun, a fydd felly'n gwella ei orwelion technegol a'i sgiliau codio.

Sut mae'n gweithio ar brosiect go iawn

Darlun da o'r paragraffau olaf am y “gadwyn ddata”, ETL a gwiriadau hollbresennol yw'r broses ganlynol o un o'r prosiectau go iawn:

Profwr data mawr a bach: tueddiadau, theori, fy stori

Yma, mae data amrywiol (yn naturiol, a baratowyd gennym ni) yn nodi “twndis” mewnbwn ein system: dilys, annilys, cymysg, ac ati, yna maent yn cael eu hidlo ac yn y pen draw mewn storfa ganolraddol, yna maent eto'n cael cyfres o drawsnewidiadau ac yn cael eu gosod yn y storfa derfynol, ac o hynny, yn ei dro, bydd dadansoddeg, adeiladu marchnadoedd data a chwilio am fewnwelediadau busnes yn cael eu cynnal. Mewn system o'r fath, heb wirio gweithrediad prosesau ETL yn swyddogaethol, rydym yn canolbwyntio ar ansawdd data cyn ac ar ôl trawsnewidiadau, yn ogystal ag ar yr allbwn i ddadansoddeg.

I grynhoi'r uchod, waeth beth fo'r lleoedd lle roeddwn i'n gweithio, ym mhobman roeddwn i'n ymwneud â phrosiectau Data a oedd yn rhannu'r nodweddion canlynol:

  • Dim ond trwy awtomeiddio y gallwch chi brofi rhai achosion a chyflawni cylch rhyddhau sy'n dderbyniol i'r busnes.
  • Mae profwr ar brosiect o'r fath yn un o aelodau mwyaf parchus y tîm, gan ei fod yn dod â buddion mawr i bob un o'r cyfranogwyr (cyflymu'r profion, data da gan y Gwyddonydd Data, nodi diffygion yn y camau cynnar).
  • Nid oes ots a ydych chi'n gweithio ar eich caledwedd eich hun neu yn y cymylau - mae'r holl adnoddau'n cael eu tynnu i glwstwr fel Hortonworks, Cloudera, Mesos, Kubernetes, ac ati.
  • Mae prosiectau wedi'u hadeiladu ar ddull microwasanaeth, a chyfrifiadura gwasgaredig a chyfochrog sy'n bennaf.

Hoffwn nodi, wrth wneud profion ym maes Ansawdd Data, bod arbenigwr profi yn symud ei ffocws proffesiynol i god y cynnyrch a'r offer a ddefnyddir.

Nodweddion unigryw profi Ansawdd Data

Yn ogystal, i mi fy hun, rwyf wedi nodi’r canlynol (byddaf yn amau ​​ar unwaith eu bod yn gyffredinol IAWN ac yn oddrychol yn unig) nodweddion unigryw profi mewn prosiectau Data (Data Mawr) (systemau) a meysydd eraill:

Profwr data mawr a bach: tueddiadau, theori, fy stori

Dolenni defnyddiol

  1. Theori: DAMA-DMBOK: Corff Gwybodaeth Rheoli Data: 2il Argraffiad.
  2. Canolfan hyfforddi EPAM 
  3. Deunyddiau a argymhellir ar gyfer peiriannydd Ansawdd Data cychwynnol:
    1. Cwrs am ddim ar Stepik: Cyflwyniad i gronfeydd data
    2. Cwrs ar LinkedIn Learning: Sylfeini Gwyddor Data: Peirianneg Data.
    3. Erthyglau:
    4. Fideo:

Casgliad

Ansawdd Data yn gyfeiriad ifanc iawn addawol, y mae bod yn rhan ohono yn golygu bod yn rhan o gychwyn busnes. Unwaith y byddwch wedi cyrraedd Ansawdd Data, byddwch yn cael eich trwytho mewn nifer fawr o dechnolegau modern y mae galw amdanynt, ond yn bwysicaf oll, bydd cyfleoedd enfawr yn agor i chi gynhyrchu a gweithredu eich syniadau. Byddwch yn gallu defnyddio'r dull gwelliant parhaus nid yn unig ar y prosiect, ond hefyd i chi'ch hun, gan ddatblygu'n barhaus fel arbenigwr.

Ffynhonnell: hab.com

Ychwanegu sylw