A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Mae'r erthygl hon yn gyfieithiad o fy erthygl ar gyfrwng - Dechrau arni gyda Data Lake, a drodd allan i fod yn eithaf poblogaidd, yn ôl pob tebyg oherwydd ei symlrwydd. Felly, penderfynais ei ysgrifennu yn Rwsieg ac ychwanegu ychydig i'w gwneud yn glir i berson cyffredin nad yw'n arbenigwr data beth yw warws data (DW), a beth yw llyn data (Llyn Data), a sut maen nhw cyd-dynnu.

Pam oeddwn i eisiau ysgrifennu am y llyn data? Rwyf wedi bod yn gweithio gyda data a dadansoddeg ers dros 10 mlynedd, a nawr rwy'n bendant yn gweithio gyda data mawr yn Amazon Alexa AI yng Nghaergrawnt, sydd yn Boston, er fy mod yn byw yn Victoria ar Ynys Vancouver ac yn aml yn ymweld â Boston, Seattle , ac Yn Vancouver, ac weithiau hyd yn oed ym Moscow, rwy'n siarad mewn cynadleddau. Rwyf hefyd yn ysgrifennu o bryd i'w gilydd, ond rwy'n ysgrifennu yn Saesneg yn bennaf, ac rwyf eisoes wedi ysgrifennu rhai llyfrau, Mae angen i mi hefyd rannu tueddiadau dadansoddeg o Ogledd America, a byddaf yn ysgrifennu i mewn weithiau telegramau.

Rwyf bob amser wedi gweithio gyda warysau data, ac ers 2015 dechreuais weithio'n agos gydag Amazon Web Services, ac yn gyffredinol newidiais i ddadansoddeg cwmwl (AWS, Azure, GCP). Rwyf wedi arsylwi esblygiad datrysiadau dadansoddeg ers 2007 a hyd yn oed wedi gweithio i’r gwerthwr warws data Teradata a’i roi ar waith yn Sberbank, a dyna pryd yr ymddangosodd Big Data gyda Hadoop. Dechreuodd pawb ddweud bod y cyfnod storio wedi mynd heibio a nawr roedd popeth ar Hadoop, ac yna dechreuon nhw siarad am Data Lake, unwaith eto, bod diwedd y warws data bellach wedi dod yn bendant. Ond yn ffodus (efallai yn anffodus i rai a wnaeth lawer o arian yn sefydlu Hadoop), ni aeth y warws data i ffwrdd.

Yn yr erthygl hon byddwn yn edrych ar beth yw llyn data. Mae'r erthygl hon wedi'i bwriadu ar gyfer pobl sydd ag ychydig neu ddim profiad gyda warysau data.

A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Yn y llun mae Llyn Bled, dyma un o fy hoff lynnoedd, er mai dim ond unwaith y bues i yno, cofiais amdano am weddill fy oes. Ond byddwn yn siarad am fath arall o lyn - llyn data. Efallai bod llawer ohonoch eisoes wedi clywed y term hwn fwy nag unwaith, ond ni fydd un diffiniad arall yn niweidio unrhyw un.

Yn gyntaf oll, dyma'r diffiniadau mwyaf poblogaidd o Lyn Data:

“storfa ffeil o bob math o ddata crai sydd ar gael i'w ddadansoddi gan unrhyw un yn y sefydliad” - Martin Fowler

“Os ydych chi'n meddwl mai potel o ddŵr yw marchnad ddata - wedi'i buro, ei becynnu a'i becynnu i'w yfed yn gyfleus, yna mae llyn data yn gronfa ddŵr enfawr yn ei ffurf naturiol. Ddefnyddwyr, gallaf gasglu dŵr i mi fy hun, plymio'n ddwfn, archwilio. ” - James Dixon

Nawr ein bod yn gwybod yn sicr bod llyn data yn ymwneud â dadansoddeg, mae'n caniatáu inni storio llawer iawn o ddata yn ei ffurf wreiddiol ac mae gennym y mynediad angenrheidiol a chyfleus i'r data.

Rwy’n aml yn hoffi symleiddio pethau, os gallaf esbonio term cymhleth mewn geiriau syml, yna rwy’n deall drosof fy hun sut mae’n gweithio a beth sydd ei angen ar ei gyfer. Un diwrnod, roeddwn i'n procio o gwmpas yn oriel luniau iPhone, ac fe wawriodd arnaf, mae hwn yn lyn data go iawn, fe wnes i hyd yn oed sleid ar gyfer cynadleddau:

A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Mae popeth yn syml iawn. Rydyn ni'n tynnu llun ar y ffôn, mae'r llun yn cael ei gadw ar y ffôn a gellir ei gadw i iCloud (storfa ffeiliau cwmwl). Mae'r ffôn hefyd yn casglu metadata lluniau: yr hyn a ddangosir, geo tag, amser. O ganlyniad, gallwn ddefnyddio rhyngwyneb hawdd ei ddefnyddio yr iPhone i ddod o hyd i'n llun ac rydym hyd yn oed yn gweld dangosyddion, er enghraifft, pan fyddaf yn chwilio am luniau gyda'r gair tân, rwy'n dod o hyd i 3 llun gyda delwedd o dân. I mi, mae hwn yn union fel offeryn Cudd-wybodaeth Busnes sy'n gweithio'n gyflym iawn ac yn gywir.

Ac wrth gwrs, rhaid i ni beidio ag anghofio am ddiogelwch (awdurdodi a dilysu), fel arall gall ein data yn hawdd yn y pen draw yn y parth cyhoeddus. Mae yna lawer o newyddion am gorfforaethau mawr a busnesau newydd y daeth eu data ar gael i'r cyhoedd oherwydd esgeulustod datblygwyr a methiant i ddilyn rheolau syml.

Mae hyd yn oed llun mor syml yn ein helpu i ddychmygu beth yw llyn data, ei wahaniaethau o warws data traddodiadol a'i brif elfennau:

  1. Llwytho Data Mae (amlyncu) yn elfen allweddol o'r llyn data. Gall data fynd i mewn i'r warws data mewn dwy ffordd - swp (llwytho ar adegau) a ffrydio (llif data).
  2. Storio ffeiliau (Storio) yw prif gydran y Llyn Data. Roedd angen i'r storfa fod yn hawdd ei raddio, yn hynod ddibynadwy, ac yn gost isel. Er enghraifft, yn AWS mae'n S3.
  3. Catalog a Chwilio (Catalog a Chwilio) - er mwyn i ni osgoi'r Gors Data (dyma pan fyddwn yn taflu'r holl ddata mewn un pentwr, ac yna mae'n amhosibl gweithio ag ef), mae angen i ni greu haen metadata i ddosbarthu'r data fel bod defnyddwyr yn gallu dod o hyd i'r data sydd ei angen arnynt i'w ddadansoddi yn hawdd. Yn ogystal, gallwch ddefnyddio datrysiadau chwilio ychwanegol fel ElasticSearch. Mae Search yn helpu'r defnyddiwr i ddod o hyd i'r data gofynnol trwy ryngwyneb hawdd ei ddefnyddio.
  4. prosesu (Proses) - y cam hwn sy'n gyfrifol am brosesu a thrawsnewid data. Gallwn drawsnewid data, newid ei strwythur, ei lanhau, a llawer mwy.
  5. diogelwch (Diogelwch) - Mae'n bwysig treulio amser ar ddyluniad diogelwch yr ateb. Er enghraifft, amgryptio data wrth storio, prosesu a llwytho. Mae'n bwysig defnyddio dulliau dilysu ac awdurdodi. Yn olaf, mae angen offeryn archwilio.

O safbwynt ymarferol, gallwn nodweddu llyn data gan dri nodwedd:

  1. Casglu a storio unrhyw beth — mae'r llyn data yn cynnwys yr holl ddata, yn ddata amrwd heb ei brosesu ar gyfer unrhyw gyfnod o amser a data wedi'i brosesu/glanhau.
  2. Sgan dwfn — mae llyn data yn galluogi defnyddwyr i archwilio a dadansoddi data.
  3. Mynediad hyblyg — Mae'r llyn data yn darparu mynediad hyblyg ar gyfer gwahanol ddata a gwahanol senarios.

Nawr gallwn siarad am y gwahaniaeth rhwng warws data a llyn data. Fel arfer mae pobl yn gofyn:

  • Beth am y warws data?
  • A ydym yn disodli'r warws data gyda llyn data neu a ydym yn ei ehangu?
  • A yw'n dal yn bosibl gwneud heb lyn data?

Yn fyr, nid oes ateb clir. Mae'r cyfan yn dibynnu ar y sefyllfa benodol, sgiliau'r tîm a'r gyllideb. Er enghraifft, mudo warws data i Oracle i AWS a chreu llyn data gan is-gwmni Amazon - Woot - Ein stori llyn data: Sut adeiladodd Woot.com lyn data di-weinydd ar AWS.

Ar y llaw arall, dywed y gwerthwr Snowflake nad oes angen i chi feddwl am lyn data mwyach, gan fod eu platfform data (tan 2020 roedd yn warws data) yn caniatáu ichi gyfuno llyn data a warws data. Dydw i ddim wedi gweithio llawer gyda Snowflake, ac mae'n wirioneddol yn gynnyrch unigryw sy'n gallu gwneud hyn. Mater arall yw pris y mater.

I gloi, fy marn bersonol i yw bod angen warws data arnom o hyd fel y brif ffynhonnell ddata ar gyfer ein hadroddiadau, a beth bynnag nad yw'n ffitio rydym yn ei storio mewn llyn data. Holl rôl dadansoddeg yw darparu mynediad hawdd i fusnesau wneud penderfyniadau. Beth bynnag a ddywed rhywun, mae defnyddwyr busnes yn gweithio'n fwy effeithlon gyda warws data na llyn data, er enghraifft yn Amazon - mae Redshift (warws data dadansoddol) ac mae Redshift Spectrum/Athena (rhyngwyneb SQL ar gyfer llyn data yn S3 yn seiliedig ar Hive/Presto). Mae'r un peth yn wir am warysau data dadansoddol modern eraill.

Edrychwn ar bensaernïaeth warws data nodweddiadol:

A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Mae hwn yn ateb clasurol. Mae gennym systemau ffynhonnell, gan ddefnyddio ETL/ELT rydym yn copïo data i warws data dadansoddol ac yn ei gysylltu â datrysiad Cudd-wybodaeth Busnes (fy ffefryn yw Tableau, beth am eich un chi?).

Mae gan yr ateb hwn yr anfanteision canlynol:

  • Mae angen amser ac adnoddau ar gyfer gweithrediadau ETL/ELT.
  • Fel rheol, nid yw cof ar gyfer storio data mewn warws data dadansoddol yn rhad (er enghraifft, Redshift, BigQuery, Teradata), gan fod angen i ni brynu clwstwr cyfan.
  • Mae gan ddefnyddwyr busnes fynediad at ddata wedi'i lanhau ac yn aml wedi'i agregu ac nid oes ganddynt fynediad at ddata crai.

Wrth gwrs, mae'r cyfan yn dibynnu ar eich achos. Os nad oes gennych broblemau gyda'ch warws data, yna nid oes angen llyn data arnoch o gwbl. Ond pan fydd problemau'n codi gyda diffyg lle, pŵer, neu bris yn chwarae rhan allweddol, yna gallwch chi ystyried yr opsiwn o lyn data. Dyna pam mae'r llyn data yn boblogaidd iawn. Dyma enghraifft o bensaernïaeth llyn data:
A oes angen llyn data arnom? Beth i'w wneud â'r warws data?
Gan ddefnyddio'r dull llyn data, rydym yn llwytho data crai i'n llyn data (swp neu ffrydio), yna rydym yn prosesu'r data yn ôl yr angen. Mae'r llyn data yn galluogi defnyddwyr busnes i greu eu trawsnewidiadau data eu hunain (ETL/ELT) neu ddadansoddi data mewn datrysiadau Cudd-wybodaeth Busnes (os yw'r gyrrwr angenrheidiol ar gael).

Nod unrhyw ddatrysiad dadansoddeg yw gwasanaethu defnyddwyr busnes. Felly, rhaid inni bob amser weithio yn unol â gofynion busnes. (Yn Amazon dyma un o'r egwyddorion - gweithio tuag yn ôl).

Gan weithio gyda warws data a llyn data, gallwn gymharu'r ddau ddatrysiad:

A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Y prif gasgliad y gellir ei dynnu yw nad yw'r warws data yn cystadlu â'r llyn data, ond yn hytrach yn ei ategu. Ond chi sydd i benderfynu beth sy'n iawn i'ch achos. Mae bob amser yn ddiddorol rhoi cynnig arni eich hun a dod i'r casgliadau cywir.

Hoffwn hefyd ddweud wrthych un o'r achosion pan ddechreuais ddefnyddio'r dull llyn data. Mae popeth yn eithaf dibwys, ceisiais ddefnyddio offeryn ELT (roedd gennym Matillion ETL) ac Amazon Redshift, roedd fy ateb yn gweithio, ond nid oedd yn cyd-fynd â'r gofynion.

Roedd angen i mi gymryd logiau gwe, eu trawsnewid a'u hagregu i ddarparu data ar gyfer 2 achos:

  1. Roedd y tîm marchnata eisiau dadansoddi gweithgaredd bot ar gyfer SEO
  2. Roedd TG eisiau edrych ar fetrigau perfformiad gwefan

Logiau syml iawn, syml iawn. Dyma enghraifft:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Roedd un ffeil yn pwyso 1-4 megabeit.

Ond roedd un anhawster. Roedd gennym ni 7 parth o gwmpas y byd, a chafodd 7000 mil o ffeiliau eu creu mewn un diwrnod. Nid yw hyn yn llawer mwy cyfaint, dim ond 50 gigabeit. Ond roedd maint ein clwstwr Redshift hefyd yn fach (4 nod). Cymerodd tua munud i lwytho un ffeil yn y ffordd draddodiadol. Hynny yw, ni chafodd y broblem ei datrys yn uniongyrchol. Ac roedd hyn yn wir pan benderfynais ddefnyddio'r dull llyn data. Roedd yr ateb yn edrych fel hyn:

A oes angen llyn data arnom? Beth i'w wneud â'r warws data?

Mae'n eithaf syml (rwyf am nodi mai'r fantais o weithio yn y cwmwl yw symlrwydd). Defnyddiais i:

  • Lleihau Map Elastig AWS (Hadoop) ar gyfer Pŵer Cyfrifiadura
  • AWS S3 fel storfa ffeiliau gyda'r gallu i amgryptio data a chyfyngu mynediad
  • Spark fel pŵer cyfrifiadurol InMemory a PySpark ar gyfer trawsnewid rhesymeg a data
  • Parquet o ganlyniad i Spark
  • AWS Glue Crawler fel casglwr metadata am ddata a rhaniadau newydd
  • Sbectrwm Redshift fel rhyngwyneb SQL i'r llyn data ar gyfer defnyddwyr Redshift presennol

Prosesodd y clwstwr EMR + Spark lleiaf y pentwr cyfan o ffeiliau mewn 30 munud. Mae yna achosion eraill ar gyfer AWS, yn enwedig llawer yn ymwneud â Alexa, lle mae llawer o ddata.

Yn ddiweddar, dysgais mai un o anfanteision llyn data yw GDPR. Y broblem yw pan fydd y cleient yn gofyn am ei ddileu a bod y data yn un o'r ffeiliau, ni allwn ddefnyddio Iaith Trin Data a gweithrediad DELETE fel mewn cronfa ddata.

Rwy'n gobeithio bod yr erthygl hon wedi egluro'r gwahaniaeth rhwng warws data a llyn data. Os oedd gennych ddiddordeb, gallaf gyfieithu mwy o fy erthyglau neu erthyglau o weithwyr proffesiynol yr wyf yn darllen. A dywedwch hefyd am yr atebion rydw i'n gweithio gyda nhw a'u pensaernïaeth.

Ffynhonnell: hab.com

Ychwanegu sylw