Hyb Data Ffynhonnell Agored: Platfform Chwilio a Darganfod Metadata LinkedIn

Hyb Data Ffynhonnell Agored: Platfform Chwilio a Darganfod Metadata LinkedIn

Mae dod o hyd i'r data sydd ei angen arnoch yn gyflym yn hanfodol i unrhyw gwmni sy'n dibynnu ar symiau mawr o ddata i wneud penderfyniadau sy'n cael eu gyrru gan ddata. Nid yn unig y mae hyn yn effeithio ar gynhyrchiant defnyddwyr data (gan gynnwys dadansoddwyr, datblygwyr dysgu peiriannau, gwyddonwyr data, a pheirianwyr data), ond mae hefyd yn cael effaith uniongyrchol ar y cynhyrchion terfynol sy'n dibynnu ar biblinell dysgu peiriant o ansawdd (ML). Yn ogystal, mae'r duedd tuag at weithredu neu adeiladu llwyfannau dysgu peiriannau yn naturiol yn codi'r cwestiwn: beth yw eich dull o ddarganfod yn fewnol nodweddion, modelau, metrigau, setiau data, ac ati.

Yn yr erthygl hon byddwn yn siarad am sut y gwnaethom gyhoeddi ffynhonnell ddata o dan drwydded agored Hyb Data yn ein platfform chwilio a darganfod metadata, gan ddechrau o ddyddiau cynnar y prosiect BleSut. Mae LinkedIn yn cynnal ei fersiwn ei hun o DataHub ar wahân i'r fersiwn ffynhonnell agored. Byddwn yn dechrau trwy egluro pam mae angen dau amgylchedd datblygu ar wahân arnom, yna trafod dulliau cynnar o ddefnyddio'r ffynhonnell agored WhereHows a chymharu ein fersiwn fewnol (cynhyrchu) o DataHub â'r fersiwn ar GitHub. Byddwn hefyd yn rhannu manylion am ein datrysiad awtomataidd newydd ar gyfer gwthio a derbyn diweddariadau ffynhonnell agored i gadw'r ddwy storfa mewn cydamseriad. Yn olaf, byddwn yn darparu cyfarwyddiadau ar sut i ddechrau defnyddio'r DataHub ffynhonnell agored ac yn trafod ei bensaernïaeth yn fyr.

Hyb Data Ffynhonnell Agored: Platfform Chwilio a Darganfod Metadata LinkedIn

Mae WhereHows bellach yn DataHub!

Cyflwynodd tîm metadata LinkedIn yn flaenorol Hyb Data (olynydd WhereHows), platfform chwilio a darganfod metadata LinkedIn, a chynlluniau a rennir i'w agor. Yn fuan ar ôl y cyhoeddiad hwn, gwnaethom ryddhau fersiwn alffa o DataHub a'i rannu â'r gymuned. Ers hynny, rydym wedi cyfrannu'n barhaus at y storfa ac wedi gweithio gyda defnyddwyr â diddordeb i ychwanegu'r nodweddion y gofynnwyd amdanynt fwyaf a datrys problemau. Mae'n bleser gennym nawr gyhoeddi'r datganiad swyddogol DataHub ar GitHub.

Dulliau Ffynhonnell Agored

Dechreuodd WhereHows, porth gwreiddiol LinkedIn ar gyfer dod o hyd i ddata ac o ble y daw, fel prosiect mewnol; agorodd y tîm metadata ef cod ffynhonnell yn 2016. Ers hynny, mae'r tîm bob amser wedi cynnal dwy gronfa god wahanol - un ar gyfer ffynhonnell agored ac un ar gyfer defnydd mewnol LinkedIn - gan nad oedd yr holl nodweddion cynnyrch a ddatblygwyd ar gyfer achosion defnydd LinkedIn yn berthnasol yn gyffredinol i'r gynulleidfa ehangach. Yn ogystal, mae gan WhereHows rai dibyniaethau mewnol (isadeiledd, llyfrgelloedd, ac ati) nad ydynt yn ffynhonnell agored. Yn y blynyddoedd a ddilynodd, aeth WhereHows trwy lawer o iteriadau a chylchoedd datblygu, gan wneud cadw'r ddwy gronfa god mewn cydamseriad yn her fawr. Mae'r tîm metadata wedi rhoi cynnig ar wahanol ddulliau dros y blynyddoedd i geisio cadw datblygiad mewnol a ffynhonnell agored yn gyson.

Ceisiwch gyntaf: "Ffynhonnell agored yn gyntaf"

I ddechrau, fe wnaethom ddilyn model datblygu "ffynhonnell agored yn gyntaf", lle mae'r rhan fwyaf o'r datblygiad yn digwydd mewn ystorfa ffynhonnell agored a newidiadau'n cael eu gwneud ar gyfer defnydd mewnol. Y broblem gyda'r dull hwn yw bod y cod bob amser yn cael ei wthio i GitHub yn gyntaf cyn iddo gael ei adolygu'n llawn yn fewnol. Hyd nes y gwneir newidiadau o'r ystorfa ffynhonnell agored a bod defnydd mewnol newydd yn cael ei wneud, ni fyddwn yn dod o hyd i unrhyw broblemau cynhyrchu. Yn achos defnydd gwael, roedd hefyd yn anodd iawn pennu'r tramgwyddwr oherwydd bod newidiadau wedi'u gwneud mewn sypiau.

Yn ogystal, gostyngodd y model hwn gynhyrchiant y tîm wrth ddatblygu nodweddion newydd a oedd angen iteriadau cyflym, gan ei fod yn gorfodi pob newid i gael ei wthio'n gyntaf i gadwrfa ffynhonnell agored ac yna ei wthio i gadwrfa fewnol. Er mwyn lleihau'r amser prosesu, gallai'r atgyweiriad neu'r newid gofynnol gael ei wneud yn y gadwrfa fewnol yn gyntaf, ond daeth hyn yn broblem enfawr o ran uno'r newidiadau hynny yn ôl i'r ystorfa ffynhonnell agored oherwydd nad oedd y ddwy ystorfa'n cydamseru.

Mae'r model hwn yn llawer haws i'w weithredu ar gyfer llwyfannau a rennir, llyfrgelloedd, neu brosiectau seilwaith nag ar gyfer cymwysiadau gwe arfer llawn sylw. Yn ogystal, mae'r model hwn yn ddelfrydol ar gyfer prosiectau sy'n cychwyn ffynhonnell agored o'r diwrnod cyntaf, ond adeiladwyd WhereHows fel cymhwysiad gwe cwbl fewnol. Roedd yn anodd iawn tynnu'r holl ddibyniaethau mewnol yn llwyr, felly roedd angen i ni gadw'r fforch fewnol, ond nid oedd cadw'r fforch fewnol a datblygu ffynhonnell agored yn bennaf yn gweithio allan.

Ail ymgais: “Mewnol yn gyntaf”

**Fel ail ymgais, symudwyd i fodel datblygu "mewnol yn gyntaf", lle mae'r rhan fwyaf o ddatblygiadau'n digwydd yn fewnol a newidiadau'n cael eu gwneud i'r cod ffynhonnell agored yn rheolaidd. Er bod y model hwn yn fwyaf addas ar gyfer ein hachos defnydd, mae ganddo broblemau cynhenid. Mae gwthio pob gwahaniaeth yn uniongyrchol i'r ystorfa ffynhonnell agored ac yna ceisio datrys gwrthdaro uno yn ddiweddarach yn opsiwn, ond mae'n cymryd llawer o amser. Yn y rhan fwyaf o achosion, mae datblygwyr yn ceisio peidio â gwneud hyn bob tro y byddant yn adolygu eu cod. O ganlyniad, bydd hyn yn cael ei wneud yn llawer llai aml, mewn sypiau, ac felly'n ei gwneud hi'n anoddach datrys gwrthdaro uno yn ddiweddarach.

Y trydydd tro iddo weithio!

Arweiniodd y ddau ymgais aflwyddiannus a grybwyllwyd uchod at gadw ystorfa WhereHows GitHub yn hen ffasiwn am amser hir. Parhaodd y tîm i wella nodweddion a phensaernïaeth y cynnyrch, fel bod y fersiwn fewnol o WhereHows ar gyfer LinkedIn yn dod yn fwy datblygedig na'r fersiwn ffynhonnell agored. Roedd ganddo enw newydd hyd yn oed - DataHub. Yn seiliedig ar ymdrechion blaenorol aflwyddiannus, penderfynodd y tîm ddatblygu datrysiad hirdymor, graddadwy.

Ar gyfer unrhyw brosiect ffynhonnell agored newydd, mae tîm ffynhonnell agored LinkedIn yn cynghori ac yn cefnogi model datblygu lle mae modiwlau'r prosiect yn cael eu datblygu'n gyfan gwbl mewn ffynhonnell agored. Mae arteffactau fersiwn yn cael eu hanfon i gadwrfa gyhoeddus ac yna'n cael eu gwirio yn ôl i arteffact mewnol LinkedIn gan ddefnyddio cais llyfrgell allanol (ELR). Mae dilyn y model datblygu hwn nid yn unig yn dda i'r rhai sy'n defnyddio ffynhonnell agored, ond mae hefyd yn arwain at bensaernïaeth fwy modiwlaidd, estynadwy a phlygadwy.

Fodd bynnag, bydd angen cryn dipyn o amser ar gymhwysiad pen ôl aeddfed fel DataHub i gyrraedd y cyflwr hwn. Mae hyn hefyd yn atal y posibilrwydd o ffynhonnell agored, gweithrediad cwbl weithredol cyn i'r holl ddibyniaethau mewnol gael eu tynnu'n llawn. Dyna pam rydym wedi datblygu offer sy'n ein helpu i wneud cyfraniadau ffynhonnell agored yn gyflymach a chyda llawer llai o boen. Mae'r datrysiad hwn o fudd i'r tîm metadata (datblygwr DataHub) a'r gymuned ffynhonnell agored. Bydd yr adrannau a ganlyn yn trafod y dull newydd hwn.

Awtomeiddio Cyhoeddi Ffynhonnell Agored

Ymagwedd ddiweddaraf y tîm Metadata at y DataHub ffynhonnell agored yw datblygu offeryn sy'n cysoni'r gronfa god fewnol a'r ystorfa ffynhonnell agored yn awtomatig. Mae nodweddion lefel uchel y pecyn cymorth hwn yn cynnwys:

  1. Cysoni cod LinkedIn i/o ffynhonnell agored, tebyg rsync.
  2. Cynhyrchu pennawd trwydded, tebyg i Llygoden Fawr Apache.
  3. Cynhyrchu logiau ymrwymo ffynhonnell agored yn awtomatig o logiau ymrwymo mewnol.
  4. Atal newidiadau mewnol sy'n torri adeiladau ffynhonnell agored profion dibyniaeth.

Bydd yr isadrannau canlynol yn ymchwilio i'r swyddogaethau a grybwyllwyd uchod sydd â phroblemau diddorol.

Cydamseru cod ffynhonnell

Yn wahanol i'r fersiwn ffynhonnell agored o DataHub, sy'n un ystorfa GitHub, mae fersiwn LinkedIn o DataHub yn gyfuniad o gadwrfeydd lluosog (a elwir yn fewnol aml-gynnyrch). Mae rhyngwyneb DataHub, llyfrgell model metadata, gwasanaeth backend warws metadata, a swyddi ffrydio yn byw mewn ystorfeydd ar wahân ar LinkedIn. Fodd bynnag, i'w gwneud yn haws i ddefnyddwyr ffynhonnell agored, mae gennym un ystorfa ar gyfer y fersiwn ffynhonnell agored o DataHub.

Hyb Data Ffynhonnell Agored: Platfform Chwilio a Darganfod Metadata LinkedIn

Ffigur 1: Cydamseru rhwng ystorfeydd LinkedIn Hyb Data ac un ystorfa Hyb Data ffynhonnell agor

Er mwyn cefnogi llifoedd gwaith adeiladu, gwthio a thynnu awtomataidd, mae ein hofferyn newydd yn creu mapio lefel ffeil yn awtomatig sy'n cyfateb i bob ffeil ffynhonnell. Fodd bynnag, mae angen cyfluniad cychwynnol ar y pecyn cymorth a rhaid i ddefnyddwyr ddarparu mapio modiwl lefel uchel fel y dangosir isod.

{
  "datahub-dao": [
    "${datahub-frontend}/datahub-dao"
  ],
  "gms/impl": [
    "${dataset-gms}/impl",
    "${user-gms}/impl"
  ],
  "metadata-dao": [
    "${metadata-models}/metadata-dao"
  ],
  "metadata-builders": [
    "${metadata-models}/metadata-builders"
  ]
}

Mae'r mapio lefel modiwl yn JSON syml a'i allweddi yw'r modiwlau targed yn y storfa ffynhonnell agored a'r gwerthoedd yw'r rhestr o fodiwlau ffynhonnell yn y storfeydd LinkedIn. Gall unrhyw fodiwl targed mewn ystorfa ffynhonnell agored gael ei fwydo gan unrhyw nifer o fodiwlau ffynhonnell. I nodi enwau mewnol ystorfeydd mewn modiwlau ffynhonnell, defnyddiwch rhyngosod llinyn yn arddull Bash. Gan ddefnyddio ffeil mapio lefel modiwl, mae'r offer yn creu ffeil mapio lefel ffeil trwy sganio pob ffeil mewn cyfeiriaduron cysylltiedig.

{
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Foo.java":
"metadata-builders/src/main/java/com/linkedin/Foo.java",
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Bar.java":
"metadata-builders/src/main/java/com/linkedin/Bar.java",
  "${metadata-models}/metadata-builders/build.gradle": null,
}

Mae'r mapio lefel ffeil yn cael ei greu yn awtomatig gan yr offer; fodd bynnag, gall y defnyddiwr hefyd ei ddiweddaru â llaw. Mae hwn yn fapio 1:1 o ffeil ffynhonnell LinkedIn i ffeil yn y gadwrfa ffynhonnell agored. Mae sawl rheol yn gysylltiedig â chreu cymdeithasau ffeiliau yn awtomatig:

  • Yn achos modiwlau ffynhonnell lluosog ar gyfer modiwl targed mewn ffynhonnell agored, gall gwrthdaro godi, e.e. yr un peth FQCN, yn bodoli mewn mwy nag un modiwl ffynhonnell. Fel strategaeth datrys gwrthdaro, mae ein hoffer yn ddiofyn i'r opsiwn “un olaf yn ennill”.
  • mae "null" yn golygu nad yw'r ffeil ffynhonnell yn rhan o'r ystorfa ffynhonnell agored.
  • Ar ôl pob cyflwyniad neu echdynnu ffynhonnell agored, caiff y mapio hwn ei ddiweddaru'n awtomatig a chreir ciplun. Mae hyn yn angenrheidiol i nodi ychwanegiadau a dileadau o'r cod ffynhonnell ers y weithred ddiwethaf.

Creu logiau ymrwymo

Mae logiau ymrwymiad ar gyfer ymrwymiadau ffynhonnell agored hefyd yn cael eu cynhyrchu'n awtomatig trwy gyfuno logiau ymrwymo storfeydd mewnol. Isod mae log ymrwymo sampl i ddangos strwythur y log ymrwymo a gynhyrchir gan ein hofferyn. Mae ymrwymiad yn nodi'n glir pa fersiynau o'r storfeydd ffynhonnell sydd wedi'u pecynnu yn yr ymrwymiad hwnnw ac yn rhoi crynodeb o'r log ymrwymo. Gwiriwch yr un yma ymrwymo gan ddefnyddio enghraifft wirioneddol o log ymrwymo a gynhyrchwyd gan ein pecyn cymorth.

metadata-models 29.0.0 -> 30.0.0
    Added aspect model foo
    Fixed issue bar

dataset-gms 2.3.0 -> 2.3.4
    Added rest.li API to serve foo aspect

MP_VERSION=dataset-gms:2.3.4
MP_VERSION=metadata-models:30.0.0

Profi dibyniaeth

Mae gan LinkedIn seilwaith profi dibyniaeth, sy'n helpu i sicrhau nad yw newidiadau i amlgynnyrch mewnol yn torri'r cynulliad o amlgynhyrchion dibynnol. Nid yw ystorfa DataHub ffynhonnell agored yn aml-gynnyrch, ac ni all fod yn ddibyniaeth uniongyrchol ar unrhyw aml-gynnyrch, ond gyda chymorth deunydd lapio aml-gynnyrch sy'n nôl cod ffynhonnell ffynhonnell agored DataHub, gallwn barhau i ddefnyddio'r prawf dibyniaeth hwn Felly, mae unrhyw newid (a allai ddod i'r amlwg yn ddiweddarach) i unrhyw un o'r amlgynhyrchion sy'n bwydo'r ystorfa DataHub ffynhonnell agored yn sbarduno digwyddiad adeiladu yn y amlgynnyrch cragen. Felly, mae unrhyw newid sy'n methu ag adeiladu cynnyrch lapio yn methu'r profion cyn ymrwymo'r cynnyrch gwreiddiol ac yn cael ei ddychwelyd.

Mae hwn yn fecanwaith defnyddiol sy'n helpu i atal unrhyw ymrwymiad mewnol sy'n torri'r strwythur ffynhonnell agored ac yn ei ganfod ar amser ymrwymo. Heb hyn, byddai'n eithaf anodd penderfynu pa ymrwymiad mewnol a achosodd i'r gwaith o adeiladu ystorfa ffynhonnell agored fethu, oherwydd rydym yn swp-newid newidiadau mewnol i ystorfa ffynhonnell agored DataHub.

Gwahaniaethau rhwng DataHub ffynhonnell agored a'n fersiwn cynhyrchu

Hyd at y pwynt hwn, rydym wedi trafod ein datrysiad ar gyfer cydamseru dwy fersiwn o ystorfeydd DataHub, ond nid ydym wedi amlinellu'r rhesymau pam mae angen dwy ffrwd ddatblygu wahanol arnom yn y lle cyntaf. Yn yr adran hon, byddwn yn rhestru'r gwahaniaethau rhwng y fersiwn gyhoeddus o DataHub a'r fersiwn cynhyrchu ar weinyddion LinkedIn, ac yn esbonio'r rhesymau dros y gwahaniaethau hyn.

Mae un ffynhonnell anghysondeb yn deillio o'r ffaith bod gan ein fersiwn gynhyrchu ddibyniaethau ar god nad yw'n ffynhonnell agored eto, fel Offspring LinkedIn (fframwaith chwistrellu dibyniaeth fewnol LinkedIn). Defnyddir epil yn eang mewn cronfeydd cod mewnol oherwydd dyma'r dull a ffefrir ar gyfer rheoli cyfluniad deinamig. Ond nid yw'n ffynhonnell agored; felly roedd angen i ni ddod o hyd i ddewisiadau amgen ffynhonnell agored i'r DataHub ffynhonnell agored.

Mae yna resymau eraill hefyd. Wrth i ni greu estyniadau i'r model metadata ar gyfer anghenion LinkedIn, mae'r estyniadau hyn fel arfer yn benodol iawn i LinkedIn ac efallai na fyddant yn berthnasol yn uniongyrchol i amgylcheddau eraill. Er enghraifft, mae gennym ni labeli penodol iawn ar gyfer IDau cyfranogwyr a mathau eraill o fetadata cyfatebol. Felly, rydym bellach wedi eithrio'r estyniadau hyn o fodel metadata ffynhonnell agored DataHub. Wrth i ni ymgysylltu â'r gymuned a deall eu hanghenion, byddwn yn gweithio ar fersiynau ffynhonnell agored cyffredin o'r estyniadau hyn lle bo angen.

Roedd rhwyddineb defnydd ac addasu haws ar gyfer y gymuned ffynhonnell agored hefyd wedi ysbrydoli rhai o'r gwahaniaethau rhwng y ddwy fersiwn o DataHub. Mae gwahaniaethau mewn seilwaith prosesu nentydd yn enghraifft dda o hyn. Er bod ein fersiwn fewnol yn defnyddio fframwaith prosesu ffrwd a reolir, fe wnaethom ddewis defnyddio prosesu ffrwd adeiledig (annibynnol) ar gyfer y fersiwn ffynhonnell agored oherwydd ei fod yn osgoi creu dibyniaeth arall ar seilwaith.

Enghraifft arall o'r gwahaniaeth yw cael un GMS (Storfa Metadata Cyffredinol) mewn gweithrediad ffynhonnell agored yn hytrach na GMS lluosog. GMA (Pensaernïaeth Metadata Cyffredinol) yw enw'r bensaernïaeth pen ôl ar gyfer DataHub, a GMS yw'r storfa metadata yng nghyd-destun GMA. Mae GMA yn bensaernïaeth hyblyg iawn sy'n eich galluogi i ddosbarthu pob lluniad data (e.e. setiau data, defnyddwyr, ac ati) i'w storfa fetadata ei hun, neu storio lluniadau data lluosog mewn un storfa metadata cyn belled â bod y gofrestrfa sy'n cynnwys y strwythur data yn mapio yn Mae GMS yn cael ei ddiweddaru. Er hwylustod, fe wnaethom ddewis un enghraifft GMS sy'n storio'r holl luniadau data gwahanol yn y DataHub ffynhonnell agored.

Rhoddir rhestr gyflawn o wahaniaethau rhwng y ddau weithrediad yn y tabl isod.

Nodweddion Cynnyrch
Canolfan Data LinkedIn
Hyb Data Ffynhonnell Agored

Lluniadau Data â Chymorth
1) Setiau data 2) Defnyddwyr 3) Metrigau 4) Nodweddion ML 5) Siartiau 6) Dangosfyrddau
1) Setiau data 2) Defnyddwyr

Ffynonellau Metadata â Chymorth ar gyfer Setiau Data
1) Ambry 2) Couchbase 3) Dalidiaid 4) Espresso 5) HDFS 6) Hive 7) Kafka 8) MongoDB 9) MySQL 10) Oracle 11) Pinot 12) Presto 12) Byddwch 13) Teradata 13) Fector 14) Fenis
Cwch Kafka RDBMS

Tafarn-is
LinkedIn Kafka
Cydlifiad Kafka

Prosesu Ffrwd
Reolir
Wedi'i fewnosod (annibynnol)

Chwistrelliad Dibyniaeth a Chyfluniad Dynamig
Epil LinkedIn
Gwanwyn

Adeiladu Offer
Ligradle (lapiwr Gradle mewnol LinkedIn)
Gradlew

CI / CD
CRT (CI/CD mewnol LinkedIn)
TravisCI ac Hwb dociwr

Storfeydd Metadata
GMS lluosog wedi'i ddosbarthu: 1) Set ddata GMS 2) Defnyddiwr GMS 3) GMS metrig 4) Nodwedd GMS 5) Siart/Dangosfwrdd GMS
GMS sengl ar gyfer: 1) Setiau data 2) Defnyddwyr

Microwasanaethau mewn cynwysyddion Docker

Docker yn symleiddio'r broses o ddefnyddio a dosbarthu ceisiadau gyda cynhwysydd. Mae pob rhan o'r gwasanaeth yn DataHub yn ffynhonnell agored, gan gynnwys cydrannau seilwaith fel Kafka, Elastig, neo4j и MySQL, wedi ei ddelwedd Docker ei hun. Er mwyn trefnu cynwysyddion Docker fe wnaethom ddefnyddio Cyfansoddwr Dociwr.

Hyb Data Ffynhonnell Agored: Platfform Chwilio a Darganfod Metadata LinkedIn

Ffigur 2: Pensaernïaeth Hyb Data *ffynhonnell agor**

Gallwch weld pensaernïaeth lefel uchel DataHub yn y ddelwedd uchod. Heblaw am y cydrannau seilwaith, mae ganddo bedwar cynhwysydd Docker gwahanol:

datahub-gms: gwasanaeth storio metadata

datahub-frontend: cais chwarae, sy'n gwasanaethu'r rhyngwyneb DataHub.

datahub-mce-defnyddiwr: cais Nentydd Kafka, sy'n defnyddio'r ffrwd digwyddiad newid metadata (MCE) ac yn diweddaru'r storfa metadata.

datahub-mae-defnyddiwr: application Nentydd Kafka, sy'n defnyddio ffrwd digwyddiad archwilio metadata (MAE) ac yn creu mynegai chwilio a chronfa ddata graffiau.

Dogfennaeth ystorfa ffynhonnell agored a post blog gwreiddiol DataHub cynnwys gwybodaeth fanylach am swyddogaethau gwasanaethau amrywiol.

Mae CI/CD ar DataHub yn ffynhonnell agored

Mae ystorfa DataHub ffynhonnell agored yn defnyddio TravisCI ar gyfer integreiddio parhaus a Hwb dociwr ar gyfer defnydd parhaus. Mae gan y ddau integreiddio GitHub da ac maent yn hawdd eu sefydlu. Ar gyfer y rhan fwyaf o seilwaith ffynhonnell agored a ddatblygwyd gan y gymuned neu gwmnïau preifat (e.e. Cyflenwol), Mae delweddau docwyr yn cael eu creu a'u defnyddio i Docker Hub er hwylustod i'r gymuned eu defnyddio. Gellir defnyddio unrhyw ddelwedd Docker a geir yn Docker Hub yn hawdd gyda gorchymyn syml tynnu docwr.

Gyda phob ymrwymiad i ystorfa ffynhonnell agored DataHub, mae holl ddelweddau Docker yn cael eu hadeiladu'n awtomatig a'u defnyddio i Docker Hub gyda'r tag “diweddaraf”. Os yw Docker Hub wedi'i ffurfweddu gyda rhai enwi canghennau mynegiant rheolaidd, mae'r holl dagiau yn yr ystorfa ffynhonnell agored hefyd yn cael eu rhyddhau gydag enwau tag cyfatebol yn Docker Hub.

Defnyddio DataHub

Sefydlu DataHub yn syml iawn ac yn cynnwys tri cham syml:

  1. Cloniwch yr ystorfa ffynhonnell agored a rhedeg holl gynwysyddion Docker gyda chyfansoddiad docwr gan ddefnyddio'r sgript cyfansoddi docwr a ddarperir i gael cychwyn cyflym.
  2. Lawrlwythwch y data sampl a ddarperir yn y gadwrfa gan ddefnyddio'r offeryn llinell orchymyn a ddarperir hefyd.
  3. Porwch DataHub yn eich porwr.

Wedi'i Olrhain yn Weithredol Sgwrs gitter hefyd wedi'i ffurfweddu ar gyfer cwestiynau cyflym. Gall defnyddwyr hefyd greu problemau yn uniongyrchol yn ystorfa GitHub. Yn bwysicaf oll, rydym yn croesawu ac yn gwerthfawrogi pob adborth ac awgrymiadau!

Cynlluniau ar gyfer y dyfodol

Ar hyn o bryd, mae pob seilwaith neu ficrowasanaeth ar gyfer DataHub ffynhonnell agored yn cael ei adeiladu fel cynhwysydd Dociwr, ac mae'r system gyfan yn cael ei threfnu gan ddefnyddio cyfansoddwr dociau. O ystyried y poblogrwydd ac eang Kubernetes, hoffem hefyd ddarparu ateb yn seiliedig ar Kubernetes yn y dyfodol agos.

Rydym hefyd yn bwriadu darparu ateb un contractwr ar gyfer defnyddio DataHub ar wasanaeth cwmwl cyhoeddus fel Asur, Strategaeth Cymru Gyfan neu Google Cloud. O ystyried y cyhoeddiad diweddar ynghylch mudo LinkedIn i Azure, bydd hyn yn cyd-fynd â blaenoriaethau mewnol y tîm metadata.

Yn olaf ond nid yn lleiaf, diolch i holl fabwysiadwyr cynnar DataHub yn y gymuned ffynhonnell agored sydd wedi graddio DataHub alphas ac wedi ein helpu i nodi problemau a gwella dogfennaeth.

Ffynhonnell: hab.com

Ychwanegu sylw