DataHub Open Source: Pjattaforma ta' Tiftix u Skoperta ta' Metadata ta' LinkedIn

DataHub Open Source: Pjattaforma ta' Tiftix u Skoperta ta' Metadata ta' LinkedIn

Is-sejba tad-dejta li għandek bżonn malajr hija essenzjali għal kwalunkwe kumpanija li tiddependi fuq ammonti kbar ta 'dejta biex tieħu deċiżjonijiet immexxija mid-dejta. Dan mhux biss ikollu impatt fuq il-produttività tal-utenti tad-dejta (inklużi analisti, żviluppaturi tat-tagħlim tal-magni, xjenzati tad-dejta, u inġiniera tad-dejta), iżda għandu wkoll impatt dirett fuq il-prodotti finali li jiddependu fuq pipeline ta’ tagħlim tal-magni (ML) ta’ kwalità. Barra minn hekk, it-tendenza lejn l-implimentazzjoni jew il-bini ta’ pjattaformi ta’ tagħlim bil-magni naturalment tqajjem il-mistoqsija: x’inhu l-metodu tiegħek biex tiskopri internament karatteristiċi, mudelli, metriċi, settijiet ta’ dejta, eċċ.

F'dan l-artikolu ser nitkellmu dwar kif ippubblikajna sors tad-dejta taħt liċenzja miftuħa DataHub fil-pjattaforma ta’ tfittxija u skoperta tal-metadata tagħna, li tibda mill-bidu tal-proġett Fejn Kif. LinkedIn iżżomm il-verżjoni tagħha stess tad-DataHub separatament mill-verżjoni open source. Nibdew billi nispjegaw għaliex għandna bżonn żewġ ambjenti ta' żvilupp separati, imbagħad niddiskutu approċċi bikrija għall-użu tas-sors miftuħ WhereHows u nqabblu l-verżjoni interna (produzzjoni) tagħna ta' DataHub mal-verżjoni fuq GitHub. Aħna ser naqsmu wkoll dettalji dwar is-soluzzjoni awtomatizzata l-ġdida tagħna biex nimbuttaw u nirċievu aġġornamenti ta' sors miftuħ biex iż-żewġ repożitorji jinżammu sinkronizzati. Fl-aħħarnett, aħna ser nipprovdu struzzjonijiet dwar kif tibda tuża d-DataHub open source u niddiskutu fil-qosor l-arkitettura tiegħu.

DataHub Open Source: Pjattaforma ta' Tiftix u Skoperta ta' Metadata ta' LinkedIn

WhereHows issa huwa DataHub!

It-tim tal-metadata ta' LinkedIn ippreżentat qabel DataHub (suċċessur ta' WhereHows), il-pjattaforma ta' tfittxija u skoperta ta' metadata ta' LinkedIn, u pjanijiet komuni biex tiftaħha. Ftit wara din it-tħabbira, ħriġna verżjoni alpha ta' DataHub u qsamna mal-komunità. Minn dakinhar, aħna kontinwament ikkontribwejna għar-repożitorju u ħdimna ma 'utenti interessati biex inżidu l-aktar karatteristiċi mitluba u nsolvu l-problemi. Issa bi pjaċir inħabbru r-rilaxx uffiċjali DataHub fuq GitHub.

Approċċi Open Source

WhereHows, il-portal oriġinali ta' LinkedIn għas-sejba tad-dejta u minn fejn tiġi, beda bħala proġett intern; it-tim tal-metadata fetaħha kodiċi tas-sors fl-2016. Minn dakinhar, it-tim dejjem żamm żewġ bażijiet ta 'kodiċi differenti—waħda għal sors miftuħ u waħda għall-użu intern ta' LinkedIn—għaliex mhux il-karatteristiċi kollha tal-prodott żviluppati għal każijiet ta 'użu ta' LinkedIn kienu ġeneralment applikabbli għall-udjenza usa'. Barra minn hekk, WhereHows għandu xi dipendenzi interni (infrastruttura, libreriji, eċċ.) li mhumiex sors miftuħ. Fis-snin ta’ wara, WhereHows għadda minn bosta iterazzjonijiet u ċikli ta’ żvilupp, u b’hekk iż-żamma taż-żewġ codebases f’sinkronizzazzjoni kienet sfida kbira. It-tim tal-metadata pprova approċċi differenti matul is-snin biex jipprova jżomm l-iżvilupp tas-sors intern u miftuħ sinkronizzat.

L-ewwel ipprova: "Open source l-ewwel"

Inizjalment segwejna mudell ta 'żvilupp "open source first", fejn il-biċċa l-kbira tal-iżvilupp iseħħ f'repożitorju ta' sors miftuħ u jsiru bidliet għall-iskjerament intern. Il-problema b'dan l-approċċ hija li l-kodiċi dejjem jiġi mbuttat lejn GitHub l-ewwel qabel ma jkun ġie rivedut kompletament internament. Sakemm isiru bidliet mir-repożitorju tas-sors miftuħ u jsir skjerament intern ġdid, ma nsibu l-ebda kwistjoni ta' produzzjoni. F'każ ta 'skjerament fqir, kien ukoll diffiċli ħafna li jiġi ddeterminat il-ħati minħabba li saru bidliet f'lottijiet.

Barra minn hekk, dan il-mudell naqqas il-produttività tat-tim meta żviluppa karatteristiċi ġodda li kienu jeħtieġu iterazzjonijiet rapidi, peress li ġiegħel li l-bidliet kollha jiġu l-ewwel imbuttati f’repożitorju ta’ sors miftuħ u mbagħad imbuttati lejn repożitorju intern. Biex jitnaqqas il-ħin tal-ipproċessar, l-iffissar jew il-bidla meħtieġa tista 'ssir fir-repożitorju intern l-ewwel, iżda din saret problema kbira meta ġiet biex tgħaqqad dawk il-bidliet lura fir-repożitorju ta' sors miftuħ minħabba li ż-żewġ repożitorji ma kinux sinkronizzati.

Dan il-mudell huwa ħafna aktar faċli biex jiġi implimentat għal pjattaformi kondiviżi, libreriji, jew proġetti infrastrutturali milli għal applikazzjonijiet web personalizzati b'karatteristiċi sħaħ. Barra minn hekk, dan il-mudell huwa ideali għal proġetti li jibdew sors miftuħ mill-ewwel jum, iżda WhereHows inbniet bħala applikazzjoni tal-web kompletament interna. Kien verament diffiċli li astratta kompletament id-dipendenzi interni kollha, għalhekk kellna bżonn inżommu l-furketta interna, iżda nżommu l-furketta interna u niżviluppaw l-aktar sors miftuħ ma ħadmux.

It-tieni tentattiv: "L-ewwel ġewwa"

**Bħala t-tieni tentattiv, morna għal mudell ta' żvilupp "intern l-ewwel", fejn il-biċċa l-kbira tal-iżvilupp iseħħ internament u jsiru bidliet fil-kodiċi open source fuq bażi regolari. Għalkemm dan il-mudell huwa l-aktar adattat għall-każ ta 'użu tagħna, għandu problemi inerenti. Li timbotta direttament id-differenzi kollha għar-repożitorju tas-sors miftuħ u mbagħad tipprova ssolvi l-kunflitti tal-għaqda aktar tard hija għażla, iżda tieħu ħafna ħin. L-iżviluppaturi fil-biċċa l-kbira tal-każijiet jippruvaw ma jagħmlux dan kull darba li jirrevedu l-kodiċi tagħhom. Bħala riżultat, dan se jsir ħafna inqas ta 'spiss, f'lottijiet, u b'hekk jagħmilha aktar diffiċli biex jiġu solvuti kunflitti ta' amalgamazzjoni aktar tard.

It-tielet darba ħadem!

Iż-żewġ tentattivi falluti msemmija hawn fuq irriżultaw li r-repożitorju ta’ WhereHows GitHub baqa’ skadut għal żmien twil. It-tim kompla jtejjeb il-karatteristiċi u l-arkitettura tal-prodott, sabiex il-verżjoni interna ta 'WhereHows għal LinkedIn saret aktar avvanzata mill-verżjoni open source. Saħansitra kellha isem ġdid - DataHub. Ibbażat fuq tentattivi falluti preċedenti, it-tim iddeċieda li jiżviluppa soluzzjoni skalabbli u fit-tul.

Għal kwalunkwe proġett ġdid ta’ sors miftuħ, it-tim ta’ open source ta’ LinkedIn jagħti pariri u jappoġġja mudell ta’ żvilupp li fih il-moduli tal-proġett huma żviluppati kompletament f’sors miftuħ. L-artifatti b'verżjoni huma skjerati f'repożitorju pubbliku u mbagħad jiġu ċċekkjati lura fl-artifatt intern ta' LinkedIn bl-użu talba għal librerija esterna (ELR). Li jsegwi dan il-mudell ta 'żvilupp mhux biss huwa tajjeb għal dawk li jużaw sors miftuħ, iżda jirriżulta wkoll f'arkitettura aktar modulari, estensibbli u li tista' titwaħħal.

Madankollu, applikazzjoni back-end matura bħal DataHub se teħtieġ ammont sinifikanti ta 'żmien biex tilħaq dan l-istat. Dan jipprekludi wkoll il-possibbiltà ta' open source implimentazzjoni li taħdem bis-sħiħ qabel ma d-dipendenzi interni kollha jkunu ġew kompletament astratti. Huwa għalhekk li żviluppajna għodod li jgħinuna nagħmlu kontribuzzjonijiet open source aktar malajr u b'ħafna inqas uġigħ. Din is-soluzzjoni tibbenefika kemm lit-tim tal-metadata (l-iżviluppatur tad-DataHub) kif ukoll lill-komunità tas-sors miftuħ. Is-sezzjonijiet li ġejjin se jiddiskutu dan l-approċċ il-ġdid.

Awtomazzjoni tal-Pubblikazzjoni ta' Sors Miftuħ

L-aħħar approċċ tat-tim tal-Metadata lejn id-DataHub open source huwa li tiżviluppa għodda li tissinkronizza awtomatikament il-codebase intern u r-repożitorju tas-sors miftuħ. Karatteristiċi ta’ livell għoli ta’ dan is-sett ta’ għodod jinkludu:

  1. Issinkronizza l-kodiċi LinkedIn għal/minn sors miftuħ, simili rsync.
  2. Ġenerazzjoni tal-header tal-liċenzja, simili għal Apache Rat.
  3. Iġġenera awtomatikament zkuk tal-kommit ta' sors miftuħ minn zkuk tal-kommit interni.
  4. Jipprevjenu bidliet interni li jiksru open source jibni minn ittestjar tad-dipendenza.

Is-subsezzjonijiet li ġejjin se jidħlu fil-funzjonijiet imsemmija hawn fuq li għandhom problemi interessanti.

Sinkronizzazzjoni tal-kodiċi tas-sors

B'differenza mill-verżjoni open source ta' DataHub, li hija repożitorju wieħed ta' GitHub, il-verżjoni LinkedIn ta' DataHub hija taħlita ta' repożitorji multipli (imsejħa internament multiprodotti). L-interface tad-DataHub, il-librerija tal-mudelli tal-metadejta, is-servizz backend tal-maħżen tal-metadejta, u l-impjiegi tal-istreaming jgħixu f'repożitorji separati fuq LinkedIn. Madankollu, biex tagħmilha aktar faċli għall-utenti tas-sors miftuħ, għandna repożitorju wieħed għall-verżjoni tas-sors miftuħ tad-DataHub.

DataHub Open Source: Pjattaforma ta' Tiftix u Skoperta ta' Metadata ta' LinkedIn

Figura 1: Sinkronizzazzjoni bejn repożitorji LinkedIn DataHub u repożitorju wieħed DataHub sors miftuħ

Biex tappoġġja l-flussi tax-xogħol awtomatizzati tal-bini, l-imbuttar u l-ġibda, l-għodda l-ġdida tagħna awtomatikament toħloq mapping fil-livell tal-fajl li jikkorrispondi għal kull fajl sors. Madankollu, is-sett tal-għodda jeħtieġ konfigurazzjoni inizjali u l-utenti għandhom jipprovdu mapping ta 'modulu ta' livell għoli kif muri hawn taħt.

{
  "datahub-dao": [
    "${datahub-frontend}/datahub-dao"
  ],
  "gms/impl": [
    "${dataset-gms}/impl",
    "${user-gms}/impl"
  ],
  "metadata-dao": [
    "${metadata-models}/metadata-dao"
  ],
  "metadata-builders": [
    "${metadata-models}/metadata-builders"
  ]
}

L-immappjar fil-livell tal-modulu huwa JSON sempliċi li ċ-ċwievet tiegħu huma l-moduli fil-mira fir-repożitorju tas-sors miftuħ u l-valuri huma l-lista tal-moduli tas-sors fir-repożitorji LinkedIn. Kwalunkwe modulu fil-mira f'repożitorju ta 'sors miftuħ jista' jiġi mitmugħ minn kwalunkwe numru ta 'moduli tas-sors. Biex tindika l-ismijiet interni tar-repożitorji fil-moduli tas-sors, uża interpolazzjoni tal-korda fl-istil Bash. Bl-użu ta 'fajl ta' mapping fil-livell tal-modulu, l-għodod joħolqu fajl tal-mapping fil-livell tal-fajl billi jiskennjaw il-fajls kollha fid-direttorji assoċjati.

{
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Foo.java":
"metadata-builders/src/main/java/com/linkedin/Foo.java",
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Bar.java":
"metadata-builders/src/main/java/com/linkedin/Bar.java",
  "${metadata-models}/metadata-builders/build.gradle": null,
}

L-immappjar tal-livell tal-fajl jinħoloq awtomatikament mill-għodod; madankollu, jista 'wkoll jiġi aġġornat manwalment mill-utent. Dan huwa mapping 1:1 ta 'fajl sors LinkedIn għal fajl fir-repożitorju ta' sors miftuħ. Hemm diversi regoli assoċjati ma' dan il-ħolqien awtomatiku ta' assoċjazzjonijiet ta' fajls:

  • Fil-każ ta’ moduli ta’ sorsi multipli għal modulu fil-mira f’sors miftuħ, jistgħu jinqalgħu kunflitti, eż FQCN, eżistenti f'aktar minn modulu sors wieħed. Bħala strateġija għar-riżoluzzjoni tal-kunflitti, l-għodod tagħna default għall-għażla "l-aħħar wieħed jirbaħ".
  • "null" tfisser li l-fajl tas-sors mhuwiex parti mir-repożitorju tas-sors miftuħ.
  • Wara kull sottomissjoni jew estrazzjoni ta' sors miftuħ, dan l-immappjar jiġi aġġornat awtomatikament u tinħoloq snapshot. Dan huwa meħtieġ biex jiġu identifikati żidiet u tħassir mill-kodiċi sors mill-aħħar azzjoni.

Ħolqien ta' kommit logs

Ir-reġistri tal-kommessi għall-kommessi ta' sors miftuħ huma wkoll iġġenerati awtomatikament billi jingħaqdu r-zkuk tal-kommessi ta' repożitorji interni. Hawn taħt hemm kampjun ta' reġistru ta' impenn biex juri l-istruttura tar-reġistru ta' impenn iġġenerat mill-għodda tagħna. Commit jindika b'mod ċar liema verżjonijiet tar-repożitorji tas-sors huma ppakkjati f'dak il-commit u jipprovdi sommarju tal-kommit log. Iċċekkja dan wieħed jikkommettu bl-użu ta' eżempju reali ta' commit log iġġenerat mill-għodda tagħna.

metadata-models 29.0.0 -> 30.0.0
    Added aspect model foo
    Fixed issue bar

dataset-gms 2.3.0 -> 2.3.4
    Added rest.li API to serve foo aspect

MP_VERSION=dataset-gms:2.3.4
MP_VERSION=metadata-models:30.0.0

Ittestjar tad-dipendenza

LinkedIn għandu infrastruttura għall-ittestjar tad-dipendenza, li tgħin biex tiżgura li l-bidliet għal multiprodott intern ma jkissrux l-assemblaġġ ta 'multiprodotti dipendenti. Ir-repożitorju tad-DataHub b'sors miftuħ mhuwiex multi-prodott, u ma jistax ikun dipendenza diretta ta' kwalunkwe prodott b'ħafna, iżda bl-għajnuna ta' tgeżwir b'ħafna prodotti li jġib il-kodiċi tas-sors tad-DataHub b'sors miftuħ, xorta nistgħu nużaw dan l-ittestjar tad-dipendenza. Għalhekk, kwalunkwe bidla (li aktar tard tista 'tiġi esposta) għal kwalunkwe mill-multiprodotti li jitimgħu r-repożitorju ta' DataHub ta 'sors miftuħ iqanqal avveniment ta' build fil-shell multiproduct. Għalhekk, kwalunkwe bidla li tonqos milli tibni prodott tat-tgeżwir tonqos mit-testijiet qabel ma tikkommetti l-prodott oriġinali u terġa 'lura.

Dan huwa mekkaniżmu utli li jgħin biex jipprevjeni kwalunkwe impenn intern li jkisser il-bini tas-sors miftuħ u jiskoprih fil-ħin tal-kommit. Mingħajr dan, ikun pjuttost diffiċli li jiġi ddeterminat liema impenn intern wassal biex il-bini tar-repożitorju tas-sors miftuħ ifalli, minħabba li nġabru bidliet interni fil-lott tar-repożitorju tas-sors miftuħ tad-DataHub.

Differenzi bejn DataHub open source u l-verżjoni tal-produzzjoni tagħna

Sa dan il-punt, iddiskutejna s-soluzzjoni tagħna biex nissinkronizzaw żewġ verżjonijiet tar-repożitorji tad-DataHub, iżda għadna ma ddeskrivejnax ir-raġunijiet għaliex għandna bżonn żewġ flussi ta 'żvilupp differenti fl-ewwel lok. F'din it-taqsima, aħna se jelenkaw id-differenzi bejn il-verżjoni pubblika ta 'DataHub u l-verżjoni tal-produzzjoni fuq is-servers ta' LinkedIn, u nispjegaw ir-raġunijiet għal dawn id-differenzi.

Sors wieħed ta' diskrepanza ġej mill-fatt li l-verżjoni tal-produzzjoni tagħna għandha dipendenzi fuq kodiċi li għadu mhux open source, bħal LinkedIn's Offspring (il-qafas ta' injezzjoni ta' dipendenza interna ta' LinkedIn). Il-frieħ huwa użat ħafna fil-kodiċijiet interni minħabba li huwa l-metodu preferut għall-ġestjoni tal-konfigurazzjoni dinamika. Imma mhux open source; għalhekk kellna bżonn insibu alternattivi open source għad-dataHub open source.

Hemm raġunijiet oħra wkoll. Hekk kif noħolqu estensjonijiet għall-mudell tal-metadejta għall-ħtiġijiet ta' LinkedIn, dawn l-estensjonijiet huma tipikament speċifiċi ħafna għal LinkedIn u jistgħu ma japplikawx direttament għal ambjenti oħra. Pereżempju, għandna tikketti speċifiċi ħafna għall-IDs tal-parteċipanti u tipi oħra ta' metadejta li tqabbel. Għalhekk, issa eskludejna dawn l-estensjonijiet mill-mudell ta’ metadejta open source ta’ DataHub. Hekk kif ninvolvu ruħna mal-komunità u nifhmu l-bżonnijiet tagħhom, se naħdmu fuq verżjonijiet komuni ta’ sors miftuħ ta’ dawn l-estensjonijiet fejn meħtieġ.

Il-faċilità ta 'użu u l-adattament aktar faċli għall-komunità ta' sors miftuħ ispiraw ukoll xi wħud mid-differenzi bejn iż-żewġ verżjonijiet ta 'DataHub. Id-differenzi fl-infrastruttura tal-ipproċessar tan-nixxiegħa huma eżempju tajjeb ta' dan. Għalkemm il-verżjoni interna tagħna tuża qafas tal-ipproċessar tal-flussi ġestiti, għażilna li nużaw l-ipproċessar tal-flussi inkorporat (awtonomi) għall-verżjoni open source minħabba li tevita li toħloq dipendenza oħra tal-infrastruttura.

Eżempju ieħor tad-differenza huwa li jkollok GMS wieħed (Ġeneralized Metadata Store) f'implimentazzjoni ta' sors miftuħ aktar milli GMSs multipli. GMA (Arkitettura tal-Metadata Ġeneralizzata) huwa l-isem tal-arkitettura back-end għal DataHub, u GMS huwa l-maħżen tal-metadata fil-kuntest tal-GMA. GMA hija arkitettura flessibbli ħafna li tippermettilek tqassam kull kostruzzjoni tad-dejta (eż. settijiet tad-dejta, utenti, eċċ.) fil-maħżen tal-metadejta tagħha stess, jew taħżen kostruzzjonijiet tad-dejta multipli f'maħżen tal-metadejta wieħed sakemm ir-reġistru li jkun fih l-immappjar tal-istruttura tad-dejta f' GMS huwa aġġornat. Għal faċilità ta 'użu, għażilna istanza waħda tal-GMS li taħżen il-kostruzzjonijiet tad-dejta differenti kollha fid-DataHub ta' sors miftuħ.

Lista kompleta tad-differenzi bejn iż-żewġ implimentazzjonijiet hija mogħtija fit-tabella hawn taħt.

Karatteristiċi tal-Prodott
LinkedIn DataHub
Open Source DataHub

Kostruzzjonijiet ta' Data Appoġġjati
1) Settijiet tad-dejta 2) Utenti 3) Metriċi 4) Karatteristiċi ML 5) Ċarts 6) Dashboards
1) Settijiet tad-dejta 2) Utenti

Sorsi ta' Metadata Appoġġjati għal Settijiet ta' Dejta
1) Ambry 2) Couchbase 3) Dalids 4) Espresso 5) HDFS 6) Doqqajs 7) Kafka 8) MongoDB 9) MySQL 10) Oracle 11) Pinot 12) Presto 12) Kun 13) Teradata 13) Vector 14) Venezja
Doqqajs Kafka RDBMS

Pub-sub
LinkedIn Kafka
Kafka konfluwenti

Ipproċessar tal-fluss
Immexxi
Inkorporat (waħdu)

Injezzjoni tad-Dipendenza & Konfigurazzjoni Dinamika
Ulied LinkedIn
rebbiegħa

Ibni Għodda
Ligradle (it-tgeżwir intern tal-Gradle ta' LinkedIn)
Gradlew

CI / CD
CRT (CI/CD intern ta' LinkedIn)
TravisCI u, Ċentru tad-Docker

Metadata Stores
GMS multipli mqassma: 1) Dataset GMS 2) Utent GMS 3) Metric GMS 4) Feature GMS 5) Chart/Dashboard GMS
GMS Uniku għal: 1) Settijiet tad-Data 2) Utenti

Mikroservizzi f'kontenituri Docker

Docker tissimplifika l-iskjerament tal-applikazzjoni u d-distribuzzjoni bil kontejners. Kull parti tas-servizz fid-DataHub hija sors miftuħ, inklużi komponenti tal-infrastruttura bħal Kafka, Elasticsearch, neo4j и MySQL, għandha l-immaġni Docker tagħha stess. Biex orkestraw il-kontenituri Docker li użajna Docker Ikteb.

DataHub Open Source: Pjattaforma ta' Tiftix u Skoperta ta' Metadata ta' LinkedIn

Figura 2: Arkitettura DataHub *sors miftuħ**

Tista 'tara l-arkitettura ta' livell għoli ta 'DataHub fl-immaġni ta' hawn fuq. Minbarra l-komponenti tal-infrastruttura, għandha erba’ kontenituri Docker differenti:

datahub-gms: servizz ta' ħażna ta' metadata

datahub-frontend: applikazzjoni Play, li jservi l-interface tad-DataHub.

datahub-mce-consumer: applikazzjoni Kafka Streams, li juża l-fluss tal-avveniment tal-bidla tal-metadejta (MCE) u jaġġorna l-maħżen tal-metadejta.

datahub-mae-consumer: applikazzjoni Kafka Streams, li juża fluss ta 'avvenimenti ta' verifika tal-metadejta (MAE) u joħloq indiċi ta 'tfittxija u database tal-graff.

Dokumentazzjoni ta’ repożitorju ta’ sors miftuħ u post oriġinali tal-blog DataHub ikun fihom aktar informazzjoni dettaljata dwar il-funzjonijiet ta’ diversi servizzi.

CI/CD fuq DataHub huwa sors miftuħ

Ir-repożitorju tad-DataHub open source juża TravisCI għal integrazzjoni kontinwa u Ċentru tad-Docker għal skjerament kontinwu. It-tnejn għandhom integrazzjoni tajba ta' GitHub u huma faċli biex jitwaqqfu. Għall-biċċa l-kbira tal-infrastruttura open source żviluppata mill-komunità jew kumpaniji privati ​​(eż. junction), L-immaġini Docker huma maħluqa u skjerati għal Docker Hub għal faċilità ta 'użu mill-komunità. Kwalunkwe immaġni Docker misjuba f'Docker Hub tista' tintuża faċilment bi kmand sempliċi docker pull.

B'kull impenn għar-repożitorju tas-sors miftuħ tad-DataHub, l-immaġini Docker kollha jinbnew u jiġu skjerati awtomatikament f'Docker Hub bit-tikketta "l-aħħar". Jekk Docker Hub huwa kkonfigurat b'xi issemmi fergħat ta’ espressjoni regolari, it-tikketti kollha fir-repożitorju tas-sors miftuħ huma wkoll rilaxxati b'ismijiet ta 'tag korrispondenti f'Docker Hub.

Uża DataHub

Twaqqif tad-DataHub hija sempliċi ħafna u tikkonsisti fi tliet passi sempliċi:

  1. Ikklonja r-repożitorju tas-sors miftuħ u ħaddem il-kontenituri Docker kollha b'docker-compose billi tuża l-iskript docker-compose provdut għal bidu ta' malajr.
  2. Niżżel id-dejta tal-kampjun ipprovduta fir-repożitorju billi tuża l-għodda tal-linja tal-kmand li hija pprovduta wkoll.
  3. Fittex DataHub fil-browser tiegħek.

Tracked b'mod attiv Gitter chat ikkonfigurat ukoll għal mistoqsijiet ta' malajr. L-utenti jistgħu wkoll joħolqu kwistjonijiet direttament fir-repożitorju GitHub. L-aktar importanti, aħna nilqgħu u napprezzaw ir-rispons u s-suġġerimenti kollha!

Pjanijiet għall-futur

Bħalissa, kull infrastruttura jew mikroservizz għal DataHub open source hija mibnija bħala kontenitur Docker, u s-sistema kollha hija orkestrata bl-użu docker-compose. Minħabba l-popolarità u mifruxa Kubernetes, Nixtiequ wkoll nipprovdu soluzzjoni bbażata fuq Kubernetes fil-futur qarib.

Aħna nippjanaw ukoll li nipprovdu soluzzjoni turnkey għall-iskjerament ta' DataHub fuq servizz pubbliku tal-cloud bħal Azure, AWS jew Google Cloud. Minħabba t-tħabbira reċenti tal-migrazzjoni ta' LinkedIn lejn Azure, dan se jallinja mal-prijoritajiet interni tat-tim tal-metadata.

Fl-aħħar iżda mhux l-inqas, grazzi għal dawk kollha li adottaw il-bidu tad-DataHub fil-komunità tas-sors miftuħ li kklassifikaw DataHub alphas u għenuna nidentifikaw il-kwistjonijiet u ntejbu d-dokumentazzjoni.

Sors: www.habr.com

Żid kumment