AtvÄrtÄ pirmkoda DataHub: LinkedIn metadatu meklÄÅ”anas un atklÄÅ”anas platforma
AtvÄrtÄ pirmkoda DataHub: LinkedIn metadatu meklÄÅ”anas un atklÄÅ”anas platforma
NepiecieÅ”amo datu Ätra atraÅ”ana ir bÅ«tiska jebkuram uzÅÄmumam, kas paļaujas uz lielu datu apjomu, lai pieÅemtu uz datiem balstÄ«tus lÄmumus. Tas ne tikai ietekmÄ datu lietotÄju (tostarp analÄ«tiÄ·u, maŔīnmÄcÄ«Å”anÄs izstrÄdÄtÄju, datu zinÄtnieku un datu inženieru) produktivitÄti, bet arÄ« tieÅ”i ietekmÄ galaproduktus, kas ir atkarÄ«gi no kvalitatÄ«va maŔīnmÄcÄ«Å”anÄs (ML) konveijera. TurklÄt tendence ieviest vai veidot maŔīnmÄcÄ«Å”anÄs platformas, protams, rada jautÄjumu: kÄda ir jÅ«su metode, lai iekÅ”Äji atklÄtu funkcijas, modeļus, metriku, datu kopas utt.
Å ajÄ rakstÄ mÄs runÄsim par to, kÄ mÄs publicÄjÄm datu avotu saskaÅÄ ar atvÄrto licenci DataHub mÅ«su metadatu meklÄÅ”anas un atklÄÅ”anas platformÄ, sÄkot no projekta sÄkuma KurKÄ. LinkedIn uztur savu DataHub versiju atseviŔķi no atvÄrtÄ pirmkoda versijas. SÄksim ar skaidrojumu, kÄpÄc mums ir vajadzÄ«gas divas atseviŔķas izstrÄdes vides, pÄc tam apspriedÄ«sim agrÄ«nÄs pieejas atvÄrtÄ pirmkoda WhereHows izmantoÅ”anai un salÄ«dzinÄsim mÅ«su iekÅ”Äjo (ražoÅ”anas) DataHub versiju ar versiju vietnÄ. GitHub. MÄs arÄ« kopÄ«gosim informÄciju par mÅ«su jauno automatizÄto risinÄjumu atvÄrtÄ pirmkoda atjauninÄjumu nosÅ«tÄ«Å”anai un saÅemÅ”anai, lai nodroÅ”inÄtu abu repozitoriju sinhronizÄciju. Visbeidzot, mÄs sniegsim norÄdÄ«jumus par to, kÄ sÄkt lietot atvÄrtÄ pirmkoda DataHub, un Ä«si apspriedÄ«sim tÄ arhitektÅ«ru.
WhereHows tagad ir DataHub!
IepriekÅ” prezentÄtÄ LinkedIn metadatu komanda DataHub (WhereHows pÄctecis), LinkedIn meklÄÅ”anas un metadatu atklÄÅ”anas platforma un kopÄ«gi plÄni tÄs atvÄrÅ”anai. Neilgi pÄc Ŕī paziÅojuma mÄs izlaidÄm DataHub alfa versiju un kopÄ«gojÄm to ar kopienu. KopÅ” tÄ laika mÄs esam nepÄrtraukti papildinÄjuÅ”i repozitoriju un sadarbojuÅ”ies ar ieinteresÄtajiem lietotÄjiem, lai pievienotu visvairÄk pieprasÄ«tÄs funkcijas un atrisinÄtu problÄmas. Tagad mÄs esam priecÄ«gi paziÅot par oficiÄlo izlaiÅ”anu DataHub vietnÄ GitHub.
AtvÄrtÄ pirmkoda pieejas
KurHows, LinkedIn sÄkotnÄjais portÄls datu atraÅ”anai un no kurienes tie nÄk, sÄkÄs kÄ iekÅ”Äjs projekts; metadatu komanda to atvÄra pirmkods 2016. gadÄ. KopÅ” tÄ laika komanda vienmÄr ir uzturÄjusi divas dažÄdas kodu bÄzes ā vienu atvÄrtÄ koda un otru LinkedIn iekÅ”Äjai lietoÅ”anai, jo ne visas produktu funkcijas, kas izstrÄdÄtas LinkedIn lietoÅ”anas gadÄ«jumiem, parasti bija piemÄrojamas plaÅ”Äkai auditorijai. TurklÄt vietnei WhereHows ir dažas iekÅ”Äjas atkarÄ«bas (infrastruktÅ«ra, bibliotÄkas utt.), kas nav atvÄrtÄ koda. TurpmÄkajos gados vietnei WhereHows tika veiktas daudzas iterÄcijas un izstrÄdes cikli, padarot abu kodu bÄzu sinhronizÄÅ”anu par lielu izaicinÄjumu. Gadu gaitÄ metadatu komanda ir izmÄÄ£inÄjusi dažÄdas pieejas, lai mÄÄ£inÄtu sinhronizÄt iekÅ”Äjo un atvÄrtÄ koda izstrÄdi.
Pirmais mÄÄ£inÄjums: "Vispirms atvÄrtais avots"
SÄkotnÄji mÄs izmantojÄm izstrÄdes modeli "vispirms atvÄrtÄ koda", kur lielÄkÄ daļa izstrÄdes notiek atvÄrtÄ pirmkoda repozitorijÄ un tiek veiktas izmaiÅas iekÅ”Äjai izvietoÅ”anai. Å Ä«s pieejas problÄma ir tÄda, ka kods vienmÄr vispirms tiek nosÅ«tÄ«ts uz GitHub, pirms tas ir pilnÄ«bÄ pÄrskatÄ«ts iekÅ”Äji. KamÄr nav veiktas izmaiÅas atvÄrtÄ pirmkoda krÄtuvÄ un nav veikta jauna iekÅ”Äja izvietoÅ”ana, mÄs neatradÄ«sim nekÄdas ražoÅ”anas problÄmas. Sliktas izvietoÅ”anas gadÄ«jumÄ arÄ« bija ļoti grÅ«ti noteikt vainÄ«go, jo izmaiÅas tika veiktas pa partijÄm.
TurklÄt Å”is modelis samazinÄja komandas produktivitÄti, izstrÄdÄjot jaunas funkcijas, kurÄm bija nepiecieÅ”amas Ätras iterÄcijas, jo visas izmaiÅas vispirms bija jÄievieto atvÄrtÄ pirmkoda repozitorijÄ un pÄc tam tika pÄrsÅ«tÄ«tas uz iekÅ”Äjo repozitoriju. Lai samazinÄtu apstrÄdes laiku, nepiecieÅ”amo labojumu vai izmaiÅas vispirms varÄja veikt iekÅ”ÄjÄ repozitorijÄ, taÄu tas kļuva par milzÄ«gu problÄmu, apvienojot Ŕīs izmaiÅas atpakaļ atvÄrtÄ pirmkoda repozitorijÄ, jo abi repozitoriji nebija sinhronizÄti.
Å o modeli ir daudz vieglÄk ieviest koplietojamÄm platformÄm, bibliotÄkÄm vai infrastruktÅ«ras projektiem nekÄ pilnvÄrtÄ«gÄm pielÄgotÄm tÄ«mekļa lietojumprogrammÄm. TurklÄt Å”is modelis ir ideÄli piemÄrots projektiem, kas sÄkas atvÄrtÄ pirmkoda sÄkumÄ, bet WhereHows tika izveidots kÄ pilnÄ«bÄ iekÅ”Äja tÄ«mekļa lietojumprogramma. Bija patieÅ”Äm grÅ«ti pilnÄ«bÄ abstrahÄt visas iekÅ”ÄjÄs atkarÄ«bas, tÄpÄc mums vajadzÄja saglabÄt iekÅ”Äjo dakÅ”iÅu, taÄu iekÅ”ÄjÄs dakÅ”as saglabÄÅ”ana un galvenokÄrt atvÄrtÄ koda izstrÄde neizdevÄs.
Otrais mÄÄ£inÄjums: āVispirms iekÅ”Äjaisā
**OtrajÄ mÄÄ£inÄjumÄ mÄs pÄrgÄjÄm uz "iekÅ”Äjo pirmo" izstrÄdes modeli, kur lielÄkÄ daļa izstrÄdes notiek uzÅÄmuma iekÅ”ienÄ un regulÄri tiek veiktas izmaiÅas atvÄrtÄ pirmkoda kodÄ. Lai gan Å”is modelis ir vislabÄk piemÄrots mÅ«su lietoÅ”anas gadÄ«jumam, tam ir raksturÄ«gas problÄmas. Ir iespÄja tieÅ”i novirzÄ«t visas atŔķirÄ«bas uz atvÄrtÄ koda krÄtuvi un pÄc tam mÄÄ£inÄt vÄlÄk atrisinÄt sapludinÄÅ”anas konfliktus, taÄu tas ir laikietilpÄ«gi. IzstrÄdÄtÄji vairumÄ gadÄ«jumu cenÅ”as to nedarÄ«t katru reizi, kad viÅi pÄrskata savu kodu. RezultÄtÄ tas tiks darÄ«ts daudz retÄk, pa partijÄm, un tÄdÄjÄdi vÄlÄk bÅ«s grÅ«tÄk atrisinÄt sapludinÄÅ”anas konfliktus.
TreÅ”o reizi izdevÄs!
Divu iepriekÅ” minÄto neveiksmÄ«go mÄÄ£inÄjumu rezultÄtÄ WhoHows GitHub repozitorijs ilgu laiku palika novecojis. Komanda turpinÄja uzlabot produkta funkcijas un arhitektÅ«ru, lai vietnes WhereHows iekÅ”ÄjÄ versija pakalpojumam LinkedIn kļuva modernÄka par atvÄrtÄ pirmkoda versiju. Tam pat bija jauns nosaukums - DataHub. Pamatojoties uz iepriekÅ”Äjiem neveiksmÄ«giem mÄÄ£inÄjumiem, komanda nolÄma izstrÄdÄt mÄrogojamu, ilgtermiÅa risinÄjumu.
Jebkuram jaunam atvÄrtÄ pirmkoda projektam LinkedIn atvÄrtÄ koda komanda konsultÄ un atbalsta izstrÄdes modeli, kurÄ projekta moduļi ir pilnÄ«bÄ izstrÄdÄti atklÄtÄ pirmkoda veidÄ. VersÄtie artefakti tiek izvietoti publiskajÄ repozitorijÄ un pÄc tam pÄrbaudÄ«ti atpakaļ iekÅ”ÄjÄ LinkedIn artefaktÄ, izmantojot ÄrÄjÄs bibliotÄkas pieprasÄ«jums (ELR). Å Ä« izstrÄdes modeļa ievÄroÅ”ana ir ne tikai laba tiem, kas izmanto atvÄrtÄ pirmkoda, bet arÄ« rada modulÄrÄku, paplaÅ”inÄmu un pievienojamu arhitektÅ«ru.
TomÄr nobrieduÅ”ai aizmugurlietojumprogrammai, piemÄram, DataHub, bÅ«s nepiecieÅ”ams ievÄrojams laiks, lai sasniegtu Å”o stÄvokli. Tas arÄ« izslÄdz iespÄju pilnÄ«bÄ funkcionÄjoÅ”ai ievieÅ”anai atklÄtÄ avotÄ, pirms visas iekÅ”ÄjÄs atkarÄ«bas ir pilnÄ«bÄ abstrahÄtas. TÄpÄc esam izstrÄdÄjuÅ”i rÄ«kus, kas palÄ«dz mums ÄtrÄk un ar daudz mazÄk sÄpÄm veikt atvÄrtÄ pirmkoda ieguldÄ«jumu. Å is risinÄjums sniedz labumu gan metadatu komandai (DataHub izstrÄdÄtÄjam), gan atvÄrtÄ pirmkoda kopienai. NÄkamajÄs sadaļÄs tiks apspriesta Ŕī jaunÄ pieeja.
AtvÄrtÄ pirmkoda publicÄÅ”anas automatizÄcija
Metadatu komandas jaunÄkÄ pieeja atvÄrtÄ pirmkoda DataHub ir izstrÄdÄt rÄ«ku, kas automÄtiski sinhronizÄ iekÅ”Äjo kodu bÄzi un atvÄrtÄ pirmkoda repozitoriju. Å Ä« rÄ«ku komplekta augsta lÄ«meÅa funkcijas ietver:
SinhronizÄjiet LinkedIn kodu uz/no atvÄrtÄ koda, lÄ«dzÄ«gi rsync.
AutomÄtiski Ä£enerÄjiet atvÄrtÄ koda izpildes žurnÄlus no iekÅ”Äjiem izpildes žurnÄliem.
NovÄrst iekÅ”ÄjÄs izmaiÅas, kas pÄrtrauc atvÄrtÄ pirmkoda bÅ«vÄjumus atkarÄ«bas pÄrbaude.
NÄkamajÄs apakÅ”nodaļÄs tiks aplÅ«kotas iepriekÅ” minÄtÄs funkcijas, kurÄm ir interesantas problÄmas.
Avota koda sinhronizÄcija
AtŔķirÄ«bÄ no DataHub atvÄrtÄ pirmkoda versijas, kas ir viens GitHub repozitorijs, DataHub LinkedIn versija ir vairÄku repozitoriju (saukta iekÅ”Äji) kombinÄcija. daudzprodukti). DataHub saskarne, metadatu modeļu bibliotÄka, metadatu noliktavas aizmugursistÄmas pakalpojums un straumÄÅ”anas darbi atrodas atseviŔķos LinkedIn krÄtuvÄs. TomÄr, lai atvieglotu atvÄrtÄ koda lietotÄjiem, mums ir viena repozitorija DataHub atvÄrtÄ pirmkoda versijai.
1. attÄls. SinhronizÄcija starp krÄtuvÄmLinkedInDataHubun vienu repozitorijuDataHubatvÄrtais avots
Lai atbalstÄ«tu automatizÄtas veidoÅ”anas, nosÅ«tÄ«Å”anas un izvilkÅ”anas darbplÅ«smas, mÅ«su jaunais rÄ«ks automÄtiski izveido faila lÄ«meÅa kartÄÅ”anu atbilstoÅ”i katram avota failam. TomÄr rÄ«ku komplektam ir nepiecieÅ”ama sÄkotnÄjÄ konfigurÄcija, un lietotÄjiem ir jÄnodroÅ”ina augsta lÄ«meÅa moduļu kartÄÅ”ana, kÄ parÄdÄ«ts tÄlÄk.
Moduļu lÄ«meÅa kartÄÅ”ana ir vienkÄrÅ”s JSON, kura atslÄgas ir mÄrÄ·a moduļi atvÄrtÄ pirmkoda repozitorijÄ, un vÄrtÄ«bas ir LinkedIn krÄtuvju avota moduļu saraksts. Jebkuru mÄrÄ·a moduli atvÄrtÄ pirmkoda repozitorijÄ var barot ar neierobežotu skaitu avota moduļu. Lai norÄdÄ«tu repozitoriju iekÅ”Äjos nosaukumus avota moduļos, izmantojiet virknes interpolÄcija BaÅ”a stilÄ. Izmantojot moduļa lÄ«meÅa kartÄÅ”anas failu, rÄ«ki izveido faila lÄ«meÅa kartÄÅ”anas failu, skenÄjot visus saistÄ«tos direktorijos esoÅ”os failus.
Faila lÄ«meÅa kartÄjumu automÄtiski izveido rÄ«ki; tomÄr lietotÄjs to var atjauninÄt arÄ« manuÄli. Å Ä« ir LinkedIn avota faila 1:1 kartÄÅ”ana ar failu atvÄrtÄ pirmkoda repozitorijÄ. Ar Å”o automÄtisko failu asociÄciju izveidi ir saistÄ«ti vairÄki noteikumi:
Ja atvÄrtÄ koda mÄrÄ·a modulim ir vairÄki avota moduļi, var rasties konflikti, piemÄram, tie paÅ”i FQCN, kas pastÄv vairÄk nekÄ vienÄ avota modulÄ«. KÄ konfliktu risinÄÅ”anas stratÄÄ£ija mÅ«su rÄ«kiem pÄc noklusÄjuma ir opcija āuzvar pÄdÄjaisā.
"null" nozÄ«mÄ, ka avota fails neietilpst atvÄrtÄ pirmkoda repozitorijÄ.
PÄc katras atklÄtÄ pirmkoda iesniegÅ”anas vai izvilkÅ”anas Ŕī kartÄÅ”ana tiek automÄtiski atjauninÄta un tiek izveidots momentuzÅÄmums. Tas ir nepiecieÅ”ams, lai identificÄtu papildinÄjumus un dzÄÅ”anu no pirmkoda kopÅ” pÄdÄjÄs darbÄ«bas.
SaistÄ«bu žurnÄlu izveide
SaistÄ«bu žurnÄli atvÄrtÄ pirmkoda saistÄ«bÄm tiek automÄtiski Ä£enerÄti, apvienojot iekÅ”Äjo repozitoriju izpildes žurnÄlus. TÄlÄk ir sniegts izpildes žurnÄla paraugs, lai parÄdÄ«tu mÅ«su rÄ«ka Ä£enerÄtÄ izpildes žurnÄla struktÅ«ru. ApstiprinÄÅ”ana skaidri norÄda, kuras avota repozitoriju versijas ir iesaiÅotas Å”ajÄ apstiprinÄjumÄ, un nodroÅ”ina saistÄ«bu žurnÄla kopsavilkumu. PÄrbaudiet Å”o apÅemties izmantojot reÄlu izpildes žurnÄla piemÄru, ko Ä£enerÄ mÅ«su rÄ«kkopa.
metadata-models 29.0.0 -> 30.0.0
Added aspect model foo
Fixed issue bar
dataset-gms 2.3.0 -> 2.3.4
Added rest.li API to serve foo aspect
MP_VERSION=dataset-gms:2.3.4
MP_VERSION=metadata-models:30.0.0
AtkarÄ«bas pÄrbaude
LinkedIn ir atkarÄ«bas pÄrbaudes infrastruktÅ«ra, kas palÄ«dz nodroÅ”inÄt, ka iekÅ”ÄjÄ vairÄkproduktu izmaiÅas neizjauc atkarÄ«go vairÄku produktu komplektu. AtvÄrtÄ koda DataHub repozitorijs nav vairÄku produktu, un tas nevar bÅ«t tieÅ”a atkarÄ«ba no vairÄkiem produktiem, taÄu, izmantojot vairÄku produktu ietÄ«tÄju, kas ienes atvÄrtÄ pirmkoda DataHub avota kodu, mÄs joprojÄm varam izmantot Å”o atkarÄ«bas testÄÅ”anu. TÄdÄjÄdi jebkuras izmaiÅas (kas vÄlÄk var tikt atklÄtas) jebkurÄ no vairÄkproduktiem, kas nodroÅ”ina atvÄrtÄ pirmkoda DataHub repozitoriju, aktivizÄ izveides notikumu Äaulas vairÄku produktu. TÄpÄc jebkuras izmaiÅas, kas neizdodas izveidot iesaiÅojuma produktu, neiztur testus pirms sÄkotnÄjÄ produkta izmantoÅ”anas un tiek atsauktas.
Å is ir noderÄ«gs mehÄnisms, kas palÄ«dz novÄrst jebkÄdu iekÅ”Äjo apÅemÅ”anos, kas pÄrtrauc atvÄrtÄ pirmkoda bÅ«vÄjumu un nosaka to izpildes laikÄ. Bez tÄ bÅ«tu diezgan grÅ«ti noteikt, kuras iekÅ”ÄjÄs saistÄ«bas izraisÄ«ja atklÄtÄ pirmkoda repozitorija izveides kļūme, jo mÄs apkopojam iekÅ”ÄjÄs izmaiÅas DataHub atvÄrtÄ koda krÄtuvÄ.
AtŔķirÄ«bas starp atvÄrtÄ pirmkoda DataHub un mÅ«su produkcijas versiju
LÄ«dz Å”im mÄs esam apsprieduÅ”i mÅ«su risinÄjumu divu DataHub repozitoriju versiju sinhronizÄÅ”anai, taÄu mÄs joprojÄm neesam izklÄstÄ«juÅ”i iemeslus, kÄpÄc mums vispirms ir vajadzÄ«gas divas dažÄdas izstrÄdes straumes. Å ajÄ sadaÄ¼Ä mÄs uzskaitÄ«sim atŔķirÄ«bas starp DataHub publisko versiju un ražoÅ”anas versiju LinkedIn serveros un izskaidrosim Å”o atŔķirÄ«bu iemeslus.
Viens pretrunu avots ir fakts, ka mÅ«su produkcijas versijai ir atkarÄ«bas no koda, kas vÄl nav atvÄrts avots, piemÄram, LinkedIn's Offspring (LinkedIn iekÅ”ÄjÄ atkarÄ«bas injekcijas sistÄma). PÄcnÄcÄjus plaÅ”i izmanto iekÅ”ÄjÄs kodu bÄzÄs, jo tÄ ir vÄlamÄ metode dinamiskÄs konfigurÄcijas pÄrvaldÄ«bai. Bet tas nav atvÄrts avots; tÄpÄc mums bija jÄatrod atvÄrtÄ pirmkoda alternatÄ«vas atvÄrtÄ pirmkoda DataHub.
Ir arÄ« citi iemesli. TÄ kÄ LinkedIn vajadzÄ«bÄm mÄs veidojam metadatu modeļa paplaÅ”inÄjumus, Å”ie paplaÅ”inÄjumi parasti ir ļoti specifiski LinkedIn un, iespÄjams, tieÅ”i neattiecas uz citÄm vidÄm. PiemÄram, mums ir ļoti specifiskas iezÄ«mes dalÄ«bnieku ID un cita veida atbilstoÅ”iem metadatiem. TÄtad mÄs tagad esam izslÄguÅ”i Å”os paplaÅ”inÄjumus no DataHub atvÄrtÄ pirmkoda metadatu modeļa. Sadarbojoties ar kopienu un izprotot viÅu vajadzÄ«bas, vajadzÄ«bas gadÄ«jumÄ strÄdÄsim pie Å”o paplaÅ”inÄjumu kopÄjÄm atvÄrtÄ pirmkoda versijÄm.
VienkÄrÅ”a lietoÅ”ana un vieglÄka pielÄgoÅ”ana atvÄrtÄ pirmkoda kopienai arÄ« iedvesmoja dažas atŔķirÄ«bas starp abÄm DataHub versijÄm. AtŔķirÄ«bas straumju apstrÄdes infrastruktÅ«rÄ ir labs piemÄrs tam. Lai gan mÅ«su iekÅ”ÄjÄ versijÄ tiek izmantota pÄrvaldÄ«ta straumes apstrÄdes sistÄma, atvÄrtÄ pirmkoda versijai mÄs izvÄlÄjÄmies izmantot iebÅ«vÄtu (savrupu) straumes apstrÄdi, jo tÄdÄjÄdi tiek novÄrsta cita infrastruktÅ«ras atkarÄ«ba.
VÄl viens atŔķirÄ«bas piemÄrs ir viens GMS (vispÄrinÄtais metadatu veikals) atvÄrtÄ pirmkoda ievieÅ”anÄ, nevis vairÄkÄs GMS. GMA (Ä£eneralizÄtÄ metadatu arhitektÅ«ra) ir DataHub aizmugures arhitektÅ«ras nosaukums, un GMS ir metadatu krÄtuve GMA kontekstÄ. GMA ir ļoti elastÄ«ga arhitektÅ«ra, kas ļauj sadalÄ«t katru datu konstrukciju (piem., datu kopas, lietotÄjus utt.) savÄ metadatu krÄtuvÄ vai saglabÄt vairÄkas datu konstrukcijas vienÄ metadatu krÄtuvÄ, ja vien reÄ£istrs satur datu struktÅ«ras kartÄÅ”anu GMS ir atjauninÄts. LietoÅ”anas ÄrtÄ«bai mÄs izvÄlÄjÄmies vienu GMS gadÄ«jumu, kas glabÄ visas dažÄdÄs datu konstrukcijas atvÄrtÄ pirmkoda DataHub.
Pilns atŔķirÄ«bu saraksts starp abÄm ievieÅ”anÄm ir sniegts zemÄk esoÅ”ajÄ tabulÄ.
AugstÄkÄ lÄ«meÅa DataHub arhitektÅ«ru var redzÄt attÄlÄ iepriekÅ”. Papildus infrastruktÅ«ras komponentiem tai ir Äetri dažÄdi Docker konteineri:
datahub-gms: metadatu glabÄÅ”anas pakalpojums
Datahub-frontend: lietojumprogramma spÄlÄt, kas apkalpo DataHub saskarni.
datahub-mce-consumer: lietojumprogramma Kafkas straumes, kas izmanto metadatu maiÅas notikumu (MCE) straumi un atjaunina metadatu krÄtuvi.
datahub-mae-consumer: lietojumprogramma Kafkas straumes, kas izmanto metadatu audita notikumu straumi (MAE) un izveido meklÄÅ”anas indeksu un grafiku datu bÄzi.
AtvÄrtÄ koda repozitorija dokumentÄcija un oriÄ£inÄls DataHub emuÄra ieraksts satur detalizÄtÄku informÄciju par dažÄdu pakalpojumu funkcijÄm.
CI/CD vietnÄ DataHub ir atvÄrtÄ koda
Izmanto atvÄrtÄ koda DataHub repozitoriju TravisCI nepÄrtrauktai integrÄcijai un Dokera centrmezgls nepÄrtrauktai izvietoÅ”anai. Abiem ir laba GitHub integrÄcija, un tos ir viegli iestatÄ«t. LielÄkajai daļai atvÄrtÄ pirmkoda infrastruktÅ«ras, ko izstrÄdÄjusi kopiena vai privÄti uzÅÄmumi (piemÄram, krustojums), Docker attÄli tiek izveidoti un izvietoti Docker Hub, lai sabiedrÄ«ba tos varÄtu Ärti lietot. Jebkuru Docker attÄlu, kas atrodams Docker Hub, var viegli izmantot ar vienkÄrÅ”u komandu docker-pull.
Ar katru apÅemÅ”anos DataHub atvÄrtÄ koda krÄtuvÄ visi Docker attÄli tiek automÄtiski izveidoti un izvietoti Docker Hub ar "jaunÄko" tagu. Ja Docker Hub ir konfigurÄts ar dažiem regulÄro izteiksmju zaru nosaukÅ”ana, visi tagi atvÄrtÄ pirmkoda repozitorijÄ tiek izlaisti arÄ« ar atbilstoÅ”iem tagu nosaukumiem pakalpojumÄ Docker Hub.
Izmantojot DataHub
DataHub iestatÄ«Å”ana ir ļoti vienkÄrÅ”a un sastÄv no trim vienkÄrÅ”iem soļiem:
KlonÄjiet atvÄrtÄ koda krÄtuvi un palaidiet visus Docker konteinerus ar docker-compose, izmantojot nodroÅ”inÄto docker-compose skriptu, lai Ätri sÄktu.
LejupielÄdÄjiet repozitorijÄ sniegtos datu paraugus, izmantojot komandrindas rÄ«ku, kas arÄ« tiek nodroÅ”inÄts.
PÄrlÅ«kojiet DataHub savÄ pÄrlÅ«kprogrammÄ.
AktÄ«vi izsekots Gitter tÄrzÄÅ”ana konfigurÄts arÄ« Ätriem jautÄjumiem. LietotÄji var arÄ« radÄ«t problÄmas tieÅ”i GitHub repozitorijÄ. Pats galvenais, mÄs priecÄjamies un novÄrtÄjam visas atsauksmes un ieteikumus!
PlÄni nÄkotnei
PaÅ”laik katra atvÄrtÄ pirmkoda DataHub infrastruktÅ«ra vai mikropakalpojums ir veidots kÄ Docker konteiners, un visa sistÄma tiek organizÄta, izmantojot docker-komponÄt. Å emot vÄrÄ popularitÄti un plaÅ”u izplatÄ«bu Kubernetes, mÄs arÄ« vÄlÄtos tuvÄkajÄ nÄkotnÄ nodroÅ”inÄt uz Kubernetes balstÄ«tu risinÄjumu.
MÄs arÄ« plÄnojam nodroÅ”inÄt pabeigtu risinÄjumu DataHub izvietoÅ”anai publiskÄ mÄkoÅpakalpojumÄ, piemÄram, Debeszils, AWS vai Google mÄkonis. Å emot vÄrÄ neseno paziÅojumu par LinkedIn migrÄciju uz Azure, tas bÅ«s saskaÅots ar metadatu komandas iekÅ”ÄjÄm prioritÄtÄm.
Visbeidzot, bet ne mazÄk svarÄ«gi, paldies visiem DataHub agrÄ«najiem lietotÄjiem atvÄrtÄ pirmkoda kopienÄ, kuri ir novÄrtÄjuÅ”i DataHub alfa versijas un palÄ«dzÄjuÅ”i mums noteikt problÄmas un uzlabot dokumentÄciju.