የክፍት ምንጭ DataHub፡ የሜታዳታ ፍለጋ እና ግኝት መድረክ ከLinkedIn

የክፍት ምንጭ DataHub፡ የሜታዳታ ፍለጋ እና ግኝት መድረክ ከLinkedIn

የሚፈልጉትን ውሂብ በፍጥነት ማግኘት ለማንኛውም ኩባንያ በመረጃ ላይ የተመሰረቱ ውሳኔዎችን ለማድረግ በከፍተኛ መጠን ላይ ለሚተማመን ኩባንያ አስፈላጊ ነው። ይህ በዳታ ተጠቃሚዎች ምርታማነት ላይ ብቻ ሳይሆን (ተንታኞች፣ የማሽን መማሪያ ገንቢዎች፣ የውሂብ ሳይንቲስቶች እና የመረጃ መሐንዲሶችን ጨምሮ) ብቻ ሳይሆን ጥራት ባለው የማሽን መማሪያ (ML) ቧንቧ መስመር ላይ በተመረኮዙ የመጨረሻ ምርቶች ላይም ቀጥተኛ ተጽእኖ አለው። በተጨማሪም፣ የማሽን መማሪያ መድረኮችን የመተግበር ወይም የመገንባት አዝማሚያ በተፈጥሮ ጥያቄን ያስነሳል፡ ባህሪያትን፣ ሞዴሎችን፣ መለኪያዎችን፣ የውሂብ ስብስቦችን፣ ወዘተን በውስጥ የማግኘት ዘዴዎ ምንድነው?

በዚህ ጽሑፍ ውስጥ የውሂብ ምንጭን በክፍት ፍቃድ እንዴት እንዳተምን እንነጋገራለን DataHub በእኛ ሜታዳታ ፍለጋ እና ግኝት መድረክ፣ ከፕሮጀክቱ የመጀመሪያ ቀናት ጀምሮ የት. LinkedIn የራሱን የDataHub ሥሪት ከክፍት ምንጭ ሥሪት ተለይቶ ይይዛል። ለምን ሁለት የተለያዩ የልማት አካባቢዎች እንደሚያስፈልገን በማብራራት እንጀምራለን፣ በመቀጠል ክፍት ምንጭን WhereHowsን ለመጠቀም ቀደምት አቀራረቦችን እንወያይ እና የኛን የውስጥ (ምርት) የDataHub ስሪቱን በ ላይ ካለው ስሪት ጋር እናነፃፅራለን። የፊልሙ. ሁለቱንም ማከማቻዎች እንዲመሳሰሉ ለማድረግ የክፍት ምንጭ ዝመናዎችን ለመግፋት እና ለመቀበል ስለ አዲሱ አውቶሜትድ መፍትሄችን ዝርዝሮችን እናጋራለን። በመጨረሻም፣የክፍት ምንጭ DataHubን በመጠቀም እንዴት መጀመር እንዳለብን መመሪያዎችን እናቀርባለን እና ስለ አርክቴክቸር በአጭሩ እንወያይበታለን።

የክፍት ምንጭ DataHub፡ የሜታዳታ ፍለጋ እና ግኝት መድረክ ከLinkedIn

የትስ አሁን DataHub ነው!

የLinkedIn ዲበዳታ ቡድን ከዚህ ቀደም ቀርቧል DataHub (የWhereHows ተከታይ)፣ የLinkedIn ፍለጋ እና ሜታዳታ ማግኛ መድረክ እና እሱን ለመክፈት የጋራ ዕቅዶች። ከዚህ ማስታወቂያ በኋላ ብዙም ሳይቆይ የDataHub የአልፋ ስሪት አውጥተን ከማህበረሰቡ ጋር አጋርተናል። ከዚያን ጊዜ ጀምሮ፣ ለማከማቻው ያለማቋረጥ አስተዋጽዖ አበርክተናል እና በጣም የተጠየቁትን ባህሪያት ለመጨመር እና ችግሮችን ለመፍታት ፍላጎት ካላቸው ተጠቃሚዎች ጋር ሠርተናል። አሁን ይፋ መለቀቁን ስናበስር ደስ ብሎናል። DataHub በ GitHub ላይ.

የክፍት ምንጭ አቀራረቦች

WhereHows፣ የLinkedIn መረጃ ለማግኘት እና ከየት እንደመጣ ዋናው ፖርታል፣ እንደ ውስጣዊ ፕሮጀክት ተጀምሯል፤ የሜታዳታ ቡድን ከፈተው። ምንጭ ኮድ በ 2016. ከዚያን ጊዜ ጀምሮ ቡድኑ ሁል ጊዜ ሁለት የተለያዩ የኮድ ቤዝ ቤቶችን ይይዛል - አንዱ ለክፍት ምንጭ እና አንድ ለLinkedIn ውስጣዊ አጠቃቀም - ምክንያቱም ሁሉም ለLinkedIn አጠቃቀም ጉዳዮች የተገነቡ የምርት ባህሪያት በአጠቃላይ ለሰፊው ታዳሚ ተፈጻሚነት የላቸውም። በተጨማሪ፣ WhereHows ክፍት ምንጭ ያልሆኑ አንዳንድ የውስጥ ጥገኞች (መሠረተ ልማት፣ ቤተ መጻሕፍት፣ ወዘተ) አሉት። በቀጣዮቹ አመታት የት ሃውስ ብዙ ድግግሞሾችን እና የእድገት ዑደቶችን አልፏል፣ ይህም ሁለቱን የኮድ ቤዝ ማመሳሰል ትልቅ ፈተና አድርጎታል። የሜታዳታ ቡድኑ ውስጣዊ እና ክፍት ምንጭ ልማትን በአንድ ላይ ለማቆየት ባለፉት ዓመታት የተለያዩ አቀራረቦችን ሞክሯል።

መጀመሪያ ሞክር፡ "መጀመሪያ ምንጭ ክፈት"

መጀመሪያ ላይ "ክፍት ምንጭ መጀመሪያ" ልማት ሞዴል ተከትለናል፣ አብዛኛው ልማት በክፍት ምንጭ ማከማቻ ውስጥ የሚከሰት እና ለውስጣዊ ማሰማራት ለውጦች የሚደረጉበት ነው። የዚህ አቀራረብ ችግር ኮዱ ወደ ውስጥ ሙሉ በሙሉ ከመከለሱ በፊት ሁል ጊዜ ወደ GitHub የሚገፋ መሆኑ ነው። ከክፍት ምንጭ ማከማቻ ለውጦች እስኪደረጉ እና አዲስ የውስጥ ማሰማራት እስኪደረግ ድረስ ምንም አይነት የምርት ጉዳዮችን አናገኝም። በደካማ ማሰማራት ላይ, በቡድኖች ውስጥ ለውጦች በመደረጉ ጥፋተኛውን ለመወሰን በጣም አስቸጋሪ ነበር.

በተጨማሪም፣ ይህ ሞዴል ሁሉም ለውጦች መጀመሪያ ወደ ክፍት ምንጭ ማከማቻ እንዲገፉ እና ከዚያም ወደ ውስጣዊ ማከማቻ እንዲገፉ ስለሚያስገድድ ፈጣን ድግግሞሾችን የሚጠይቁ አዳዲስ ባህሪያትን ሲያዳብር የቡድኑን ምርታማነት ቀንሷል። የማስኬጃ ጊዜን ለመቀነስ የሚፈለገው ጥገና ወይም ለውጥ በመጀመሪያ በውስጥ ማከማቻ ውስጥ ሊደረግ ይችላል፣ነገር ግን ሁለቱ ማከማቻዎች ያልተመሳሰሉ ስለነበሩ ለውጦቹን ወደ ክፍት ምንጭ ማከማቻ ለማዋሃድ ይህ ትልቅ ችግር ሆነ።

ይህ ሞዴል ለጋራ መድረኮች፣ ቤተ-መጻሕፍት ወይም የመሠረተ ልማት ፕሮጄክቶች ሙሉ ለሙሉ ከተዘጋጁ ብጁ የድር መተግበሪያዎች ይልቅ ለመተግበር በጣም ቀላል ነው። በተጨማሪም፣ ይህ ሞዴል ከመጀመሪያው ቀን ጀምሮ ክፍት ምንጭ ለሚጀምሩ ፕሮጀክቶች ተስማሚ ነው፣ ነገር ግን WhereHows እንደ ሙሉ ውስጣዊ የድር መተግበሪያ ነው የተሰራው። ሁሉንም የውስጥ ጥገኝነቶችን ሙሉ በሙሉ ማስወገድ በጣም ከባድ ነበር፣ስለዚህ የውስጥ ሹካውን ማቆየት ነበረብን፣ ነገር ግን የውስጥ ሹካውን መጠበቅ እና በአብዛኛው ክፍት ምንጭን ማዳበር አልሰራም።

ሁለተኛ ሙከራ፡- “ውስጥ መጀመሪያ”

** እንደ ሁለተኛ ሙከራ፣ ወደ "ውስጣዊ መጀመሪያ" የእድገት ሞዴል ተንቀሳቅሰናል፣ አብዛኛው ልማት በቤት ውስጥ የሚከሰት እና በየጊዜው በክፍት ምንጭ ኮድ ላይ ለውጦች ይደረጋሉ። ምንም እንኳን ይህ ሞዴል ለአጠቃቀም ጉዳያችን በጣም ተስማሚ ቢሆንም, ውስጣዊ ችግሮች አሉት. ሁሉንም ልዩነቶች በቀጥታ ወደ ክፍት ምንጭ ማከማቻ መግፋት እና ከዚያ በኋላ የውህደት ግጭቶችን ለመፍታት መሞከር አማራጭ ነው ፣ ግን ጊዜ የሚወስድ ነው። በአብዛኛዎቹ አጋጣሚዎች ገንቢዎች ኮዳቸውን በገመገሙ ቁጥር ይህን ላለማድረግ ይሞክራሉ። በውጤቱም, ይህ በጣም ያነሰ በተደጋጋሚ, በቡድን, እና ስለዚህ በኋላ ላይ ግጭቶችን ለመፍታት የበለጠ አስቸጋሪ ያደርገዋል.

ለሦስተኛ ጊዜ ሠርቷል!

ከላይ የተጠቀሱት ሁለት ያልተሳኩ ሙከራዎች የWhereHows GitHub ማከማቻ ጊዜ ያለፈበት ሆኖ እንዲቆይ አስከትሏል። ቡድኑ የምርቱን ባህሪያት እና አርክቴክቸር ማሻሻል ቀጥሏል፣ ስለዚህም የWhereHows for LinkedIn ውስጣዊ እትም ከክፍት ምንጭ ስሪት የበለጠ የላቀ ሆነ። እንዲያውም አዲስ ስም ነበረው - DataHub. ከዚህ ቀደም ባደረጓቸው ያልተሳኩ ሙከራዎች መሰረት ቡድኑ ሊሰፋ የሚችል የረጅም ጊዜ መፍትሄ ለማዘጋጀት ወስኗል።

ለማንኛውም አዲስ ክፍት ምንጭ ፕሮጀክት፣ የLinkedIn የክፍት ምንጭ ቡድን የፕሮጀክቱ ሞጁሎች ሙሉ በሙሉ በክፍት ምንጭ የሚዘጋጁበትን የእድገት ሞዴል ይመክራል እና ይደግፋል። የተስተካከሉ ቅርሶች ወደ የህዝብ ማከማቻ ቦታ ይሰፍራሉ እና ከዚያ ወደ ውስጣዊው የLinkedIn ቅርስ ተጠቅመው ይመለሳሉ። የውጭ ቤተ መጻሕፍት ጥያቄ (ELR). ይህንን የዕድገት ሞዴል መከተል የክፍት ምንጭን ለሚጠቀሙ ብቻ ሳይሆን የበለጠ ሞጁል፣ ሊሰፋ የሚችል እና ሊሰካ የሚችል አርክቴክቸር ያስገኛል።

ነገር ግን፣ እንደ DataHub ያለ አንድ የጎለመሰ የኋላ-መጨረሻ መተግበሪያ ወደዚህ ሁኔታ ለመድረስ ብዙ ጊዜ ይፈልጋል። ይህ ደግሞ ሁሉም የውስጥ ጥገኞች ሙሉ በሙሉ ከመገለላቸው በፊት ክፍት ምንጭን ሙሉ በሙሉ የሚሰራ ትግበራን ይከለክላል። ለዚያም ነው ክፍት ምንጭ አስተዋፅዖ ለማድረግ ፈጣን እና በጣም ያነሰ ህመም የሚያግዙ መሳሪያዎችን የፈጠርነው። ይህ መፍትሔ ሁለቱንም የሜታዳታ ቡድን (DataHub ገንቢ) እና የክፍት ምንጭ ማህበረሰብን ይጠቀማል። የሚቀጥሉት ክፍሎች ስለዚህ አዲስ አቀራረብ ይብራራሉ.

ክፍት ምንጭ ህትመት አውቶሜሽን

የሜታዳታ ቡድን ለክፍት ምንጭ DataHub የቅርብ ጊዜ አቀራረብ የውስጥ ኮድ ቤዝ እና የክፍት ምንጭ ማከማቻን በራስ ሰር የሚያመሳስል መሳሪያ ማዘጋጀት ነው። የዚህ መሣሪያ ስብስብ ከፍተኛ ደረጃ ባህሪያት የሚከተሉትን ያካትታሉ:

  1. የLinkedIn ኮድ ከክፍት ምንጭ ጋር ያመሳስሉ፣ ተመሳሳይ rsync.
  2. የፈቃድ ራስጌ ትውልድ፣ ተመሳሳይ Apache Rat.
  3. ከውስጥ ግዴታ ምዝግብ ማስታወሻዎች ክፍት ምንጭ በራስ ሰር ያመነጫል።
  4. ክፍት ምንጭን የሚሰብሩ የውስጥ ለውጦችን ይከላከሉ። የጥገኝነት ሙከራ.

የሚከተሉት ንኡስ ክፍሎች አስደሳች ችግሮች ስላሏቸው ከላይ በተጠቀሱት ተግባራት ውስጥ ይዳስሳሉ።

የምንጭ ኮድ ማመሳሰል

ነጠላ GitHub ማከማቻ ከሆነው የክፍት ምንጭ የDataHub ስሪት በተለየ የLinkedIn የDataHub ስሪት የበርካታ ማከማቻዎች ጥምረት ነው (ውስጥ ተብሎ ይጠራል) ባለብዙ ምርቶች). የDataHub በይነገጽ፣ የሜታዳታ ሞዴል ቤተ-መጽሐፍት፣ የሜታዳታ ማከማቻ የኋላ አገልግሎት እና የዥረት ስራዎች በLinkedIn ላይ በተለዩ ማከማቻዎች ውስጥ ይኖራሉ። ነገር ግን፣ ለክፍት ምንጭ ተጠቃሚዎች ቀላል ለማድረግ፣ ለDataHub የክፍት ምንጭ ስሪት አንድ ነጠላ ማከማቻ አለን።

የክፍት ምንጭ DataHub፡ የሜታዳታ ፍለጋ እና ግኝት መድረክ ከLinkedIn

ምስል 1፡ በማጠራቀሚያዎች መካከል ማመሳሰል LinkedIn DataHub እና አንድ ነጠላ ማከማቻ DataHub ክፍት ምንጭ

አውቶማቲክ ግንባታን፣ መግፋትን እና የስራ ፍሰቶችን ለመሳብ አዲሱ መሳሪያችን ከእያንዳንዱ የምንጭ ፋይል ጋር የሚዛመድ የፋይል ደረጃ ካርታ ስራን በራስ ሰር ይፈጥራል። ነገር ግን፣ የመሳሪያ ኪቱ የመጀመሪያ ውቅረትን ይፈልጋል እና ተጠቃሚዎች ከታች እንደሚታየው ከፍተኛ ደረጃ የሞጁል ካርታ መስጠት አለባቸው።

{
  "datahub-dao": [
    "${datahub-frontend}/datahub-dao"
  ],
  "gms/impl": [
    "${dataset-gms}/impl",
    "${user-gms}/impl"
  ],
  "metadata-dao": [
    "${metadata-models}/metadata-dao"
  ],
  "metadata-builders": [
    "${metadata-models}/metadata-builders"
  ]
}

የሞዱል ደረጃ ካርታ ስራው በክፍት ምንጭ ማከማቻ ውስጥ ያሉ ቁልፎቹ የዒላማ ሞጁሎች ቀላል JSON ነው እና እሴቶቹ በLinkedIn ማከማቻዎች ውስጥ ያሉ የምንጭ ሞጁሎች ዝርዝር ናቸው። በክፍት ምንጭ ማከማቻ ውስጥ ያለ ማንኛውም ኢላማ ሞጁል በማንኛውም የምንጭ ሞጁሎች መመገብ ይችላል። በምንጭ ሞጁሎች ውስጥ የውስጥ ማከማቻዎችን ስም ለማመልከት ይጠቀሙ ሕብረቁምፊ interpolation በባሽ ዘይቤ። በሞጁል-ደረጃ የካርታ ፋይል በመጠቀም መሳሪያዎቹ በተዛማጅ ማውጫዎች ውስጥ ያሉትን ሁሉንም ፋይሎች በመቃኘት የፋይል ደረጃ ካርታ ፋይል ይፈጥራሉ።

{
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Foo.java":
"metadata-builders/src/main/java/com/linkedin/Foo.java",
  "${metadata-models}/metadata-builders/src/main/java/com/linkedin/Bar.java":
"metadata-builders/src/main/java/com/linkedin/Bar.java",
  "${metadata-models}/metadata-builders/build.gradle": null,
}

የፋይል ደረጃ ካርታ በራስ-ሰር በመሳሪያዎች ይፈጠራል; ሆኖም በተጠቃሚው በእጅ ሊዘመን ይችላል። ይህ በክፍት ምንጭ ማከማቻ ውስጥ ላለ ፋይል የLinkedIn ምንጭ ፋይል 1፡1 ካርታ መስራት ነው። ከዚህ የፋይል ማኅበራት አውቶማቲክ መፍጠር ጋር የተያያዙ በርካታ ሕጎች አሉ፡-

  • በክፍት ምንጭ ውስጥ ለታለመ ሞጁል በርካታ የምንጭ ሞጁሎች ከሆነ ግጭቶች ሊፈጠሩ ይችላሉ፣ ለምሳሌ ተመሳሳይ FQCN, ከአንድ በላይ ምንጭ ሞጁል ውስጥ አለ. እንደ የግጭት አፈታት ስልት መሳሪያዎቻችን በነባሪነት “የመጨረሻው ያሸንፋል” የሚለውን አማራጭ ይከተላሉ።
  • "ኑል" ማለት የምንጭ ፋይል የክፍት ምንጭ ማከማቻ አካል አይደለም ማለት ነው።
  • ከእያንዳንዱ የክፍት ምንጭ ማስረከቢያ ወይም ማውጣት በኋላ፣ ይህ ካርታ ሾል በራስ-ሰር ተዘምኗል እና ቅጽበተ-ፎቶ ይፈጠራል። ከመጨረሻው እርምጃ ጀምሮ ከምንጭ ኮድ ተጨማሪዎችን እና ስረዛዎችን ለመለየት ይህ አስፈላጊ ነው።

የግዴታ ምዝግብ ማስታወሻዎችን መፍጠር

የክፍት ምንጭ መፈጸም ምዝግብ ማስታወሻዎች የውስጥ ማከማቻዎችን የቃል ምዝግብ ማስታወሻዎች በማዋሃድ በራስ-ሰር ይፈጠራሉ። ከዚህ በታች በመሳሪያችን የተፈጠረውን የሰነድ ሎግ አወቃቀሩን የሚያሳይ የናሙና ቃል መዝገብ አለ። ቁርጠኝነት የትኛዎቹ የምንጭ ማከማቻዎች ስሪቶች በዚያ ቃል ውስጥ እንደታሸጉ በግልፅ ይጠቁማል እና የቃል መዝገብ ማጠቃለያ ይሰጣል። ይህንን ይመልከቱ መፈጸም በእኛ የመሳሪያ ኪት የመነጨ የቁርጥ መዝገብ እውነተኛ ምሳሌ በመጠቀም።

metadata-models 29.0.0 -> 30.0.0
    Added aspect model foo
    Fixed issue bar

dataset-gms 2.3.0 -> 2.3.4
    Added rest.li API to serve foo aspect

MP_VERSION=dataset-gms:2.3.4
MP_VERSION=metadata-models:30.0.0

ጥገኝነት ሙከራ

LinkedIn አለው የጥገኝነት ሙከራ መሠረተ ልማት, ይህም በውስጣዊ ብዙ ምርቶች ላይ የሚደረጉ ለውጦች ጥገኛ የሆኑ ብዙ ምርቶች ስብስብ እንዳይሰበሩ ይረዳል. የክፍት ምንጭ የDataHub ማከማቻ ብዙ ምርት አይደለም እና የማንኛውም ባለ ብዙ ምርት ቀጥተኛ ጥገኛ ሊሆን አይችልም፣ ነገር ግን የዳታHub የምንጭ ኮድን በሚያመጣ ባለ ብዙ ምርት ጥቅል እገዛ አሁንም ይህንን የጥገኝነት ሙከራ መጠቀም እንችላለን። ስርዓት፡- ማንኛውም ለውጥ (በኋላ ላይ ሊጋለጥ ይችላል) የዳታHub ማከማቻን ለሚመገቡት ማንኛቸውም ባለ ብዙ ምርቶች በሼል መልቲ ምርት ውስጥ የግንባታ ክስተትን ይፈጥራል። ስለዚህ የመጠቅለያ ምርትን መገንባት ያልቻለ ማንኛውም ለውጥ የመጀመሪያውን ምርት ከመስራቱ በፊት ፈተናዎቹን ይወድቃል እና ይመለሳል።

ይህ የክፍት ምንጭ ግንባታን የሚሰብር እና በጊዜው የሚያገኘውን ማንኛውንም የውስጥ ቁርጠኝነት ለመከላከል የሚረዳ ጠቃሚ ዘዴ ነው። ያለዚህ፣ የትኛው የውስጥ ቁርጠኝነት የክፍት ምንጭ ማከማቻው እንዲሳካ እንዳደረገው ለማወቅ በጣም ከባድ ይሆናል፣ ምክንያቱም የውስጥ ለውጦችን በ DataHub የክፍት ምንጭ ማከማቻ ላይ እናዘጋጃለን።

በክፍት ምንጭ DataHub እና በአምራች ስሪታችን መካከል ያሉ ልዩነቶች

እስከዚህ ነጥብ ድረስ፣ የዳታHub ማከማቻዎችን ሁለት ስሪቶች ለማመሳሰል የመፍትሔአችንን ተወያይተናል፣ ነገር ግን በመጀመሪያ ሁለት የተለያዩ የልማት ዥረቶች ለምን እንደምንፈልግ እስካሁን አልገለፅንም። በዚህ ክፍል በ DataHub ይፋዊ ስሪት እና በ LinkedIn አገልጋዮች ላይ ባለው የምርት ስሪት መካከል ያለውን ልዩነት እንዘረዝራለን እና የእነዚህን ልዩነቶች ምክንያቶች እንገልፃለን።

አንዱ የልዩነት ምንጭ የምርት ስሪታችን እንደ ሊንክኢንዲኢን ዘሮች (የLinkedIn የውስጥ ጥገኝነት መርፌ ማዕቀፍ) በመሳሰሉት ኮድ ገና ክፍት ያልሆነ ምንጭ ስላለው ነው። ተለዋዋጭ ውቅረትን ለማስተዳደር ተመራጭ ዘዴ ስለሆነ ዘሮች በውስጥ ኮድቤዝ ውስጥ በሰፊው ጥቅም ላይ ይውላሉ። ግን ክፍት ምንጭ አይደለም; ስለዚህ ከDataHub ክፍት ምንጭ አማራጮችን ማግኘት ያስፈልገናል።

ሌሎች ምክንያቶችም አሉ። ለLinkedIn ፍላጎቶች ለሜታዳታ ሞዴል ቅጥያዎችን ስንፈጥር፣ እነዚህ ቅጥያዎች በተለምዶ ለLinkedIn በጣም የተለዩ ናቸው እና በሌሎች አካባቢዎች ላይ በቀጥታ ላይተገበሩ ይችላሉ። ለምሳሌ፣ ለተሳታፊ መታወቂያዎች እና ለሌሎች ተዛማጅ ሜታዳታ ዓይነቶች በጣም ልዩ መለያዎች አሉን። ስለዚህ፣ አሁን እነዚህን ቅጥያዎች ከDataHub የክፍት ምንጭ ሜታዳታ ሞዴል አስቀርተናል። ከማህበረሰቡ ጋር ስንገናኝ እና ፍላጎታቸውን በምንረዳበት ጊዜ፣ አስፈላጊ ሆኖ ሲገኝ የእነዚህ ቅጥያዎች የጋራ ክፍት ምንጭ ስሪቶች ላይ እንሰራለን።

የአጠቃቀም ቀላልነት እና ለክፍት ምንጭ ማህበረሰቡ ቀላል መላመድ እንዲሁ በሁለቱ የDataHub ስሪቶች መካከል ያለውን አንዳንድ ልዩነቶች አነሳስቷል። የዥረት ማቀነባበሪያ መሠረተ ልማት ልዩነቶች ለዚህ ጥሩ ማሳያ ናቸው። ምንም እንኳን የእኛ የውስጥ ስሪት የሚተዳደር የዥረት ሂደት ማዕቀፍ ቢጠቀምም ለክፍት ምንጭ እትም አብሮ የተሰራውን (ብቻውን) የዥረት ማቀነባበሪያ ለመጠቀም መርጠናል ምክንያቱም ሌላ የመሠረተ ልማት ጥገኝነት መፍጠርን ስለሚያስወግድ ነው።

ሌላው የልዩነቱ ምሳሌ ከበርካታ ጂኤምኤስ ይልቅ አንድ ጂኤምኤስ (አጠቃላይ ሜታዳታ ማከማቻ) በክፍት ምንጭ ትግበራ ውስጥ መኖር ነው። ጂኤምኤ (አጠቃላይ ሜታዳታ አርክቴክቸር) ለዳታHub የኋላ-መጨረሻ አርክቴክቸር ስም ነው፣ እና ጂኤምኤስ በጂኤምኤ አውድ ውስጥ የዲበ ዳታ ማከማቻ ነው። GMA እያንዳንዱን የውሂብ ግንባታ (ለምሳሌ የውሂብ ስብስቦች፣ ተጠቃሚዎች፣ ወዘተ.) ወደ ራሱ ሜታዳታ ማከማቻ ለማሰራጨት ወይም የውሂብ መዋቅር ካርታን እስከያዘ ድረስ በአንድ ሜታዳታ ማከማቻ ውስጥ ብዙ የውሂብ ግንባታዎችን እንድታከማች የሚያስችልዎ በጣም ተለዋዋጭ አርክቴክቸር ነው። ጂኤምኤስ ተዘምኗል። ለአጠቃቀም ቀላልነት፣ ሁሉንም የተለያዩ የውሂብ ግንባታዎች በክፍት ምንጭ DataHub ውስጥ የሚያከማች አንድ የጂኤምኤስ ምሳሌን መርጠናል።

በሁለቱ አተገባበር መካከል የተሟላ ልዩነት ዝርዝር ከዚህ በታች ባለው ሠንጠረዥ ውስጥ ተሰጥቷል.

የምርት ባህሪዎች
LinkedIn DataHub
ምንጭ DataHub ክፈት

የሚደገፉ የውሂብ ግንባታዎች
1) የውሂብ ስብስቦች 2) ተጠቃሚዎች 3) መለኪያዎች 4) የኤምኤል ባህሪያት 5) ገበታዎች 6) ዳሽቦርዶች
1) የውሂብ ስብስቦች 2) ተጠቃሚዎች

የሚደገፉ የዲበ ውሂብ ምንጮች ለውሂብ ስብስቦች
1) አምብሪ 2) ሶፋ 3) ዳሊድስ 4) ኤስፕሬሶ 5) HDFS 6) ቀፎ 7) ካፍካ 8) ሞንጎዲቢ 9) MySQL 10) Oracle 11) Pinot 12) ፕሪስቶ 12) አንተ ነህ 13) ተራዳታ 13) ቬክተር 14) ቬኒስ
ቀፎ Kafka RDBMS

ፐብ-ንኡስ
LinkedIn Kafka
የተዋሃደ ካፍካ

የዥረት ማቀነባበሪያ
የተቀናበረ
የተከተተ (ብቻ)

ጥገኛ መርፌ እና ተለዋዋጭ ውቅር
LinkedIn ዘሮች
ምንጭ

የግንባታ መሳሪያ
Ligradle (LinkedIn ውስጣዊ የግራድል መጠቅለያ)
ግራድሌው

ሲአይ / ሲዲ
CRT (LinkedIn's ውስጣዊ CI/ሲዲ)
TravisCI ና Docker ማዕከል

ሜታዳታ መደብሮች
ብዙ ጂኤምኤስ ተሰራጭቷል፡ 1) የውሂብ ስብስብ ጂኤምኤስ 2) የተጠቃሚ ጂኤምኤስ 3) ሜትሪክ ጂኤምኤስ 4) ባህሪ ጂኤምኤስ 5) ገበታ/ዳሽቦርድ ጂኤምኤስ
ነጠላ ጂኤምኤስ ለ፡ 1) የውሂብ ስብስቦች 2) ተጠቃሚዎች

በዶከር ኮንቴይነሮች ውስጥ የማይክሮ አገልግሎቶች

Docker የመተግበሪያ ማሰማራትን እና ስርጭትን ያቃልላል መያዣ. በ DataHub ውስጥ ያለው እያንዳንዱ የአገልግሎት ክፍል እንደ ካፍካ ያሉ የመሠረተ ልማት ክፍሎችን ጨምሮ ክፍት ምንጭ ነው። Elasticsearch, ኒዎ 4 j и MySQL, የራሱ Docker ምስል አለው. የተጠቀምንባቸውን የዶከር ኮንቴይነሮች ለማቀነባበር Docker Compose.

የክፍት ምንጭ DataHub፡ የሜታዳታ ፍለጋ እና ግኝት መድረክ ከLinkedIn

ምስል 2፡ አርክቴክቸር DataHub *ክፍት ምንጭ**

ከላይ በምስሉ ላይ የDataHubን ከፍተኛ ደረጃ አርክቴክቸር ማየት ይችላሉ። ከመሠረተ ልማት አካላት በተጨማሪ አራት የተለያዩ የዶከር ኮንቴይነሮች አሉት።

datahub-gms፡ ሜታዳታ ማከማቻ አገልግሎት

datahub-frontend: መተግበሪያ አጫውትየ DataHub በይነገጽን በማገልገል ላይ።

datahub-mce-ሸማች: መተግበሪያ የካፍካ ዥረቶችየሜታዳታ ለውጥ ክስተት (MCE) ዥረት የሚጠቀም እና የሜታዳታ ማከማቻውን የሚያዘምን ነው።

datahub-mae-consumer: መተግበሪያ የካፍካ ዥረቶችሜታዳታ ኦዲት ክስተት ዥረት (MAE) ይጠቀማል እና የፍለጋ ኢንዴክስ እና የግራፍ ዳታቤዝ ይፈጥራል።

ክፍት ምንጭ ማከማቻ ሰነድ እና ኦሪጅናል DataHub ብሎግ ልጥፍ ስለ የተለያዩ አገልግሎቶች ተግባራት የበለጠ ዝርዝር መረጃ ይይዛል።

CI/CD በ DataHub ላይ ክፍት ምንጭ ነው።

የክፍት ምንጭ DataHub ማከማቻ ይጠቀማል TravisCI ለቀጣይ ውህደት እና Docker ማዕከል ለቀጣይ ማሰማራት. ሁለቱም ጥሩ የ GitHub ውህደት አላቸው እና ለማዋቀር ቀላል ናቸው። ለአብዛኛው ክፍት ምንጭ መሠረተ ልማት በማህበረሰቡ ወይም በግል ኩባንያዎች (ለምሳሌ፦ ግላዊ), የዶከር ምስሎች ለህብረተሰቡ ቀላልነት ተፈጥረው ወደ Docker Hub ተዘርግተዋል። በDocker Hub ውስጥ የሚገኝ ማንኛውም Docker ምስል በቀላል ትእዛዝ በቀላሉ መጠቀም ይችላል። ዶከር-መጎተት.

በእያንዳንዱ የዳታHub የክፍት ምንጭ ማከማቻ ቃል ኪዳን ሁሉም Docker ምስሎች በራስ ሰር ተገንብተው ወደ Docker Hub በ"የቅርብ ጊዜ" መለያ ይሰፍራሉ። Docker Hub ከተወሰኑ ጋር ከተዋቀረ መደበኛ መግለጫ ቅርንጫፎችን መሰየም፣ በክፍት ምንጭ ማከማቻ ውስጥ ያሉት ሁሉም መለያዎች እንዲሁ በ Docker Hub ውስጥ በሚዛመዱ የመለያ ስሞች ተለቅቀዋል።

DataHubን በመጠቀም

DataHubን በማዘጋጀት ላይ በጣም ቀላል እና ሶስት ቀላል ደረጃዎችን ያቀፈ ነው-

  1. የክፍት ምንጭ ማከማቻውን ዝጋ እና ሁሉንም የዶከር ኮንቴይነሮች በዶክተር አዘጋጅ ለፈጣን ጅምር በቀረበው ዶክሰር አዘጋጅ ስክሪፕት ያሂዱ።
  2. እንዲሁም የቀረበውን የትእዛዝ መስመር መሳሪያ በመጠቀም በማጠራቀሚያው ውስጥ የቀረበውን የናሙና መረጃ ያውርዱ።
  3. በአሳሽዎ ውስጥ DataHubን ያስሱ።

በንቃት ተከታትሏል። Gitter ውይይት ለፈጣን ጥያቄዎችም ተዋቅሯል። ተጠቃሚዎች በ GitHub ማከማቻ ውስጥ በቀጥታ ችግሮችን መፍጠር ይችላሉ። ከሁሉም በላይ፣ ሁሉንም አስተያየቶች እና አስተያየቶች በደስታ እንቀበላለን።

ለወደፊቱ እቅድ

በአሁኑ ጊዜ እያንዳንዱ መሰረተ ልማት ወይም ማይክሮ አገልግሎት ለክፍት ምንጭ DataHub እንደ ዶከር ኮንቴይነር ነው የተሰራው እና አጠቃላይ ስርዓቱ የተቀነባበረው በመጠቀም ነው። ዳክለር-መፃፊያ. በታዋቂነት እና በስፋት ተሰጥቷል ኩባንያቶች, እኛም በቅርብ ጊዜ ውስጥ Kubernetes ላይ የተመሠረተ መፍትሄ መስጠት እንፈልጋለን.

እንዲሁም DataHubን በመሳሰሉ የህዝብ ደመና አገልግሎት ላይ ለማሰማራት የማዞሪያ ቁልፍ መፍትሄ ለመስጠት አቅደናል። Azure, የ AWS ወይም Google ደመና. በቅርቡ የLinkedIn ወደ Azure ፍልሰት ከተገለጸው አንጻር፣ ይህ ከሜታዳታ ቡድን ውስጣዊ ቅድሚያዎች ጋር ይጣጣማል።

በመጨረሻ ግን ቢያንስ፣ በክፍት ምንጭ ማህበረሰብ ውስጥ ላሉ የDataHub ቀደምት ተጠቃሚዎች ለDataHub አልፋ ደረጃ ሰጥተው ጉዳዮችን እንድንለይ እና ሰነዶችን እንድናሻሽል የረዱን እናመሰግናለን።

ምንጭ: hab.com

አስተያየት ያክሉ