የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

ይህ መጣጥፍ በመካከለኛው ላይ የእኔ መጣጥፍ ትርጉም ነው - በዳታ ሐይቅ መጀመር, እሱም በጣም ተወዳጅ ሆኖ ተገኝቷል, ምናልባትም በቀላልነቱ ምክንያት. ስለዚህ, እኔ በሩሲያኛ ለመጻፍ ወሰንኩ እና የውሂብ ስፔሻሊስት ላልሆነ ተራ ሰው የውሂብ ማከማቻ (DW) ምን እንደሆነ እና የውሂብ ሐይቅ ምን እንደሆነ (ዳታ ሐይቅ) እና እንዴት እንደሆነ ግልጽ ለማድረግ ወሰንኩ. ተግባብተው .

ስለ ዳታ ሐይቁ ለምን መጻፍ ፈለግሁ? ከ10 አመታት በላይ ከመረጃ እና ትንታኔ ጋር እየሠራሁ ነው፣ እና አሁን በእርግጠኝነት በቦስተን ውስጥ በሚገኘው በአማዞን አሌክሳ AI ትልቅ መረጃ እየሰራሁ ነው፣ እሱም ቦስተን ውስጥ ነው፣ ምንም እንኳን በቪክቶሪያ የምኖረው በቫንኮቨር ደሴት እና ብዙ ጊዜ ቦስተንን፣ ሲያትልን ብጎበኝም , እና በቫንኩቨር, እና አንዳንድ ጊዜ በሞስኮ ውስጥ, በስብሰባዎች ላይ እናገራለሁ. እኔ ደግሞ ከጊዜ ወደ ጊዜ እጽፋለሁ, ነገር ግን በዋናነት በእንግሊዝኛ እጽፋለሁ, እና ቀደም ሲል ጽፌያለሁ አንዳንድ መጻሕፍት, እኔም ከሰሜን አሜሪካ የትንታኔ አዝማሚያዎችን ማካፈል ያስፈልገኛል, እና አንዳንድ ጊዜ እጽፋለሁ ቴሌግራም.

ሁልጊዜ ከመረጃ መጋዘኖች ጋር እሠራለሁ, እና ከ 2015 ጀምሮ ከአማዞን ድር አገልግሎቶች ጋር በቅርበት መስራት ጀመርኩ እና በአጠቃላይ ወደ ደመና ትንታኔ (AWS, Azure, GCP) ቀይሬያለሁ. ከ 2007 ጀምሮ የትንታኔ መፍትሄዎችን ዝግመተ ለውጥ ተመልክቻለሁ እና ለመረጃ መጋዘን አቅራቢ ቴራዳታ እንኳን ሠርቻለሁ እና በ Sberbank ውስጥ ተግባራዊ ያድርጉት ፣ እና ያኔ ነው Big Data with Hadoop ታየ። ሁሉም ሰው የማጠራቀሚያው ጊዜ አልፏል እና አሁን ሁሉም ነገር በ Hadoop ላይ ነበር, እና ከዚያ በኋላ ስለ ዳታ ሐይቅ ማውራት ጀመሩ, አሁን የውሂብ መጋዘኑ መጨረሻ በእርግጠኝነት መጥቷል. ግን እንደ እድል ሆኖ (ምናልባትም ሃዱፕን በማቋቋም ብዙ ገንዘብ ላደረጉ አንዳንድ ሰዎች በሚያሳዝን ሁኔታ) የመረጃ ማከማቻው አልጠፋም።

በዚህ ጽሑፍ ውስጥ የውሂብ ሐይቅ ምን እንደሆነ እንመለከታለን. ይህ ጽሑፍ በመረጃ ማከማቻዎች ላይ ትንሽ ልምድ ለሌላቸው ወይም ለሌላቸው ሰዎች የታሰበ ነው።

የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

በሥዕሉ ላይ ብሌድ ሐይቅ አለ፣ ይህ ከምወዳቸው ሐይቆች አንዱ ነው፣ ምንም እንኳን እኔ አንድ ጊዜ ብቻ ብሆንም፣ በቀሪው ሕይወቴ አስታወስኩት። ግን ስለ ሌላ ዓይነት ሐይቅ እንነጋገራለን - የውሂብ ሐይቅ። ምናልባት ብዙዎቻችሁ ስለዚህ ቃል ከአንድ ጊዜ በላይ ሰምታችኋል፣ ነገር ግን አንድ ተጨማሪ ፍቺ ማንንም አይጎዳም።

በመጀመሪያ ደረጃ፣ የውሂብ ሐይቅ በጣም ታዋቂዎቹ ትርጓሜዎች እዚህ አሉ።

"በድርጅቱ ውስጥ ላለ ማንኛውም ሰው ሊመረመር የሚችል የሁሉም አይነት ጥሬ መረጃ የፋይል ማከማቻ" - ማርቲን ፎለር

“ዳታ ማርት የውሃ ጠርሙስ ነው ብለው ካሰቡ - የተጣራ ፣ የታሸገ እና ለተመቻቸ ፍጆታ የታሸገ ፣ ከዚያ የውሂብ ሐይቅ በተፈጥሮው መልክ ትልቅ የውሃ ማጠራቀሚያ ነው። ተጠቃሚዎች፣ ለራሴ ውሃ መሰብሰብ፣ ጠልቄ ዘልቄ መግባት፣ ማሰስ እችላለሁ” - ጄምስ ዲክሰን

አሁን የውሂብ ሐይቅ ስለ ትንታኔዎች መሆኑን በእርግጠኝነት አውቀናል, ብዙ መጠን ያላቸውን መረጃዎች በመጀመሪያው መልክ እንድናከማች ያስችለናል እና አስፈላጊ እና ምቹ የመረጃ መዳረሻ አለን.

ብዙ ጊዜ ነገሮችን ለማቃለል እወዳለሁ, ውስብስብ ቃልን በቀላል ቃላት ማብራራት ከቻልኩ, እንዴት እንደሚሰራ እና ምን እንደሚያስፈልግ ለራሴ ተረድቻለሁ. አንድ ቀን፣ በአይፎን ፎቶ ማዕከለ-ስዕላት ውስጥ እያዞርኩ ነበር፣ እና ወጣልኝ፣ ይህ እውነተኛ የውሂብ ሀይቅ ነው፣ ለኮንፈረንስ እንኳን ስላይድ ሰራሁ፡

የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

ሁሉም ነገር በጣም ቀላል ነው. በስልኩ ላይ ፎቶግራፍ እናነሳለን, ፎቶው በስልኩ ላይ ተቀምጧል እና ወደ iCloud (የደመና ፋይል ማከማቻ) ሊቀመጥ ይችላል. ስልኩ እንዲሁ የፎቶ ሜታዳታ ይሰበስባል፡ የሚታየውን፣ የጂኦግራፊ መለያ፣ ጊዜ። በዚህ ምክንያት የኛን ፎቶ ለማግኘት የአይፎን ተጠቃሚ ተስማሚ በይነገጽን መጠቀም እንችላለን እና አመላካቾችን እንኳን እናያለን ለምሳሌ እሳት በሚለው ቃል ፎቶዎችን ስፈልግ 3 ፎቶዎችን ከእሳት ጋር አገኛለሁ። ለእኔ፣ ይህ ልክ እንደ የንግድ ኢንተለጀንስ መሳሪያ በጣም በፍጥነት እና በግልፅ የሚሰራ ነው።

እና በእርግጥ ስለ ደህንነት (ፈቃድ እና ማረጋገጫ) መዘንጋት የለብንም ፣ አለበለዚያ የእኛ መረጃ በቀላሉ በሕዝብ ጎራ ውስጥ ሊገባ ይችላል። በገንቢዎች ቸልተኝነት እና ቀላል ህጎችን ባለመከተላቸው ውሂባቸው በይፋ የተገኘ ስለ ትልልቅ ኮርፖሬሽኖች እና ጀማሪዎች ብዙ ዜና አለ።

እንዲህ ዓይነቱ ቀላል ሥዕል እንኳን የመረጃ ሐይቅ ምን እንደሆነ ፣ ከባህላዊ የመረጃ ማከማቻ እና ዋና ዋና አካላት ልዩነቱ ለመገመት ይረዳናል ።

  1. ውሂብ በመጫን ላይ (ማስገባት) የመረጃ ሐይቁ ዋና አካል ነው። መረጃ ወደ ዳታ ማከማቻው በሁለት መንገድ ሊገባ ይችላል - ባች (በየተወሰነ ጊዜ መጫን) እና ዥረት (የውሂብ ፍሰት)።
  2. የፋይል ማከማቻ (ማከማቻ) የመረጃ ሐይቅ ዋና አካል ነው። ማከማቻው በቀላሉ ሊሰፋ የሚችል፣ እጅግ አስተማማኝ እና ዝቅተኛ ዋጋ እንዲኖረው እንፈልጋለን። ለምሳሌ, በ AWS ውስጥ S3 ነው.
  3. ካታሎግ እና ፍለጋ (ካታሎግ እና ፍለጋ) - የውሂብ ስዋምፕን ለማስወገድ (ይህ ሁሉንም ውሂብ በአንድ ክምር ውስጥ ስንጥለው እና ከዚያ ከእሱ ጋር ለመስራት የማይቻል ከሆነ) መረጃውን ለመመደብ ሜታዳታ ንብርብር መፍጠር አለብን። ተጠቃሚዎች ለመተንተን የሚያስፈልጋቸውን መረጃ በቀላሉ ማግኘት እንዲችሉ. በተጨማሪም፣ እንደ ElasticSearch ያሉ ተጨማሪ የፍለጋ መፍትሄዎችን መጠቀም ይችላሉ። ፍለጋ ተጠቃሚው የሚፈለገውን ውሂብ ለተጠቃሚ ምቹ በሆነ በይነገጽ እንዲያገኝ ያግዘዋል።
  4. በመስራት ላይ (ሂደት) - ይህ እርምጃ መረጃን የማካሄድ እና የመቀየር ሃላፊነት አለበት። መረጃን መለወጥ፣ መዋቅሩን መለወጥ፣ ማጽዳት እና ሌሎችንም ማድረግ እንችላለን።
  5. ደህንነት (ደህንነት) - በመፍትሔው የደህንነት ንድፍ ላይ ጊዜ ማሳለፍ አስፈላጊ ነው. ለምሳሌ በማከማቻ፣ በሂደት እና በመጫን ጊዜ የመረጃ ምስጠራ። የማረጋገጫ እና የፍቃድ ዘዴዎችን መጠቀም አስፈላጊ ነው. በመጨረሻም የኦዲት መሳሪያ ያስፈልጋል።

ከተግባራዊ እይታ አንጻር የውሂብ ሀይቅን በሶስት ባህሪያት መለየት እንችላለን.

  1. ማንኛውንም ነገር ይሰብስቡ እና ያከማቹ - የመረጃ ሐይቁ ሁሉንም መረጃዎች ይይዛል፣ ሁለቱም ጥሬ ያልተሰራ ውሂብ ለማንኛውም ጊዜ እና የተሰራ/የተጣራ መረጃ።
  2. ጥልቅ ቅኝት። - የውሂብ ሐይቅ ተጠቃሚዎች መረጃን እንዲመረምሩ እና እንዲተነትኑ ያስችላቸዋል።
  3. ተለዋዋጭ መዳረሻ - የመረጃ ሐይቁ ለተለያዩ መረጃዎች እና ለተለያዩ ሁኔታዎች ተለዋዋጭ መዳረሻን ይሰጣል።

አሁን በመረጃ ማከማቻ እና በመረጃ ሐይቅ መካከል ስላለው ልዩነት መነጋገር እንችላለን። ብዙውን ጊዜ ሰዎች ይጠይቃሉ:

  • የመረጃ ማከማቻውስ?
  • የመረጃ ማከማቻውን በዳታ ሀይቅ እንተካው ወይንስ እያሰፋን ነው?
  • ያለ ዳታ ሐይቅ አሁንም ማድረግ ይቻላል?

በአጭሩ ግልጽ የሆነ መልስ የለም. ሁሉም በልዩ ሁኔታ, በቡድኑ ችሎታ እና በጀቱ ላይ የተመሰረተ ነው. ለምሳሌ የውሂብ መጋዘንን ወደ Oracle ወደ AWS ማዛወር እና በአማዞን ንዑስ ክፍል የውሂብ ሀይቅ መፍጠር - Woot - የኛ ዳታ ሀይቅ ታሪክ፡ Woot.com እንዴት አገልጋይ አልባ የውሂብ ሀይቅን በAWS ላይ እንደገነባ.

በሌላ በኩል፣ ሻጭ ስኖውፍሌክ እንዳሉት ከአሁን በኋላ ስለ ዳታ ሃይቅ ማሰብ አያስፈልገዎትም ምክንያቱም የመረጃ ፕላታቸው (እስከ 2020 ድረስ የውሂብ መጋዘን ነበር) ሁለቱንም የውሂብ ሐይቅ እና የውሂብ ማከማቻን ለማጣመር ያስችልዎታል። ከSnowflake ጋር ብዙም አልሰራሁም፣ እና ይህን ማድረግ የሚችል ልዩ ምርት ነው። የጉዳዩ ዋጋ ሌላ ጉዳይ ነው።

ለማጠቃለል ያህል፣ የእኔ የግል አስተያየት አሁንም ለሪፖርት ዘገባችን ዋና የመረጃ ምንጭ ሆኖ የመረጃ ማከማቻ (ዳታ ማከማቻ) እንደሚያስፈልገን እና የማይመጥን ማንኛውንም ነገር በዳታ ሃይቅ ውስጥ እናከማቻለን የሚል ነው። የትንታኔው አጠቃላይ ሚና ውሳኔዎችን ለማድረግ ለንግድ ስራ ቀላል መዳረሻ ማቅረብ ነው። አንድ ሰው የሚናገረው ምንም ይሁን ምን የቢዝነስ ተጠቃሚዎች ከውሂብ ሐይቅ ይልቅ በብቃት ከውሂብ መጋዘን ጋር ይሰራሉ ​​ለምሳሌ Amazon - Redshift (analytical data warehouse) አለ እና Redshift Spectrum/Athena (SQL interface for Data Lake በ S3 ላይ የተመሰረተ ነው)። ቀፎ/ፕሬስቶ)። ለሌሎች ዘመናዊ የትንታኔ መረጃ መጋዘኖችም ተመሳሳይ ነው።

አንድ የተለመደ የመረጃ መጋዘን አርክቴክቸርን እንመልከት፡-

የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

ይህ ክላሲክ መፍትሔ ነው. የምንጭ ሲስተሞች አሉን ETL/ELT ን በመጠቀም መረጃን ወደ የትንታኔ መረጃ ማከማቻ ገልብጠን ከቢዝነስ ኢንተለጀንስ መፍትሄ ጋር እናገናኘዋለን (የእኔ ተወዳጅ ታቦላ ነው፣ የእርስዎስ?)።

ይህ መፍትሔ የሚከተሉትን ጉዳቶች አሉት ።

  • የETL/ELT ክዋኔዎች ጊዜ እና ግብዓት ይጠይቃሉ።
  • እንደ አንድ ደንብ ፣ አንድ ሙሉ ክላስተር መግዛት ስላለብን መረጃን በመተንተን መረጃ መጋዘን ውስጥ ለማከማቸት ማህደረ ትውስታ ርካሽ አይደለም (ለምሳሌ ፣ Redshift ፣ BigQuery ፣ Teradata)።
  • የንግድ ተጠቃሚዎች የተጣራ እና ብዙ ጊዜ የተዋሃደ ውሂብን የማግኘት ዕድል አላቸው እና ጥሬ መረጃ የማግኘት ዕድል የላቸውም።

እርግጥ ነው, ሁሉም በእርስዎ ጉዳይ ላይ የተመሰረተ ነው. በመረጃ ማከማቻዎ ላይ ችግሮች ከሌሉዎት ምንም አይነት የውሂብ ሀይቅ አያስፈልግዎትም። ነገር ግን የቦታ፣ የሃይል ወይም የዋጋ እጥረት ችግሮች ሲፈጠሩ ቁልፍ ሚና ሲጫወቱ የውሂብ ሀይቅን አማራጭ ግምት ውስጥ ማስገባት ይችላሉ። ለዚህም ነው የመረጃ ሐይቁ በጣም ተወዳጅ የሆነው. የውሂብ ሀይቅ አርክቴክቸር ምሳሌ ይኸውና፡
የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?
የዳታ ሐይቅ አካሄድን በመጠቀም ጥሬ መረጃን ወደ ዳታ ሐይቅ (ባች ወይም ዥረት) እንጭናለን፣ ከዚያም መረጃውን እንደ አስፈላጊነቱ እናስኬዳለን። የመረጃ ሐይቁ የንግድ ተጠቃሚዎች የራሳቸውን የውሂብ ለውጥ (ETL/ELT) እንዲፈጥሩ ወይም በቢዝነስ ኢንተለጀንስ መፍትሄዎች (አስፈላጊው አሽከርካሪ ካለ) መረጃን እንዲተነትኑ ያስችላቸዋል።

የማንኛውም የትንታኔ መፍትሔ ግብ የንግድ ተጠቃሚዎችን ማገልገል ነው። ስለዚህ, ሁልጊዜ በንግድ መስፈርቶች መሰረት መስራት አለብን. (በአማዞን ይህ ከመርሆች አንዱ ነው - ወደ ኋላ መስራት)።

ከሁለቱም የውሂብ ማከማቻ እና የውሂብ ሐይቅ ጋር በመስራት ሁለቱንም መፍትሄዎች ማወዳደር እንችላለን፡-

የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

ዋናው መደምደሚያ ሊደረስበት የሚችለው የመረጃ ማከማቻው ከመረጃ ሐይቁ ጋር የማይወዳደር ነው, ይልቁንም ይሟላል. ነገር ግን ለጉዳይዎ ትክክለኛ የሆነውን መወሰን የእርስዎ ውሳኔ ነው። እራስዎን መሞከር እና ትክክለኛ መደምደሚያዎችን መሳል ሁልጊዜ የሚስብ ነው.

የዳታ ሀይቅ አካሄድን መጠቀም ስጀምር ከነበሩት ጉዳዮች አንዱን ልነግርህ እፈልጋለሁ። ሁሉም ነገር በጣም ተራ ነገር ነው፣ የኤልቲ መሳሪያ (ማቲሊየን ኢቲኤል ነበረን) እና Amazon Redshift ለመጠቀም ሞከርኩ፣ የእኔ መፍትሄ ሠርቷል፣ ነገር ግን መስፈርቶቹን አያሟላም።

ለ 2 ጉዳዮች ውሂብ ለማቅረብ የድር ምዝግብ ማስታወሻዎችን መውሰድ፣ መለወጥ እና ማጠቃለል ነበረብኝ፡

  1. የግብይት ቡድኑ ለ SEO የቦት እንቅስቃሴን ለመተንተን ፈልጎ ነበር።
  2. IT የድር ጣቢያ አፈጻጸም መለኪያዎችን መመልከት ፈልጎ ነበር።

በጣም ቀላል, በጣም ቀላል ምዝግብ ማስታወሻዎች. አንድ ምሳሌ ይኸውና፡-

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

አንድ ፋይል ከ1-4 ሜጋባይት ይመዝን ነበር።

ግን አንድ ችግር ነበር። በአለም ዙሪያ 7 ጎራዎች ነበሩን, እና 7000 ሺህ ፋይሎች በአንድ ቀን ውስጥ ተፈጥረዋል. ይህ ብዙ ተጨማሪ መጠን አይደለም, 50 ጊጋባይት ብቻ. ነገር ግን የእኛ የ Redshift ክላስተር መጠን ትንሽ ነበር (4 ኖዶች)። አንድ ፋይል በባህላዊ መንገድ መጫን አንድ ደቂቃ ያህል ፈጅቷል። ማለትም ችግሩ በግንባር ቀደምትነት አልተፈታም። እና የውሂብ ሀይቅ አቀራረብን ለመጠቀም ስወስን ይህ ሁኔታ ነበር. መፍትሄው ይህን ይመስላል።

የውሂብ ሐይቅ እንፈልጋለን? በመረጃ ማከማቻው ምን ይደረግ?

በጣም ቀላል ነው (በደመና ውስጥ የመሥራት ጥቅም ቀላልነት መሆኑን ልብ ማለት እፈልጋለሁ). ተ ጠ ቀ ም ኩ:

  • AWS ላስቲክ ካርታ ቅነሳ (Hadoop) ለማስላት ኃይል
  • AWS S3 እንደ ፋይል ማከማቻ መረጃን ኢንክሪፕት የማድረግ እና መዳረሻን የመገደብ ችሎታ ያለው
  • ስፓርክ እንደ InMemory ማስላት ሃይል እና PySpark ለሎጂክ እና ዳታ ለውጥ
  • በስፓርክ ምክንያት ፓርኬት
  • AWS Glue Crawler ስለ አዲስ ውሂብ እና ክፍልፋዮች እንደ ሜታዳታ ሰብሳቢ
  • Redshift Spectrum እንደ SQL በይነገጽ የውሂብ ሐይቁ ለነባር የ Redshift ተጠቃሚዎች

ትንሹ የEMR+Spark ክላስተር አጠቃላይ የፋይሎችን ቁልል በ30 ደቂቃ ውስጥ ሰርቷል። ለ AWS ሌሎች ጉዳዮች አሉ ፣ በተለይም ከ Alexa ጋር የሚዛመዱ ፣ ብዙ መረጃዎች ባሉበት።

ልክ በቅርብ ጊዜ የውሂብ ሀይቅ ጉዳቱ አንዱ GDPR መሆኑን ተረዳሁ። ችግሩ ደንበኛው እንዲሰርዝ ሲጠይቅ እና ውሂቡ ከፋይሎቹ በአንዱ ውስጥ ሲገኝ እንደ ዳታቤዝ ውስጥ እንደ ዳታ ማኒፑሌሽን ቋንቋ እና ሰርዝ ኦፕሬሽን መጠቀም አንችልም።

ይህ ጽሑፍ በመረጃ ማከማቻ እና በመረጃ ሐይቅ መካከል ያለውን ልዩነት እንዳብራራ ተስፋ አደርጋለሁ። ፍላጎት ካለህ፣ ብዙ ጽሑፎቼን ወይም ያነበብኳቸውን የባለሙያዎች ጽሑፎቼን መተርጎም እችላለሁ። እና ስለምሰራቸው መፍትሄዎች እና ስለ ስነ-ህንፃቸው ይንገሩ።

ምንጭ: hab.com

አስተያየት ያክሉ