ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ

ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ

በይዘት ላይ የተመሰረተ የውሂብ ምደባ ክፍት ችግር ነው። የባህላዊ ዳታ መጥፋት መከላከል (ዲኤልፒ) ሲስተሞች ተገቢውን መረጃ አሻራ በማተም እና የጣት አሻራን የመጨረሻ ነጥቦችን በመከታተል ይህንን ችግር ይፈታሉ። በፌስቡክ በየጊዜው የሚለዋወጡት ከፍተኛ ቁጥር ያላቸው የመረጃ ምንጮች፣ ይህ አካሄድ ሊሰፋ የሚችል ብቻ ሳይሆን መረጃው የት እንደሚገኝ ለማወቅም ውጤታማ አይደለም። ይህ ጽሑፍ የሚያተኩረው በፌስቡክ ውስጥ ያሉ ሚስጥራዊነት ያላቸው የትርጉም ዓይነቶችን በመጠን ለመለየት እና የውሂብ ማከማቻ እና የመዳረሻ ቁጥጥርን በራስ-ሰር ለማስፈጸም በተሰራ ከጫፍ እስከ ጫፍ ባለው ስርዓት ላይ ነው።

እዚህ ላይ የተገለፀው አቀራረብ በፌስቡክ ላይ ሁሉንም መረጃዎች ካርታ እና ምደባ ለማድረግ የመረጃ ምልክቶችን ፣ የማሽን መማሪያን እና ባህላዊ የጣት አሻራ ዘዴዎችን በማካተት ይህንን ችግር ለመፍታት የሚሞክር የመጀመሪያው ከጫፍ እስከ ጫፍ የግላዊነት ስርዓታችን ነው። የተገለፀው ስርዓት በአምራች አካባቢ የሚሰራ ሲሆን በተለያዩ የግላዊነት ክፍሎች አማካኝ F2 0,9+ ነጥብ በማምጣት ከፍተኛ መጠን ያላቸውን የመረጃ ሃብቶች በደርዘን በሚቆጠሩ ማከማቻዎች ላይ በማካሄድ ላይ ነው። በማሽን መማር ላይ በመመስረት ለደህንነት እና ለግላዊነት በሚመች የውሂብ ምደባ ላይ የፌስቡክ አርXiv ወረቀትን ትርጉም በማስተዋወቅ ላይ።

መግቢያ

ዛሬ ድርጅቶች ከፍተኛ መጠን ያለው መረጃን በተለያዩ ቅርፀቶች እና ቦታዎች ይሰበስባሉ እና ያከማቻሉ [1] ከዚያም ውሂቡ በብዙ ቦታዎች ይበላል፣ አንዳንዴም ይገለበጣል ወይም ብዙ ጊዜ ይገለበጣል፣ በዚህም ምክንያት ጠቃሚ እና ሚስጥራዊነት ያለው የንግድ መረጃ በብዙ የድርጅት መረጃዎች ላይ ተበታትኗል። መደብሮች. አንድ ድርጅት የተወሰኑ ህጋዊ ወይም የቁጥጥር መስፈርቶችን ማሟላት ሲያስፈልግ, ለምሳሌ በሲቪል ሂደቶች ውስጥ ያሉትን ደንቦች ማክበር, አስፈላጊውን መረጃ ስለሚገኝበት ቦታ መረጃ መሰብሰብ አስፈላጊ ይሆናል. የግላዊነት ደንብ አንድ ድርጅት የግል መረጃን ላልተፈቀደላቸው አካላት ሲያካፍል ሁሉንም የማህበራዊ ዋስትና ቁጥሮችን (SSNs) መደበቅ እንዳለበት ሲገልጽ፣ ተፈጥሯዊው የመጀመሪያው እርምጃ በድርጅቱ የመረጃ ማከማቻዎች ውስጥ ሁሉንም SSNs መፈለግ ነው። በእንደዚህ ዓይነት ሁኔታዎች የውሂብ ምደባ ወሳኝ ይሆናል [1]. የምደባ ስርዓቱ ድርጅቶች እንደ የመዳረሻ ቁጥጥር ፖሊሲዎችን ማንቃት፣ የውሂብ ማቆየት ያሉ የግላዊነት እና የደህንነት ፖሊሲዎችን በራስ-ሰር እንዲያስፈጽሙ ያስችላቸዋል። ፌስቡክ ሚስጥራዊነት ያላቸው የትርጉም ዳታ አይነቶችን ለማግኘት ብዙ የመረጃ ምልክቶችን፣ ሊሰፋ የሚችል የስርዓት አርክቴክቸር እና የማሽን መማሪያን የሚጠቀም በፌስቡክ የገነባነውን ስርዓት እያስተዋወቀ ነው።

አስፈላጊ መረጃን በፍጥነት እና በብቃት ማግኘት እንዲቻል የውሂብ ግኝት እና ምደባ መረጃን የማግኘት እና የመለያ ሂደት ነው። አሁን ያለው ሂደት በተፈጥሮው በእጅ የሚሰራ እና አግባብነት ያላቸውን ህጎች ወይም ደንቦችን መመርመር፣ ምን አይነት የመረጃ አይነቶች ሚስጥራዊነት ሊሰጣቸው እንደሚገባ እና የተለያዩ የትብነት ደረጃዎች ምን እንደሆኑ መወሰን እና ከዚያም የመማሪያ ክፍሎችን እና የደረጃ አሰጣጥ ፖሊሲዎችን በዚህ መሰረት መገንባትን ያካትታል። የውሂብ መጥፋት መከላከል (ዲኤልፒ) ከዚያ መረጃውን የጣት አሻራ ያሳርፋል እና የጣት አሻራዎችን ለማግኘት የታችኛውን ተፋሰስ የመጨረሻ ነጥቦችን ይከታተላል። ከንብረት-ከባድ መጋዘን ጋር ከፔታባይት ውሂብ ጋር ሲገናኙ ይህ አካሄድ በቀላሉ አይለካም።

ግባችን በመረጃው አይነት እና ቅርፀቱ ላይ ምንም አይነት ተጨማሪ ገደቦች ሳይኖር ወደ ጠንካራ እና ጊዜያዊ የተጠቃሚ ውሂብ የሚመዘን የውሂብ ምደባ ስርዓት መገንባት ነው። ይህ ድፍረት የተሞላበት ግብ ነው፣ እና በተፈጥሮው ከተግዳሮቶች ጋር ይመጣል። የተሰጠው የውሂብ መዝገብ በሺዎች የሚቆጠሩ ቁምፊዎች ርዝመት ሊኖረው ይችላል.

ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ
ምስል 1. በመስመር ላይ እና ከመስመር ውጭ ትንበያ ፍሰቶች

ስለዚህ፣ በኋላ ሊጣመሩ እና በቀላሉ ሊንቀሳቀሱ የሚችሉ የጋራ ባህሪያትን በመጠቀም በብቃት መወከል አለብን። እነዚህ ባህሪያት ትክክለኛ አመዳደብ መስጠት ብቻ ሳይሆን ለወደፊቱ አዳዲስ የውሂብ አይነቶችን በቀላሉ ለመጨመር እና ለማግኘት ተለዋዋጭነትን እና ቅልጥፍናን መስጠት አለባቸው። በሁለተኛ ደረጃ, ትላልቅ የመስመር ውጪ ጠረጴዛዎችን መቋቋም ያስፈልግዎታል. የሚበረክት ውሂብ ብዙ petabytes መጠን ያላቸው ጠረጴዛዎች ውስጥ ሊከማች ይችላል. ይህ ቀርፋፋ የፍተሻ ፍጥነትን ሊያስከትል ይችላል። ሦስተኛ፣ በተለዋዋጭ መረጃ ላይ ጥብቅ የ SLA ምደባን ማክበር አለብን። ይህ ስርዓቱ በጣም ቀልጣፋ, ፈጣን እና ትክክለኛ እንዲሆን ያስገድዳል. በመጨረሻም፣ ለተለዋዋጭ ውሂብ የእውነተኛ ጊዜ ምደባን ለማከናወን እና ለኢንተርኔት አጠቃቀም ጉዳዮች ዝቅተኛ የዘገየ የውሂብ ምደባ ማቅረብ አለብን።

ይህ ጽሁፍ ከላይ ያሉትን ተግዳሮቶች እንዴት እንዳስተናገድን ይገልፃል እና ፈጣን እና ሊሰፋ የሚችል አመዳደብ ስርዓት ሁሉንም አይነት፣ ቅርፀቶች እና ምንጮች በጋራ የባህሪ ስብስብ ላይ በመመስረት የሚከፋፍል ስርዓት ያቀርባል። የስርዓት አርክቴክቸርን አስፋፍተናል እና ከመስመር ውጭ እና የመስመር ላይ ውሂብ በፍጥነት ለመከፋፈል ብጁ የማሽን መማሪያ ሞዴል ፈጠርን። ይህ ወረቀት እንደሚከተለው ተዘጋጅቷል-ክፍል 2 የስርዓቱን አጠቃላይ ንድፍ ያቀርባል. ክፍል 3 ስለ ማሽን መማሪያ ሥርዓት ክፍሎች ይናገራል። ክፍል 4 እና 5 ተያያዥ ስራዎችን ያጎላል እና የወደፊት የስራ አቅጣጫዎችን ይዘረዝራል.

ሥነ ሕንፃ

የቋሚ እና የፌስቡክ-ልኬት የመስመር ላይ ውሂብ ተግዳሮቶችን ለመቋቋም, የምደባ ስርዓቱ ሁለት የተለያዩ ዥረቶች አሉት, በዝርዝር እንነጋገራለን.

ዘላቂ ውሂብ

መጀመሪያ ላይ ስርዓቱ ስለ ፌስቡክ ብዙ የመረጃ ንብረቶች ማወቅ አለበት። ለእያንዳንዱ ማከማቻ፣ አንዳንድ መሰረታዊ መረጃዎች ይሰበሰባሉ፣ ለምሳሌ ያንን ውሂብ የያዘው የውሂብ ማዕከል፣ ያንን ውሂብ የያዘው ስርዓት እና በተወሰነ የውሂብ ማከማቻ ውስጥ የሚገኙ ንብረቶች። ይህ ስርዓቱ ደንበኞችን እና ሌሎች መሐንዲሶች የሚጠቀሙባቸውን ግብዓቶች ሳይጭን በተቀላጠፈ ሁኔታ ውሂብ እንዲያመጣ የሚያስችል ሜታዳታ ካታሎግ ይፈጥራል።

ይህ የዲበ ዳታ ካታሎግ ለሁሉም የተቃኙ ንብረቶች ሥልጣናዊ ምንጭ ያቀርባል እና የተለያዩ ንብረቶችን ሁኔታ እንዲከታተሉ ያስችልዎታል። ይህንን መረጃ በመጠቀም የመርሐግብር ቅድሚያ የሚሰጠው በተሰበሰበው መረጃ እና በስርዓቱ ውስጥ ባለው ውስጣዊ መረጃ ላይ የተመሰረተ ነው, ለምሳሌ ንብረቱ በተሳካ ሁኔታ የተቃኘበት ጊዜ እና የተፈጠረበት ጊዜ, እንዲሁም ያለፈው ማህደረ ትውስታ እና የሲፒዩ መስፈርቶች ለ ንብረቱ ከሆነ. ከዚህ በፊት ተቃኝቷል. ከዚያ ለእያንዳንዱ የመረጃ ምንጭ (ሃብቶች ሲገኙ) ሃብቱን በትክክል ለመቃኘት ስራ ይጠራል።

እያንዳንዱ ሥራ ለእያንዳንዱ ንብረት ባለው የቅርብ ጊዜ መረጃ ላይ የቤርኑሊ ናሙናን የሚያከናውን የተቀናበረ ሁለትዮሽ ፋይል ነው። ንብረቱ በእያንዳንዱ አምድ የተከፋፈለ ሲሆን የእያንዳንዱ አምድ ምደባ ውጤት በተናጥል ይከናወናል። በተጨማሪም ስርዓቱ በአምዶች ውስጥ ያለውን ማንኛውንም የተሟላ ውሂብ ይፈትሻል። JSON፣ ድርድሮች፣ የተመሰጠሩ መዋቅሮች፣ ዩአርኤሎች፣ ቤዝ 64 ተከታታይ ውሂብ እና ሌሎችም ሁሉም ይቃኛሉ። ይህ የፍተሻ ማስፈጸሚያ ጊዜን በከፍተኛ ሁኔታ ሊጨምር ይችላል ምክንያቱም አንድ ጠረጴዛ በሺዎች የሚቆጠሩ በብሎብ ውስጥ የተከማቸ ዓምዶችን ሊይዝ ይችላል። json.

በመረጃ ሀብቱ ውስጥ ለተመረጠው እያንዳንዱ ረድፍ የምደባ ስርዓቱ ተንሳፋፊውን እና የጽሑፍ እቃዎችን ከይዘቱ ያወጣል እና እያንዳንዱን ነገር ከተወሰደበት አምድ ጋር ያዛምዳል። የባህሪው የማውጣት ደረጃ ውጤት በውሂብ ንብረቱ ውስጥ ላለው እያንዳንዱ አምድ የሁሉም ባህሪያት ካርታ ነው።

ምልክቶቹ ምንድናቸው?

የባህሪዎች ጽንሰ-ሀሳብ ቁልፍ ነው. ከመንሳፈፍ እና ከጽሑፍ ባህሪያት ይልቅ፣ ከእያንዳንዱ የመረጃ ምንጭ በቀጥታ የሚወጡትን የጥሬ ሕብረቁምፊ ናሙናዎችን ማለፍ እንችላለን። በተጨማሪም የማሽን መማሪያ ሞዴሎችን ናሙናውን ለመገመት ብቻ ከሚሞክሩ በመቶዎች ከሚቆጠሩ የባህሪ ስሌቶች ይልቅ በእያንዳንዱ ናሙና ላይ በቀጥታ ሊሰለጥኑ ይችላሉ። ለዚህ በርካታ ምክንያቶች አሉ.

  1. ግላዊነት በመጀመሪያ፡- ከሁሉም በላይ የባህሪያት ጽንሰ-ሀሳብ በማህደረ ትውስታ ውስጥ የምናስቀምጣቸውን እነዚያን ቅጦች ብቻ እንድናከማች ያስችለናል። ይህ ናሙናዎችን ለአንድ ዓላማ እንዳከማች እና በራሳችን ጥረት ፈጽሞ እንዳናስገባቸው ያረጋግጣል። ትንበያ ከማቅረቡ በፊት አገልግሎቱ የተወሰነ የምደባ ሁኔታን መጠበቅ ስላለበት ይህ በተለይ ለተለዋዋጭ መረጃ አስፈላጊ ነው።
  2. ማህደረ ትውስታ፡- አንዳንድ ናሙናዎች በሺዎች የሚቆጠሩ ቁምፊዎች ርዝመት ሊኖራቸው ይችላል። እንደነዚህ ያሉ መረጃዎችን ማከማቸት እና ወደ ስርዓቱ ክፍሎች ማስተላለፍ ሳያስፈልግ ብዙ ተጨማሪ ባይት ይበላል. ሁለቱ ምክንያቶች በጊዜ ሂደት ሊጣመሩ ይችላሉ, ይህም በሺዎች የሚቆጠሩ ዓምዶች ያሉት ብዙ የመረጃ ሀብቶች መኖራቸውን ግምት ውስጥ በማስገባት ነው.
  3. የባህሪ ድምር፡ ባህሪያት የእያንዳንዱን ቅኝት ውጤቶች በባህሪያት ስብስብ በግልፅ ይወክላሉ፣ይህም ስርዓቱ ከዚህ ቀደም የተደረጉ ተመሳሳይ የመረጃ ሀብቶችን ስካን ውጤቶች በሚመች መንገድ እንዲያጣምር ያስችለዋል። ይህ በበርካታ ሩጫዎች ውስጥ ከአንድ የውሂብ ግብዓት የፍተሻ ውጤቶችን ለማዋሃድ ጠቃሚ ሊሆን ይችላል።

ባህሪያቱ ከዚያ በኋላ የእያንዳንዱን አምድ የመረጃ መለያዎች ለመተንበይ ደንብን መሰረት ያደረገ ምደባ እና የማሽን መማሪያን የምንጠቀምበት ወደ ትንበያ አገልግሎት ይላካሉ። አገልግሎቱ በሁለቱም የደንብ ክላሲፋየሮች እና የማሽን መማሪያ ላይ የተመሰረተ እና ከእያንዳንዱ የትንበያ ነገር የተሰጠውን ምርጥ ትንበያ ይመርጣል።

የደንብ ክላሲፋየሮች በእጅ ሂዩሪስቲክስ ናቸው፣ አንድን ነገር ከ0 እስከ 100 ባለው ክልል ውስጥ መደበኛ ለማድረግ ስሌቶችን እና አሃዞችን ይጠቀማሉ። አንድ ጊዜ ከዚያ ውሂብ ጋር ለተያያዙት ለእያንዳንዱ የውሂብ አይነት እና የአምድ ስም እንደዚህ ያለ የመጀመሪያ ነጥብ ከተፈጠረ በማንኛውም "እገዳ" ውስጥ አይካተትም። ይዘረዝራል"፣የደንብ ክላሲፋየር ከሁሉም የውሂብ አይነቶች መካከል ከፍተኛውን መደበኛ ውጤት ይመርጣል።

በምደባው ውስብስብነት ምክንያት በእጅ ሂዩሪስቲክስ ላይ ብቻ መተማመን ዝቅተኛ ምደባ ትክክለኛነትን ያመጣል, በተለይም ላልተደራጀ መረጃ. በዚህ ምክንያት እንደ የተጠቃሚ ይዘት እና አድራሻ ያሉ ያልተዋቀሩ መረጃዎችን በመመደብ ለመስራት የማሽን መማሪያ ስርዓት አዘጋጅተናል። የማሽን መማር ከእጅ ሂዩሪስቲክስ መውጣት ለመጀመር እና ተጨማሪ የመረጃ ምልክቶችን (ለምሳሌ የአምድ ስሞች፣ የውሂብ ማረጋገጫ) መተግበር አስችሏል፣ ይህም የመለየት ትክክለኛነትን በእጅጉ ያሻሽላል። ወደ የማሽን መማሪያ አርክቴክቸር በኋላ ዘልቀን እንገባለን።

የትንበያ አገልግሎት የፍተሻውን ጊዜ እና ሁኔታ በተመለከተ ለእያንዳንዱ አምድ ውጤቱን ከሜታዳታ ጋር ያከማቻል። በዚህ ውሂብ ላይ የሚመረኮዙ ማንኛውም ሸማቾች እና የታችኛው ተፋሰስ ሂደቶች በየቀኑ ከሚታተመው የውሂብ ስብስብ ሊያነቡት ይችላሉ። ይህ ስብስብ የእነዚህን ሁሉ የፍተሻ ስራዎች ወይም የእውነተኛ ጊዜ የውሂብ ካታሎግ ኤፒአይዎች ውጤቶች በአንድ ላይ ይሰበስባል። የታተሙ ትንበያዎች የግላዊነት እና የደህንነት መመሪያዎችን በራስ-ሰር ለማስፈጸም መሰረት ናቸው።

በመጨረሻም የትንበያ አገልግሎቱ ሁሉንም መረጃዎች ከፃፈ በኋላ እና ሁሉም ትንበያዎች ከተቀመጡ በኋላ የእኛ የውሂብ ካታሎግ ኤፒአይ ለሀብቱ ሁሉንም የውሂብ አይነት ትንበያዎችን በቅጽበት መመለስ ይችላል። ስርዓቱ ለእያንዳንዱ ንብረት ሁሉንም የቅርብ ጊዜ ትንበያዎችን የያዘ የውሂብ ስብስብ በየቀኑ ያትማል።

ተለዋዋጭ ውሂብ

ከላይ ያለው ሂደት ለቀጣይ ንብረቶች የተነደፈ ቢሆንም፣ የማያቋርጥ ትራፊክ እንደ ድርጅት መረጃ አካል ተደርጎ ይቆጠራል እና አስፈላጊ ሊሆን ይችላል። በዚህ ምክንያት ስርዓቱ ለማንኛውም የሚቆራረጥ ትራፊክ ቅጽበታዊ ምደባ ትንበያዎችን ለመፍጠር የመስመር ላይ ኤፒአይ ያቀርባል። የውጪ ትራፊክን፣ የገቢ ትራፊክን ወደ ማሽን መማሪያ ሞዴሎች እና የአስተዋዋቂ መረጃዎችን በመከፋፈል የእውነተኛ ጊዜ ትንበያ ስርዓት በሰፊው ጥቅም ላይ ይውላል።

እዚህ ኤፒአይ ሁለት ዋና ክርክሮችን ይወስዳል፡ የመሰብሰብ ቁልፍ እና ሊተነበይ የሚገባው ጥሬ መረጃ። አገልግሎቱ ከላይ እንደተገለፀው አንድ አይነት ነገር መልሶ ማግኘትን ያከናውናል እና ቁሳቁሶቹን ለተመሳሳይ ቁልፍ በአንድ ላይ ይቧድራል። እነዚህ ባህሪያት ለውድቀት መልሶ ማግኛ በቋሚ መሸጎጫ ውስጥም ይደገፋሉ። ለእያንዳንዱ የቡድን ቁልፍ አገልግሎቱ ከዚህ በላይ የተገለጸውን ሂደት ተከትሎ ወደ ትንበያ አገልግሎት ከመደወል በፊት በቂ ናሙናዎችን ማየቱን ያረጋግጣል።

ማትባት

አንዳንድ ማከማቻዎችን ለመቃኘት፣ ከሞቅ ማከማቻ ንባብን ለማመቻቸት እና ከሌሎች ተጠቃሚዎች ተመሳሳይ ማከማቻ ሲደርሱ ምንም አይነት መስተጓጎል እንደሌለ ለማረጋገጥ ቤተ-መጻሕፍት እና ቴክኒኮችን እንጠቀማለን።

እጅግ በጣም ትልቅ ለሆኑ ጠረጴዛዎች (50+ petabytes) ምንም እንኳን ሁሉም ማሻሻያዎች እና የማስታወስ ችሎታዎች ቢኖሩም, ስርዓቱ ማህደረ ትውስታ ከማለቁ በፊት ሁሉንም ነገር ለመቃኘት እና ለማስላት ይሰራል. ከሁሉም በላይ, ፍተሻው ሙሉ በሙሉ በማህደረ ትውስታ ውስጥ ይሰላል እና በፍተሻው ጊዜ አይከማችም. ትላልቅ ሠንጠረዦች በሺዎች የሚቆጠሩ ዓምዶች ያልተዋቀሩ የውሂብ ስብስቦች ከያዙ, በጠቅላላው ጠረጴዛ ላይ ትንበያዎችን በሚያደርጉበት ጊዜ በቂ የማስታወሻ ሀብቶች ምክንያት ስራው ሊሳካ ይችላል. ይህ ሽፋን ይቀንሳል. ይህንን ለመዋጋት ስርዓቱ አሁን ያለውን የስራ ጫና ምን ያህል በአግባቡ እንደሚይዝ የፍተሻ ፍጥነትን እንደ ፕሮክሲ እንዲጠቀም አመቻችተናል። የማህደረ ትውስታ ችግሮችን ለማየት እና የባህሪ ካርታውን ለመተንበይ ፍጥነትን እንደ መተንበይ ዘዴ እንጠቀማለን። በተመሳሳይ ጊዜ, ከተለመደው ያነሰ ውሂብ እንጠቀማለን.

የውሂብ ምልክቶች

የምደባ ስርዓት ከመረጃው የሚመጡ ምልክቶችን ያህል ጥሩ ነው። እዚህ በምደባ ስርዓቱ ጥቅም ላይ የዋሉትን ሁሉንም ምልክቶች እንመለከታለን.

  • በይዘት ላይ የተመሰረተ፡- በእርግጥ የመጀመሪያው እና በጣም አስፈላጊው ምልክት ይዘት ነው። የቤርኑሊ ናሙና የሚከናወነው በመረጃ ይዘቱ ላይ ተመስርተን የምንቃኘው እና የምናወጣቸው በእያንዳንዱ የውሂብ ንብረቶች ላይ ነው። ብዙ ምልክቶች ከይዘቱ ይመጣሉ. የትኛውም ዓይነት ተንሳፋፊ ነገሮች ሊኖሩ ይችላሉ, ይህም አንድ የተወሰነ ናሙና ዓይነት ምን ያህል ጊዜ እንደታየ ስሌቶችን ይወክላል. ለምሳሌ፣ በናሙና ውስጥ የታዩ የኢሜይሎች ብዛት፣ ወይም በናሙና ውስጥ ምን ያህል ስሜት ገላጭ ምስሎች እንደሚታዩ ምልክቶች ሊኖረን ይችላል። እነዚህ የባህሪ ስሌቶች በተለያዩ ፍተሻዎች ላይ መደበኛ እና ሊጣመሩ ይችላሉ።
  • የውሂብ ማረጋገጫ፡ ይዘቱ ከወላጅ ሠንጠረዥ ሲቀየር የሚረዳ ጠቃሚ ምልክት። የተለመደው ምሳሌ ሃሽድ ውሂብ ነው። በልጁ ሠንጠረዥ ውስጥ ያለው መረጃ ሲጠለፍ፣ ብዙ ጊዜ ከወላጅ ሠንጠረዥ ይመጣል፣ እሱም በግልጽ ይቀራል። የዘር ውሂቡ የተወሰኑ የዳታ አይነቶችን በግልፅ ካልተነበቡ ወይም ወደላይ ካለው ሰንጠረዥ ሲቀየሩ ለመመደብ ይረዳል።
  • ማብራሪያዎች፡- ያልተዋቀረ መረጃን ለመለየት የሚረዳ ሌላ ከፍተኛ ጥራት ያለው ምልክት። በእውነቱ፣ ማብራሪያዎች እና የፕሮቬንቴንስ ውሂብ ባህሪያትን በተለያዩ የውሂብ ንብረቶች ላይ ለማሰራጨት አብረው ሊሰሩ ይችላሉ። ማብራሪያዎች ያልተዋቀረ የውሂብ ምንጭን ለመለየት ይረዳሉ፣ የዘር ግንድ መረጃ በማከማቻው ውስጥ ያለውን ፍሰት ለመከታተል ይረዳል።
  • የመረጃ መወጋት ልዩ፣ የማይነበቡ ቁምፊዎች ሆን ተብሎ ወደታወቁ የመረጃ አይነቶች ምንጮች የሚገቡበት ዘዴ ነው። ከዚያም፣ ተመሳሳይ የማይነበብ የቁምፊ ቅደም ተከተል ያለው ይዘትን ስንቃኝ፣ ይዘቱ ከሚታወቀው የውሂብ አይነት የመጣ መሆኑን መገመት እንችላለን። ይህ ከማብራሪያዎች ጋር የሚመሳሰል ሌላ የጥራት መረጃ ምልክት ነው። በይዘት ላይ የተመሰረተ ማወቂያ የገባውን ውሂብ ለማግኘት ይረዳል ካልሆነ በስተቀር።

የመለኪያ መለኪያዎች

አስፈላጊ አካል መለኪያዎችን ለመለካት ጥብቅ ዘዴ ነው. ለምደባ ማሻሻያ ድግግሞሹ ዋና መለኪያዎች የእያንዳንዱ መለያ ትክክለኛነት እና ማስታወስ ናቸው፣ የF2 ነጥብ በጣም አስፈላጊ ነው።

እነዚህን መለኪያዎች ለማስላት የውሂብ ንብረቶችን ለመሰየም ራሱን የቻለ ከስርአቱ ነፃ የሆነ ነገር ግን ከሱ ጋር በቀጥታ ለማነፃፀር ሊያገለግል ይችላል። ከዚህ በታች የመሬት እውነትን ከፌስቡክ እንዴት እንደምንሰበስብ እና የምደባ ስርዓታችንን ለማሰልጠን እንደምንጠቀምበት እንገልፃለን።

አስተማማኝ መረጃ መሰብሰብ

ከዚህ በታች ከተዘረዘሩት እያንዳንዱ ምንጮች አስተማማኝ መረጃዎችን ወደ የራሱ ሰንጠረዥ እንሰበስባለን. እያንዳንዱ ሠንጠረዥ የቅርብ ጊዜ የተስተዋሉ እሴቶችን ከዚያ የተወሰነ ምንጭ የማሰባሰብ ኃላፊነት አለበት። ለእያንዳንዱ ምንጭ የተመለከቱት እሴቶች ከፍተኛ ጥራት ያላቸው እና የቅርብ ጊዜ የውሂብ አይነት መለያዎችን እንደያዙ ለማረጋገጥ እያንዳንዱ ምንጭ የውሂብ ጥራት ፍተሻዎች አሉት።

  • የመመዝገቢያ መድረክ አወቃቀሮች፡- በቀፎ ጠረጴዛዎች ውስጥ ያሉ የተወሰኑ መስኮች የተወሰነ ዓይነት በሆነ መረጃ የተሞሉ ናቸው። የዚህ መረጃ አጠቃቀም እና ስርጭት እንደ ታማኝ የእውነት ምንጭ ሆኖ ያገለግላል።
  • በእጅ መሰየሚያ፡ ስርዓቱን የሚጠብቁ ገንቢዎች እና የውጭ መለያዎች አምዶችን ለመሰየም የሰለጠኑ ናቸው። ይህ በአጠቃላይ በመጋዘን ውስጥ ላሉ ሁሉም የውሂብ አይነቶች ጥሩ ይሰራል እና ለአንዳንድ ያልተዋቀረ መረጃዎች እንደ የመልእክት ውሂብ ወይም የተጠቃሚ ይዘት ቀዳሚ የእውነት ምንጭ ሊሆን ይችላል።
  • ከወላጅ ሠንጠረዦች ውስጥ ያሉ አምዶች የተወሰነ ውሂብ እንደያዙ ምልክት ሊደረግባቸው ወይም ሊገለጹ ይችላሉ፣ እና ያንን ውሂብ በልጆች ጠረጴዛዎች ውስጥ መከታተል እንችላለን።
  • የማስፈጸሚያ ክሮች ማምጣት፡ በፌስቡክ ውስጥ ያሉ የአፈፃፀም ክሮች የተወሰኑ የመረጃ አይነቶችን ይይዛሉ። የእኛን ስካነር እንደ አገልግሎት አርክቴክቸር በመጠቀም የታወቁ የውሂብ አይነቶች ያላቸውን ጅረቶች ናሙና እና በስርዓቱ መላክ እንችላለን። ስርዓቱ ይህንን ውሂብ ላለማከማቸት ቃል ገብቷል.
  • የናሙና ሠንጠረዦች፡ ሙሉውን ዳታ ኮርፐስ እንደያዙ የሚታወቁት ትላልቅ የቀፎ ሠንጠረዦች የሥልጠና ዳታ ሆነው በአገልግሎት ስካነር በኩል ማለፍ ይችላሉ። ይህ ሙሉ የውሂብ አይነቶች ላላቸው ሰንጠረዦች በጣም ጥሩ ነው, ስለዚህም አንድ አምድ በዘፈቀደ ናሙና ማድረግ ሙሉውን የዚያ የውሂብ አይነት ስብስብ ናሙና ከመውሰድ ጋር እኩል ነው.
  • ሰው ሰልሽ ዳታ፡ በበረራ ላይ ውሂብ የሚያመነጩ ቤተ መጻሕፍትንም መጠቀም እንችላለን። ይህ እንደ አድራሻ ወይም ጂፒኤስ ላሉ ቀላል፣ ይፋዊ የውሂብ አይነቶች በደንብ ይሰራል።
  • ዳታ አስተባባሪዎች፡ የግላዊነት ፕሮግራሞች መመሪያን ለውሂብ ቁርጥራጮች በእጅ ለመመደብ አብዛኛውን ጊዜ የመረጃ መጋቢዎችን ይጠቀማሉ። ይህ በጣም ትክክለኛ የእውነት ምንጭ ሆኖ ያገለግላል።

እያንዳንዱን ዋና የእውነት ምንጭ ወደ አንድ ኮርፐስ ከሁሉም መረጃዎች ጋር እናዋህዳለን። ከትክክለኛነት ጋር ያለው ትልቁ ፈተና የውሂብ ማከማቻው ተወካይ መሆኑን ማረጋገጥ ነው። አለበለዚያ የምደባ ሞተሮች ከመጠን በላይ ሊሰለጥኑ ይችላሉ. ይህንን ለመዋጋት ሞዴሎችን ሲያሰለጥኑ ወይም መለኪያዎችን ሲያሰሉ ሚዛንን ለማረጋገጥ ከላይ ያሉት ሁሉም ምንጮች ጥቅም ላይ ይውላሉ። በተጨማሪም የሰው መለያ ሰሪዎች በማጠራቀሚያው ውስጥ ያሉትን የተለያዩ ዓምዶች አንድ ወጥ በሆነ መንገድ ናሙና ያደርጉና መረጃውን በዚሁ መሠረት ይሰየማሉ ስለዚህም የምድር እውነት ስብስብ ከአድልዎ የራቀ ነው።

ቀጣይነት ያለው ውህደት

ፈጣን ድግግሞሽ እና መሻሻልን ለማረጋገጥ ሁልጊዜ የስርዓት አፈፃፀምን በእውነተኛ ጊዜ መለካት አስፈላጊ ነው። እያንዳንዱን የምደባ ማሻሻያ ዛሬ ከስርአቱ አንፃር መለካት እንችላለን፣ ስለዚህ በውሂብ ላይ በመመስረት የወደፊት ማሻሻያዎችን በዘዴ መምራት እንችላለን። እዚህ ላይ ስርዓቱ በትክክለኛ መረጃ የሚሰጠውን የግብረመልስ ዑደት እንዴት እንደሚያጠናቅቅ እንመለከታለን.

የመርሃግብር ስርዓቱ ከታመነ ምንጭ መለያ ያለው ንብረት ሲያጋጥመው ሁለት ተግባራትን እናዘጋጃለን። የመጀመሪያው የእኛን የማምረቻ ስካነር ይጠቀማል እና ስለዚህ የማምረት አቅማችንን ይጠቀማል. ሁለተኛው ተግባር የቅርብ ጊዜዎቹን ባህሪያት በመጠቀም የቅርብ ጊዜውን የግንባታ ስካነር ይጠቀማል. እያንዳንዱ ተግባር ውጤቶቹን ወደ የራሱ ሰንጠረዥ ይጽፋል, ስሪቶችን ከምድብ ውጤቶች ጋር መለያ ይሰጣል.

የመልቀቂያውን እጩ ምደባ እና የአምራች ሞዴልን በእውነተኛ ጊዜ የምናወዳድረው በዚህ መንገድ ነው።

የውሂብ ስብስቦች የRC እና PROD ባህሪያትን ሲያነጻጽሩ፣ ብዙ የትንበያ አገልግሎት የኤምኤል ምደባ ሞተር ልዩነቶች ተመዝግበዋል። በጣም በቅርብ ጊዜ የተገነባው የማሽን መማሪያ ሞዴል, አሁን ያለው ሞዴል በአምራችነት, እና ማንኛውም የሙከራ ሞዴሎች. ተመሳሳይ አቀራረብ የተለያዩ የአምሳያው ስሪቶችን "ለመቁረጥ" ያስችለናል (አግኖስቲክ ወደ ደንባችን ክላሲፋየሮች) እና መለኪያዎችን በእውነተኛ ጊዜ ማወዳደር. ይህ የኤምኤል ሙከራ ወደ ምርት ለመግባት መቼ ዝግጁ እንደሆነ ለመወሰን ቀላል ያደርገዋል።

በእያንዳንዱ ምሽት፣ ለዚያ ቀን የተሰሉት የRC ባህሪያት ወደ ML የሥልጠና ቧንቧ ይላካሉ፣ አምሳያው በአዲሶቹ RC ባህሪያት ላይ የሰለጠነው እና አፈጻጸሙን ከመሬት እውነት ዳታ ስብስብ አንጻር ይገመግማል።

በእያንዳንዱ ጠዋት ሞዴሉ ስልጠናውን ያጠናቅቃል እና እንደ የሙከራ ሞዴል በራስ-ሰር ታትሟል። በሙከራ ዝርዝር ውስጥ በራስ-ሰር ይካተታል።

አንዳንድ ውጤቶች

ከ100 በላይ የተለያዩ የውሂብ አይነቶች በከፍተኛ ትክክለኛነት ምልክት ተደርጎባቸዋል። በደንብ የተዋቀሩ እንደ ኢሜይሎች እና ስልክ ቁጥሮች በf2 ነጥብ ከ0,95 በላይ ተመድበዋል። እንደ በተጠቃሚ የመነጨ ይዘት እና ስም ያሉ ነፃ የውሂብ አይነቶች እንዲሁ በጣም ጥሩ ይሰራሉ ​​F2 ውጤቶች ከ 0,85 በላይ።

ብዙ ቁጥር ያላቸው የግለሰብ አምዶች ቋሚ እና ተለዋዋጭ ውሂብ በየቀኑ በሁሉም ማከማቻዎች ይመደባሉ። ከ500 ቴራባይት በላይ በየቀኑ ከ10 በላይ የመረጃ ማከማቻዎች ይቃኛሉ። አብዛኛዎቹ እነዚህ ማከማቻዎች ከ98% በላይ ሽፋን አላቸው።

በጊዜ ሂደት፣ ምደባ በጣም ቀልጣፋ ሆኗል፣ በቋሚ ከመስመር ውጭ ዥረት ውስጥ ያሉ የምደባ ስራዎች ንብረቱን ከመቃኘት ጀምሮ ለእያንዳንዱ አምድ ትንበያዎችን ለማስላት በአማካይ 35 ሰከንድ ይወስዳል።

ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ
ሩዝ. 2. የ RC ነገሮች እንዴት እንደሚፈጠሩ እና ወደ አምሳያው እንደሚላኩ ለመረዳት ቀጣይነት ያለውን የውህደት ፍሰት የሚገልጽ ንድፍ።

ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ
ምስል 3. የማሽን መማሪያ ክፍል ከፍተኛ-ደረጃ ንድፍ.

የማሽን ትምህርት ስርዓት አካል

ባለፈው ክፍል፣ ወደ አጠቃላይ የስርዓት አርክቴክቸር፣ ልኬትን ማድመቅ፣ ማመቻቸት እና ከመስመር ውጭ እና የመስመር ላይ የውሂብ ፍሰቶችን በጥልቀት ወስደናል። በዚህ ክፍል የትንበያ አገልግሎቱን እንመለከታለን እና የትንበያ አገልግሎቱን ኃይል የሚሰጠውን የማሽን መማሪያ ሥርዓትን እንገልፃለን።

ከ100 በላይ የውሂብ አይነቶች እና አንዳንድ ያልተዋቀሩ እንደ የመልእክት ውሂብ እና የተጠቃሚ ይዘት ያሉ በእጅ የሚሰራ ሂዩሪስቲክስን በመጠቀም የንዑስ ፓራሜትሪክ ምደባ ትክክለኛነት በተለይም ላልተዋቀረ መረጃ። በዚ ምኽንያት እዚ ድማ ውሑዳት ውሑዳት ውሑዳት ውሑዳት ውሳነታትን ውሳነታትን ምምሕያሽ ምምሕያሽ ምዃኖም ይዝከር። የማሽን መማሪያን መጠቀም ከእጅ ሂውሪስቲክስ ርቀው መሄድ እንዲጀምሩ እና ከባህሪያት እና ተጨማሪ የመረጃ ምልክቶች (ለምሳሌ የአምድ ስሞች፣ የውሂብ አመጣጥ) ጋር እንዲሰሩ ያስችልዎታል ትክክለኛነትን ለማሻሻል።

የተተገበረው ሞዴል የቬክተር ውክልናዎችን ያጠናል [3] ጥቅጥቅ ያሉ እና ጥቃቅን በሆኑ ነገሮች ላይ በተናጠል። እነዚህም በአንድ ላይ ተጣምረው ቬክተር ይፈጥራሉ፣ ይህም በተከታታይ ባች ኖርማልላይዜሽን [4] እና መስመር አልባ ደረጃዎችን በማለፍ የመጨረሻውን ውጤት ያስገኛል ። የመጨረሻው ውጤት ለእያንዳንዱ መለያ በ[0-1] መካከል ያለው ተንሳፋፊ ነጥብ ቁጥር ሲሆን ይህም ምሳሌው የዚያ የስሜታዊነት አይነት የመሆኑን እድል ያሳያል። ለአምሳያው ፒቶርች መጠቀም በፍጥነት እንድንንቀሳቀስ አስችሎናል፣ ይህም ከቡድኑ ውጪ ያሉ ገንቢዎች ለውጦችን በፍጥነት እንዲያደርጉ እና እንዲሞክሩ ያስችላቸዋል።

አርክቴክቸርን በሚነድፍበት ጊዜ በተፈጥሯቸው ልዩነታቸው የተነሳ በጥቃቅን (ለምሳሌ ጽሑፍ) እና ጥቅጥቅ ያሉ (ለምሳሌ ቁጥራዊ) ነገሮችን ሞዴል ማድረግ አስፈላጊ ነበር። ለመጨረሻው አርክቴክቸር፣ ለትምህርት ፍጥነት፣ ለባች መጠን እና ለሌሎች የመለኪያ መለኪያዎች ከፍተኛውን ዋጋ ለማግኘት የመለኪያ መጥረጊያ ማድረግም አስፈላጊ ነበር። የአመቻች ምርጫም አስፈላጊ hyperparameter ነበር። ያንን ታዋቂ አመቻች አግኝተናል አዳምብዙውን ጊዜ ከመጠን በላይ ወደ መገጣጠም ያመራል, ሞዴል ግን ጋር SGD የበለጠ የተረጋጋ. በአምሳያው ውስጥ በቀጥታ ማካተት ያለብን ተጨማሪ ነገሮች ነበሩ። ለምሳሌ አንድ ባህሪ የተወሰነ እሴት ሲኖረው ሞዴሉ የሚወስን ትንበያ ማድረጉን ያረጋገጡ የማይንቀሳቀሱ ህጎች። እነዚህ የማይንቀሳቀሱ ደንቦች በደንበኞቻችን ይገለፃሉ. እነዚህን ልዩ የጠርዝ ጉዳዮችን ለመቆጣጠር የድህረ-ሂደት ደረጃን ከመተግበር ይልቅ እነሱን በቀጥታ ወደ ሞዴሉ ማካተት የበለጠ እራሱን የቻለ እና ጠንካራ የስነ-ህንፃ ግንባታ እንዳስገኘ ደርሰንበታል። እንዲሁም እነዚህ ደንቦች በስልጠና ወቅት የአካል ጉዳተኞች መሆናቸውን ልብ ይበሉ ቀስ በቀስ የመውረድን የስልጠና ሂደት ውስጥ ጣልቃ እንዳይገቡ።

ችግሮች

ከችግሮቹ አንዱ ከፍተኛ ጥራት ያለው አስተማማኝ መረጃ መሰብሰብ ነበር። ሞዴሉ በእቃዎች እና በመለያዎች መካከል ግንኙነቶችን መማር እንዲችል ለእያንዳንዱ ክፍል በራስ መተማመን ያስፈልገዋል። ባለፈው ክፍል ለሁለቱም የስርዓት መለኪያ እና ሞዴል ስልጠና የመረጃ አሰባሰብ ዘዴዎችን ተወያይተናል. ትንታኔው እንደሚያሳየው እንደ ክሬዲት ካርድ እና የባንክ ሂሳብ ቁጥሮች ያሉ የመረጃ ክፍሎች በእኛ መጋዘን ውስጥ በጣም የተለመዱ አይደሉም። ይህ ሞዴሎችን ለማሰልጠን ከፍተኛ መጠን ያለው አስተማማኝ መረጃ ለመሰብሰብ አስቸጋሪ ያደርገዋል። ይህንን ችግር ለመፍታት፣ ለእነዚህ ክፍሎች ሰው ሰራሽ መሬት እውነት መረጃ ለማግኘት ሂደቶችን አዘጋጅተናል። ሚስጥራዊነት ላላቸው አይነቶችን ጨምሮ እንደዚህ ያለ ውሂብ እናመነጫለን። SSN, የክሬዲት ካርድ ቁጥሮች и IBANሞዴሉ ከዚህ ቀደም ሊተነብይ የማይችልባቸው ቁጥሮች። ይህ አካሄድ ትክክለኛውን ሚስጥራዊ ውሂብ ከመደበቅ ጋር ተያይዘው የሚመጡ የግላዊነት ስጋቶች ሳይኖሩ ሚስጥራዊነት ያላቸው የውሂብ አይነቶች እንዲሰሩ ያስችላቸዋል።

ከመሠረታዊ እውነት ጉዳዮች በተጨማሪ የምንሠራባቸው ክፍት የሕንፃ ጉዳዮች አሉ ለምሳሌ ማግለል መለወጥ и ቀደም ብሎ ማቆም. በተለያዩ የአውታረ መረብ ክፍሎች ላይ የተለያዩ ለውጦች ሲደረጉ፣ ተጽኖው ለተወሰኑ ክፍሎች የተነጠለ እና በአጠቃላይ ትንበያ አፈጻጸም ላይ ሰፊ ተጽእኖ እንዳይኖረው ለማድረግ ማግለልን መቀየር አስፈላጊ ነው። ቀደም ብሎ የማቆሚያ መስፈርቶችን ማሻሻልም አንዳንድ ክፍሎች ከሚሰለጥኑበት እና ሌሎች በማይሰለጥኑበት ደረጃ ሳይሆን ለሁሉም ክፍሎች በተረጋጋ ቦታ ላይ የስልጠናውን ሂደት ለማስቆም ወሳኝ ነው።

የባህሪ አስፈላጊነት

አዲስ ባህሪ ወደ ሞዴል ሲገባ, በአምሳያው ላይ ያለውን አጠቃላይ ተጽእኖ ማወቅ እንፈልጋለን. ለእያንዳንዱ የውሂብ አይነት ምን አይነት ባህሪያት ጥቅም ላይ እንደሚውሉ በትክክል ለመረዳት እንድንችል ትንበያዎቹ በሰዎች ሊተረጎሙ የሚችሉ መሆናቸውን ማረጋገጥ እንፈልጋለን። ለዚህ ዓላማ አዳብነን አስተዋውቀናል። በክፍል ለ PyTorch ሞዴል ባህሪያት አስፈላጊነት. ይህ በአብዛኛው የሚደገፈው ከአጠቃላይ ባህሪ አስፈላጊነት የተለየ መሆኑን ልብ ይበሉ, ምክንያቱም ለየትኛው ክፍል የትኞቹ ባህሪያት አስፈላጊ እንደሆኑ አይነግረንም. ዕቃውን እንደገና ካስተካከልን በኋላ የትንበያ ስህተት መጨመሩን በማስላት የአንድን ነገር አስፈላጊነት እንለካለን። እሴቶችን ሲቀይሩ ባህሪው "አስፈላጊ" ነው የአምሳያው ስህተት ይጨምራል ምክንያቱም በዚህ ሁኔታ ሞዴሉ ትንበያውን ለማድረግ በባህሪው ላይ ተመርኩዞ ነበር. ባህሪያቱ እሴቶቹን በሚቀይሩበት ጊዜ "አስፈላጊ አይደለም" የአምሳያው ስህተቱ ሳይለወጥ ይተዋል, ምክንያቱም በዚህ ሁኔታ ሞዴሉ ችላ በማለት [5].

ለእያንዳንዱ ክፍል የባህሪው ጠቀሜታ ሞዴሉን እንዲተረጎም ያስችለናል ይህም መለያን በሚተነብይበት ጊዜ ሞዴሉ ምን እንደሚመለከት ለማየት ያስችለናል. ለምሳሌ ስንተነተን ADDR, ከዚያም ከአድራሻው ጋር የተጎዳኘው ምልክት እንደ ዋስትና እንሰጣለን AddressLinesCount, የሰው ልጅ ግንዛቤ ሞዴሉ ከተማረው ጋር በጥሩ ሁኔታ እንዲዛመድ ለእያንዳንዱ ክፍል በባህሪው አስፈላጊነት ሰንጠረዥ ውስጥ ከፍተኛ ደረጃ ይይዛል።

ግምገማ

ለስኬት አንድ ነጠላ መለኪያ መግለፅ አስፈላጊ ነው. እኛ መረጥን። F2 - በማስታወስ እና በትክክለኛነት መካከል ያለው ሚዛን (የማስታወስ አድልዎ በመጠኑ ትልቅ ነው)። አስታውስ ለግላዊነት አጠቃቀም ጉዳይ ከትክክለኝነት የበለጠ አስፈላጊ ነው ምክንያቱም ቡድኑ ምንም አይነት ሚስጥራዊ መረጃ እንዳያመልጥ በጣም አስፈላጊ ነው (ምክንያታዊ ትክክለኛነትን በሚያረጋግጥበት ጊዜ)። የእኛ ሞዴል ትክክለኛ የF2 አፈጻጸም ግምገማ ከዚህ ወረቀት ወሰን በላይ ነው። ነገር ግን፣ በጥንቃቄ በማስተካከል በጣም አስፈላጊ ለሆኑ ሚስጥራዊነት ያላቸው ክፍሎች ከፍተኛ (0,9+) F2 ነጥብ ማግኘት እንችላለን።

ተዛማጅ ሥራ

እንደ ጥለት ማዛመድ፣ የሰነድ ተመሳሳይነት ፍለጋ እና የተለያዩ የማሽን መማሪያ ዘዴዎችን (Bayesian፣ የውሳኔ ዛፎች፣ የከ ቅርብ ጎረቤቶች እና ሌሎች ብዙ) ያሉ የተለያዩ ዘዴዎችን በመጠቀም ያልተዘጋጁ ሰነዶችን በራስ ሰር ለመመደብ ብዙ ስልተ ቀመሮች አሉ። ከእነዚህ ውስጥ ማንኛቸውም እንደ ምደባ አካል ሆነው ሊያገለግሉ ይችላሉ። ይሁን እንጂ ችግሩ መስፋፋት ነው. በዚህ ጽሑፍ ውስጥ ያለው የምደባ አቀራረብ በተለዋዋጭነት እና በአፈፃፀም ላይ ያተኮረ ነው. ይህ ወደፊት አዳዲስ ክፍሎችን እንድንደግፍ እና መዘግየት ዝቅተኛ እንዲሆን ያስችለናል።

በመረጃ አሻራ ላይም ብዙ ስራ አለ። ለምሳሌ፣ በ[7] ውስጥ ያሉ ደራሲዎች ስሱ የሆኑ የመረጃ ፍንጮችን የመቅረጽ ችግር ላይ ያተኮረ መፍትሄ ገለጹ። ዋናው ግምት መረጃው ከሚታወቁ ሚስጥራዊ መረጃዎች ስብስብ ጋር ለማዛመድ የጣት አሻራ ሊደረግ ይችላል። በ [8] ውስጥ ያሉት ደራሲዎች ተመሳሳይ የግላዊነት መፍሰስ ችግርን ይገልጻሉ፣ ነገር ግን መፍትሄቸው በአንድሮይድ ስነ-ህንፃ ላይ የተመሰረተ ነው እና የተመደቡት የተጠቃሚ እርምጃዎች የግል መረጃን መጋራት ካስከተለ ወይም ዋናው መተግበሪያ የተጠቃሚ ውሂብ ካወጣ ብቻ ነው። እዚህ ያለው ሁኔታ በተወሰነ ደረጃ የተለየ ነው ምክንያቱም የተጠቃሚ ውሂብ እንዲሁ በጣም ያልተዋቀረ ሊሆን ይችላል። ስለዚህ, ከጣት አሻራ የበለጠ ውስብስብ ዘዴ ያስፈልገናል.

በመጨረሻም፣ ለአንዳንድ ሚስጥራዊነት ያላቸው የመረጃ ዓይነቶች የውሂብ እጥረትን ለመቋቋም፣ ሠራሽ መረጃዎችን አስተዋውቀናል። በመረጃ መጨመር ላይ ትልቅ የስነ-ጽሁፍ አካል አለ፣ ለምሳሌ በ [9] ውስጥ ያሉ ደራሲዎች በስልጠና ወቅት የድምፅ መርፌን ሚና መርምረዋል እና ክትትል በሚደረግበት ትምህርት ላይ አወንታዊ ውጤቶችን አስተውለዋል። የግላዊነት አቀራረባችን የተለየ ነው ምክንያቱም ጫጫታ መረጃን ማስተዋወቅ ተቃራኒ ሊሆን ስለሚችል በምትኩ ከፍተኛ ጥራት ባለው ሰው ሰራሽ ውሂብ ላይ እናተኩራለን።

መደምደሚያ

በዚህ ጽሑፍ ውስጥ, የውሂብ ቁራጭን ለመመደብ የሚያስችል ስርዓት አቅርበናል. ይህ የግላዊነት እና የደህንነት ፖሊሲዎችን ለማስፈጸም ስርዓቶችን ለመፍጠር ያስችለናል. ሊሰፋ የሚችል መሠረተ ልማት፣ ቀጣይነት ያለው ውህደት፣ የማሽን መማር እና ከፍተኛ ጥራት ያለው የመረጃ ማረጋገጫ ለብዙ የግላዊነት ተነሳሽኖቻችን ስኬት ቁልፍ ሚና እንደሚጫወቱ አሳይተናል።

ለወደፊት ሥራ ብዙ አቅጣጫዎች አሉ. ይህ ላልታሰበ መረጃ (ፋይሎች) ድጋፍ መስጠት፣ የውሂብ አይነትን ብቻ ሳይሆን የስሜታዊነት ደረጃን መመደብ እና በስልጠና ወቅት በራስ የሚተዳደር ትምህርትን ትክክለኛ ሰው ሰራሽ ምሳሌዎችን በማመንጨት ሊያካትት ይችላል። የትኛው, በተራው, ሞዴሉ ከፍተኛውን ኪሳራ ለመቀነስ ይረዳል. የወደፊት ስራም ከማጣራት በላይ በምንሄድበት እና የተለያዩ የግላዊነት ጥሰቶች ዋና ምክንያት ትንተና በምንሰጥበት የምርመራ የስራ ሂደት ላይ ሊያተኩር ይችላል። ይህ እንደ ስሜታዊነት ትንተና (ማለትም የውሂብ አይነት የግላዊነት ትብነት ከፍተኛ ከሆነ (ለምሳሌ የተጠቃሚ አይፒ) ወይም ዝቅተኛ (ለምሳሌ የፌስቡክ ውስጣዊ አይፒ)) ባሉ ጉዳዮች ላይ ያግዛል።

የመረጃ መጽሐፍ

  1. ዴቪድ ቤን-ዳቪድ፣ ታማር ዶማኒ እና አቢግያ ታሬም። የትርጉም ድር ቴክኖሎጂዎችን በመጠቀም የድርጅት ውሂብ ምደባ። በፒተር ኤፍ ፓቴል-ሽናይደር፣ ዩዌ ፓን፣ ፓስካል ሂትለር፣ ፒተር ሚካ፣ ሌይ ዣንግ፣ ጄፍ ዚ. ፓን፣ ኢያን ሆሮክስ እና ቢርቴ ግሊም አዘጋጆች፣ የትርጉም ድር - ISWC 2010ገጽ 66–81፣ በርሊን፣ ሃይደልበርግ፣ 2010። ስፕሪንግገር በርሊን ሃይድልበርግ።
  2. የሱራኒያ ሙራሊድሃር፣ ዋይት ሎይድ፣ ሳቢያሳቺ ሮይ፣ ኮሪ ሂል፣ ኤርነስት ሊን፣ ዌይዌን ሊዩ፣ ሳታድሩ ፓን፣ ሺቫ ሻንካር፣ ቪስዋናት ሲቫኩማር፣ ሊንፔንግ ታንግ እና ሳንጄቭ ኩማር። f4: የፌስቡክ ሞቃታማ የ BLOB ማከማቻ ስርዓት። ውስጥ 11ኛው USENIX ሲምፖዚየም በኦፕሬቲንግ ሲስተም ዲዛይን እና ትግበራ (OSDI 14)፣ ገጽ 383–398፣ Broomfield፣ CO፣ October 2014. USENIX ማህበር።
  3. ቶማስ ሚኮሎቭ፣ ኢሊያ ሱትስከቨር፣ ካይ ቼን፣ ግሬግ ኤስ ኮራዶ እና ጄፍ ዲን። የተከፋፈሉ የቃላቶች እና ሀረጎች ተወካዮች እና የእነሱ ጥንቅር። በC.J.C. Burges፣ L. Bottou፣ M. Welling፣ Z. Ghahramani እና K.Q. Weinberger፣ አዘጋጆች፣ በነርቭ መረጃ ማቀናበሪያ ስርዓቶች ውስጥ ያሉ እድገቶች 26ገጽ 3111–3119 Curran Associates, Inc.፣ 2013
  4. Sergey Ioffe እና Christian Szegedy. ባች መደበኛነት፡- የውስጥ ተጓዳኝ ለውጥን በመቀነስ ጥልቅ የኔትወርክ ስልጠናን ማፋጠን። በፍራንሲስ ባች እና ዴቪድ ብሌይ፣ አዘጋጆች፣ የ32ኛው አለም አቀፍ የማሽን መማሪያ ሂደቶች ሂደቶች፣ ጥራዝ 37 የ የማሽን መማሪያ ምርምር ሂደቶችገጽ 448–456፣ ሊል፣ ፈረንሳይ፣ 07–09 ጁላይ 2015. PMLR.
  5. ሊዮ ብሬማን። የዘፈቀደ ደኖች። ማክ. ተማር።፣ 45(1)፡5–32፣ ጥቅምት 2001 ዓ.ም.
  6. ታይር ኑ ፍዩ. በመረጃ ማምረቻ ውስጥ የምደባ ዘዴዎች ቅኝት.
  7. X. Shu፣ D. Yao እና E. Bertino ሚስጥራዊነት ያለው የውሂብ መጋለጥን ግላዊነትን መጠበቅ። በመረጃ ፎረንሲክስ እና ደህንነት ላይ የIEEE ግብይቶች, 10(5):1092–1103, 2015.
  8. ዜሚን ያንግ፣ ሚን ያንግ፣ ዩዋን ዣንግ፣ ጉኦፌይ ጉ፣ ፔንግ ኒንግ እና ዢያኦያንግ ዋንግ። አፕሊንት፡ በ android ውስጥ ሚስጥራዊ የሆነ የመረጃ ስርጭትን ለግላዊነት መልቀቂያ ማወቂያ በመተንተን ላይ። ገጽ 1043–1054፣ 11 2013
  9. Qizhe Xie፣ Zihang Dai፣ Eduard H. Hovy፣ Minh-Thang Luong፣ እና Quoc V. Le. ክትትል የማይደረግበት የውሂብ መጨመር.

ለደህንነት እና ግላዊነት ሊለካ የሚችል የውሂብ ምደባ
የSkillFactory የመስመር ላይ ኮርሶችን በመውሰድ በችሎታ እና በደመወዝ የተፈለገውን ሙያ ከባዶ ወይም ደረጃ ወደ ላይ እንዴት ማግኘት እንደሚችሉ ዝርዝሮችን ያግኙ።

ተጨማሪ ኮርሶች

ምንጭ: hab.com

አስተያየት ያክሉ