በማሽን ትምህርት ውስጥ የባህሪ ምርጫ

ሃይ ሀብር!

እኛ ሬክሶፍት ጽሑፉን ወደ ራሽያኛ ተርጉመናል። በማሽን መማሪያ ውስጥ የባህሪ ምርጫ. በርዕሱ ላይ ፍላጎት ላለው ሁሉ ጠቃሚ እንደሚሆን ተስፋ እናደርጋለን.

በገሃዱ ዓለም፣ የንግድ ደንበኞች አንዳንድ ጊዜ እንደሚያስቡት መረጃ ሁል ጊዜ ንጹህ አይደለም። ለዚህም ነው የመረጃ ማውጣቱ እና የመረጃ ሽኩቻ የሚፈለገው። ሰዎች ሊለዩዋቸው የማይችሏቸውን በመጠይቅ የተዋቀረ ውሂብ ውስጥ የጎደሉ እሴቶችን እና ቅጦችን ለመለየት ይረዳል። በመረጃው ውስጥ የተገኙ ግንኙነቶችን በመጠቀም ውጤቶችን ለመተንበይ እነዚህን ቅጦች ለማግኘት እና ለመጠቀም፣ የማሽን መማር ጠቃሚ ነው።

ማንኛውንም ስልተ ቀመር ለመረዳት በመረጃው ውስጥ ያሉትን ሁሉንም ተለዋዋጮች መመልከት እና እነዚያ ተለዋዋጮች ምን እንደሚወክሉ ማወቅ ያስፈልግዎታል። ይህ ወሳኝ ነው ምክንያቱም ከውጤቶቹ በስተጀርባ ያለው ምክንያት መረጃውን በመረዳት ላይ የተመሰረተ ነው. መረጃው 5 ወይም 50 ተለዋዋጮችን ከያዘ, ሁሉንም መመርመር ይችላሉ. ከእነሱ ውስጥ 200 ቢሆኑስ? ከዚያ በቀላሉ እያንዳንዱን ተለዋዋጭ ለማጥናት በቂ ጊዜ አይኖርም. በተጨማሪም ፣ አንዳንድ ስልተ ቀመሮች ለምድብ መረጃ አይሰሩም ፣ እና ከዚያ ወደ አምሳያው ለመጨመር ሁሉንም የምድብ ዓምዶች ወደ መጠናዊ ተለዋዋጮች መለወጥ አለብዎት (በብዛት ሊመስሉ ይችላሉ ፣ ግን መለኪያዎች እነሱ ምድብ መሆናቸውን ያሳያሉ) ወደ አምሳያው ለመጨመር። ስለዚህ, የተለዋዋጮች ቁጥር ይጨምራል, እና ወደ 500 ገደማ የሚሆኑት አሉ አሁን ምን ማድረግ አለበት? አንድ ሰው መልሱ የመጠን መቀነስ ይሆናል ብሎ ያስብ ይሆናል. የመጠን ቅነሳ ስልተ ቀመሮች የመለኪያዎችን ብዛት ይቀንሳሉ ነገር ግን በትርጓሜ ላይ አሉታዊ ተጽእኖ ያሳድራሉ. የተቀሩትን በቀላሉ ለመረዳት እና ለመተርጎም በሚያደርጉበት ጊዜ ባህሪያትን የሚያስወግዱ ሌሎች ዘዴዎች ካሉስ?

ትንታኔው በእንደገና ወይም በመመደብ ላይ የተመሰረተ እንደሆነ, የባህሪ ምርጫ ስልተ ቀመሮች ሊለያዩ ይችላሉ, ነገር ግን የአተገባበር ዋናው ሀሳብ አንድ አይነት ነው.

ከፍተኛ ተዛማጅ ተለዋዋጮች

እርስ በርስ በጣም የተቆራኙ ተለዋዋጮች ለአምሳያው ተመሳሳይ መረጃ ይሰጣሉ, ስለዚህ ሁሉንም ለመተንተን መጠቀም አያስፈልግም. ለምሳሌ የመረጃ ቋቱ “የመስመር ላይ ጊዜ” እና “ጥቅም ላይ የሚውለው ትራፊክ” ባህሪያትን ከያዘ፣ በመጠኑም ቢሆን ይዛመዳሉ ብለን ልንገምት እንችላለን፣ እና ምንም እንኳን አድልዎ የሌለበት የውሂብ ናሙና ብንመርጥም ጠንካራ ትስስር እናያለን። በዚህ ሁኔታ, በአምሳያው ውስጥ ከነዚህ ተለዋዋጮች ውስጥ አንድ ብቻ ያስፈልጋል. ሁለቱንም ከተጠቀሙ፣ ሞዴሉ ከመጠን በላይ የተገጠመ እና ለአንድ የተለየ ባህሪ ያደላ ይሆናል።

ፒ-እሴቶች

እንደ መስመራዊ ሪግሬሽን ባሉ ስልተ ቀመሮች ውስጥ፣ የመጀመሪያ ስታቲስቲካዊ ሞዴል ሁልጊዜ ጥሩ ሀሳብ ነው። በዚህ ሞዴል የተገኙ በ p-እሴቶቻቸው አማካኝነት የባህሪያቱን አስፈላጊነት ለማሳየት ይረዳል. የትርጉም ደረጃውን ካዘጋጀን በኋላ የተገኘውን p-እሴቶችን እንፈትሻለን ፣ እና ማንኛውም እሴት ከተጠቀሰው የትርጉም ደረጃ በታች ከሆነ ፣ ይህ ባህሪ ጉልህ ነው ተብሎ ይታወጀል ፣ ማለትም ፣ የእሴቱ ለውጥ ወደ እሴት ለውጥ ሊያመራ ይችላል። ዒላማው.

ቀጥተኛ ምርጫ

ወደፊት መምረጫ ደረጃ በደረጃ ወደ ኋላ መመለስን የሚያካትት ዘዴ ነው። የሞዴል ግንባታ የሚጀምረው በተሟላ ዜሮ ማለትም ባዶ ሞዴል ነው, ከዚያም እያንዳንዱ ድግግሞሹ እየተገነባ ላለው ሞዴል መሻሻል የሚያደርገውን ተለዋዋጭ ይጨምራል. በአምሳያው ላይ የትኛው ተለዋዋጭ ተጨምሮ በአስፈላጊነቱ ይወሰናል. ይህ የተለያዩ መለኪያዎችን በመጠቀም ሊሰላ ይችላል. በጣም የተለመደው መንገድ ሁሉንም ተለዋዋጮች በመጠቀም በዋናው የስታቲስቲክስ ሞዴል የተገኘውን p-values ​​መጠቀም ነው። አንዳንድ ጊዜ ወደፊት መምረጡ ሞዴሉን ከመጠን በላይ ወደመገጣጠም ሊያመራ ይችላል ምክንያቱም በአምሳያው ውስጥ በጣም የተያያዙ ተለዋዋጮች ሊኖሩ ይችላሉ, ምንም እንኳን ለአምሳያው ተመሳሳይ መረጃ ቢሰጡም (ነገር ግን ሞዴሉ አሁንም መሻሻልን ያሳያል).

የተገላቢጦሽ ምርጫ

የተገላቢጦሽ ምርጫ እንዲሁ የባህሪዎችን ደረጃ በደረጃ ማስወገድን ያካትታል, ነገር ግን በተቃራኒው አቅጣጫ ከወደፊት ምርጫ ጋር ሲነጻጸር. በዚህ ሁኔታ, የመጀመሪያው ሞዴል ሁሉንም ገለልተኛ ተለዋዋጮች ያካትታል. ተለዋዋጮች በእያንዳንዱ ድግግሞሹ ውስጥ ለአዲሱ የሪግሬሽን ሞዴል ዋጋ ካላበረከቱ (በአንድ ድግግሞሽ አንድ) ይወገዳሉ. የባህሪ ማግለል በመጀመሪያው ሞዴል p-values ​​ላይ የተመሠረተ ነው። ይህ ዘዴ በጣም የተዛመዱ ተለዋዋጮችን በሚያስወግድበት ጊዜ እርግጠኛ አለመሆንም አለው።

ተደጋጋሚ ባህሪን ማስወገድ

አርኤፍኢ (RFE) ትክክለኛውን የወሳኝ ባህሪያት ብዛት ለመምረጥ በስፋት ጥቅም ላይ የዋለ ቴክኒክ/አልጎሪዝም ነው። አንዳንድ ጊዜ ዘዴው ውጤቱን የሚነኩ በርካታ "በጣም አስፈላጊ" ባህሪያትን ለማብራራት ያገለግላል; እና አንዳንድ ጊዜ በጣም ብዙ ቁጥር ያላቸውን ተለዋዋጮች ለመቀነስ (ወደ 200-400), እና ለአምሳያው ቢያንስ የተወሰነ አስተዋፅኦ የሚያደርጉ ብቻ ይቆያሉ, እና ሁሉም ሌሎች አይካተቱም. RFE የደረጃ አሰጣጥ ስርዓትን ይጠቀማል። በውሂብ ስብስብ ውስጥ ያሉት ባህሪያት ደረጃዎች ተሰጥተዋል. እነዚህ ደረጃዎች በመካከላቸው ባለው ውህደት እና በአምሳያው ውስጥ ባሉት ባህሪያት አስፈላጊነት ላይ ተመስርተው ባህሪያትን በተደጋጋሚ ለማስወገድ ያገለግላሉ። ከደረጃ ባህሪያት በተጨማሪ፣ RFE እነዚህ ባህሪያት ለተወሰኑ የባህሪያት ብዛት አስፈላጊ መሆናቸውን ወይም አለመሆናቸውን ሊያሳይ ይችላል (ምክንያቱም የተመረጠው የባህሪዎች ብዛት ጥሩ ላይሆን ስለሚችል እና በጣም ጥሩው የባህሪዎች ብዛት የበለጠ ሊሆን ይችላል) ወይም ከተመረጠው ቁጥር ያነሰ).

የባህሪ አስፈላጊነት ሥዕላዊ መግለጫ

ስለ ማሽን ትምህርት ስልተ ቀመሮች አተረጓጎም ስንነጋገር ብዙውን ጊዜ ስለ መስመራዊ ድግግሞሾች እንነጋገራለን (ይህም የገጽ-እሴቶችን በመጠቀም የባህሪያትን አስፈላጊነት ለመተንተን ያስችሎታል) እና የውሳኔ ዛፎች (በትክክል በዛፍ መልክ የባህሪዎችን አስፈላጊነት ያሳያል ፣ እና በ በተመሳሳይ ጊዜ የእነሱ ተዋረድ)። በሌላ በኩል እንደ Random Forest፣ LightGBM እና XG Boost ያሉ ስልተ ቀመሮች ብዙውን ጊዜ የባህሪ አስፈላጊነት ዲያግራምን ይጠቀማሉ፣ ማለትም የተለዋዋጮች ዲያግራም እና “የእነሱ አስፈላጊነት ቁጥራቸው” ተቀርጿል። ይህ በተለይ በንግዱ ላይ ያላቸውን ተፅእኖ በተመለከተ ለባህሪዎች አስፈላጊነት የተዋቀረ ምክንያት ማቅረብ ሲያስፈልግ በጣም ጠቃሚ ነው።

መደበኛ ማድረግ

በአድልዎ እና በልዩነት መካከል ያለውን ሚዛን ለመቆጣጠር መደበኛነት ይከናወናል። አድልዎ በስልጠናው መረጃ ስብስብ ላይ ምን ያህል ሞዴሉ እንደተሟላ ያሳያል። መዛባት በስልጠና እና በሙከራ ዳታ ስብስቦች መካከል ያለው ትንበያ ምን ያህል የተለየ እንደነበር ያሳያል። በሐሳብ ደረጃ ሁለቱም አድልዎ እና ልዩነቶች ትንሽ መሆን አለባቸው። መደበኛነት ወደ ማዳን የሚመጣው እዚህ ነው! ሁለት ዋና ቴክኒኮች አሉ-

L1 Regularization - Lasso: Lasso የሞዴል ክብደቶችን ወደ ሞዴሉ አስፈላጊነት እንዲቀይር ያስቀጣል እና እንዲያውም ሊሽራቸው ይችላል (ማለትም እነዚያን ተለዋዋጮች ከመጨረሻው ሞዴል ያስወግዱ). በተለምዶ ላስሶ ጥቅም ላይ የሚውለው የውሂብ ስብስብ ብዙ ተለዋዋጮችን ሲይዝ ነው እና አንዳንዶቹን ማግለል ሲፈልጉ ጠቃሚ ባህሪያት ሞዴሉን እንዴት እንደሚነኩ በተሻለ ለመረዳት (ይህም በላስሶ የተመረጡ እና አስፈላጊነታቸው የተሰጣቸው ባህሪያት)።

L2 Regularization - ሪጅ ዘዴ፡ የሪጅ ስራ ሁሉንም ተለዋዋጮች ማከማቸት እና በተመሳሳይ ጊዜ ለአምሳያው አፈጻጸም ባደረጉት አስተዋጽዖ መሰረት ለእነሱ አስፈላጊነት መስጠት ነው። የመረጃ ቋቱ አነስተኛ ቁጥር ያላቸው ተለዋዋጮችን ከያዘ እና ሁሉም የተገኙትን ግኝቶች እና ውጤቶችን ለመተርጎም አስፈላጊ ከሆነ ሪጅ ጥሩ ምርጫ ይሆናል።

ሪጅ ሁሉንም ተለዋዋጮች ስለሚይዝ እና ላስሶ ጠቃሚነታቸውን ለማረጋገጥ የተሻለ ስራ ስለሚሰራ፣ የላስቲክ-ኔት በመባል የሚታወቁትን የሁለቱም መደበኛ ስራዎች ምርጥ ባህሪያትን የሚያጣምር ስልተ ቀመር ተፈጠረ።

ለማሽን መማሪያ ባህሪያትን ለመምረጥ ብዙ ተጨማሪ መንገዶች አሉ, ነገር ግን ዋናው ሀሳብ ሁልጊዜ ተመሳሳይ ነው: የተለዋዋጮችን አስፈላጊነት ያሳዩ እና በተፈጠረው አስፈላጊነት ላይ በመመርኮዝ አንዳንዶቹን ያስወግዱ. አስፈላጊነት አንድ ብቻ ሳይሆን ዋና ዋና ባህሪያትን ለማግኘት የሚያገለግሉ አጠቃላይ የመለኪያዎች እና ገበታዎች ስብስብ ስለሆነ በጣም ተጨባጭ ቃል ነው።

ስላነበቡ እናመሰግናለን! መልካም ትምህርት!

ምንጭ: hab.com

አስተያየት ያክሉ