የአስማት ስብስብ ትምህርት

ሃይ ሀብር! የውሂብ መሐንዲሶች እና የማሽን መማሪያ ስፔሻሊስቶችን ወደ ነጻ የማሳያ ትምህርት እንጋብዛለን። "የመስመር ላይ ምክሮችን ምሳሌ በመጠቀም የኤምኤል ሞዴሎችን ወደ ኢንዱስትሪያዊ አካባቢ መውጣቱ". እንዲሁም ሉካ ሞኖ - በ CDP SpA የፋይናንሺያል ትንታኔ ኃላፊ የሚለውን ጽሁፍ አትምተናል።

በጣም ጠቃሚ እና ቀላል ከሆኑ የማሽን መማሪያ ዘዴዎች አንዱ ስብስብ መማር ነው። የስብስብ ትምህርት ከXGBoost፣ Bagging፣ Random Forest እና ከሌሎች በርካታ ስልተ ቀመሮች በስተጀርባ ያለው ዘዴ ነው።

በዳታ ሳይንስ ላይ ብዙ ምርጥ መጣጥፎች አሉ፣ ግን ሁለት ታሪኮችን መርጫለሁ (መጀመሪያ። и ሰከንድ) በጣም ወደድኩት። ስለዚህ ስለ ኤል ሌላ ጽሑፍ ለምን ጻፍ? ምክንያቱም ላሳይህ እፈልጋለሁ ከቀላል ምሳሌ ጋር እንዴት እንደሚሰራ እዚህ ምንም አስማት እንደሌለ እንድረዳ አድርጎኛል.

ኤልን ለመጀመሪያ ጊዜ በተግባር ሳየው (ከአንዳንድ በጣም ቀላል የተሃድሶ ሞዴሎች ጋር በመስራት ላይ) ዓይኖቼን ማመን አልቻልኩም, እና ይህን ዘዴ ያስተማረኝን ፕሮፌሰር አሁንም አስታውሳለሁ.

ሁለት የተለያዩ ሞዴሎች (ሁለት ደካማ የስልጠና ስልተ ቀመሮች) በመለኪያዎች ነበሩኝ ከናሙና ውጪ R² ከ 0,90 እና 0,93 ጋር እኩል ነው። ውጤቱን ከማየቴ በፊት፣ በሁለቱ የመጀመሪያ እሴቶች መካከል R² የሆነ ቦታ አገኛለሁ ብዬ አስቤ ነበር። በሌላ አገላለጽ፣ ኤል አንድ ሞዴል እንደ መጥፎው ሞዴል ደካማ አፈጻጸም እንዲያሳይ ሊያገለግል ይችላል ብዬ አምናለው፣ ነገር ግን በጣም ጥሩው ሞዴል ሊሠራበት የሚችለውን ያህል አይደለም።

በጣም የሚገርመኝ፣ በቀላሉ ትንበያዎቹን በአማካይ 0,95 R² አስገኝቷል። 

መጀመሪያ ላይ ስህተቱን መፈለግ ጀመርኩ, ነገር ግን እዚህ አንዳንድ አስማት መደበቅ ሊኖር ይችላል ብዬ አሰብኩ!

የስብስብ ትምህርት ምንድን ነው።

ከኤልኤል ጋር, የበለጠ ጠንካራ እና ውጤታማ ሞዴል ለማምረት የሁለት ወይም ከዚያ በላይ ሞዴሎችን ትንበያዎች ማዋሃድ ይችላሉ. ከሞዴል ስብስቦች ጋር ለመስራት ብዙ ዘዴዎች አሉ። እዚህ ላይ አጠቃላይ እይታ ለመስጠት ሁለቱን በጣም ጠቃሚ የሆኑትን እነካለሁ።

በ እገዛ መመለሻ ያሉትን ሞዴሎች አፈጻጸም በአማካይ ማድረግ ይቻላል.

በ እገዛ ምደባ ሞዴሎችን መለያዎችን እንዲመርጡ እድል መስጠት ይችላሉ. ብዙውን ጊዜ የተመረጠው መለያ በአዲሱ ሞዴል የሚመረጠው ነው.

ለምን ኤል የተሻለ ይሰራል

EL የተሻለ የሚሰራበት ዋናው ምክንያት እያንዳንዱ ትንበያ ስህተት ስላለ ነው (ይህን የምናውቀው ከፕሮባቢሊቲ ቲዎሪ ነው)፣ ሁለት ትንበያዎችን ማጣመር ስህተቱን ለመቀነስ ይረዳል፣ እና ስለዚህ የአፈጻጸም መለኪያዎችን (RMSE፣ R²፣ ​​ወዘተ) ማሻሻል ነው። መ.

የሚከተለው ንድፍ ሁለት ደካማ ስልተ ቀመሮች በመረጃ ስብስብ ላይ እንዴት እንደሚሠሩ ያሳያል። የመጀመሪያው አልጎሪዝም ከሚያስፈልገው በላይ ተለቅ ያለ ቁልቁል ሲኖረው ሁለተኛው ደግሞ ወደ ዜሮ የሚጠጋ (ምናልባትም ከመጠን በላይ በመስተካከል) ነው። ግን የባንዱ በጣም የተሻሉ ውጤቶችን ያሳያል. 

የ R² አመልካች ከተመለከቱ፣ ለመጀመርያው እና ለሁለተኛው የሥልጠና አልጎሪዝም በቅደም ተከተል -0.01¹፣ 0.22 እኩል ይሆናል፣ ለስብስቡ ግን 0.73 እኩል ይሆናል።

የአስማት ስብስብ ትምህርት

አንድ ስልተ ቀመር እንደዚህ ባለው መሰረታዊ ምሳሌ ላይ እንኳን መጥፎ ሞዴል የሚሆንበት ብዙ ምክንያቶች አሉ፡-ምናልባት ከልክ በላይ መገጣጠምን ለማስቀረት መደበኛ ማድረግን ለመጠቀም ወስነሃል፣ ወይም አንዳንድ ያልተለመዱ ነገሮችን ለማስወገድ ወስነሃል ወይም ምናልባት ፖሊኖሚል ሪግሬሽን ተጠቅመህ ተሳስተሃል። ዲግሪ (ለምሳሌ ፣ የሁለተኛ ዲግሪ ፖሊኖሚል እንጠቀማለን ፣ እና የፈተና መረጃው ሶስተኛው ዲግሪ የተሻለ የሚስማማበትን ግልጽ asymmetry ያሳያል)።

ኤል በተሻለ ሁኔታ ሲሰራ

ከተመሳሳይ መረጃ ጋር የሚሰሩ ሁለት የመማሪያ ስልተ ቀመሮችን እንመልከት።

የአስማት ስብስብ ትምህርት

እዚህ ሁለቱን ሞዴሎች በማጣመር አፈጻጸምን ብዙም እንዳላሻሻሉ ማየት ይችላሉ. መጀመሪያ ላይ ለሁለቱ የሥልጠና ስልተ ቀመሮች የ R² አመላካቾች ከ -0,37 እና 0,22 ጋር እኩል ናቸው፣ እና ለስብስቡ -0,04 ሆኖ ተገኝቷል። ያም ማለት የኤልኤል ሞዴል የአመላካቾችን አማካይ ዋጋ ተቀብሏል.

ይሁን እንጂ በእነዚህ ሁለት ምሳሌዎች መካከል ትልቅ ልዩነት አለ-በመጀመሪያው ምሳሌ, የአምሳያው ስህተቶች በአሉታዊ መልኩ ተያይዘዋል, እና በሁለተኛው ውስጥ, በአዎንታዊ መልኩ የተያያዙ ናቸው (የሶስቱ ሞዴሎች ቅንጅቶች አልተገመቱም, ነገር ግን በቀላሉ በ ደራሲው እንደ ምሳሌ)

ስለዚህ፣ የስብስብ ትምህርት በማንኛውም ሁኔታ አድልዎ/ልዩነት ሚዛንን ለማሻሻል ጥቅም ላይ ሊውል ይችላል፣ ግን መቼ የሞዴል ስህተቶች በአዎንታዊ መልኩ የተቆራኙ አይደሉም፣ ኤልን መጠቀም የተሻሻለ አፈጻጸምን ሊያስከትል ይችላል።.

ተመሳሳይ እና የተለያዩ ሞዴሎች

በጣም ብዙ ጊዜ EL ተመሳሳይ ሞዴሎች ላይ ጥቅም ላይ ይውላል (እንደ በዚህ ምሳሌ ወይም የዘፈቀደ ደን), ነገር ግን በእርግጥ የተለያዩ ሞዴሎችን (ሊኒየር regression + የነርቭ አውታረ መረብ + XGBoost) የተለያዩ የማብራሪያ ተለዋዋጮች ስብስቦች ጋር ማዋሃድ ይችላሉ. ይህ ምናልባት የማይዛመዱ ስህተቶችን እና የተሻሻለ አፈጻጸምን ሊያስከትል ይችላል።

ከፖርትፎሊዮ ልዩነት ጋር ማወዳደር

ኤል በፖርትፎሊዮ ቲዎሪ ውስጥ ዳይቨርሲፊኬሽን በተመሳሳይ መልኩ ይሰራል፣ነገር ግን ለእኛ በጣም የተሻለው ነው። 

በሚለያዩበት ጊዜ፣ በማይዛመዱ አክሲዮኖች ላይ ኢንቨስት በማድረግ የአፈጻጸምዎን ልዩነት ለመቀነስ ይሞክራሉ። በደንብ የተለያየ የአክሲዮን ፖርትፎሊዮ ከመጥፎ የግለሰብ አክሲዮን በተሻለ ሁኔታ ይሰራል፣ ነገር ግን ከምርጥ የተሻለ አይሆንም።

ዋረን ባፌትን ለመጥቀስ፡- 

"ልዩነት ከድንቁርና መከላከል ነው ፣ እሱ የሚያደርገውን ለማያውቅ ሰው [ልዩነት] በጣም ትንሽ ትርጉም አይሰጥም።

በማሽን መማሪያ ውስጥ፣ EL የእርስዎን የሞዴል ልዩነት ለመቀነስ ይረዳል፣ ነገር ግን ከምርጥ ኦሪጅናል ሞዴል የተሻለ አጠቃላይ አፈጻጸም ያለው ሞዴል ሊያመጣ ይችላል።

ውጤቱን በአጠቃላይ እናጠቃልል

ብዙ ሞዴሎችን ወደ አንድ ማጣመር የልዩነት አድሏዊነትን ችግር ለመፍታት እና አፈፃፀሙን ለማሻሻል የሚያስችል በአንጻራዊነት ቀላል ዘዴ ነው።

በደንብ የሚሰሩ ሁለት ወይም ከዚያ በላይ ሞዴሎች ካሉዎት ከነሱ መካከል አይምረጡ: ሁሉንም ይጠቀሙ (ግን በጥንቃቄ)!

በዚህ አቅጣጫ ለማደግ ፍላጎት አለዎት? ለነጻ ማሳያ ትምህርት ይመዝገቡ "የመስመር ላይ ምክሮችን ምሳሌ በመጠቀም የኤምኤል ሞዴሎችን ወደ ኢንዱስትሪያዊ አካባቢ መውጣቱ" እና ይሳተፉ ከ Andrey Kuznetsov ጋር የመስመር ላይ ስብሰባ - የማሽን መማሪያ መሐንዲስ በ Mail.ru ቡድን።

ምንጭ: hab.com

አስተያየት ያክሉ