అత్యంత ఉపయోగకరమైన మరియు సరళమైన యంత్ర అభ్యాస పద్ధతులలో ఒకటి సమిష్టి అభ్యాసం. సమిష్టి అభ్యాసం అనేది XGBoost, బ్యాగింగ్, రాండమ్ ఫారెస్ట్ మరియు అనేక ఇతర అల్గారిథమ్ల వెనుక ఉన్న పద్ధతి.
డేటా సైన్స్ వైపు చాలా గొప్ప కథనాలు ఉన్నాయి, కానీ నేను రెండు కథలను ఎంచుకున్నాను (మొదటి и రెండవ) ఇది నాకు బాగా నచ్చింది. కాబట్టి EL గురించి మరొక కథనాన్ని ఎందుకు వ్రాయాలి? ఎందుకంటే నేను మీకు చూపించాలనుకుంటున్నాను ఒక సాధారణ ఉదాహరణతో ఇది ఎలా పని చేస్తుంది, ఇక్కడ మ్యాజిక్ లేదని నాకు అర్థమైంది.
నేను మొదట EL చర్యను చూసినప్పుడు (కొన్ని చాలా సులభమైన రిగ్రెషన్ మోడల్లతో పని చేయడం) నా కళ్ళను నేను నమ్మలేకపోయాను మరియు ఈ పద్ధతిని నాకు నేర్పించిన ప్రొఫెసర్ని నేను ఇప్పటికీ గుర్తుంచుకున్నాను.
నేను కొలమానాలతో రెండు వేర్వేరు నమూనాలను (రెండు బలహీనమైన శిక్షణా అల్గారిథమ్లు) కలిగి ఉన్నాను నమూనా వెలుపల R² వరుసగా 0,90 మరియు 0,93కి సమానం. ఫలితాన్ని చూసే ముందు, నేను రెండు అసలు విలువల మధ్య ఎక్కడో R²ని పొందుతానని అనుకున్నాను. మరో మాటలో చెప్పాలంటే, మోడల్ను చెత్త మోడల్గా పేలవంగా ప్రదర్శించడానికి EL ఉపయోగించబడుతుందని నేను నమ్ముతున్నాను, కానీ ఉత్తమమైన మోడల్ పనితీరును కూడా అలాగే చేయదు.
నా గొప్ప ఆశ్చర్యానికి, అంచనాల సగటు సగటు 0,95 R²ని ఇచ్చింది.
మొదట నేను లోపం కోసం వెతకడం ప్రారంభించాను, కాని ఇక్కడ ఏదో మాయాజాలం దాగి ఉండవచ్చని నేను అనుకున్నాను!
సమిష్టి అభ్యాసం అంటే ఏమిటి
ELతో, మీరు మరింత పటిష్టమైన మరియు పనితీరు గల మోడల్ను రూపొందించడానికి రెండు లేదా అంతకంటే ఎక్కువ మోడల్ల అంచనాలను మిళితం చేయవచ్చు. మోడల్ బృందాలతో పనిచేయడానికి అనేక పద్ధతులు ఉన్నాయి. అవలోకనం ఇవ్వడానికి ఇక్కడ నేను రెండు అత్యంత ఉపయోగకరమైన వాటిని తాకుతాను.
సహాయంతో తిరోగమనం అందుబాటులో ఉన్న మోడళ్ల పనితీరును సగటున చేయడం సాధ్యపడుతుంది.
సహాయంతో వర్గీకరణ మీరు లేబుల్లను ఎంచుకోవడానికి మోడల్లకు అవకాశం ఇవ్వవచ్చు. చాలా తరచుగా ఎంపిక చేయబడిన లేబుల్ కొత్త మోడల్ ద్వారా ఎంపిక చేయబడుతుంది.
EL ఎందుకు మెరుగ్గా పనిచేస్తుంది
EL మెరుగ్గా పనిచేయడానికి ప్రధాన కారణం ఏమిటంటే, ప్రతి అంచనాలో లోపం ఉంటుంది (ఇది సంభావ్యత సిద్ధాంతం నుండి మనకు తెలుసు), రెండు అంచనాలను కలపడం వలన లోపాన్ని తగ్గించడంలో సహాయపడుతుంది మరియు అందువల్ల పనితీరు కొలమానాలను మెరుగుపరచవచ్చు (RMSE, R², మొదలైనవి). d.).
డేటా సెట్లో రెండు బలహీనమైన అల్గారిథమ్లు ఎలా పనిచేస్తాయో క్రింది రేఖాచిత్రం చూపుతుంది. మొదటి అల్గోరిథం అవసరమైన దానికంటే పెద్ద వాలును కలిగి ఉంది, రెండవది దాదాపు సున్నా (బహుశా ఓవర్ రెగ్యులరైజేషన్ వల్ల కావచ్చు). కానీ సమిష్టి చాలా మెరుగైన ఫలితాలను చూపుతుంది.
మీరు R² సూచికను చూస్తే, మొదటి మరియు రెండవ శిక్షణ అల్గోరిథం కోసం ఇది వరుసగా -0.01¹, 0.22కి సమానంగా ఉంటుంది, అయితే సమిష్టికి ఇది 0.73కి సమానంగా ఉంటుంది.
ఇలాంటి ప్రాథమిక ఉదాహరణలో కూడా అల్గోరిథం చెడు నమూనాగా ఉండటానికి అనేక కారణాలు ఉన్నాయి: మీరు ఓవర్ఫిట్టింగ్ను నివారించడానికి రెగ్యులరైజేషన్ని ఉపయోగించాలని నిర్ణయించుకున్నారు, లేదా మీరు కొన్ని క్రమరాహిత్యాలను తోసిపుచ్చకూడదని నిర్ణయించుకున్నారు, లేదా మీరు బహుపది రిగ్రెషన్ని ఉపయోగించి తప్పు చేసి ఉండవచ్చు డిగ్రీ (ఉదాహరణకు, మేము రెండవ డిగ్రీ యొక్క బహుపదిని ఉపయోగించాము మరియు పరీక్ష డేటా స్పష్టమైన అసమానతను చూపుతుంది, దీనికి మూడవ డిగ్రీ బాగా సరిపోతుంది).
EL మెరుగ్గా పనిచేసినప్పుడు
ఒకే డేటాతో పనిచేసే రెండు లెర్నింగ్ అల్గారిథమ్లను చూద్దాం.
రెండు మోడళ్లను కలపడం వల్ల పనితీరు మెరుగుపడలేదని ఇక్కడ మీరు చూడవచ్చు. ప్రారంభంలో, రెండు శిక్షణా అల్గారిథమ్ల కోసం, R² సూచికలు వరుసగా -0,37 మరియు 0,22కి సమానం, మరియు సమిష్టికి ఇది -0,04 గా మారింది. అంటే, EL మోడల్ సూచికల సగటు విలువను పొందింది.
అయితే, ఈ రెండు ఉదాహరణల మధ్య పెద్ద వ్యత్యాసం ఉంది: మొదటి ఉదాహరణలో, మోడల్ లోపాలు ప్రతికూలంగా పరస్పర సంబంధం కలిగి ఉన్నాయి మరియు రెండవది, అవి సానుకూలంగా పరస్పర సంబంధం కలిగి ఉన్నాయి (మూడు నమూనాల గుణకాలు అంచనా వేయబడలేదు, కానీ అవి కేవలం ఎంపిక చేయబడ్డాయి ఉదాహరణగా రచయిత.)
కాబట్టి, సమిష్టి అభ్యాసాన్ని ఏ సందర్భంలోనైనా బయాస్/వేరియెన్స్ బ్యాలెన్స్ని మెరుగుపరచడానికి ఉపయోగించవచ్చు, కానీ ఎప్పుడు మోడల్ ఎర్రర్లు సానుకూలంగా పరస్పర సంబంధం కలిగి ఉండవు, ELని ఉపయోగించడం వలన పనితీరు మెరుగుపడవచ్చు.
సజాతీయ మరియు భిన్నమైన నమూనాలు
చాలా తరచుగా EL సజాతీయ నమూనాలపై ఉపయోగించబడుతుంది (ఈ ఉదాహరణ లేదా యాదృచ్ఛిక అటవీ), కానీ వాస్తవానికి మీరు వేర్వేరు నమూనాలను (లీనియర్ రిగ్రెషన్ + న్యూరల్ నెట్వర్క్ + XGBoost) వివిధ రకాల వివరణాత్మక వేరియబుల్స్తో కలపవచ్చు. ఇది పరస్పర సంబంధం లేని లోపాలు మరియు మెరుగైన పనితీరుకు దారి తీస్తుంది.
పోర్ట్ఫోలియో డైవర్సిఫికేషన్తో పోలిక
EL పోర్ట్ఫోలియో థియరీలో డైవర్సిఫికేషన్ మాదిరిగానే పనిచేస్తుంది, కానీ మనకు చాలా మంచిది.
వైవిధ్యభరితమైనప్పుడు, మీరు పరస్పర సంబంధం లేని స్టాక్లలో పెట్టుబడి పెట్టడం ద్వారా మీ పనితీరు యొక్క వ్యత్యాసాన్ని తగ్గించడానికి ప్రయత్నిస్తారు. స్టాక్ల యొక్క బాగా వైవిధ్యభరితమైన పోర్ట్ఫోలియో చెత్త వ్యక్తిగత స్టాక్ కంటే మెరుగ్గా పని చేస్తుంది, కానీ ఉత్తమమైనది కంటే మెరుగ్గా ఉండదు.
వారెన్ బఫెట్ను ఉటంకిస్తూ:
"వైవిధ్యీకరణ అనేది అజ్ఞానానికి వ్యతిరేకంగా రక్షణ; అతను ఏమి చేస్తున్నాడో తెలియని వ్యక్తికి, ఇది [వైవిధ్యీకరణ] చాలా తక్కువ అర్ధమే."
మెషిన్ లెర్నింగ్లో, EL మీ మోడల్ యొక్క వ్యత్యాసాన్ని తగ్గించడంలో సహాయపడుతుంది, అయితే ఇది ఉత్తమ ఒరిజినల్ మోడల్ కంటే మెరుగైన పనితీరుతో మోడల్కు దారితీయవచ్చు.
లెట్ యొక్క ఫలితాలను సంగ్రహించండి
బహుళ మోడళ్లను ఒకటిగా కలపడం అనేది సాపేక్షంగా సరళమైన సాంకేతికత, ఇది వ్యత్యాస పక్షపాత సమస్యను పరిష్కరించడానికి మరియు పనితీరును మెరుగుపరచడానికి దారితీస్తుంది.
మీకు బాగా పని చేసే రెండు లేదా అంతకంటే ఎక్కువ మోడల్లు ఉంటే, వాటి మధ్య ఎంచుకోవద్దు: వాటన్నింటినీ ఉపయోగించండి (కానీ జాగ్రత్తగా)!