మేజిక్ సమిష్టి అభ్యాసం

హే హబ్ర్! మేము ఉచిత డెమో పాఠానికి డేటా ఇంజనీర్‌లు మరియు మెషిన్ లెర్నింగ్ నిపుణులను ఆహ్వానిస్తున్నాము "ఆన్‌లైన్ సిఫార్సుల ఉదాహరణను ఉపయోగించి పారిశ్రామిక వాతావరణంలోకి ML నమూనాల అవుట్‌పుట్". మేము లూకా మొన్నో - CDP SpAలో ఫైనాన్షియల్ అనలిటిక్స్ హెడ్ అనే కథనాన్ని కూడా ప్రచురిస్తాము.

అత్యంత ఉపయోగకరమైన మరియు సరళమైన యంత్ర అభ్యాస పద్ధతులలో ఒకటి సమిష్టి అభ్యాసం. సమిష్టి అభ్యాసం అనేది XGBoost, బ్యాగింగ్, రాండమ్ ఫారెస్ట్ మరియు అనేక ఇతర అల్గారిథమ్‌ల వెనుక ఉన్న పద్ధతి.

డేటా సైన్స్ వైపు చాలా గొప్ప కథనాలు ఉన్నాయి, కానీ నేను రెండు కథలను ఎంచుకున్నాను (మొదటి и రెండవ) ఇది నాకు బాగా నచ్చింది. కాబట్టి EL గురించి మరొక కథనాన్ని ఎందుకు వ్రాయాలి? ఎందుకంటే నేను మీకు చూపించాలనుకుంటున్నాను ఒక సాధారణ ఉదాహరణతో ఇది ఎలా పని చేస్తుంది, ఇక్కడ మ్యాజిక్ లేదని నాకు అర్థమైంది.

నేను మొదట EL చర్యను చూసినప్పుడు (కొన్ని చాలా సులభమైన రిగ్రెషన్ మోడల్‌లతో పని చేయడం) నా కళ్ళను నేను నమ్మలేకపోయాను మరియు ఈ పద్ధతిని నాకు నేర్పించిన ప్రొఫెసర్‌ని నేను ఇప్పటికీ గుర్తుంచుకున్నాను.

నేను కొలమానాలతో రెండు వేర్వేరు నమూనాలను (రెండు బలహీనమైన శిక్షణా అల్గారిథమ్‌లు) కలిగి ఉన్నాను నమూనా వెలుపల R² వరుసగా 0,90 మరియు 0,93కి సమానం. ఫలితాన్ని చూసే ముందు, నేను రెండు అసలు విలువల మధ్య ఎక్కడో R²ని పొందుతానని అనుకున్నాను. మరో మాటలో చెప్పాలంటే, మోడల్‌ను చెత్త మోడల్‌గా పేలవంగా ప్రదర్శించడానికి EL ఉపయోగించబడుతుందని నేను నమ్ముతున్నాను, కానీ ఉత్తమమైన మోడల్ పనితీరును కూడా అలాగే చేయదు.

నా గొప్ప ఆశ్చర్యానికి, అంచనాల సగటు సగటు 0,95 R²ని ఇచ్చింది. 

మొదట నేను లోపం కోసం వెతకడం ప్రారంభించాను, కాని ఇక్కడ ఏదో మాయాజాలం దాగి ఉండవచ్చని నేను అనుకున్నాను!

సమిష్టి అభ్యాసం అంటే ఏమిటి

ELతో, మీరు మరింత పటిష్టమైన మరియు పనితీరు గల మోడల్‌ను రూపొందించడానికి రెండు లేదా అంతకంటే ఎక్కువ మోడల్‌ల అంచనాలను మిళితం చేయవచ్చు. మోడల్ బృందాలతో పనిచేయడానికి అనేక పద్ధతులు ఉన్నాయి. అవలోకనం ఇవ్వడానికి ఇక్కడ నేను రెండు అత్యంత ఉపయోగకరమైన వాటిని తాకుతాను.

సహాయంతో తిరోగమనం అందుబాటులో ఉన్న మోడళ్ల పనితీరును సగటున చేయడం సాధ్యపడుతుంది.

సహాయంతో వర్గీకరణ మీరు లేబుల్‌లను ఎంచుకోవడానికి మోడల్‌లకు అవకాశం ఇవ్వవచ్చు. చాలా తరచుగా ఎంపిక చేయబడిన లేబుల్ కొత్త మోడల్ ద్వారా ఎంపిక చేయబడుతుంది.

EL ఎందుకు మెరుగ్గా పనిచేస్తుంది

EL మెరుగ్గా పనిచేయడానికి ప్రధాన కారణం ఏమిటంటే, ప్రతి అంచనాలో లోపం ఉంటుంది (ఇది సంభావ్యత సిద్ధాంతం నుండి మనకు తెలుసు), రెండు అంచనాలను కలపడం వలన లోపాన్ని తగ్గించడంలో సహాయపడుతుంది మరియు అందువల్ల పనితీరు కొలమానాలను మెరుగుపరచవచ్చు (RMSE, R², మొదలైనవి). d.).

డేటా సెట్‌లో రెండు బలహీనమైన అల్గారిథమ్‌లు ఎలా పనిచేస్తాయో క్రింది రేఖాచిత్రం చూపుతుంది. మొదటి అల్గోరిథం అవసరమైన దానికంటే పెద్ద వాలును కలిగి ఉంది, రెండవది దాదాపు సున్నా (బహుశా ఓవర్ రెగ్యులరైజేషన్ వల్ల కావచ్చు). కానీ సమిష్టి చాలా మెరుగైన ఫలితాలను చూపుతుంది. 

మీరు R² సూచికను చూస్తే, మొదటి మరియు రెండవ శిక్షణ అల్గోరిథం కోసం ఇది వరుసగా -0.01¹, 0.22కి సమానంగా ఉంటుంది, అయితే సమిష్టికి ఇది 0.73కి సమానంగా ఉంటుంది.

మేజిక్ సమిష్టి అభ్యాసం

ఇలాంటి ప్రాథమిక ఉదాహరణలో కూడా అల్గోరిథం చెడు నమూనాగా ఉండటానికి అనేక కారణాలు ఉన్నాయి: మీరు ఓవర్‌ఫిట్టింగ్‌ను నివారించడానికి రెగ్యులరైజేషన్‌ని ఉపయోగించాలని నిర్ణయించుకున్నారు, లేదా మీరు కొన్ని క్రమరాహిత్యాలను తోసిపుచ్చకూడదని నిర్ణయించుకున్నారు, లేదా మీరు బహుపది రిగ్రెషన్‌ని ఉపయోగించి తప్పు చేసి ఉండవచ్చు డిగ్రీ (ఉదాహరణకు, మేము రెండవ డిగ్రీ యొక్క బహుపదిని ఉపయోగించాము మరియు పరీక్ష డేటా స్పష్టమైన అసమానతను చూపుతుంది, దీనికి మూడవ డిగ్రీ బాగా సరిపోతుంది).

EL మెరుగ్గా పనిచేసినప్పుడు

ఒకే డేటాతో పనిచేసే రెండు లెర్నింగ్ అల్గారిథమ్‌లను చూద్దాం.

మేజిక్ సమిష్టి అభ్యాసం

రెండు మోడళ్లను కలపడం వల్ల పనితీరు మెరుగుపడలేదని ఇక్కడ మీరు చూడవచ్చు. ప్రారంభంలో, రెండు శిక్షణా అల్గారిథమ్‌ల కోసం, R² సూచికలు వరుసగా -0,37 మరియు 0,22కి సమానం, మరియు సమిష్టికి ఇది -0,04 గా మారింది. అంటే, EL మోడల్ సూచికల సగటు విలువను పొందింది.

అయితే, ఈ రెండు ఉదాహరణల మధ్య పెద్ద వ్యత్యాసం ఉంది: మొదటి ఉదాహరణలో, మోడల్ లోపాలు ప్రతికూలంగా పరస్పర సంబంధం కలిగి ఉన్నాయి మరియు రెండవది, అవి సానుకూలంగా పరస్పర సంబంధం కలిగి ఉన్నాయి (మూడు నమూనాల గుణకాలు అంచనా వేయబడలేదు, కానీ అవి కేవలం ఎంపిక చేయబడ్డాయి ఉదాహరణగా రచయిత.)

కాబట్టి, సమిష్టి అభ్యాసాన్ని ఏ సందర్భంలోనైనా బయాస్/వేరియెన్స్ బ్యాలెన్స్‌ని మెరుగుపరచడానికి ఉపయోగించవచ్చు, కానీ ఎప్పుడు మోడల్ ఎర్రర్‌లు సానుకూలంగా పరస్పర సంబంధం కలిగి ఉండవు, ELని ఉపయోగించడం వలన పనితీరు మెరుగుపడవచ్చు.

సజాతీయ మరియు భిన్నమైన నమూనాలు

చాలా తరచుగా EL సజాతీయ నమూనాలపై ఉపయోగించబడుతుంది (ఈ ఉదాహరణ లేదా యాదృచ్ఛిక అటవీ), కానీ వాస్తవానికి మీరు వేర్వేరు నమూనాలను (లీనియర్ రిగ్రెషన్ + న్యూరల్ నెట్‌వర్క్ + XGBoost) వివిధ రకాల వివరణాత్మక వేరియబుల్స్‌తో కలపవచ్చు. ఇది పరస్పర సంబంధం లేని లోపాలు మరియు మెరుగైన పనితీరుకు దారి తీస్తుంది.

పోర్ట్‌ఫోలియో డైవర్సిఫికేషన్‌తో పోలిక

EL పోర్ట్‌ఫోలియో థియరీలో డైవర్సిఫికేషన్ మాదిరిగానే పనిచేస్తుంది, కానీ మనకు చాలా మంచిది. 

వైవిధ్యభరితమైనప్పుడు, మీరు పరస్పర సంబంధం లేని స్టాక్‌లలో పెట్టుబడి పెట్టడం ద్వారా మీ పనితీరు యొక్క వ్యత్యాసాన్ని తగ్గించడానికి ప్రయత్నిస్తారు. స్టాక్‌ల యొక్క బాగా వైవిధ్యభరితమైన పోర్ట్‌ఫోలియో చెత్త వ్యక్తిగత స్టాక్ కంటే మెరుగ్గా పని చేస్తుంది, కానీ ఉత్తమమైనది కంటే మెరుగ్గా ఉండదు.

వారెన్ బఫెట్‌ను ఉటంకిస్తూ: 

"వైవిధ్యీకరణ అనేది అజ్ఞానానికి వ్యతిరేకంగా రక్షణ; అతను ఏమి చేస్తున్నాడో తెలియని వ్యక్తికి, ఇది [వైవిధ్యీకరణ] చాలా తక్కువ అర్ధమే."

మెషిన్ లెర్నింగ్‌లో, EL మీ మోడల్ యొక్క వ్యత్యాసాన్ని తగ్గించడంలో సహాయపడుతుంది, అయితే ఇది ఉత్తమ ఒరిజినల్ మోడల్ కంటే మెరుగైన పనితీరుతో మోడల్‌కు దారితీయవచ్చు.

లెట్ యొక్క ఫలితాలను సంగ్రహించండి

బహుళ మోడళ్లను ఒకటిగా కలపడం అనేది సాపేక్షంగా సరళమైన సాంకేతికత, ఇది వ్యత్యాస పక్షపాత సమస్యను పరిష్కరించడానికి మరియు పనితీరును మెరుగుపరచడానికి దారితీస్తుంది.

మీకు బాగా పని చేసే రెండు లేదా అంతకంటే ఎక్కువ మోడల్‌లు ఉంటే, వాటి మధ్య ఎంచుకోవద్దు: వాటన్నింటినీ ఉపయోగించండి (కానీ జాగ్రత్తగా)!

ఈ దిశలో అభివృద్ధి చెందడానికి మీకు ఆసక్తి ఉందా? ఉచిత డెమో పాఠం కోసం సైన్ అప్ చేయండి "ఆన్‌లైన్ సిఫార్సుల ఉదాహరణను ఉపయోగించి పారిశ్రామిక వాతావరణంలోకి ML నమూనాల అవుట్‌పుట్" మరియు పాల్గొనండి ఆండ్రీ కుజ్నెత్సోవ్‌తో ఆన్‌లైన్ సమావేశం - Mail.ru గ్రూప్‌లో మెషిన్ లెర్నింగ్ ఇంజనీర్.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి