🥇మెషిన్ లెర్నింగ్‌లో ఫీచర్ ఎంపిక

హే హబ్ర్!

Reksoft వద్ద మేము కథనాన్ని రష్యన్ భాషలోకి అనువదించాము మెషిన్ లెర్నింగ్‌లో ఫీచర్ ఎంపిక. అంశంపై ఆసక్తి ఉన్న ప్రతి ఒక్కరికీ ఇది ఉపయోగకరంగా ఉంటుందని మేము ఆశిస్తున్నాము.

వాస్తవ ప్రపంచంలో, వ్యాపార కస్టమర్‌లు కొన్నిసార్లు అనుకున్నట్లుగా డేటా ఎల్లప్పుడూ శుభ్రంగా ఉండదు. అందుకే డేటా మైనింగ్ మరియు డేటా రాంగ్లింగ్‌కు డిమాండ్ ఉంది. మానవులు గుర్తించలేని ప్రశ్న-నిర్మాణాత్మక డేటాలో తప్పిపోయిన విలువలు మరియు నమూనాలను గుర్తించడంలో ఇది సహాయపడుతుంది. డేటాలో కనుగొనబడిన సంబంధాలను ఉపయోగించి ఫలితాలను అంచనా వేయడానికి ఈ నమూనాలను కనుగొనడానికి మరియు ఉపయోగించడానికి, మెషిన్ లెర్నింగ్ ఉపయోగపడుతుంది.

ఏదైనా అల్గారిథమ్‌ని అర్థం చేసుకోవడానికి, మీరు డేటాలోని అన్ని వేరియబుల్స్‌ని చూడాలి మరియు ఆ వేరియబుల్స్ దేనిని సూచిస్తాయో గుర్తించాలి. ఇది కీలకమైనది ఎందుకంటే ఫలితాల వెనుక ఉన్న హేతుబద్ధత డేటాను అర్థం చేసుకోవడంపై ఆధారపడి ఉంటుంది. డేటాలో 5 లేదా 50 వేరియబుల్స్ ఉంటే, మీరు వాటన్నింటినీ పరిశీలించవచ్చు. 200 మంది ఉంటే? అప్పుడు ప్రతి ఒక్క వేరియబుల్‌ను అధ్యయనం చేయడానికి తగినంత సమయం ఉండదు. అంతేకాకుండా, కొన్ని అల్గారిథమ్‌లు వర్గీకరణ డేటా కోసం పని చేయవు, ఆపై మీరు మోడల్‌కు జోడించడానికి అన్ని వర్గీకరణ నిలువు వరుసలను పరిమాణాత్మక వేరియబుల్స్‌గా మార్చాలి (అవి పరిమాణాత్మకంగా కనిపించవచ్చు, కానీ కొలమానాలు అవి వర్గీకరమని చూపుతాయి). అందువలన, వేరియబుల్స్ సంఖ్య పెరుగుతుంది మరియు వాటిలో సుమారు 500 ఉన్నాయి. ఇప్పుడు ఏమి చేయాలి? డైమెన్షియాలిటీని తగ్గించడమే సమాధానం అని ఎవరైనా అనుకోవచ్చు. డైమెన్షనాలిటీ రిడక్షన్ అల్గారిథమ్‌లు పారామితుల సంఖ్యను తగ్గిస్తాయి కానీ వివరణపై ప్రతికూల ప్రభావాన్ని చూపుతాయి. మిగిలిన వాటిని అర్థం చేసుకోవడం మరియు అర్థం చేసుకోవడం సులభం చేస్తూ లక్షణాలను తొలగించే ఇతర పద్ధతులు ఉంటే?

విశ్లేషణ రిగ్రెషన్ లేదా వర్గీకరణపై ఆధారపడి ఉందా అనేదానిపై ఆధారపడి, ఫీచర్ ఎంపిక అల్గోరిథంలు భిన్నంగా ఉండవచ్చు, కానీ వాటి అమలు యొక్క ప్రధాన ఆలోచన అలాగే ఉంటుంది.

అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్

ఒకదానితో ఒకటి అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్ మోడల్‌కు ఒకే సమాచారాన్ని అందిస్తాయి, కాబట్టి విశ్లేషణ కోసం వాటన్నింటినీ ఉపయోగించాల్సిన అవసరం లేదు. ఉదాహరణకు, డేటాసెట్‌లో "ఆన్‌లైన్ సమయం" మరియు "ట్రాఫిక్ వాడిన" ఫీచర్‌లు ఉన్నట్లయితే, అవి కొంతవరకు పరస్పర సంబంధం కలిగి ఉంటాయని మనం భావించవచ్చు మరియు మనం నిష్పాక్షికమైన డేటా నమూనాను ఎంచుకున్నప్పటికీ బలమైన సహసంబంధాన్ని చూస్తాము. ఈ సందర్భంలో, మోడల్‌లో ఈ వేరియబుల్స్‌లో ఒకటి మాత్రమే అవసరం. మీరు రెండింటినీ ఉపయోగిస్తే, మోడల్ ఓవర్ ఫిట్ చేయబడుతుంది మరియు ఒక నిర్దిష్ట ఫీచర్ పట్ల పక్షపాతంతో ఉంటుంది.

పి-విలువలు

లీనియర్ రిగ్రెషన్ వంటి అల్గారిథమ్‌లలో, ప్రారంభ గణాంక నమూనా ఎల్లప్పుడూ మంచి ఆలోచన. ఈ మోడల్ ద్వారా పొందబడిన వాటి p-విలువల ద్వారా లక్షణాల యొక్క ప్రాముఖ్యతను చూపించడానికి ఇది సహాయపడుతుంది. ప్రాముఖ్యత స్థాయిని సెట్ చేసిన తర్వాత, మేము ఫలిత p-విలువలను తనిఖీ చేస్తాము మరియు ఏదైనా విలువ పేర్కొన్న ప్రాముఖ్యత స్థాయి కంటే తక్కువగా ఉంటే, ఈ లక్షణం ముఖ్యమైనదిగా ప్రకటించబడుతుంది, అనగా, దాని విలువలో మార్పు విలువలో మార్పుకు దారి తీస్తుంది లక్ష్యం.

ప్రత్యక్ష ఎంపిక

ఫార్వర్డ్ సెలక్షన్ అనేది స్టెప్‌వైస్ రిగ్రెషన్‌ను వర్తింపజేసే సాంకేతికత. మోడల్ బిల్డింగ్ పూర్తి సున్నాతో మొదలవుతుంది, అనగా ఖాళీ మోడల్, ఆపై ప్రతి పునరావృతం ఒక వేరియబుల్‌ని జోడిస్తుంది, అది నిర్మించబడుతున్న మోడల్‌కు మెరుగుదలని చేస్తుంది. మోడల్‌కు ఏ వేరియబుల్ జోడించబడిందో దాని ప్రాముఖ్యత ద్వారా నిర్ణయించబడుతుంది. ఇది వివిధ కొలమానాలను ఉపయోగించి లెక్కించవచ్చు. అన్ని వేరియబుల్స్ ఉపయోగించి అసలు స్టాటిస్టికల్ మోడల్‌లో పొందిన p-విలువలను ఉపయోగించడం అత్యంత సాధారణ మార్గం. కొన్నిసార్లు ఫార్వర్డ్ ఎంపిక మోడల్‌ను అతిగా అమర్చడానికి దారి తీస్తుంది ఎందుకంటే మోడల్‌లో అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్ ఉండవచ్చు, అవి మోడల్‌కు అదే సమాచారాన్ని అందించినప్పటికీ (కానీ మోడల్ ఇప్పటికీ మెరుగుదల చూపుతుంది).

రివర్స్ ఎంపిక

రివర్స్ ఎంపిక అనేది లక్షణాల యొక్క దశల వారీ తొలగింపును కూడా కలిగి ఉంటుంది, కానీ ఫార్వర్డ్ ఎంపికతో పోలిస్తే వ్యతిరేక దిశలో ఉంటుంది. ఈ సందర్భంలో, ప్రారంభ నమూనాలో అన్ని స్వతంత్ర వేరియబుల్స్ ఉంటాయి. ప్రతి పునరావృతంలో కొత్త రిగ్రెషన్ మోడల్‌కు విలువను అందించకపోతే వేరియబుల్స్ తొలగించబడతాయి (ప్రతి పునరావృతానికి ఒకటి). ఫీచర్ మినహాయింపు ప్రారంభ మోడల్ యొక్క p-విలువలపై ఆధారపడి ఉంటుంది. అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్‌లను తొలగించేటప్పుడు కూడా ఈ పద్ధతి అనిశ్చితిని కలిగి ఉంటుంది.

పునరావృత ఫీచర్ తొలగింపు

RFE అనేది ముఖ్యమైన లక్షణాల యొక్క ఖచ్చితమైన సంఖ్యను ఎంచుకోవడానికి విస్తృతంగా ఉపయోగించే టెక్నిక్/అల్గారిథమ్. కొన్నిసార్లు ఈ పద్ధతి ఫలితాలను ప్రభావితం చేసే అనేక "అత్యంత ముఖ్యమైన" లక్షణాలను వివరించడానికి ఉపయోగించబడుతుంది; మరియు కొన్నిసార్లు చాలా పెద్ద సంఖ్యలో వేరియబుల్స్‌ను తగ్గించడానికి (సుమారు 200-400), మరియు మోడల్‌కు కనీసం కొంత సహకారం అందించేవి మాత్రమే అలాగే ఉంచబడతాయి మరియు మిగతావన్నీ మినహాయించబడతాయి. RFE ర్యాంకింగ్ వ్యవస్థను ఉపయోగిస్తుంది. డేటా సెట్‌లోని ఫీచర్‌లకు ర్యాంక్‌లు కేటాయించబడ్డాయి. ఈ ర్యాంక్‌లు వాటి మధ్య ఉన్న కోలినియారిటీ మరియు మోడల్‌లోని ఆ ఫీచర్‌ల ప్రాముఖ్యత ఆధారంగా లక్షణాలను పునరావృతంగా తొలగించడానికి ఉపయోగించబడతాయి. ర్యాంకింగ్ ఫీచర్‌లతో పాటు, RFE ఈ ఫీచర్‌లు ముఖ్యమైనవా కాదా అని చూపిస్తుంది (ఎందుకంటే ఎంచుకున్న ఫీచర్‌ల సంఖ్య సరైనది కాకపోవచ్చు మరియు ఫీచర్‌ల యొక్క సరైన సంఖ్య అంతకంటే ఎక్కువ ఉండవచ్చు. లేదా ఎంచుకున్న సంఖ్య కంటే తక్కువ).

ఫీచర్ ప్రాముఖ్యత రేఖాచిత్రం

మెషీన్ లెర్నింగ్ అల్గారిథమ్‌ల యొక్క వివరణ గురించి మాట్లాడేటప్పుడు, మేము సాధారణంగా లీనియర్ రిగ్రెషన్‌లను (పి-విలువలను ఉపయోగించి లక్షణాల ప్రాముఖ్యతను విశ్లేషించడానికి మిమ్మల్ని అనుమతిస్తాయి) మరియు నిర్ణయ వృక్షాలను (అక్షరాలా ట్రీ రూపంలో లక్షణాల ప్రాముఖ్యతను చూపుతాము మరియు అదే సమయంలో వారి సోపానక్రమం). మరోవైపు, రాండమ్ ఫారెస్ట్, లైట్‌జిబిఎమ్ మరియు ఎక్స్‌జి బూస్ట్ వంటి అల్గారిథమ్‌లు తరచుగా ఫీచర్ ఇంపార్టెన్స్ రేఖాచిత్రాన్ని ఉపయోగిస్తాయి, అనగా వేరియబుల్స్ యొక్క రేఖాచిత్రం మరియు “వాటి ప్రాముఖ్యత సంఖ్యలు” ప్లాట్ చేయబడతాయి. వ్యాపారంపై వాటి ప్రభావం పరంగా లక్షణాల యొక్క ప్రాముఖ్యత కోసం మీరు నిర్మాణాత్మక హేతుబద్ధతను అందించాల్సిన అవసరం వచ్చినప్పుడు ఇది చాలా ఉపయోగకరంగా ఉంటుంది.

క్రమబద్ధీకరణ

పక్షపాతం మరియు వ్యత్యాసం మధ్య సమతుల్యతను నియంత్రించడానికి క్రమబద్ధీకరణ జరుగుతుంది. శిక్షణ డేటా సెట్‌లో మోడల్ ఎంత ఎక్కువగా అమర్చబడిందో పక్షపాతం చూపుతుంది. శిక్షణ మరియు పరీక్ష డేటాసెట్‌ల మధ్య అంచనాలు ఎంత భిన్నంగా ఉన్నాయో విచలనం చూపుతుంది. ఆదర్శవంతంగా, పక్షపాతం మరియు వ్యత్యాసం రెండూ చిన్నవిగా ఉండాలి. ఇక్కడే రెగ్యులరైజేషన్ రెస్క్యూ వస్తుంది! రెండు ప్రధాన పద్ధతులు ఉన్నాయి:

L1 రెగ్యులరైజేషన్ - లాస్సో: లాస్సో మోడల్ బరువులను మోడల్‌కు వాటి ప్రాముఖ్యతను మార్చడానికి జరిమానా విధిస్తుంది మరియు వాటిని కూడా రద్దు చేయవచ్చు (అనగా చివరి మోడల్ నుండి ఆ వేరియబుల్‌లను తీసివేయండి). సాధారణంగా, డేటాసెట్ పెద్ద సంఖ్యలో వేరియబుల్స్‌ని కలిగి ఉన్నప్పుడు లాస్సో ఉపయోగించబడుతుంది మరియు మోడల్‌ను ఎంత ముఖ్యమైన ఫీచర్‌లు ప్రభావితం చేస్తాయో బాగా అర్థం చేసుకోవడానికి మీరు వాటిలో కొన్నింటిని మినహాయించాలనుకుంటున్నారు (అనగా, లాస్సో ద్వారా ఎంపిక చేయబడిన మరియు ప్రాధాన్యతనిచ్చిన లక్షణాలు).

L2 రెగ్యులరైజేషన్ - రిడ్జ్ పద్ధతి: రిడ్జ్ యొక్క పని అన్ని వేరియబుల్స్‌ను నిల్వ చేయడం మరియు అదే సమయంలో మోడల్ పనితీరుకు వారి సహకారం ఆధారంగా వాటికి ప్రాముఖ్యతను కేటాయించడం. డేటాసెట్‌లో తక్కువ సంఖ్యలో వేరియబుల్స్ ఉంటే రిడ్జ్ మంచి ఎంపిక అవుతుంది మరియు కనుగొన్నవి మరియు పొందిన ఫలితాలను అర్థం చేసుకోవడానికి అవన్నీ అవసరం.

రిడ్జ్ అన్ని వేరియబుల్స్‌ను ఉంచుతుంది మరియు లాస్సో వాటి ప్రాముఖ్యతను నెలకొల్పడానికి మెరుగైన పని చేస్తుంది కాబట్టి, రెండు రెగ్యులరైజేషన్‌ల యొక్క ఉత్తమ లక్షణాలను మిళితం చేసే అల్గోరిథం అభివృద్ధి చేయబడింది, దీనిని ఎలాస్టిక్-నెట్ అని పిలుస్తారు.

మెషిన్ లెర్నింగ్ కోసం ఫీచర్‌లను ఎంచుకోవడానికి ఇంకా చాలా మార్గాలు ఉన్నాయి, కానీ ప్రధాన ఆలోచన ఎల్లప్పుడూ ఒకే విధంగా ఉంటుంది: వేరియబుల్స్ యొక్క ప్రాముఖ్యతను ప్రదర్శించండి మరియు ఫలితంగా వచ్చే ప్రాముఖ్యత ఆధారంగా వాటిలో కొన్నింటిని తొలగించండి. ప్రాముఖ్యత అనేది చాలా ఆత్మాశ్రయ పదం, ఎందుకంటే ఇది కేవలం ఒకటి కాదు, కీలకమైన లక్షణాలను కనుగొనడానికి ఉపయోగించే కొలమానాలు మరియు చార్ట్‌ల మొత్తం సెట్.

చదివినందుకు ధన్యవాదములు! హ్యాపీ లెర్నింగ్!

మూలం: www.habr.com