హే హబ్ర్!
Reksoft వద్ద మేము కథనాన్ని రష్యన్ భాషలోకి అనువదించాము
వాస్తవ ప్రపంచంలో, వ్యాపార కస్టమర్లు కొన్నిసార్లు అనుకున్నట్లుగా డేటా ఎల్లప్పుడూ శుభ్రంగా ఉండదు. అందుకే డేటా మైనింగ్ మరియు డేటా రాంగ్లింగ్కు డిమాండ్ ఉంది. మానవులు గుర్తించలేని ప్రశ్న-నిర్మాణాత్మక డేటాలో తప్పిపోయిన విలువలు మరియు నమూనాలను గుర్తించడంలో ఇది సహాయపడుతుంది. డేటాలో కనుగొనబడిన సంబంధాలను ఉపయోగించి ఫలితాలను అంచనా వేయడానికి ఈ నమూనాలను కనుగొనడానికి మరియు ఉపయోగించడానికి, మెషిన్ లెర్నింగ్ ఉపయోగపడుతుంది.
ఏదైనా అల్గారిథమ్ని అర్థం చేసుకోవడానికి, మీరు డేటాలోని అన్ని వేరియబుల్స్ని చూడాలి మరియు ఆ వేరియబుల్స్ దేనిని సూచిస్తాయో గుర్తించాలి. ఇది కీలకమైనది ఎందుకంటే ఫలితాల వెనుక ఉన్న హేతుబద్ధత డేటాను అర్థం చేసుకోవడంపై ఆధారపడి ఉంటుంది. డేటాలో 5 లేదా 50 వేరియబుల్స్ ఉంటే, మీరు వాటన్నింటినీ పరిశీలించవచ్చు. 200 మంది ఉంటే? అప్పుడు ప్రతి ఒక్క వేరియబుల్ను అధ్యయనం చేయడానికి తగినంత సమయం ఉండదు. అంతేకాకుండా, కొన్ని అల్గారిథమ్లు వర్గీకరణ డేటా కోసం పని చేయవు, ఆపై మీరు మోడల్కు జోడించడానికి అన్ని వర్గీకరణ నిలువు వరుసలను పరిమాణాత్మక వేరియబుల్స్గా మార్చాలి (అవి పరిమాణాత్మకంగా కనిపించవచ్చు, కానీ కొలమానాలు అవి వర్గీకరమని చూపుతాయి). అందువలన, వేరియబుల్స్ సంఖ్య పెరుగుతుంది మరియు వాటిలో సుమారు 500 ఉన్నాయి. ఇప్పుడు ఏమి చేయాలి? డైమెన్షియాలిటీని తగ్గించడమే సమాధానం అని ఎవరైనా అనుకోవచ్చు. డైమెన్షనాలిటీ రిడక్షన్ అల్గారిథమ్లు పారామితుల సంఖ్యను తగ్గిస్తాయి కానీ వివరణపై ప్రతికూల ప్రభావాన్ని చూపుతాయి. మిగిలిన వాటిని అర్థం చేసుకోవడం మరియు అర్థం చేసుకోవడం సులభం చేస్తూ లక్షణాలను తొలగించే ఇతర పద్ధతులు ఉంటే?
విశ్లేషణ రిగ్రెషన్ లేదా వర్గీకరణపై ఆధారపడి ఉందా అనేదానిపై ఆధారపడి, ఫీచర్ ఎంపిక అల్గోరిథంలు భిన్నంగా ఉండవచ్చు, కానీ వాటి అమలు యొక్క ప్రధాన ఆలోచన అలాగే ఉంటుంది.
అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్
ఒకదానితో ఒకటి అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్ మోడల్కు ఒకే సమాచారాన్ని అందిస్తాయి, కాబట్టి విశ్లేషణ కోసం వాటన్నింటినీ ఉపయోగించాల్సిన అవసరం లేదు. ఉదాహరణకు, డేటాసెట్లో "ఆన్లైన్ సమయం" మరియు "ట్రాఫిక్ వాడిన" ఫీచర్లు ఉన్నట్లయితే, అవి కొంతవరకు పరస్పర సంబంధం కలిగి ఉంటాయని మనం భావించవచ్చు మరియు మనం నిష్పాక్షికమైన డేటా నమూనాను ఎంచుకున్నప్పటికీ బలమైన సహసంబంధాన్ని చూస్తాము. ఈ సందర్భంలో, మోడల్లో ఈ వేరియబుల్స్లో ఒకటి మాత్రమే అవసరం. మీరు రెండింటినీ ఉపయోగిస్తే, మోడల్ ఓవర్ ఫిట్ చేయబడుతుంది మరియు ఒక నిర్దిష్ట ఫీచర్ పట్ల పక్షపాతంతో ఉంటుంది.
పి-విలువలు
లీనియర్ రిగ్రెషన్ వంటి అల్గారిథమ్లలో, ప్రారంభ గణాంక నమూనా ఎల్లప్పుడూ మంచి ఆలోచన. ఈ మోడల్ ద్వారా పొందబడిన వాటి p-విలువల ద్వారా లక్షణాల యొక్క ప్రాముఖ్యతను చూపించడానికి ఇది సహాయపడుతుంది. ప్రాముఖ్యత స్థాయిని సెట్ చేసిన తర్వాత, మేము ఫలిత p-విలువలను తనిఖీ చేస్తాము మరియు ఏదైనా విలువ పేర్కొన్న ప్రాముఖ్యత స్థాయి కంటే తక్కువగా ఉంటే, ఈ లక్షణం ముఖ్యమైనదిగా ప్రకటించబడుతుంది, అనగా, దాని విలువలో మార్పు విలువలో మార్పుకు దారి తీస్తుంది లక్ష్యం.
ప్రత్యక్ష ఎంపిక
ఫార్వర్డ్ సెలక్షన్ అనేది స్టెప్వైస్ రిగ్రెషన్ను వర్తింపజేసే సాంకేతికత. మోడల్ బిల్డింగ్ పూర్తి సున్నాతో మొదలవుతుంది, అనగా ఖాళీ మోడల్, ఆపై ప్రతి పునరావృతం ఒక వేరియబుల్ని జోడిస్తుంది, అది నిర్మించబడుతున్న మోడల్కు మెరుగుదలని చేస్తుంది. మోడల్కు ఏ వేరియబుల్ జోడించబడిందో దాని ప్రాముఖ్యత ద్వారా నిర్ణయించబడుతుంది. ఇది వివిధ కొలమానాలను ఉపయోగించి లెక్కించవచ్చు. అన్ని వేరియబుల్స్ ఉపయోగించి అసలు స్టాటిస్టికల్ మోడల్లో పొందిన p-విలువలను ఉపయోగించడం అత్యంత సాధారణ మార్గం. కొన్నిసార్లు ఫార్వర్డ్ ఎంపిక మోడల్ను అతిగా అమర్చడానికి దారి తీస్తుంది ఎందుకంటే మోడల్లో అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్స్ ఉండవచ్చు, అవి మోడల్కు అదే సమాచారాన్ని అందించినప్పటికీ (కానీ మోడల్ ఇప్పటికీ మెరుగుదల చూపుతుంది).
రివర్స్ ఎంపిక
రివర్స్ ఎంపిక అనేది లక్షణాల యొక్క దశల వారీ తొలగింపును కూడా కలిగి ఉంటుంది, కానీ ఫార్వర్డ్ ఎంపికతో పోలిస్తే వ్యతిరేక దిశలో ఉంటుంది. ఈ సందర్భంలో, ప్రారంభ నమూనాలో అన్ని స్వతంత్ర వేరియబుల్స్ ఉంటాయి. ప్రతి పునరావృతంలో కొత్త రిగ్రెషన్ మోడల్కు విలువను అందించకపోతే వేరియబుల్స్ తొలగించబడతాయి (ప్రతి పునరావృతానికి ఒకటి). ఫీచర్ మినహాయింపు ప్రారంభ మోడల్ యొక్క p-విలువలపై ఆధారపడి ఉంటుంది. అత్యంత పరస్పర సంబంధం ఉన్న వేరియబుల్లను తొలగించేటప్పుడు కూడా ఈ పద్ధతి అనిశ్చితిని కలిగి ఉంటుంది.
పునరావృత ఫీచర్ తొలగింపు
RFE అనేది ముఖ్యమైన లక్షణాల యొక్క ఖచ్చితమైన సంఖ్యను ఎంచుకోవడానికి విస్తృతంగా ఉపయోగించే టెక్నిక్/అల్గారిథమ్. కొన్నిసార్లు ఈ పద్ధతి ఫలితాలను ప్రభావితం చేసే అనేక "అత్యంత ముఖ్యమైన" లక్షణాలను వివరించడానికి ఉపయోగించబడుతుంది; మరియు కొన్నిసార్లు చాలా పెద్ద సంఖ్యలో వేరియబుల్స్ను తగ్గించడానికి (సుమారు 200-400), మరియు మోడల్కు కనీసం కొంత సహకారం అందించేవి మాత్రమే అలాగే ఉంచబడతాయి మరియు మిగతావన్నీ మినహాయించబడతాయి. RFE ర్యాంకింగ్ వ్యవస్థను ఉపయోగిస్తుంది. డేటా సెట్లోని ఫీచర్లకు ర్యాంక్లు కేటాయించబడ్డాయి. ఈ ర్యాంక్లు వాటి మధ్య ఉన్న కోలినియారిటీ మరియు మోడల్లోని ఆ ఫీచర్ల ప్రాముఖ్యత ఆధారంగా లక్షణాలను పునరావృతంగా తొలగించడానికి ఉపయోగించబడతాయి. ర్యాంకింగ్ ఫీచర్లతో పాటు, RFE ఈ ఫీచర్లు ముఖ్యమైనవా కాదా అని చూపిస్తుంది (ఎందుకంటే ఎంచుకున్న ఫీచర్ల సంఖ్య సరైనది కాకపోవచ్చు మరియు ఫీచర్ల యొక్క సరైన సంఖ్య అంతకంటే ఎక్కువ ఉండవచ్చు. లేదా ఎంచుకున్న సంఖ్య కంటే తక్కువ).
ఫీచర్ ప్రాముఖ్యత రేఖాచిత్రం
మెషీన్ లెర్నింగ్ అల్గారిథమ్ల యొక్క వివరణ గురించి మాట్లాడేటప్పుడు, మేము సాధారణంగా లీనియర్ రిగ్రెషన్లను (పి-విలువలను ఉపయోగించి లక్షణాల ప్రాముఖ్యతను విశ్లేషించడానికి మిమ్మల్ని అనుమతిస్తాయి) మరియు నిర్ణయ వృక్షాలను (అక్షరాలా ట్రీ రూపంలో లక్షణాల ప్రాముఖ్యతను చూపుతాము మరియు అదే సమయంలో వారి సోపానక్రమం). మరోవైపు, రాండమ్ ఫారెస్ట్, లైట్జిబిఎమ్ మరియు ఎక్స్జి బూస్ట్ వంటి అల్గారిథమ్లు తరచుగా ఫీచర్ ఇంపార్టెన్స్ రేఖాచిత్రాన్ని ఉపయోగిస్తాయి, అనగా వేరియబుల్స్ యొక్క రేఖాచిత్రం మరియు “వాటి ప్రాముఖ్యత సంఖ్యలు” ప్లాట్ చేయబడతాయి. వ్యాపారంపై వాటి ప్రభావం పరంగా లక్షణాల యొక్క ప్రాముఖ్యత కోసం మీరు నిర్మాణాత్మక హేతుబద్ధతను అందించాల్సిన అవసరం వచ్చినప్పుడు ఇది చాలా ఉపయోగకరంగా ఉంటుంది.
క్రమబద్ధీకరణ
పక్షపాతం మరియు వ్యత్యాసం మధ్య సమతుల్యతను నియంత్రించడానికి క్రమబద్ధీకరణ జరుగుతుంది. శిక్షణ డేటా సెట్లో మోడల్ ఎంత ఎక్కువగా అమర్చబడిందో పక్షపాతం చూపుతుంది. శిక్షణ మరియు పరీక్ష డేటాసెట్ల మధ్య అంచనాలు ఎంత భిన్నంగా ఉన్నాయో విచలనం చూపుతుంది. ఆదర్శవంతంగా, పక్షపాతం మరియు వ్యత్యాసం రెండూ చిన్నవిగా ఉండాలి. ఇక్కడే రెగ్యులరైజేషన్ రెస్క్యూ వస్తుంది! రెండు ప్రధాన పద్ధతులు ఉన్నాయి:
L1 రెగ్యులరైజేషన్ - లాస్సో: లాస్సో మోడల్ బరువులను మోడల్కు వాటి ప్రాముఖ్యతను మార్చడానికి జరిమానా విధిస్తుంది మరియు వాటిని కూడా రద్దు చేయవచ్చు (అనగా చివరి మోడల్ నుండి ఆ వేరియబుల్లను తీసివేయండి). సాధారణంగా, డేటాసెట్ పెద్ద సంఖ్యలో వేరియబుల్స్ని కలిగి ఉన్నప్పుడు లాస్సో ఉపయోగించబడుతుంది మరియు మోడల్ను ఎంత ముఖ్యమైన ఫీచర్లు ప్రభావితం చేస్తాయో బాగా అర్థం చేసుకోవడానికి మీరు వాటిలో కొన్నింటిని మినహాయించాలనుకుంటున్నారు (అనగా, లాస్సో ద్వారా ఎంపిక చేయబడిన మరియు ప్రాధాన్యతనిచ్చిన లక్షణాలు).
L2 రెగ్యులరైజేషన్ - రిడ్జ్ పద్ధతి: రిడ్జ్ యొక్క పని అన్ని వేరియబుల్స్ను నిల్వ చేయడం మరియు అదే సమయంలో మోడల్ పనితీరుకు వారి సహకారం ఆధారంగా వాటికి ప్రాముఖ్యతను కేటాయించడం. డేటాసెట్లో తక్కువ సంఖ్యలో వేరియబుల్స్ ఉంటే రిడ్జ్ మంచి ఎంపిక అవుతుంది మరియు కనుగొన్నవి మరియు పొందిన ఫలితాలను అర్థం చేసుకోవడానికి అవన్నీ అవసరం.
రిడ్జ్ అన్ని వేరియబుల్స్ను ఉంచుతుంది మరియు లాస్సో వాటి ప్రాముఖ్యతను నెలకొల్పడానికి మెరుగైన పని చేస్తుంది కాబట్టి, రెండు రెగ్యులరైజేషన్ల యొక్క ఉత్తమ లక్షణాలను మిళితం చేసే అల్గోరిథం అభివృద్ధి చేయబడింది, దీనిని ఎలాస్టిక్-నెట్ అని పిలుస్తారు.
మెషిన్ లెర్నింగ్ కోసం ఫీచర్లను ఎంచుకోవడానికి ఇంకా చాలా మార్గాలు ఉన్నాయి, కానీ ప్రధాన ఆలోచన ఎల్లప్పుడూ ఒకే విధంగా ఉంటుంది: వేరియబుల్స్ యొక్క ప్రాముఖ్యతను ప్రదర్శించండి మరియు ఫలితంగా వచ్చే ప్రాముఖ్యత ఆధారంగా వాటిలో కొన్నింటిని తొలగించండి. ప్రాముఖ్యత అనేది చాలా ఆత్మాశ్రయ పదం, ఎందుకంటే ఇది కేవలం ఒకటి కాదు, కీలకమైన లక్షణాలను కనుగొనడానికి ఉపయోగించే కొలమానాలు మరియు చార్ట్ల మొత్తం సెట్.
చదివినందుకు ధన్యవాదములు! హ్యాపీ లెర్నింగ్!
మూలం: www.habr.com