పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

లేదు, అయితే, నేను తీవ్రంగా లేను. ఒక సబ్జెక్టును సులభతరం చేయడం ఎంత వరకు సాధ్యమవుతుందనే పరిమితి ఉండాలి. కానీ మొదటి దశలకు, ప్రాథమిక భావనలను అర్థం చేసుకోవడం మరియు టాపిక్‌లోకి త్వరగా "ప్రవేశించడం", ఇది ఆమోదయోగ్యమైనది కావచ్చు. ఈ పదార్థానికి సరిగ్గా పేరు పెట్టడం ఎలాగో మేము చర్చిస్తాము (ఎంపికలు: "డమ్మీల కోసం మెషిన్ లెర్నింగ్", "డైపర్ల నుండి డేటా విశ్లేషణ", "చిన్న పిల్లల కోసం అల్గారిథమ్స్").

విషయానికి. డేటాను విశ్లేషించేటప్పుడు వివిధ మెషీన్ లెర్నింగ్ పద్ధతులలో జరిగే ప్రక్రియల విజువలైజేషన్ మరియు విజువల్ ప్రాతినిధ్యం కోసం MS Excelలో అనేక అప్లికేషన్ ప్రోగ్రామ్‌లను వ్రాశారు. ఈ పద్ధతుల్లో చాలా వరకు అభివృద్ధి చెందినది (మార్గం ద్వారా, అవన్నీ కాదు. అత్యంత శక్తివంతమైన “సపోర్ట్ వెక్టర్ మెషిన్”, లేదా SVM, సపోర్ట్ వెక్టార్ మెషిన్, సపోర్ట్ వెక్టార్ మెషీన్‌ని కనుగొన్నది. మా స్వదేశీయుడు వ్లాదిమిర్ వాప్నిక్, మాస్కో ఇన్‌స్టిట్యూట్ ఆఫ్ మేనేజ్‌మెంట్.

సమీక్ష కోసం మూడు ఫైల్‌లు

1. K-అంటే క్లస్టరింగ్

ఈ రకమైన సమస్యలు "పర్యవేక్షించబడని అభ్యాసం"ని సూచిస్తాయి, మేము ప్రారంభ డేటాను ముందుగా తెలిసిన నిర్దిష్ట సంఖ్యలో కేటగిరీలుగా విభజించవలసి వచ్చినప్పుడు, కానీ మన వద్ద ఎటువంటి "సరైన సమాధానాలు" లేవు; మేము వాటిని డేటా నుండే సంగ్రహించాలి. . ఐరిస్ పువ్వుల ఉపజాతులను కనుగొనడంలో ప్రాథమిక శాస్త్రీయ సమస్య (రోనాల్డ్ ఫిషర్, 1936!), ఇది ఈ జ్ఞాన రంగానికి మొదటి సంకేతంగా పరిగణించబడుతుంది, ఇది ఈ స్వభావం మాత్రమే.

పద్ధతి చాలా సులభం. మేము వెక్టర్స్ (N సంఖ్యల సెట్లు) వలె సూచించబడే వస్తువుల సమితిని కలిగి ఉన్నాము. కనుపాపలలో, ఇవి పువ్వును వర్ణించే 4 సంఖ్యల సెట్లు: పెరియంత్ యొక్క బయటి మరియు లోపలి లోబ్‌ల పొడవు మరియు వెడల్పు వరుసగా (ఫిషర్ కనుపాపలు - వికీపీడియా) సాధారణ కార్టీసియన్ మెట్రిక్ దూరం లేదా వస్తువుల మధ్య సామీప్యత యొక్క కొలతగా ఎంపిక చేయబడుతుంది.

తరువాత, క్లస్టర్ కేంద్రాలు యాదృచ్ఛికంగా ఎంపిక చేయబడతాయి (లేదా యాదృచ్ఛికంగా కాదు, క్రింద చూడండి), మరియు ప్రతి వస్తువు నుండి క్లస్టర్ కేంద్రాలకు దూరాలు లెక్కించబడతాయి. ఇచ్చిన పునరుక్తి దశలో ఉన్న ప్రతి వస్తువు దగ్గరి కేంద్రానికి చెందినదిగా గుర్తించబడుతుంది. అప్పుడు ప్రతి క్లస్టర్ యొక్క కేంద్రం దాని సభ్యుల కోఆర్డినేట్‌ల యొక్క అంకగణిత సగటుకు బదిలీ చేయబడుతుంది (భౌతిక శాస్త్రంతో సారూప్యత ద్వారా, దీనిని "ద్రవ్యరాశి కేంద్రం" అని కూడా పిలుస్తారు), మరియు విధానం పునరావృతమవుతుంది.

ప్రక్రియ చాలా త్వరగా కలుస్తుంది. రెండు కోణాలలో ఉన్న చిత్రాలలో ఇది ఇలా కనిపిస్తుంది:

1. విమానంలో పాయింట్ల ప్రారంభ యాదృచ్ఛిక పంపిణీ మరియు క్లస్టర్ల సంఖ్య

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

2. క్లస్టర్ కేంద్రాలను పేర్కొనడం మరియు వాటి క్లస్టర్‌లకు పాయింట్లను కేటాయించడం

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

3. క్లస్టర్ కేంద్రాల కోఆర్డినేట్‌లను బదిలీ చేయడం, కేంద్రాలు స్థిరీకరించే వరకు పాయింట్ల అనుబంధాన్ని తిరిగి లెక్కించడం. క్లస్టర్ సెంటర్ చివరి స్థానానికి వెళ్లే పథం కనిపిస్తుంది.

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

ఏ సమయంలోనైనా, మీరు కొత్త క్లస్టర్ కేంద్రాలను సెట్ చేయవచ్చు (కొత్త పాయింట్ల పంపిణీని సృష్టించకుండా!) మరియు విభజన ప్రక్రియ ఎల్లప్పుడూ నిస్సందేహంగా ఉండకుండా చూసుకోండి. గణితశాస్త్రపరంగా, ఫంక్షన్ ఆప్టిమైజ్ చేయబడిందని దీని అర్థం (బిందువుల నుండి వాటి క్లస్టర్ల కేంద్రాల వరకు ఉన్న స్క్వేర్డ్ దూరాల మొత్తం), మేము గ్లోబల్ కాదు, స్థానిక కనిష్టాన్ని కనుగొంటాము. ప్రారంభ క్లస్టర్ కేంద్రాలను యాదృచ్ఛికంగా ఎంపిక చేయడం ద్వారా లేదా సాధ్యమయ్యే కేంద్రాలను లెక్కించడం ద్వారా ఈ సమస్యను అధిగమించవచ్చు (కొన్నిసార్లు వాటిని సరిగ్గా ఒక పాయింట్ వద్ద ఉంచడం ప్రయోజనకరంగా ఉంటుంది, అప్పుడు కనీసం మనం ఖాళీగా ఉండబోమని హామీ ఉంటుంది. సమూహాలు). ఏదైనా సందర్భంలో, పరిమిత సెట్‌కు ఎల్లప్పుడూ ఇన్ఫిమమ్ ఉంటుంది.

మీరు ఈ లింక్‌లో ఈ ఫైల్‌తో ప్లే చేయవచ్చు (స్థూల మద్దతును ప్రారంభించడం మర్చిపోవద్దు. ఫైల్‌లు వైరస్‌ల కోసం స్కాన్ చేయబడ్డాయి)

వికీపీడియాలో పద్ధతి యొక్క వివరణ - k-అంటే పద్ధతి

2. బహుపదాలు మరియు డేటా విచ్ఛిన్నం ద్వారా ఉజ్జాయింపు. తిరిగి శిక్షణ పొందుతోంది

విశేషమైన శాస్త్రవేత్త మరియు డేటా సైన్స్ యొక్క ప్రజాదరణ పొందిన కె.వి. Vorontsov క్లుప్తంగా మెషిన్ లెర్నింగ్ పద్ధతులను "పాయింట్ల ద్వారా వక్రతలను గీయడం యొక్క శాస్త్రం"గా వివరించాడు. ఈ ఉదాహరణలో, మేము అతి తక్కువ చతురస్రాల పద్ధతిని ఉపయోగించి డేటాలో నమూనాను కనుగొంటాము.

సోర్స్ డేటాను "శిక్షణ" మరియు "నియంత్రణ"గా విభజించే సాంకేతికత చూపబడింది, అలాగే డేటాకు తిరిగి శిక్షణ ఇవ్వడం లేదా "మళ్లీ సర్దుబాటు చేయడం" వంటి దృగ్విషయం చూపబడింది. సరైన ఉజ్జాయింపుతో, మేము శిక్షణ డేటాపై నిర్దిష్ట లోపం మరియు నియంత్రణ డేటాపై కొంచెం పెద్ద ఎర్రర్‌ను కలిగి ఉంటాము. తప్పుగా ఉంటే, ఇది శిక్షణ డేటాకు ఖచ్చితమైన సర్దుబాటు మరియు పరీక్ష డేటాపై భారీ లోపం ఏర్పడుతుంది.

(N పాయింట్ల ద్వారా ఒకరు N-1వ డిగ్రీ యొక్క ఒకే వక్రరేఖను గీయగలరని అందరికీ తెలిసిన విషయమే, మరియు సాధారణ సందర్భంలో ఈ పద్ధతి ఆశించిన ఫలితాన్ని ఇవ్వదు. వికీపీడియాలో లాగ్రాంజ్ ఇంటర్‌పోలేషన్ బహుపది)

1. ప్రారంభ పంపిణీని సెట్ చేయండి

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

2. మేము పాయింట్లను 70 నుండి 30 నిష్పత్తిలో "శిక్షణ" మరియు "నియంత్రణ" గా విభజిస్తాము.

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

3. మేము శిక్షణా పాయింట్ల వెంట సుమారుగా వక్రరేఖను గీస్తాము, నియంత్రణ డేటాపై అది ఇచ్చే లోపాన్ని మేము చూస్తాము

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

4. మేము శిక్షణా పాయింట్ల ద్వారా ఖచ్చితమైన వక్రరేఖను గీస్తాము మరియు నియంత్రణ డేటాపై మేము ఒక భయంకరమైన లోపాన్ని చూస్తాము (మరియు శిక్షణ డేటాపై సున్నా, కానీ ప్రయోజనం ఏమిటి?).

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

"శిక్షణ" మరియు "నియంత్రణ" ఉపసమితులుగా ఒకే విభజనతో సరళమైన ఎంపిక చూపబడింది; సాధారణ సందర్భంలో, గుణకాల యొక్క ఉత్తమ సర్దుబాటు కోసం ఇది చాలాసార్లు చేయబడుతుంది.

యాంటీవైరస్ ద్వారా స్కాన్ చేయబడిన ఫైల్ ఇక్కడ అందుబాటులో ఉంది. సరైన ఆపరేషన్ కోసం మాక్రోలను ప్రారంభించండి

3. గ్రేడియంట్ అవరోహణ మరియు లోపం మార్పు యొక్క డైనమిక్స్

4-డైమెన్షనల్ కేస్ మరియు లీనియర్ రిగ్రెషన్ ఉంటుంది. లీనియర్ రిగ్రెషన్ కోఎఫీషియంట్స్ గ్రేడియంట్ డిసెంట్ పద్ధతిని ఉపయోగించి దశలవారీగా నిర్ణయించబడతాయి, ప్రారంభంలో అన్ని గుణకాలు సున్నా. గుణకాలు మరింత ఖచ్చితంగా సర్దుబాటు చేయబడినందున ఒక ప్రత్యేక గ్రాఫ్ లోపం తగ్గింపు యొక్క డైనమిక్స్‌ను చూపుతుంది. నాలుగు 2-డైమెన్షనల్ ప్రొజెక్షన్‌లను వీక్షించడం సాధ్యమవుతుంది.

మీరు గ్రేడియంట్ అవరోహణ దశను చాలా పెద్దదిగా సెట్ చేస్తే, ప్రతిసారీ మేము కనిష్టాన్ని దాటవేస్తాము మరియు ఎక్కువ సంఖ్యలో దశల్లో ఫలితాన్ని చేరుకుంటామని మీరు చూడవచ్చు, అయినప్పటికీ చివరికి మేము చేరుకుంటాము (మేము అవరోహణ దశను కూడా ఆలస్యం చేస్తే తప్ప చాలా - అప్పుడు అల్గోరిథం వెళ్తుంది “ ఇన్ స్పెడ్స్"). మరియు పునరావృత దశపై ఆధారపడి లోపం యొక్క గ్రాఫ్ మృదువైనది కాదు, కానీ "జెర్కీ".

1. డేటాను రూపొందించండి, గ్రేడియంట్ అవరోహణ దశను సెట్ చేయండి

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

2. గ్రేడియంట్ అవరోహణ దశ యొక్క సరైన ఎంపికతో, మేము సజావుగా మరియు త్వరగా కనిష్టానికి చేరుకుంటాము

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

3. గ్రేడియంట్ అవరోహణ దశ తప్పుగా ఎంపిక చేయబడితే, మేము గరిష్టంగా ఓవర్‌షూట్ చేస్తాము, ఎర్రర్ గ్రాఫ్ “జెర్కీ”, కన్వర్జెన్స్ పెద్ద సంఖ్యలో దశలను తీసుకుంటుంది

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్
и

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

4. మేము గ్రేడియంట్ అవరోహణ దశను పూర్తిగా తప్పుగా ఎంచుకుంటే, మేము కనిష్టానికి దూరంగా ఉంటాము

పైథాన్, అనకొండ మరియు ఇతర సరీసృపాలు లేకుండా మెషిన్ లెర్నింగ్

(చిత్రాలలో చూపిన గ్రేడియంట్ డీసెంట్ స్టెప్ విలువలను ఉపయోగించి ప్రక్రియను పునరుత్పత్తి చేయడానికి, “రిఫరెన్స్ డేటా” బాక్స్‌ను తనిఖీ చేయండి).

ఫైల్ ఈ లింక్ వద్ద ఉంది, మీరు మాక్రోలను ప్రారంభించాలి, వైరస్లు లేవు.

గౌరవనీయమైన సంఘం ప్రకారం, అటువంటి సరళీకరణ మరియు మెటీరియల్‌ని ప్రదర్శించే పద్ధతి ఆమోదయోగ్యమైనదా? వ్యాసాన్ని ఆంగ్లంలోకి అనువదించడం విలువైనదేనా?

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి