లేదు, అయితే, నేను తీవ్రంగా లేను. ఒక సబ్జెక్టును సులభతరం చేయడం ఎంత వరకు సాధ్యమవుతుందనే పరిమితి ఉండాలి. కానీ మొదటి దశలకు, ప్రాథమిక భావనలను అర్థం చేసుకోవడం మరియు టాపిక్లోకి త్వరగా "ప్రవేశించడం", ఇది ఆమోదయోగ్యమైనది కావచ్చు. ఈ పదార్థానికి సరిగ్గా పేరు పెట్టడం ఎలాగో మేము చర్చిస్తాము (ఎంపికలు: "డమ్మీల కోసం మెషిన్ లెర్నింగ్", "డైపర్ల నుండి డేటా విశ్లేషణ", "చిన్న పిల్లల కోసం అల్గారిథమ్స్").
విషయానికి. డేటాను విశ్లేషించేటప్పుడు వివిధ మెషీన్ లెర్నింగ్ పద్ధతులలో జరిగే ప్రక్రియల విజువలైజేషన్ మరియు విజువల్ ప్రాతినిధ్యం కోసం MS Excelలో అనేక అప్లికేషన్ ప్రోగ్రామ్లను వ్రాశారు. ఈ పద్ధతుల్లో చాలా వరకు అభివృద్ధి చెందినది (మార్గం ద్వారా, అవన్నీ కాదు. అత్యంత శక్తివంతమైన “సపోర్ట్ వెక్టర్ మెషిన్”, లేదా SVM, సపోర్ట్ వెక్టార్ మెషిన్, సపోర్ట్ వెక్టార్ మెషీన్ని కనుగొన్నది. మా స్వదేశీయుడు వ్లాదిమిర్ వాప్నిక్, మాస్కో ఇన్స్టిట్యూట్ ఆఫ్ మేనేజ్మెంట్.
1. K-అంటే క్లస్టరింగ్
ఈ రకమైన సమస్యలు "పర్యవేక్షించబడని అభ్యాసం"ని సూచిస్తాయి, మేము ప్రారంభ డేటాను ముందుగా తెలిసిన నిర్దిష్ట సంఖ్యలో కేటగిరీలుగా విభజించవలసి వచ్చినప్పుడు, కానీ మన వద్ద ఎటువంటి "సరైన సమాధానాలు" లేవు; మేము వాటిని డేటా నుండే సంగ్రహించాలి. . ఐరిస్ పువ్వుల ఉపజాతులను కనుగొనడంలో ప్రాథమిక శాస్త్రీయ సమస్య (రోనాల్డ్ ఫిషర్, 1936!), ఇది ఈ జ్ఞాన రంగానికి మొదటి సంకేతంగా పరిగణించబడుతుంది, ఇది ఈ స్వభావం మాత్రమే.
పద్ధతి చాలా సులభం. మేము వెక్టర్స్ (N సంఖ్యల సెట్లు) వలె సూచించబడే వస్తువుల సమితిని కలిగి ఉన్నాము. కనుపాపలలో, ఇవి పువ్వును వర్ణించే 4 సంఖ్యల సెట్లు: పెరియంత్ యొక్క బయటి మరియు లోపలి లోబ్ల పొడవు మరియు వెడల్పు వరుసగా (
తరువాత, క్లస్టర్ కేంద్రాలు యాదృచ్ఛికంగా ఎంపిక చేయబడతాయి (లేదా యాదృచ్ఛికంగా కాదు, క్రింద చూడండి), మరియు ప్రతి వస్తువు నుండి క్లస్టర్ కేంద్రాలకు దూరాలు లెక్కించబడతాయి. ఇచ్చిన పునరుక్తి దశలో ఉన్న ప్రతి వస్తువు దగ్గరి కేంద్రానికి చెందినదిగా గుర్తించబడుతుంది. అప్పుడు ప్రతి క్లస్టర్ యొక్క కేంద్రం దాని సభ్యుల కోఆర్డినేట్ల యొక్క అంకగణిత సగటుకు బదిలీ చేయబడుతుంది (భౌతిక శాస్త్రంతో సారూప్యత ద్వారా, దీనిని "ద్రవ్యరాశి కేంద్రం" అని కూడా పిలుస్తారు), మరియు విధానం పునరావృతమవుతుంది.
ప్రక్రియ చాలా త్వరగా కలుస్తుంది. రెండు కోణాలలో ఉన్న చిత్రాలలో ఇది ఇలా కనిపిస్తుంది:
1. విమానంలో పాయింట్ల ప్రారంభ యాదృచ్ఛిక పంపిణీ మరియు క్లస్టర్ల సంఖ్య
2. క్లస్టర్ కేంద్రాలను పేర్కొనడం మరియు వాటి క్లస్టర్లకు పాయింట్లను కేటాయించడం
3. క్లస్టర్ కేంద్రాల కోఆర్డినేట్లను బదిలీ చేయడం, కేంద్రాలు స్థిరీకరించే వరకు పాయింట్ల అనుబంధాన్ని తిరిగి లెక్కించడం. క్లస్టర్ సెంటర్ చివరి స్థానానికి వెళ్లే పథం కనిపిస్తుంది.
ఏ సమయంలోనైనా, మీరు కొత్త క్లస్టర్ కేంద్రాలను సెట్ చేయవచ్చు (కొత్త పాయింట్ల పంపిణీని సృష్టించకుండా!) మరియు విభజన ప్రక్రియ ఎల్లప్పుడూ నిస్సందేహంగా ఉండకుండా చూసుకోండి. గణితశాస్త్రపరంగా, ఫంక్షన్ ఆప్టిమైజ్ చేయబడిందని దీని అర్థం (బిందువుల నుండి వాటి క్లస్టర్ల కేంద్రాల వరకు ఉన్న స్క్వేర్డ్ దూరాల మొత్తం), మేము గ్లోబల్ కాదు, స్థానిక కనిష్టాన్ని కనుగొంటాము. ప్రారంభ క్లస్టర్ కేంద్రాలను యాదృచ్ఛికంగా ఎంపిక చేయడం ద్వారా లేదా సాధ్యమయ్యే కేంద్రాలను లెక్కించడం ద్వారా ఈ సమస్యను అధిగమించవచ్చు (కొన్నిసార్లు వాటిని సరిగ్గా ఒక పాయింట్ వద్ద ఉంచడం ప్రయోజనకరంగా ఉంటుంది, అప్పుడు కనీసం మనం ఖాళీగా ఉండబోమని హామీ ఉంటుంది. సమూహాలు). ఏదైనా సందర్భంలో, పరిమిత సెట్కు ఎల్లప్పుడూ ఇన్ఫిమమ్ ఉంటుంది.
వికీపీడియాలో పద్ధతి యొక్క వివరణ -
2. బహుపదాలు మరియు డేటా విచ్ఛిన్నం ద్వారా ఉజ్జాయింపు. తిరిగి శిక్షణ పొందుతోంది
విశేషమైన శాస్త్రవేత్త మరియు డేటా సైన్స్ యొక్క ప్రజాదరణ పొందిన కె.వి. Vorontsov క్లుప్తంగా మెషిన్ లెర్నింగ్ పద్ధతులను "పాయింట్ల ద్వారా వక్రతలను గీయడం యొక్క శాస్త్రం"గా వివరించాడు. ఈ ఉదాహరణలో, మేము అతి తక్కువ చతురస్రాల పద్ధతిని ఉపయోగించి డేటాలో నమూనాను కనుగొంటాము.
సోర్స్ డేటాను "శిక్షణ" మరియు "నియంత్రణ"గా విభజించే సాంకేతికత చూపబడింది, అలాగే డేటాకు తిరిగి శిక్షణ ఇవ్వడం లేదా "మళ్లీ సర్దుబాటు చేయడం" వంటి దృగ్విషయం చూపబడింది. సరైన ఉజ్జాయింపుతో, మేము శిక్షణ డేటాపై నిర్దిష్ట లోపం మరియు నియంత్రణ డేటాపై కొంచెం పెద్ద ఎర్రర్ను కలిగి ఉంటాము. తప్పుగా ఉంటే, ఇది శిక్షణ డేటాకు ఖచ్చితమైన సర్దుబాటు మరియు పరీక్ష డేటాపై భారీ లోపం ఏర్పడుతుంది.
(N పాయింట్ల ద్వారా ఒకరు N-1వ డిగ్రీ యొక్క ఒకే వక్రరేఖను గీయగలరని అందరికీ తెలిసిన విషయమే, మరియు సాధారణ సందర్భంలో ఈ పద్ధతి ఆశించిన ఫలితాన్ని ఇవ్వదు.
1. ప్రారంభ పంపిణీని సెట్ చేయండి
2. మేము పాయింట్లను 70 నుండి 30 నిష్పత్తిలో "శిక్షణ" మరియు "నియంత్రణ" గా విభజిస్తాము.
3. మేము శిక్షణా పాయింట్ల వెంట సుమారుగా వక్రరేఖను గీస్తాము, నియంత్రణ డేటాపై అది ఇచ్చే లోపాన్ని మేము చూస్తాము
4. మేము శిక్షణా పాయింట్ల ద్వారా ఖచ్చితమైన వక్రరేఖను గీస్తాము మరియు నియంత్రణ డేటాపై మేము ఒక భయంకరమైన లోపాన్ని చూస్తాము (మరియు శిక్షణ డేటాపై సున్నా, కానీ ప్రయోజనం ఏమిటి?).
"శిక్షణ" మరియు "నియంత్రణ" ఉపసమితులుగా ఒకే విభజనతో సరళమైన ఎంపిక చూపబడింది; సాధారణ సందర్భంలో, గుణకాల యొక్క ఉత్తమ సర్దుబాటు కోసం ఇది చాలాసార్లు చేయబడుతుంది.
3. గ్రేడియంట్ అవరోహణ మరియు లోపం మార్పు యొక్క డైనమిక్స్
4-డైమెన్షనల్ కేస్ మరియు లీనియర్ రిగ్రెషన్ ఉంటుంది. లీనియర్ రిగ్రెషన్ కోఎఫీషియంట్స్ గ్రేడియంట్ డిసెంట్ పద్ధతిని ఉపయోగించి దశలవారీగా నిర్ణయించబడతాయి, ప్రారంభంలో అన్ని గుణకాలు సున్నా. గుణకాలు మరింత ఖచ్చితంగా సర్దుబాటు చేయబడినందున ఒక ప్రత్యేక గ్రాఫ్ లోపం తగ్గింపు యొక్క డైనమిక్స్ను చూపుతుంది. నాలుగు 2-డైమెన్షనల్ ప్రొజెక్షన్లను వీక్షించడం సాధ్యమవుతుంది.
మీరు గ్రేడియంట్ అవరోహణ దశను చాలా పెద్దదిగా సెట్ చేస్తే, ప్రతిసారీ మేము కనిష్టాన్ని దాటవేస్తాము మరియు ఎక్కువ సంఖ్యలో దశల్లో ఫలితాన్ని చేరుకుంటామని మీరు చూడవచ్చు, అయినప్పటికీ చివరికి మేము చేరుకుంటాము (మేము అవరోహణ దశను కూడా ఆలస్యం చేస్తే తప్ప చాలా - అప్పుడు అల్గోరిథం వెళ్తుంది “ ఇన్ స్పెడ్స్"). మరియు పునరావృత దశపై ఆధారపడి లోపం యొక్క గ్రాఫ్ మృదువైనది కాదు, కానీ "జెర్కీ".
1. డేటాను రూపొందించండి, గ్రేడియంట్ అవరోహణ దశను సెట్ చేయండి
2. గ్రేడియంట్ అవరోహణ దశ యొక్క సరైన ఎంపికతో, మేము సజావుగా మరియు త్వరగా కనిష్టానికి చేరుకుంటాము
3. గ్రేడియంట్ అవరోహణ దశ తప్పుగా ఎంపిక చేయబడితే, మేము గరిష్టంగా ఓవర్షూట్ చేస్తాము, ఎర్రర్ గ్రాఫ్ “జెర్కీ”, కన్వర్జెన్స్ పెద్ద సంఖ్యలో దశలను తీసుకుంటుంది
и
4. మేము గ్రేడియంట్ అవరోహణ దశను పూర్తిగా తప్పుగా ఎంచుకుంటే, మేము కనిష్టానికి దూరంగా ఉంటాము
(చిత్రాలలో చూపిన గ్రేడియంట్ డీసెంట్ స్టెప్ విలువలను ఉపయోగించి ప్రక్రియను పునరుత్పత్తి చేయడానికి, “రిఫరెన్స్ డేటా” బాక్స్ను తనిఖీ చేయండి).
గౌరవనీయమైన సంఘం ప్రకారం, అటువంటి సరళీకరణ మరియు మెటీరియల్ని ప్రదర్శించే పద్ధతి ఆమోదయోగ్యమైనదా? వ్యాసాన్ని ఆంగ్లంలోకి అనువదించడం విలువైనదేనా?
మూలం: www.habr.com