නැහැ, හොඳයි, ඇත්ත වශයෙන්ම, මම බරපතල නැහැ. විෂයක් සරල කිරීමට හැකි සීමාවක් තිබිය යුතුය. නමුත් පළමු අදියර සඳහා මූලික සංකල්ප අවබෝධ කර ගැනීම සහ මාතෘකාවට ඉක්මනින් "ඇතුල් වීම", එය පිළිගත හැකි විය හැකිය. මෙම ද්රව්යය නිසි ලෙස නම් කරන්නේ කෙසේදැයි අපි සාකච්ඡා කරමු (විකල්ප: “ඩමීස් සඳහා යන්ත්ර ඉගෙනීම”, “ඩයපර් වලින් දත්ත විශ්ලේෂණය”, “කුඩා දරුවන් සඳහා ඇල්ගොරිතම”) අවසානයේ.
කාරණයට. දත්ත විශ්ලේෂණය කිරීමේදී විවිධ යන්ත්ර ඉගෙනුම් ක්රමවල සිදුවන ක්රියාවලීන් දෘශ්යකරණය සහ දෘශ්ය නිරූපණය සඳහා MS Excel හි යෙදුම් වැඩසටහන් කිහිපයක් ලියා ඇත. දැකීම යනු විශ්වාස කිරීම, සංස්කෘතියේ දරන්නා පවසන පරිදි, මෙම ක්රම බොහොමයක් දියුණු කළේ (මාර්ගය වන විට, ඒවා සියල්ලම නොවේ. වඩාත්ම බලගතු “ආධාරක දෛශික යන්ත්රය”, හෝ SVM, ආධාරක දෛශික යන්ත්රය සොයා ගැනීමයි. අපේ රටවැසියා ව්ලැඩිමීර් වැප්නික්, මොස්කව් කළමනාකරණ ආයතනය.
1. K- යනු පොකුරු කිරීම යන්නයි
මෙම ආකාරයේ ගැටළු "අධීක්ෂණය නොකළ ඉගෙනීම" වෙත යොමු වන්නේ, අපට මුල් දත්ත කලින් දන්නා නිශ්චිත කාණ්ඩ ගණනකට බෙදීමට අවශ්ය වූ විට, නමුත් අප සතුව "නිවැරදි පිළිතුරු" සංඛ්යාවක් නොමැති විට; අපි ඒවා දත්ත වලින්ම උපුටා ගත යුතුය. . මෙම දැනුමේ ක්ෂේත්රයේ පළමු ලකුණ ලෙස සැලකෙන අයිරිස් මල් වල උප විශේෂ සොයා ගැනීමේ මූලික සම්භාව්ය ගැටළුව (රොනල්ඩ් ෆිෂර්, 1936!), මේ ස්වභාවයයි.
ක්රමය තරමක් සරල ය. අපට දෛශික ලෙස නිරූපනය කරන ලද වස්තු සමූහයක් ඇත (N ඉලක්කම් කට්ටල). අයිරිස් වලදී, මේවා මල සංලක්ෂිත අංක 4 ක කට්ටල වේ: පිළිවෙලින් පෙරියන්තයේ පිටත සහ අභ්යන්තර පෙති වල දිග සහ පළල (
ඊළඟට, පොකුරු මධ්යස්ථාන අහඹු ලෙස තෝරා ගනු ලැබේ (හෝ අහඹු ලෙස නොවේ, පහත බලන්න), සහ එක් එක් වස්තුවේ සිට පොකුරු මධ්යස්ථාන වෙත ඇති දුර ගණනය කරනු ලැබේ. දී ඇති පුනරාවර්තන පියවරක ඇති සෑම වස්තුවක්ම ආසන්නතම කේන්ද්රයට අයත් ලෙස සලකුණු කර ඇත. එවිට එක් එක් පොකුරේ කේන්ද්රය එහි සාමාජිකයින්ගේ ඛණ්ඩාංකවල අංක ගණිත මධ්යන්යය වෙත මාරු කරනු ලැබේ (භෞතික විද්යාව සමඟ ප්රතිසමයෙන්, එය “ස්කන්ධයේ මධ්යස්ථානය” ලෙසද හැඳින්වේ), ක්රියා පටිපාටිය නැවත නැවතත් සිදු කෙරේ.
ක්රියාවලිය තරමක් ඉක්මනින් අභිසාරී වේ. මාන දෙකක පින්තූරවල එය මේ වගේ ය:
1. තලයේ ලකුණුවල ආරම්භක අහඹු ව්යාප්තිය සහ පොකුරු ගණන
2. පොකුරු මධ්යස්ථාන නියම කිරීම සහ ඒවායේ පොකුරුවලට ලකුණු ලබාදීම
3. පොකුරු මධ්යස්ථානවල ඛණ්ඩාංක මාරු කිරීම, මධ්යස්ථාන ස්ථාවර වන තෙක් ලක්ෂ්යවල අනුබද්ධය නැවත ගණනය කිරීම. එහි අවසාන ස්ථානයට ගමන් කරන පොකුරු මධ්යස්ථානයේ ගමන් පථය දෘශ්යමාන වේ.
ඕනෑම අවස්ථාවක, ඔබට නව පොකුරු මධ්යස්ථාන සැකසිය හැක (ලකුණු වල නව බෙදා හැරීමක් ජනනය නොකර!) සහ කොටස් කිරීමේ ක්රියාවලිය සැමවිටම නොපැහැදිලි බව බලන්න. ගණිතමය වශයෙන්, මෙයින් අදහස් කරන්නේ ශ්රිතය ප්රශස්ත කිරීම සඳහා (ලක්ෂ්යවල සිට ඒවායේ පොකුරු වල මධ්යස්ථාන දක්වා ඇති වර්ග දුරවල එකතුව), අපට ගෝලීය එකක් නොව දේශීය අවමයක් සොයා ගන්නා බවයි. ආරම්භක පොකුරු මධ්යස්ථානවල අහඹු නොවන තේරීමකින් හෝ හැකි මධ්යස්ථාන ගණනය කිරීමෙන් මෙම ගැටළුව ජය ගත හැකිය (සමහර විට ඒවා හරියටම එක් ස්ථානයක තැබීම වාසිදායක වේ, එවිට අවම වශයෙන් අප හිස් නොවන බවට සහතිකයක් ඇත. පොකුරු). ඕනෑම අවස්ථාවක, සීමිත කට්ටලයක් සෑම විටම අසමසමයක් ඇත.
විකිපීඩියාවේ ක්රමයේ විස්තරය -
2. බහුපද සහ දත්ත බිඳවැටීම මගින් ආසන්න කිරීම. නැවත පුහුණු කිරීම
කැපී පෙනෙන විද්යාඥයෙකු සහ දත්ත විද්යාව ජනප්රිය කරන්නෙකු වන K.V. Vorontsov කෙටියෙන් යන්ත්ර ඉගෙනීමේ ක්රම විස්තර කරන්නේ "ලකුණු හරහා වක්ර ඇඳීමේ විද්යාව" ලෙසයි. මෙම උදාහරණයේදී, අපි අවම කොටු ක්රමය භාවිතා කරමින් දත්තවල රටාවක් සොයා ගනිමු.
මූලාශ්ර දත්ත "පුහුණු කිරීම" සහ "පාලනය" ලෙස බෙදීමේ තාක්ෂණය මෙන්ම දත්ත වෙත නැවත පුහුණු කිරීම හෝ "නැවත සකස් කිරීම" වැනි සංසිද්ධියක් පෙන්වයි. නිවැරදි ආසන්න වශයෙන්, අපට පුහුණු දත්තවල යම් දෝෂයක් සහ පාලන දත්තවල තරමක් විශාල දෝෂයක් ඇත. වැරදි නම්, එය පුහුණු දත්ත වලට නිශ්චිත ගැලපීමක් සහ පරීක්ෂණ දත්තවල විශාල දෝෂයක් ඇති කරයි.
(N ලකුණු හරහා කෙනෙකුට N-1 වන අංශකයේ තනි වක්රයක් ඇඳිය හැකි බව දන්නා කරුණකි, සාමාන්ය අවස්ථාවෙහි මෙම ක්රමය අපේක්ෂිත ප්රති result ලය ලබා නොදේ.
1. මූලික බෙදාහැරීම සකසන්න
2. අපි ලකුණු 70 සිට 30 දක්වා අනුපාතයකින් "පුහුණු" සහ "පාලනය" ලෙස බෙදන්නෙමු.
3. අපි පුහුණු ලක්ෂ්ය දිගේ ආසන්න වක්රය අඳින්නෙමු, පාලන දත්ත මත එය ලබා දෙන දෝෂය අපි දකිමු
4. අපි පුහුණු ලකුණු හරහා නිශ්චිත වක්රයක් අඳින්නෙමු, සහ පාලන දත්තවල භයානක දෝෂයක් අපට පෙනේ (සහ පුහුණු දත්තවල ශුන්යය, නමුත් කාරණය කුමක්ද?).
ඇත්ත වශයෙන්ම, “පුහුණු” සහ “පාලන” උප කුලකවලට තනි බෙදීමක් සහිත සරලම විකල්පය පෙන්වා ඇත; සාමාන්යයෙන්, සංගුණකවල හොඳම ගැලපීම සඳහා මෙය බොහෝ වාරයක් සිදු කෙරේ.
3. Gradient descent සහ Dynamics of error change
4-මාන නඩුවක් සහ රේඛීය ප්රතිගාමීත්වයක් ඇත. රේඛීය ප්රතිගාමී සංගුණක ශ්රේණිගත අවරෝහණ ක්රමය භාවිතයෙන් පියවරෙන් පියවර තීරණය කරනු ඇත, මුලදී සියලුම සංගුණක ශුන්ය වේ. සංගුණක වඩාත් නිවැරදිව සකස් කර ඇති බැවින් දෝෂ අඩු කිරීමේ ගතිකතාවයන් වෙනම ප්රස්ථාරයක් පෙන්වයි. 2-මාන ප්රක්ෂේපණ හතරම බැලීමට හැකිය.
ඔබ ශ්රේණිගත බැසීමේ පියවර ඉතා විශාල ලෙස සකසා ඇත්නම්, සෑම අවස්ථාවකදීම අපි අවමය මඟ හැර විශාල පියවර ගණනකින් ප්රතිඵලය වෙත පැමිණෙන බව ඔබට පෙනෙනු ඇත, නමුත් අවසානයේ අපි තවමත් පැමිණෙනු ඇත (අපි බැසීමේ පියවර ද ප්රමාද කරන්නේ නම් මිස බොහෝ - එවිට ඇල්ගොරිතම යයි " ස්පේඩ්"). පුනරාවර්තන පියවර මත පදනම්ව දෝෂයේ ප්රස්ථාරය සුමට නොවනු ඇත, නමුත් "ජේරු" වේ.
1. දත්ත උත්පාදනය කරන්න, අනුක්රමය බැසීමේ පියවර සකසන්න
2. අනුක්රමය බැසීමේ පියවර නිවැරදිව තෝරා ගැනීමත් සමඟ අපි සුමටව හා ඉක්මනින් අවම මට්ටමට ළඟා වෙමු
3. අනුක්රමණ බැසීමේ පියවර වැරදි ලෙස තෝරාගෙන තිබේ නම්, අපි උපරිමය ඉක්මවා යමු, දෝෂ ප්රස්ථාරය “ජේකි” වේ, අභිසාරී පියවර විශාල සංඛ්යාවක් ගනී
и
4. අපි gradient descent පියවර සම්පූර්ණයෙන්ම වැරදි ලෙස තෝරා ගන්නේ නම්, අපි අවම මට්ටමෙන් ඉවතට යනවා
(පින්තූරවල පෙන්වා ඇති ශ්රේණිගත අවරෝහණ පියවර අගයන් භාවිතයෙන් ක්රියාවලිය ප්රතිනිෂ්පාදනය කිරීමට, "යොමු දත්ත" කොටුව සලකුණු කරන්න).
ගෞරවනීය ප්රජාවට අනුව, ද්රව්ය ඉදිරිපත් කිරීමේ එවැනි සරල කිරීමක් සහ ක්රමයක් පිළිගත හැකිද? ලිපිය ඉංග්රීසියට පරිවර්තනය කිරීම වටී ද?
මූලාශ්රය: www.habr.com