පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

නැහැ, හොඳයි, ඇත්ත වශයෙන්ම, මම බරපතල නැහැ. විෂයක් සරල කිරීමට හැකි සීමාවක් තිබිය යුතුය. නමුත් පළමු අදියර සඳහා මූලික සංකල්ප අවබෝධ කර ගැනීම සහ මාතෘකාවට ඉක්මනින් "ඇතුල් වීම", එය පිළිගත හැකි විය හැකිය. මෙම ද්‍රව්‍යය නිසි ලෙස නම් කරන්නේ කෙසේදැයි අපි සාකච්ඡා කරමු (විකල්ප: “ඩමීස් සඳහා යන්ත්‍ර ඉගෙනීම”, “ඩයපර් වලින් දත්ත විශ්ලේෂණය”, “කුඩා දරුවන් සඳහා ඇල්ගොරිතම”) අවසානයේ.

කාරණයට. දත්ත විශ්ලේෂණය කිරීමේදී විවිධ යන්ත්‍ර ඉගෙනුම් ක්‍රමවල සිදුවන ක්‍රියාවලීන් දෘශ්‍යකරණය සහ දෘශ්‍ය නිරූපණය සඳහා MS Excel හි යෙදුම් වැඩසටහන් කිහිපයක් ලියා ඇත. දැකීම යනු විශ්වාස කිරීම, සංස්කෘතියේ දරන්නා පවසන පරිදි, මෙම ක්‍රම බොහොමයක් දියුණු කළේ (මාර්ගය වන විට, ඒවා සියල්ලම නොවේ. වඩාත්ම බලගතු “ආධාරක දෛශික යන්ත්‍රය”, හෝ SVM, ආධාරක දෛශික යන්ත්‍රය සොයා ගැනීමයි. අපේ රටවැසියා ව්ලැඩිමීර් වැප්නික්, මොස්කව් කළමනාකරණ ආයතනය.

සමාලෝචනය සඳහා ගොනු තුනක්

1. K- යනු පොකුරු කිරීම යන්නයි

මෙම ආකාරයේ ගැටළු "අධීක්ෂණය නොකළ ඉගෙනීම" වෙත යොමු වන්නේ, අපට මුල් දත්ත කලින් දන්නා නිශ්චිත කාණ්ඩ ගණනකට බෙදීමට අවශ්‍ය වූ විට, නමුත් අප සතුව "නිවැරදි පිළිතුරු" සංඛ්‍යාවක් නොමැති විට; අපි ඒවා දත්ත වලින්ම උපුටා ගත යුතුය. . මෙම දැනුමේ ක්ෂේත්‍රයේ පළමු ලකුණ ලෙස සැලකෙන අයිරිස් මල් වල උප විශේෂ සොයා ගැනීමේ මූලික සම්භාව්‍ය ගැටළුව (රොනල්ඩ් ෆිෂර්, 1936!), මේ ස්වභාවයයි.

ක්රමය තරමක් සරල ය. අපට දෛශික ලෙස නිරූපනය කරන ලද වස්තු සමූහයක් ඇත (N ඉලක්කම් කට්ටල). අයිරිස් වලදී, මේවා මල සංලක්ෂිත අංක 4 ක කට්ටල වේ: පිළිවෙලින් පෙරියන්තයේ පිටත සහ අභ්‍යන්තර පෙති වල දිග සහ පළල (ෆිෂර්ගේ අයිරිස් - විකිපීඩියාව) සාමාන්‍ය Cartesian මෙට්‍රික් තෝරා ගනු ලබන්නේ වස්තූන් අතර ඇති දුර හෝ සමීපත්වයේ මිනුමක් ලෙස ය.

ඊළඟට, පොකුරු මධ්යස්ථාන අහඹු ලෙස තෝරා ගනු ලැබේ (හෝ අහඹු ලෙස නොවේ, පහත බලන්න), සහ එක් එක් වස්තුවේ සිට පොකුරු මධ්යස්ථාන වෙත ඇති දුර ගණනය කරනු ලැබේ. දී ඇති පුනරාවර්තන පියවරක ඇති සෑම වස්තුවක්ම ආසන්නතම කේන්ද්‍රයට අයත් ලෙස සලකුණු කර ඇත. එවිට එක් එක් පොකුරේ කේන්ද්‍රය එහි සාමාජිකයින්ගේ ඛණ්ඩාංකවල අංක ගණිත මධ්‍යන්‍යය වෙත මාරු කරනු ලැබේ (භෞතික විද්‍යාව සමඟ ප්‍රතිසමයෙන්, එය “ස්කන්ධයේ මධ්‍යස්ථානය” ලෙසද හැඳින්වේ), ක්‍රියා පටිපාටිය නැවත නැවතත් සිදු කෙරේ.

ක්රියාවලිය තරමක් ඉක්මනින් අභිසාරී වේ. මාන දෙකක පින්තූරවල එය මේ වගේ ය:

1. තලයේ ලකුණුවල ආරම්භක අහඹු ව්‍යාප්තිය සහ පොකුරු ගණන

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

2. පොකුරු මධ්‍යස්ථාන නියම කිරීම සහ ඒවායේ පොකුරුවලට ලකුණු ලබාදීම

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

3. පොකුරු මධ්‍යස්ථානවල ඛණ්ඩාංක මාරු කිරීම, මධ්‍යස්ථාන ස්ථාවර වන තෙක් ලක්ෂ්‍යවල අනුබද්ධය නැවත ගණනය කිරීම. එහි අවසාන ස්ථානයට ගමන් කරන පොකුරු මධ්යස්ථානයේ ගමන් පථය දෘශ්යමාන වේ.

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

ඕනෑම අවස්ථාවක, ඔබට නව පොකුරු මධ්‍යස්ථාන සැකසිය හැක (ලකුණු වල නව බෙදා හැරීමක් ජනනය නොකර!) සහ කොටස් කිරීමේ ක්‍රියාවලිය සැමවිටම නොපැහැදිලි බව බලන්න. ගණිතමය වශයෙන්, මෙයින් අදහස් කරන්නේ ශ්‍රිතය ප්‍රශස්ත කිරීම සඳහා (ලක්ෂ්‍යවල සිට ඒවායේ පොකුරු වල මධ්‍යස්ථාන දක්වා ඇති වර්ග දුරවල එකතුව), අපට ගෝලීය එකක් නොව දේශීය අවමයක් සොයා ගන්නා බවයි. ආරම්භක පොකුරු මධ්‍යස්ථානවල අහඹු නොවන තේරීමකින් හෝ හැකි මධ්‍යස්ථාන ගණනය කිරීමෙන් මෙම ගැටළුව ජය ගත හැකිය (සමහර විට ඒවා හරියටම එක් ස්ථානයක තැබීම වාසිදායක වේ, එවිට අවම වශයෙන් අප හිස් නොවන බවට සහතිකයක් ඇත. පොකුරු). ඕනෑම අවස්ථාවක, සීමිත කට්ටලයක් සෑම විටම අසමසමයක් ඇත.

ඔබට මෙම සබැඳියෙන් මෙම ගොනුව සමඟ සෙල්ලම් කළ හැකිය (සාර්ව සහය සක්‍රීය කිරීමට අමතක නොකරන්න. ගොනු වෛරස් සඳහා පරිලෝකනය කර ඇත)

විකිපීඩියාවේ ක්‍රමයේ විස්තරය - k-එනම් ක්‍රමය

2. බහුපද සහ දත්ත බිඳවැටීම මගින් ආසන්න කිරීම. නැවත පුහුණු කිරීම

කැපී පෙනෙන විද්‍යාඥයෙකු සහ දත්ත විද්‍යාව ජනප්‍රිය කරන්නෙකු වන K.V. Vorontsov කෙටියෙන් යන්ත්‍ර ඉගෙනීමේ ක්‍රම විස්තර කරන්නේ "ලකුණු හරහා වක්‍ර ඇඳීමේ විද්‍යාව" ලෙසයි. මෙම උදාහරණයේදී, අපි අවම කොටු ක්‍රමය භාවිතා කරමින් දත්තවල රටාවක් සොයා ගනිමු.

මූලාශ්‍ර දත්ත "පුහුණු කිරීම" සහ "පාලනය" ලෙස බෙදීමේ තාක්ෂණය මෙන්ම දත්ත වෙත නැවත පුහුණු කිරීම හෝ "නැවත සකස් කිරීම" වැනි සංසිද්ධියක් පෙන්වයි. නිවැරදි ආසන්න වශයෙන්, අපට පුහුණු දත්තවල යම් දෝෂයක් සහ පාලන දත්තවල තරමක් විශාල දෝෂයක් ඇත. වැරදි නම්, එය පුහුණු දත්ත වලට නිශ්චිත ගැලපීමක් සහ පරීක්ෂණ දත්තවල විශාල දෝෂයක් ඇති කරයි.

(N ලකුණු හරහා කෙනෙකුට N-1 වන අංශකයේ තනි වක්‍රයක් ඇඳිය ​​හැකි බව දන්නා කරුණකි, සාමාන්‍ය අවස්ථාවෙහි මෙම ක්‍රමය අපේක්ෂිත ප්‍රති result ලය ලබා නොදේ. විකිපීඩියාවේ Lagrange interpolation polynomial)

1. මූලික බෙදාහැරීම සකසන්න

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

2. අපි ලකුණු 70 සිට 30 දක්වා අනුපාතයකින් "පුහුණු" සහ "පාලනය" ලෙස බෙදන්නෙමු.

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

3. අපි පුහුණු ලක්ෂ්‍ය දිගේ ආසන්න වක්‍රය අඳින්නෙමු, පාලන දත්ත මත එය ලබා දෙන දෝෂය අපි දකිමු

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

4. අපි පුහුණු ලකුණු හරහා නිශ්චිත වක්‍රයක් අඳින්නෙමු, සහ පාලන දත්තවල භයානක දෝෂයක් අපට පෙනේ (සහ පුහුණු දත්තවල ශුන්‍යය, නමුත් කාරණය කුමක්ද?).

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

ඇත්ත වශයෙන්ම, “පුහුණු” සහ “පාලන” උප කුලකවලට තනි බෙදීමක් සහිත සරලම විකල්පය පෙන්වා ඇත; සාමාන්‍යයෙන්, සංගුණකවල හොඳම ගැලපීම සඳහා මෙය බොහෝ වාරයක් සිදු කෙරේ.

ප්‍රති-වයිරස මගින් පරිලෝකනය කරන ලද ගොනුව මෙහි ඇත. නිවැරදි ක්‍රියාකාරිත්වය සඳහා මැක්‍රෝස් සබල කරන්න

3. Gradient descent සහ Dynamics of error change

4-මාන නඩුවක් සහ රේඛීය ප්‍රතිගාමීත්වයක් ඇත. රේඛීය ප්‍රතිගාමී සංගුණක ශ්‍රේණිගත අවරෝහණ ක්‍රමය භාවිතයෙන් පියවරෙන් පියවර තීරණය කරනු ඇත, මුලදී සියලුම සංගුණක ශුන්‍ය වේ. සංගුණක වඩාත් නිවැරදිව සකස් කර ඇති බැවින් දෝෂ අඩු කිරීමේ ගතිකතාවයන් වෙනම ප්‍රස්ථාරයක් පෙන්වයි. 2-මාන ප්රක්ෂේපණ හතරම බැලීමට හැකිය.

ඔබ ශ්‍රේණිගත බැසීමේ පියවර ඉතා විශාල ලෙස සකසා ඇත්නම්, සෑම අවස්ථාවකදීම අපි අවමය මඟ හැර විශාල පියවර ගණනකින් ප්‍රතිඵලය වෙත පැමිණෙන බව ඔබට පෙනෙනු ඇත, නමුත් අවසානයේ අපි තවමත් පැමිණෙනු ඇත (අපි බැසීමේ පියවර ද ප්‍රමාද කරන්නේ නම් මිස බොහෝ - එවිට ඇල්ගොරිතම යයි " ස්පේඩ්"). පුනරාවර්තන පියවර මත පදනම්ව දෝෂයේ ප්‍රස්ථාරය සුමට නොවනු ඇත, නමුත් "ජේරු" වේ.

1. දත්ත උත්පාදනය කරන්න, අනුක්‍රමය බැසීමේ පියවර සකසන්න

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

2. අනුක්‍රමය බැසීමේ පියවර නිවැරදිව තෝරා ගැනීමත් සමඟ අපි සුමටව හා ඉක්මනින් අවම මට්ටමට ළඟා වෙමු

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

3. අනුක්‍රමණ බැසීමේ පියවර වැරදි ලෙස තෝරාගෙන තිබේ නම්, අපි උපරිමය ඉක්මවා යමු, දෝෂ ප්‍රස්ථාරය “ජේකි” වේ, අභිසාරී පියවර විශාල සංඛ්‍යාවක් ගනී

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම
и

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

4. අපි gradient descent පියවර සම්පූර්ණයෙන්ම වැරදි ලෙස තෝරා ගන්නේ නම්, අපි අවම මට්ටමෙන් ඉවතට යනවා

පයිතන්, ඇනකොන්ඩා සහ අනෙකුත් උරගයින් නොමැතිව යන්ත්‍ර ඉගෙනීම

(පින්තූරවල පෙන්වා ඇති ශ්‍රේණිගත අවරෝහණ පියවර අගයන් භාවිතයෙන් ක්‍රියාවලිය ප්‍රතිනිෂ්පාදනය කිරීමට, "යොමු දත්ත" කොටුව සලකුණු කරන්න).

ගොනුව මෙම සබැඳියේ ඇත, ඔබ මැක්රෝස් සක්රිය කළ යුතුය, වෛරස් නොමැත.

ගෞරවනීය ප්‍රජාවට අනුව, ද්‍රව්‍ය ඉදිරිපත් කිරීමේ එවැනි සරල කිරීමක් සහ ක්‍රමයක් පිළිගත හැකිද? ලිපිය ඉංග්‍රීසියට පරිවර්තනය කිරීම වටී ද?

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න