பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

இல்லை, நிச்சயமாக, நான் தீவிரமாக இல்லை. ஒரு விஷயத்தை எளிமையாக்குவதற்கு ஒரு எல்லை இருக்க வேண்டும். ஆனால் முதல் நிலைகளுக்கு, அடிப்படைக் கருத்துகளைப் புரிந்துகொண்டு, தலைப்பை விரைவாக "உள்ளிடுவது", அது ஏற்றுக்கொள்ளத்தக்கதாக இருக்கலாம். இந்த பொருளை எவ்வாறு சரியாகப் பெயரிடுவது என்பதை (விருப்பங்கள்: “டம்மிகளுக்கான இயந்திர கற்றல்”, “டயப்பர்களிலிருந்து தரவு பகுப்பாய்வு”, “சிறுவர்களுக்கான வழிமுறைகள்”) இறுதியில் விவாதிப்போம்.

அந்த இடம் வரை. தரவை பகுப்பாய்வு செய்யும் போது வெவ்வேறு இயந்திர கற்றல் முறைகளில் நிகழும் செயல்முறைகளின் காட்சிப்படுத்தல் மற்றும் காட்சி பிரதிநிதித்துவத்திற்காக MS Excel இல் பல பயன்பாட்டு நிரல்களை எழுதினார். இந்த முறைகளில் பெரும்பாலானவற்றை உருவாக்கியது (அனைத்தும் அல்ல. மிகவும் சக்திவாய்ந்த "ஆதரவு திசையன் இயந்திரம்" அல்லது SVM, ஆதரவு திசையன் இயந்திரம் கண்டுபிடிப்பு ஆகும் எங்கள் தோழர் விளாடிமிர் வாப்னிக், மாஸ்கோ இன்ஸ்டிடியூட் ஆஃப் மேனேஜ்மென்ட்.

மதிப்பாய்வுக்கு மூன்று கோப்புகள்

1. K- என்றால் கிளஸ்டரிங்

இந்த வகையான சிக்கல்கள் "கண்காணிக்கப்படாத கற்றல்" என்பதைக் குறிக்கின்றன, ஆரம்பத் தரவை முன்கூட்டியே அறியப்பட்ட குறிப்பிட்ட எண்ணிக்கையிலான வகைகளாகப் பிரிக்க வேண்டும், ஆனால் எங்களிடம் "சரியான பதில்கள்" இல்லை; அவற்றைத் தரவிலிருந்து பிரித்தெடுக்க வேண்டும். . இந்த அறிவுத் துறையின் முதல் அடையாளமாகக் கருதப்படும் கருவிழிப் பூக்களின் (ரொனால்ட் ஃபிஷர், 1936!) கிளையினங்களைக் கண்டறிவதில் அடிப்படையான கிளாசிக்கல் பிரச்சனை இந்த இயல்புடையது.

முறை மிகவும் எளிமையானது. எங்களிடம் வெக்டார்களாக (N எண்களின் தொகுப்புகள்) குறிப்பிடப்படும் பொருள்களின் தொகுப்பு உள்ளது. கருவிழிகளில், இவை பூவைக் குறிக்கும் 4 எண்களின் தொகுப்புகள்: முறையே பெரியந்தின் வெளி மற்றும் உள் மடல்களின் நீளம் மற்றும் அகலம் (பிஷ்ஷரின் கருவிழிகள் - விக்கிபீடியா) வழக்கமான கார்ட்டீசியன் மெட்ரிக் தூரம் அல்லது பொருட்களுக்கு இடையே உள்ள அருகாமையின் அளவாக தேர்ந்தெடுக்கப்படுகிறது.

அடுத்து, கிளஸ்டர் மையங்கள் தோராயமாக தேர்ந்தெடுக்கப்படுகின்றன (அல்லது தோராயமாக இல்லை, கீழே பார்க்கவும்), மேலும் ஒவ்வொரு பொருளிலிருந்தும் கிளஸ்டர் மையங்களுக்கான தூரம் கணக்கிடப்படுகிறது. கொடுக்கப்பட்ட மறு செய்கை படியில் உள்ள ஒவ்வொரு பொருளும் மிக நெருக்கமான மையத்திற்கு சொந்தமானதாகக் குறிக்கப்படுகிறது. ஒவ்வொரு கிளஸ்டரின் மையமும் அதன் உறுப்பினர்களின் ஆயங்களின் எண்கணித சராசரிக்கு மாற்றப்படுகிறது (இயற்பியலுடன் ஒப்புமை மூலம், இது "நிறையின் மையம்" என்றும் அழைக்கப்படுகிறது), மேலும் செயல்முறை மீண்டும் செய்யப்படுகிறது.

செயல்முறை மிக விரைவாக ஒன்றிணைகிறது. இரண்டு பரிமாணங்களில் உள்ள படங்களில் இது போல் தெரிகிறது:

1. விமானத்தில் உள்ள புள்ளிகளின் ஆரம்ப சீரற்ற விநியோகம் மற்றும் கொத்துகளின் எண்ணிக்கை

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

2. கிளஸ்டர் மையங்களைக் குறிப்பிடுதல் மற்றும் அவற்றின் கிளஸ்டர்களுக்கு புள்ளிகளை வழங்குதல்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

3. கிளஸ்டர் மையங்களின் ஒருங்கிணைப்புகளை மாற்றுதல், மையங்கள் உறுதிப்படுத்தப்படும் வரை புள்ளிகளின் இணைப்பை மீண்டும் கணக்கிடுதல். அதன் இறுதி நிலைக்கு நகரும் கொத்து மையத்தின் பாதை தெரியும்.

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

எந்த நேரத்திலும், நீங்கள் புதிய கிளஸ்டர் மையங்களை அமைக்கலாம் (புள்ளிகளின் புதிய விநியோகத்தை உருவாக்காமல்!) மற்றும் பகிர்வு செயல்முறை எப்போதும் தெளிவற்றதாக இருக்காது. கணிதரீதியாக, செயல்பாடு உகந்ததாக்கப்படுவதற்கு (புள்ளிகளிலிருந்து அவற்றின் கிளஸ்டர்களின் மையங்கள் வரையிலான ஸ்கொயர் தூரங்களின் கூட்டுத்தொகை), நாம் ஒரு உலகளாவிய அல்ல, ஆனால் உள்ளூர் குறைந்தபட்சத்தைக் காண்கிறோம். ஆரம்ப கிளஸ்டர் மையங்களின் சீரற்ற தேர்வு அல்லது சாத்தியமான மையங்களைக் கணக்கிடுவதன் மூலம் இந்த சிக்கலைச் சமாளிக்க முடியும் (சில நேரங்களில் அவற்றை ஒரு புள்ளியில் சரியாக வைப்பது சாதகமானது, பின்னர் குறைந்தபட்சம் நாம் காலியாக மாட்டோம் என்ற உத்தரவாதம் உள்ளது. கொத்துகள்). எவ்வாறாயினும், ஒரு வரையறுக்கப்பட்ட தொகுப்பில் எப்பொழுதும் ஒரு infimum உள்ளது.

இந்த இணைப்பில் இந்த கோப்பை நீங்கள் விளையாடலாம் (மேக்ரோ ஆதரவை இயக்க மறக்காதீர்கள். கோப்புகள் வைரஸ்களுக்காக ஸ்கேன் செய்யப்பட்டுள்ளன)

விக்கிபீடியாவில் முறையின் விளக்கம் - k- என்றால் முறை

2. பல்லுறுப்புக்கோவைகள் மற்றும் தரவு முறிவு மூலம் தோராயப்படுத்தல். மீண்டும் பயிற்சி

குறிப்பிடத்தக்க விஞ்ஞானி மற்றும் தரவு அறிவியலை பிரபலப்படுத்துபவர் கே.வி. Vorontsov சுருக்கமாக இயந்திர கற்றல் முறைகளை "புள்ளிகள் மூலம் வளைவுகளை வரைவதற்கான அறிவியல்" என்று விவரிக்கிறார். இந்த எடுத்துக்காட்டில், குறைந்தபட்ச சதுரங்கள் முறையைப் பயன்படுத்தி தரவுகளில் ஒரு வடிவத்தைக் காண்போம்.

மூலத் தரவை "பயிற்சி" மற்றும் "கட்டுப்பாடு" எனப் பிரிக்கும் நுட்பம் காட்டப்பட்டுள்ளது, அதே போல் தரவை மீண்டும் பயிற்சி செய்தல் அல்லது "மீண்டும் சரிசெய்தல்" போன்ற ஒரு நிகழ்வும் காட்டப்பட்டுள்ளது. சரியான தோராயத்துடன், பயிற்சித் தரவில் ஒரு குறிப்பிட்ட பிழையும், கட்டுப்பாட்டுத் தரவில் சற்று பெரிய பிழையும் இருக்கும். தவறாக இருந்தால், அது பயிற்சித் தரவில் துல்லியமான சரிசெய்தல் மற்றும் சோதனைத் தரவில் பெரும் பிழையை ஏற்படுத்துகிறது.

(N புள்ளிகள் மூலம் ஒருவர் N-1 வது பட்டத்தின் ஒற்றை வளைவை வரைய முடியும் என்பது அனைவரும் அறிந்த உண்மை, மேலும் இந்த முறை பொதுவாக விரும்பிய முடிவைக் கொடுக்காது. விக்கிபீடியாவில் லாக்ரேஞ்ச் இடைச்செருகல் பல்லுறுப்புக்கோவை)

1. ஆரம்ப விநியோகத்தை அமைக்கவும்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

2. புள்ளிகளை 70 முதல் 30 விகிதத்தில் "பயிற்சி" மற்றும் "கட்டுப்பாடு" என பிரிக்கிறோம்.

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

3. பயிற்சிப் புள்ளிகளுடன் தோராயமான வளைவை வரைகிறோம், கட்டுப்பாட்டுத் தரவில் அது கொடுக்கும் பிழையைப் பார்க்கிறோம்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

4. பயிற்சிப் புள்ளிகள் மூலம் சரியான வளைவை வரைகிறோம், மேலும் கட்டுப்பாட்டுத் தரவில் ஒரு பயங்கரமான பிழையைக் காண்கிறோம் (மற்றும் பயிற்சி தரவில் பூஜ்ஜியம், ஆனால் என்ன பயன்?).

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

காட்டப்பட்டுள்ளது, நிச்சயமாக, "பயிற்சி" மற்றும் "கட்டுப்பாடு" துணைக்குழுக்களில் ஒற்றைப் பிரிவைக் கொண்ட எளிய விருப்பம்; பொதுவாக, குணகங்களின் சிறந்த சரிசெய்தலுக்கு இது பல முறை செய்யப்படுகிறது.

வைரஸ் தடுப்பு மூலம் ஸ்கேன் செய்யப்பட்ட கோப்பு இங்கே கிடைக்கிறது. சரியான செயல்பாட்டிற்கு மேக்ரோக்களை இயக்கவும்

3. சரிவு வம்சாவளி மற்றும் பிழை மாற்றத்தின் இயக்கவியல்

4-பரிமாண வழக்கு மற்றும் நேரியல் பின்னடைவு இருக்கும். நேரியல் பின்னடைவு குணகங்கள் சாய்வு இறங்கு முறையைப் பயன்படுத்தி படிப்படியாக தீர்மானிக்கப்படும், ஆரம்பத்தில் அனைத்து குணகங்களும் பூஜ்ஜியமாகும். குணகங்கள் மேலும் மேலும் துல்லியமாக சரிசெய்யப்படுவதால், ஒரு தனி வரைபடம் பிழைக் குறைப்பின் இயக்கவியலைக் காட்டுகிறது. நான்கு 2 பரிமாண கணிப்புகளையும் பார்க்க முடியும்.

நீங்கள் சாய்வு இறங்கு படியை மிகப் பெரியதாக அமைத்தால், ஒவ்வொரு முறையும் நாங்கள் குறைந்தபட்சத்தைத் தவிர்த்து, அதிக எண்ணிக்கையிலான படிகளில் முடிவை அடைவோம் என்பதை நீங்கள் பார்க்கலாம், இருப்பினும் இறுதியில் நாங்கள் வருவோம் (நாங்கள் இறங்கும் படியையும் தாமதப்படுத்தாவிட்டால். அதிகம் - பின்னர் அல்காரிதம் செல்லும் “ ஸ்பேட்களில்"). மறு செய்கையின் படிநிலையைப் பொறுத்து பிழையின் வரைபடம் மென்மையாக இருக்காது, ஆனால் "ஜெர்க்கி".

1. தரவை உருவாக்கவும், சாய்வு இறங்கு படியை அமைக்கவும்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

2. சாய்வு இறங்கு படியின் சரியான தேர்வு மூலம், நாங்கள் சுமூகமாகவும் விரைவாகவும் குறைந்தபட்சத்தை அடைகிறோம்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

3. சாய்வு இறங்கும் படி தவறாக தேர்ந்தெடுக்கப்பட்டால், அதிகபட்ச அளவை மீறுகிறோம், பிழை வரைபடம் "ஜெர்க்கி", குவிதல் அதிக எண்ணிக்கையிலான படிகளை எடுக்கும்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்
и

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

4. சாய்வு இறங்கு படியை நாம் முற்றிலும் தவறாகத் தேர்ந்தெடுத்தால், நாம் குறைந்தபட்சத்திலிருந்து விலகிச் செல்கிறோம்

பைதான், அனகோண்டா மற்றும் பிற ஊர்வன இல்லாமல் இயந்திர கற்றல்

(படங்களில் காட்டப்பட்டுள்ள சாய்வு இறங்கு படி மதிப்புகளைப் பயன்படுத்தி செயல்முறையை மீண்டும் உருவாக்க, "குறிப்பு தரவு" பெட்டியை சரிபார்க்கவும்).

கோப்பு இந்த இணைப்பில் உள்ளது, நீங்கள் மேக்ரோக்களை இயக்க வேண்டும், வைரஸ்கள் இல்லை.

மரியாதைக்குரிய சமூகத்தின் கூற்றுப்படி, அத்தகைய எளிமைப்படுத்தல் மற்றும் பொருள் முன்வைக்கும் முறை ஏற்கத்தக்கதா? கட்டுரையை ஆங்கிலத்தில் மொழிபெயர்ப்பது மதிப்புள்ளதா?

ஆதாரம்: www.habr.com

கருத்தைச் சேர்