இந்த கட்டுரையில், மாற்றத்தின் தத்துவார்த்த கணக்கீடுகளை பகுப்பாய்வு செய்வோம் நேரியல் பின்னடைவு செயல்பாடுகள் в தலைகீழ் லாஜிட் உருமாற்ற செயல்பாடு (இல்லையெனில் லாஜிஸ்டிக் ரெஸ்பான்ஸ் செயல்பாடு என அழைக்கப்படுகிறது). பின்னர், ஆயுதக் களஞ்சியத்தைப் பயன்படுத்துதல் அதிகபட்ச சாத்தியக்கூறு முறை, லாஜிஸ்டிக் பின்னடைவு மாதிரிக்கு ஏற்ப, இழப்பு செயல்பாட்டைப் பெறுகிறோம் லாஜிஸ்டிக் இழப்பு, அல்லது வேறு வார்த்தைகளில் கூறுவதானால், லாஜிஸ்டிக் பின்னடைவு மாதிரியில் எடை வெக்டரின் அளவுருக்கள் தேர்ந்தெடுக்கப்பட்ட ஒரு செயல்பாட்டை நாங்கள் வரையறுப்போம். .
கட்டுரையின் சுருக்கம்:
- இரண்டு மாறிகளுக்கு இடையிலான நேரியல் உறவை மீண்டும் செய்வோம்
- மாற்றத்தின் அவசியத்தை அடையாளம் காண்போம் நேரியல் பின்னடைவு செயல்பாடுகள் в தளவாட பதில் செயல்பாடு
- உருமாற்றங்கள் மற்றும் வெளியீட்டை மேற்கொள்வோம் தளவாட பதில் செயல்பாடு
- அளவுருக்களைத் தேர்ந்தெடுக்கும்போது குறைந்த சதுர முறை ஏன் மோசமானது என்பதைப் புரிந்துகொள்ள முயற்சிப்போம் செயல்பாடுகளை லாஜிஸ்டிக் இழப்பு
- பயன்படுத்த அதிகபட்ச சாத்தியக்கூறு முறை தீர்மானிப்பதற்காக அளவுரு தேர்வு செயல்பாடுகள் :
5.1 வழக்கு 1: செயல்பாடு லாஜிஸ்டிக் இழப்பு வகுப்பு பெயர்களைக் கொண்ட பொருள்களுக்கு 0 и 1:
5.2 வழக்கு 2: செயல்பாடு லாஜிஸ்டிக் இழப்பு வகுப்பு பெயர்களைக் கொண்ட பொருள்களுக்கு -1 и +1:
கட்டுரை எளிய எடுத்துக்காட்டுகளால் நிரம்பியுள்ளது, இதில் அனைத்து கணக்கீடுகளும் வாய்வழி அல்லது காகிதத்தில் செய்ய எளிதானவை; சில சந்தர்ப்பங்களில், ஒரு கால்குலேட்டர் தேவைப்படலாம். எனவே தயாராகுங்கள் :)
இந்த கட்டுரை முதன்மையாக இயந்திர கற்றலின் அடிப்படைகளில் ஆரம்ப நிலை அறிவைக் கொண்ட தரவு விஞ்ஞானிகளுக்காக வடிவமைக்கப்பட்டுள்ளது.
வரைபடங்கள் மற்றும் கணக்கீடுகளை வரைவதற்கான குறியீட்டையும் கட்டுரை வழங்கும். அனைத்து குறியீடுகளும் மொழியில் எழுதப்பட்டுள்ளன பைதான் 2.7. பயன்படுத்தப்பட்ட பதிப்பின் "புதுமை" பற்றி முன்கூட்டியே விளக்குகிறேன் - இது நன்கு அறியப்பட்ட பாடத்தை எடுப்பதற்கான நிபந்தனைகளில் ஒன்றாகும். யாண்டெக்ஸ் நன்கு அறியப்பட்ட ஆன்லைன் கல்வி தளத்தில் Coursera கூடுதலாக, மற்றும், ஒருவர் கருதுவது போல, இந்த பாடத்திட்டத்தின் அடிப்படையில் பொருள் தயாரிக்கப்பட்டது.
01. நேர்கோட்டு சார்பு
கேள்வி கேட்பது மிகவும் நியாயமானது - நேரியல் சார்பு மற்றும் லாஜிஸ்டிக் பின்னடைவுக்கும் இதற்கும் என்ன சம்பந்தம்?
இது எளிமை! லாஜிஸ்டிக் பின்னடைவு என்பது நேரியல் வகைப்படுத்திக்கு சொந்தமான மாதிரிகளில் ஒன்றாகும். எளிமையான வார்த்தைகளில், ஒரு நேரியல் வகைப்படுத்தியின் பணி இலக்கு மதிப்புகளைக் கணிப்பதாகும் மாறிகளிலிருந்து (பின்னடைவுகள்) . குணாதிசயங்களுக்கு இடையிலான சார்பு என்று நம்பப்படுகிறது மற்றும் இலக்கு மதிப்புகள் நேரியல். எனவே வகைப்படுத்தியின் பெயர் - நேரியல். மிகவும் தோராயமாகச் சொல்வதென்றால், லாஜிஸ்டிக் பின்னடைவு மாதிரியானது குணாதிசயங்களுக்கு இடையே ஒரு நேர்கோட்டு உறவு இருக்கிறது என்ற அனுமானத்தின் அடிப்படையில் அமைந்துள்ளது. மற்றும் இலக்கு மதிப்புகள் . இதுதான் இணைப்பு.
ஸ்டுடியோவில் முதல் உதாரணம் உள்ளது, அது சரியாக, ஆய்வு செய்யப்படும் அளவுகளின் நேர்கோட்டு சார்பு பற்றியது. கட்டுரையைத் தயாரிக்கும் பணியில், ஏற்கனவே பலரை விளிம்பில் வைத்திருக்கும் ஒரு உதாரணத்தை நான் கண்டேன் - மின்னழுத்தத்தில் மின்னோட்டத்தின் சார்பு (“பயன்படுத்தப்பட்ட பின்னடைவு பகுப்பாய்வு”, என். டிராப்பர், ஜி. ஸ்மித்). அதையும் இங்கே பார்ப்போம்.
படி ஓம் விதி:
அங்கு - தற்போதைய வலிமை, - மின்னழுத்தம், - எதிர்ப்பு.
நாம் அறியவில்லை என்றால் ஓம் விதி, பின்னர் மாற்றுவதன் மூலம் அனுபவ ரீதியாக நாம் சார்ந்திருப்பதைக் கண்டறிய முடியும் மற்றும் அளவிடும் , ஆதரிக்கும் போது சரி செய்யப்பட்டது. பின்னர் சார்பு வரைபடம் என்று பார்ப்போம் இருந்து தோற்றத்தின் வழியாக அதிகமாகவோ அல்லது குறைவாகவோ நேர்கோட்டை அளிக்கிறது. நாங்கள் "அதிகமாகவோ அல்லது குறைவாகவோ" என்று கூறுகிறோம், ஏனென்றால், உறவு உண்மையில் துல்லியமாக இருந்தாலும், எங்கள் அளவீடுகளில் சிறிய பிழைகள் இருக்கலாம், எனவே வரைபடத்தில் உள்ள புள்ளிகள் சரியாக வரியில் வராமல் இருக்கலாம், ஆனால் தோராயமாக அதைச் சுற்றி சிதறடிக்கப்படும்.
வரைபடம் 1 "சார்பு" இருந்து »
விளக்கப்படம் வரைதல் குறியீடு
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. நேரியல் பின்னடைவு சமன்பாட்டை மாற்ற வேண்டிய அவசியம்
இன்னொரு உதாரணத்தைப் பார்ப்போம். நாம் ஒரு வங்கியில் வேலை செய்கிறோம் என்று கற்பனை செய்து கொள்வோம், சில காரணிகளைப் பொறுத்து கடனாளி கடனைத் திருப்பிச் செலுத்துவதற்கான சாத்தியக்கூறுகளைத் தீர்மானிப்பதே எங்கள் பணி. பணியை எளிமைப்படுத்த, நாங்கள் இரண்டு காரணிகளை மட்டுமே கருத்தில் கொள்வோம்: கடனாளியின் மாத சம்பளம் மற்றும் மாதாந்திர கடன் திருப்பிச் செலுத்தும் தொகை.
பணி மிகவும் நிபந்தனைக்குட்பட்டது, ஆனால் இந்த எடுத்துக்காட்டில் அதை ஏன் பயன்படுத்த போதுமானதாக இல்லை என்பதை நாம் புரிந்து கொள்ளலாம் நேரியல் பின்னடைவு செயல்பாடுகள், மற்றும் செயல்பாட்டின் மூலம் என்ன மாற்றங்கள் செய்யப்பட வேண்டும் என்பதைக் கண்டறியவும்.
உதாரணத்திற்கு திரும்புவோம். அதிக சம்பளம், கடன் வாங்கியவர் கடனைத் திருப்பிச் செலுத்த மாதாந்திர ஒதுக்க முடியும் என்பது புரிந்து கொள்ளப்படுகிறது. அதே நேரத்தில், ஒரு குறிப்பிட்ட சம்பள வரம்பிற்கு இந்த உறவு மிகவும் நேர்கோட்டில் இருக்கும். எடுத்துக்காட்டாக, 60.000 RUR முதல் 200.000 RUR வரையிலான சம்பள வரம்பை எடுத்துக்கொள்வோம், மேலும் குறிப்பிட்ட சம்பள வரம்பில், சம்பளத்தின் அளவைப் பொறுத்து மாதாந்திர கொடுப்பனவின் அளவைச் சார்ந்திருப்பது நேரியல் என்று வைத்துக்கொள்வோம். குறிப்பிட்ட ஊதிய வரம்பிற்கு, சம்பளம் மற்றும் கொடுப்பனவு விகிதம் 3க்குக் கீழே குறையக்கூடாது என்றும், கடன் வாங்குபவர் இன்னும் 5.000 RUR கையிருப்பில் வைத்திருக்க வேண்டும் என்றும் தெரியவந்துள்ளது என்று வைத்துக்கொள்வோம். இந்த விஷயத்தில் மட்டுமே, கடன் வாங்கியவர் வங்கிக்கு கடனை திருப்பிச் செலுத்துவார் என்று கருதுவோம். பின்னர், நேரியல் பின்னடைவு சமன்பாடு வடிவம் எடுக்கும்:
எங்கே , , , - சம்பளம் - வது கடன் வாங்கியவர், - கடன் செலுத்துதல் -வது கடன் வாங்கியவர்.
சமன்பாட்டில் நிலையான அளவுருக்களுடன் சம்பளம் மற்றும் கடன் செலுத்துதல் ஆகியவற்றை மாற்றுதல் கடனை வழங்குவதா அல்லது மறுப்பதா என்பதை நீங்கள் தீர்மானிக்கலாம்.
முன்னோக்கிப் பார்க்கும்போது, கொடுக்கப்பட்ட அளவுருக்களுடன் அதைக் கவனிக்கிறோம் நேரியல் பின்னடைவு செயல்பாடு, பயன்படுத்தப்படுகிறது தளவாட பதில் செயல்பாடுகள் கடன் திருப்பிச் செலுத்துவதற்கான சாத்தியக்கூறுகளைத் தீர்மானிக்க கணக்கீடுகளை சிக்கலாக்கும் பெரிய மதிப்புகளை உருவாக்கும். எனவே, எங்கள் குணகங்களை 25.000 மடங்கு குறைக்க முன்மொழியப்பட்டது. குணகங்களில் இந்த மாற்றம் கடனை வழங்குவதற்கான முடிவை மாற்றாது. எதிர்காலத்திற்கான இந்த புள்ளியை நினைவில் கொள்வோம், ஆனால் இப்போது, நாம் எதைப் பற்றி பேசுகிறோம் என்பதை இன்னும் தெளிவாக்குவதற்கு, மூன்று சாத்தியமான கடன் வாங்குபவர்களுடன் நிலைமையைக் கருத்தில் கொள்வோம்.
அட்டவணை 1 "சாத்தியமான கடன் வாங்குபவர்கள்"
அட்டவணையை உருவாக்குவதற்கான குறியீடு
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
அட்டவணையில் உள்ள தரவுகளின்படி, வாஸ்யா, 120.000 RUR சம்பளத்துடன், கடனைப் பெற விரும்புகிறார், அதனால் அவர் அதை மாதந்தோறும் 3.000 RUR இல் திருப்பிச் செலுத்த முடியும். கடனை அங்கீகரிக்க, வாஸ்யாவின் சம்பளம் மூன்று மடங்கு அதிகமாக இருக்க வேண்டும் என்றும், இன்னும் 5.000 ரூபிள் மீதம் இருக்க வேண்டும் என்றும் நாங்கள் தீர்மானித்தோம். வாஸ்யா இந்த தேவையை பூர்த்தி செய்கிறார்: . 106.000 RUR கூட உள்ளது. என்ற போதிலும் கணக்கிடும் போது நாங்கள் முரண்பாடுகளைக் குறைத்துள்ளோம் 25.000 முறை, முடிவு ஒரே மாதிரியாக இருந்தது - கடனை அங்கீகரிக்கலாம். ஃபெட்யாவும் கடனைப் பெறுவார், ஆனால் லெஷா, அவர் அதிகம் பெற்றாலும், அவரது பசியைக் கட்டுப்படுத்த வேண்டும்.
இந்த வழக்கில் ஒரு வரைபடத்தை வரைவோம்.
விளக்கப்படம் 2 "கடன் வாங்குபவர்களின் வகைப்பாடு"
வரைபடத்தை வரைவதற்கான குறியீடு
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
எனவே, எங்கள் நேர் கோடு, செயல்பாட்டிற்கு ஏற்ப கட்டப்பட்டது , "கெட்ட" கடன் வாங்குபவர்களை "நல்லவர்களிடமிருந்து" பிரிக்கிறது. அவர்களின் ஆசைகள் தங்கள் திறன்களுடன் ஒத்துப்போகாத கடன் வாங்குபவர்கள் கோட்டிற்கு மேலே உள்ளனர் (லேஷா), அதே நேரத்தில், எங்கள் மாதிரியின் அளவுருக்களின்படி, கடனைத் திருப்பிச் செலுத்தக்கூடியவர்கள் வரிக்குக் கீழே உள்ளனர் (வாஸ்யா மற்றும் ஃபெத்யா). வேறு வார்த்தைகளில் கூறுவதானால், நாம் இதைச் சொல்லலாம்: எங்கள் நேரடி வரி கடன் வாங்குபவர்களை இரண்டு வகுப்புகளாகப் பிரிக்கிறது. அவற்றை பின்வருமாறு குறிப்போம்: வகுப்பிற்கு கடனை திருப்பிச் செலுத்த அதிக வாய்ப்புள்ள கடன் வாங்குபவர்களை நாங்கள் வகைப்படுத்துவோம் அல்லது கடனைத் திருப்பிச் செலுத்த முடியாத கடனாளிகளை நாங்கள் சேர்ப்போம்.
இந்த எளிய உதாரணத்திலிருந்து முடிவுகளை சுருக்கமாகக் கூறுவோம். ஒரு புள்ளியை எடுத்துக் கொள்வோம் மற்றும், புள்ளியின் ஆயங்களை கோட்டின் தொடர்புடைய சமன்பாட்டில் மாற்றுதல் , மூன்று விருப்பங்களைக் கவனியுங்கள்:
- புள்ளி கோட்டின் கீழ் இருந்தால், அதை வகுப்பிற்கு ஒதுக்குவோம் , பின்னர் செயல்பாட்டின் மதிப்பு இருந்து நேர்மறையாக இருக்கும் செய்ய . இதன் பொருள் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு உள்ளதாக நாம் கருதலாம் . பெரிய செயல்பாட்டு மதிப்பு, அதிக நிகழ்தகவு.
- ஒரு புள்ளி ஒரு கோட்டிற்கு மேல் இருந்தால், அதை வகுப்பிற்கு ஒதுக்குவோம் அல்லது , பின்னர் செயல்பாட்டின் மதிப்பு எதிர்மறையாக இருக்கும் செய்ய . பின்னர் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு உள்ளதாகக் கருதுவோம் மேலும், செயல்பாட்டின் முழுமையான மதிப்பு அதிகமாக இருந்தால், நமது நம்பிக்கை அதிகமாகும்.
- புள்ளி ஒரு நேர் கோட்டில், இரண்டு வகுப்புகளுக்கு இடையிலான எல்லையில் உள்ளது. இந்த வழக்கில், செயல்பாட்டின் மதிப்பு சமமாக இருக்கும் மற்றும் கடனை திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு சமம் .
இப்போது, நாம் இரண்டு காரணிகள் இல்லை என்று கற்பனை செய்யலாம், ஆனால் டஜன் கணக்கான, மற்றும் மூன்று இல்லை, ஆனால் ஆயிரக்கணக்கான கடன் வாங்குபவர்கள். பின்னர் ஒரு நேர் கோட்டிற்கு பதிலாக நமக்கு இருக்கும் மீ பரிமாணம் விமானம் மற்றும் குணகங்கள் நாங்கள் காற்றில் இருந்து வெளியே எடுக்கப்பட மாட்டோம், ஆனால் அனைத்து விதிகளின்படியும், கடனைச் செலுத்திய அல்லது திருப்பிச் செலுத்தாத கடனாளிகள் பற்றிய திரட்டப்பட்ட தரவுகளின் அடிப்படையில் பெறப்படுவோம். உண்மையில், ஏற்கனவே அறியப்பட்ட குணகங்களைப் பயன்படுத்தி இப்போது கடன் வாங்குபவர்களைத் தேர்ந்தெடுக்கிறோம் என்பதை நினைவில் கொள்க . உண்மையில், லாஜிஸ்டிக் பின்னடைவு மாதிரியின் பணி துல்லியமாக அளவுருக்களை தீர்மானிப்பதாகும் , இதில் இழப்பு செயல்பாட்டின் மதிப்பு லாஜிஸ்டிக் இழப்பு குறைந்தபட்சமாக இருக்கும். ஆனால் திசையன் எவ்வாறு கணக்கிடப்படுகிறது என்பது பற்றி , கட்டுரையின் 5 வது பிரிவில் மேலும் கண்டுபிடிப்போம். இதற்கிடையில், நாங்கள் வாக்குறுதியளிக்கப்பட்ட நிலத்திற்கு - எங்கள் வங்கியாளர் மற்றும் அவரது மூன்று வாடிக்கையாளர்களுக்குத் திரும்புகிறோம்.
செயல்பாட்டிற்கு நன்றி யாருக்கு கடன் கொடுக்கலாம், யாருக்கு மறுக்கப்பட வேண்டும் என்பது எங்களுக்குத் தெரியும். ஆனால் அத்தகைய தகவலுடன் நீங்கள் இயக்குனரிடம் செல்ல முடியாது, ஏனென்றால் ஒவ்வொரு கடனாளியும் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை எங்களிடமிருந்து பெற விரும்பினர். என்ன செய்ய? பதில் எளிது - நாம் எப்படியாவது செயல்பாட்டை மாற்ற வேண்டும் , அதன் மதிப்புகள் வரம்பில் உள்ளன ஒரு செயல்பாட்டிற்கு, அதன் மதிப்புகள் வரம்பில் இருக்கும் . அத்தகைய செயல்பாடு உள்ளது, அது அழைக்கப்படுகிறது லாஜிஸ்டிக் பதில் செயல்பாடு அல்லது தலைகீழ் லாஜிட் மாற்றம். சந்திப்பு:
இது எவ்வாறு செயல்படுகிறது என்பதை படிப்படியாகப் பார்ப்போம் தளவாட பதில் செயல்பாடு. நாம் எதிர் திசையில் நடப்போம் என்பதைக் கவனியுங்கள், அதாவது. வரம்பில் இருக்கும் நிகழ்தகவு மதிப்பு எங்களுக்குத் தெரியும் என்று வைத்துக்கொள்வோம் செய்ய பின்னர் இந்த மதிப்பை எண்களின் முழு வரம்பிற்கும் "விரிவு" செய்வோம் செய்ய .
03. நாங்கள் லாஜிஸ்டிக் ரெஸ்பான்ஸ் செயல்பாட்டைப் பெறுகிறோம்
படி 1. நிகழ்தகவு மதிப்புகளை வரம்பாக மாற்றவும்
செயல்பாட்டின் மாற்றத்தின் போது в தளவாட பதில் செயல்பாடு நாங்கள் எங்கள் கடன் பகுப்பாய்வைத் தனியாக விட்டுவிட்டு, அதற்குப் பதிலாக புக்மேக்கர்களை சுற்றிப் பார்ப்போம். இல்லை, நிச்சயமாக, நாங்கள் பந்தயம் வைக்க மாட்டோம், எங்களுக்கு ஆர்வமுள்ள அனைத்தும் வெளிப்பாட்டின் பொருள், எடுத்துக்காட்டாக, வாய்ப்பு 4 முதல் 1. எல்லா பந்தயக்காரர்களுக்கும் தெரிந்த முரண்பாடுகள், "வெற்றிகளின்" விகிதம் " தோல்விகள்". நிகழ்தகவு அடிப்படையில், முரண்பாடுகள் என்பது நிகழ்வின் நிகழ்தகவை நிகழ்வின் நிகழ்தகவால் வகுத்தல். ஒரு நிகழ்வு நிகழும் வாய்ப்பிற்கான சூத்திரத்தை எழுதுவோம் :
அங்கு - ஒரு நிகழ்வின் நிகழ்தகவு, - ஒரு நிகழ்வு நிகழாத நிகழ்தகவு
எடுத்துக்காட்டாக, "வெட்டரோக்" என்ற புனைப்பெயர் கொண்ட இளம், வலிமையான மற்றும் விளையாட்டுத்தனமான குதிரை ஒரு பந்தயத்தில் "மாடில்டா" என்ற வயதான மற்றும் மந்தமான வயதான பெண்ணை வெல்லும் நிகழ்தகவு சமமாக இருந்தால் , பின்னர் "Veterok" வெற்றிக்கான வாய்ப்புகள் இருக்கும் к மற்றும் நேர்மாறாக, முரண்பாடுகளை அறிந்தால், நிகழ்தகவைக் கணக்கிடுவது எங்களுக்கு கடினமாக இருக்காது :
எனவே, நிகழ்தகவை வாய்ப்புகளாக "மொழிபெயர்க்க" கற்றுக்கொண்டோம், அதில் இருந்து மதிப்புகள் எடுக்கப்படுகின்றன செய்ய . இன்னும் ஒரு படி எடுத்து, முழு எண் வரியிலிருந்து நிகழ்தகவை "மொழிபெயர்க்க" கற்றுக்கொள்வோம் செய்ய .
படி 2. நிகழ்தகவு மதிப்புகளை வரம்பாக மாற்றவும்
இந்த படி மிகவும் எளிமையானது - ஆய்லரின் எண்ணின் அடிப்படைக்கு முரண்பாடுகளின் மடக்கையை எடுத்துக் கொள்வோம். மற்றும் நாம் பெறுகிறோம்:
என்றால் இப்போது நமக்குத் தெரியும் , பின்னர் மதிப்பைக் கணக்கிடுங்கள் இது மிகவும் எளிமையானதாக இருக்கும், மேலும், இது நேர்மறையாக இருக்க வேண்டும்: . இது உண்மைதான்.
ஆர்வத்தின் காரணமாக, என்ன செய்ய வேண்டும் என்று பார்க்கலாம் , பின்னர் எதிர்மறை மதிப்பைக் காண எதிர்பார்க்கிறோம் . நாங்கள் சரிபார்க்கிறோம்: . அது சரி.
நிகழ்தகவு மதிப்பை எவ்வாறு மாற்றுவது என்பது இப்போது நமக்குத் தெரியும் செய்ய முழு எண் வரிசையில் இருந்து செய்ய . அடுத்த கட்டத்தில் நாம் எதிர் செய்வோம்.
இப்போதைக்கு, மடக்கை விதிகளின்படி, செயல்பாட்டின் மதிப்பை அறிந்துகொள்வதை நாங்கள் கவனிக்கிறோம் , நீங்கள் முரண்பாடுகளைக் கணக்கிடலாம்:
முரண்பாடுகளை நிர்ணயிக்கும் இந்த முறை அடுத்த கட்டத்தில் நமக்கு பயனுள்ளதாக இருக்கும்.
படி 3. தீர்மானிக்க ஒரு சூத்திரத்தைப் பெறுவோம்
எனவே நாங்கள் கற்றுக்கொண்டோம், அறிந்தோம் , செயல்பாட்டு மதிப்புகளைக் கண்டறியவும் . இருப்பினும், உண்மையில், நமக்கு நேர்மாறானது தேவை - மதிப்பை அறிவது கண்டுபிடிக்க . இதைச் செய்ய, தலைகீழ் முரண்பாடுகள் செயல்பாடு போன்ற ஒரு கருத்துக்கு திரும்புவோம், அதன்படி:
கட்டுரையில் நாம் மேலே உள்ள சூத்திரத்தைப் பெற மாட்டோம், ஆனால் மேலே உள்ள எடுத்துக்காட்டில் இருந்து எண்களைப் பயன்படுத்தி அதைச் சரிபார்ப்போம். 4 முதல் 1 வரையிலான முரண்பாடுகள் நமக்குத் தெரியும் (), நிகழ்வின் நிகழ்தகவு 0.8 () மாற்றீடு செய்வோம்: . இது முன்னர் மேற்கொள்ளப்பட்ட எங்கள் கணக்கீடுகளுடன் ஒத்துப்போகிறது. தொடரலாம்.
கடைசி கட்டத்தில் நாங்கள் அதைக் கண்டறிந்தோம் , அதாவது தலைகீழ் முரண்பாடுகள் செயல்பாட்டில் நீங்கள் மாற்றீடு செய்யலாம். நாங்கள் பெறுகிறோம்:
எண் மற்றும் வகு இரண்டையும் வகுக்கவும் , பிறகு:
ஒரு வேளை, நாம் எங்கும் தவறு செய்யவில்லை என்பதை உறுதிப்படுத்த, இன்னும் ஒரு சிறிய சரிபார்ப்போம். படி 2 இல், நாங்கள் என்று தீர்மானித்தார் . பின்னர், மதிப்பை மாற்றவும் லாஜிஸ்டிக் மறுமொழி செயல்பாட்டில், நாங்கள் பெற எதிர்பார்க்கிறோம் . நாங்கள் மாற்றுகிறோம் மற்றும் பெறுகிறோம்:
வாழ்த்துக்கள், அன்புள்ள வாசகரே, நாங்கள் லாஜிஸ்டிக் மறுமொழி செயல்பாட்டைப் பெற்று சோதித்துள்ளோம். செயல்பாட்டின் வரைபடத்தைப் பார்ப்போம்.
வரைபடம் 3 “லாஜிஸ்டிக் மறுமொழி செயல்பாடு”
வரைபடத்தை வரைவதற்கான குறியீடு
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
இலக்கியத்தில் இந்த செயல்பாட்டின் பெயரையும் நீங்கள் காணலாம் சிக்மாய்டு செயல்பாடு. ஒரு வகுப்பைச் சேர்ந்த பொருளின் நிகழ்தகவின் முக்கிய மாற்றம் ஒப்பீட்டளவில் சிறிய வரம்பிற்குள் நிகழ்கிறது என்பதை வரைபடம் தெளிவாகக் காட்டுகிறது. , எங்கிருந்தோ செய்ய .
எங்கள் கடன் பகுப்பாய்வரிடம் திரும்பி கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவைக் கணக்கிட அவருக்கு உதவுமாறு நான் பரிந்துரைக்கிறேன், இல்லையெனில் அவர் போனஸ் இல்லாமல் விடப்படுவார் :)
அட்டவணை 2 "சாத்தியமான கடன் வாங்குபவர்கள்"
அட்டவணையை உருவாக்குவதற்கான குறியீடு
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
எனவே, கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை நாங்கள் தீர்மானித்துள்ளோம். பொதுவாக, இது உண்மை என்று தோன்றுகிறது.
உண்மையில், வாஸ்யா, 120.000 RUR சம்பளத்துடன், ஒவ்வொரு மாதமும் 3.000 RUR வங்கிக்கு வழங்குவதற்கான நிகழ்தகவு 100% க்கு அருகில் உள்ளது. மூலம், வங்கியின் கொள்கை 0.3 ஐ விட அதிகமாக கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு கொண்ட வாடிக்கையாளர்களுக்கு கடன் வழங்கினால், வங்கியின் கொள்கை லெஷாவிற்கு கடன் வழங்க முடியும் என்பதை நாம் புரிந்து கொள்ள வேண்டும். இந்த விஷயத்தில் வங்கி சாத்தியமான இழப்புகளுக்கு ஒரு பெரிய இருப்பை உருவாக்கும்.
குறைந்தபட்சம் 3 மற்றும் 5.000 RUR விளிம்புடன் சம்பளம்-கட்டண விகிதம் உச்சவரம்பிலிருந்து எடுக்கப்பட்டது என்பதையும் கவனத்தில் கொள்ள வேண்டும். எனவே, எடையின் திசையன் அதன் அசல் வடிவத்தில் பயன்படுத்த முடியவில்லை . நாங்கள் குணகங்களை வெகுவாகக் குறைக்க வேண்டும், இந்த விஷயத்தில் ஒவ்வொரு குணகத்தையும் 25.000 ஆல் வகுத்தோம், அதாவது, சாராம்சத்தில், முடிவை சரிசெய்தோம். ஆனால் ஆரம்ப கட்டத்தில் பொருள் பற்றிய புரிதலை எளிமைப்படுத்த இது குறிப்பாக செய்யப்பட்டது. வாழ்க்கையில், நாம் குணகங்களைக் கண்டுபிடித்து சரிசெய்ய வேண்டிய அவசியமில்லை, ஆனால் அவற்றைக் கண்டுபிடிக்க வேண்டும். கட்டுரையின் அடுத்த பிரிவுகளில், அளவுருக்கள் தேர்ந்தெடுக்கப்பட்ட சமன்பாடுகளைப் பெறுவோம் .
04. எடையின் திசையன் நிர்ணயிப்பதற்கான குறைந்த சதுர முறை லாஜிஸ்டிக் பதில் செயல்பாட்டில்
எடையின் திசையன்களைத் தேர்ந்தெடுப்பதற்கான இந்த முறையை நாங்கள் ஏற்கனவே அறிவோம் , என குறைந்த சதுர முறை (LSM) உண்மையில், பைனரி வகைப்பாடு சிக்கல்களில் அதை ஏன் பயன்படுத்தக்கூடாது? உண்மையில், எதுவும் பயன்படுத்துவதைத் தடுக்காது MNC, வகைப்பாடு சிக்கல்களில் இந்த முறை மட்டுமே குறைவான துல்லியமான முடிவுகளை அளிக்கிறது லாஜிஸ்டிக் இழப்பு. இதற்கு ஒரு தத்துவார்த்த அடிப்படை உள்ளது. முதலில் ஒரு எளிய உதாரணத்தைப் பார்ப்போம்.
நமது மாதிரிகள் (பயன்படுத்துதல் எம்எஸ்இ и லாஜிஸ்டிக் இழப்பு) ஏற்கனவே எடையின் திசையன் தேர்ந்தெடுக்கத் தொடங்கிவிட்டது மற்றும் கணக்கீட்டை ஒரு கட்டத்தில் நிறுத்திவிட்டோம். நடுவில், இறுதியில் அல்லது தொடக்கத்தில் இருந்தாலும் பரவாயில்லை, முக்கிய விஷயம் என்னவென்றால், எடைகளின் திசையன் சில மதிப்புகளை ஏற்கனவே வைத்திருக்கிறோம், இந்த கட்டத்தில், எடையின் திசையன் என்று வைத்துக்கொள்வோம். இரண்டு மாடல்களுக்கும் வேறுபாடுகள் இல்லை. பின்னர் கிடைக்கும் எடைகளை எடுத்து அவற்றை மாற்றவும் தளவாட பதில் செயல்பாடு () வகுப்பைச் சேர்ந்த சில பொருளுக்கு . தேர்ந்தெடுக்கப்பட்ட எடை வெக்டருக்கு ஏற்ப, எங்கள் மாதிரி மிகவும் தவறாகவும் நேர்மாறாகவும் இருக்கும்போது இரண்டு நிகழ்வுகளை நாங்கள் ஆராய்வோம் - பொருள் வகுப்பைச் சேர்ந்தது என்பதில் மாதிரி மிகவும் நம்பிக்கையுடன் உள்ளது. . பயன்படுத்தும் போது என்ன அபராதம் விதிக்கப்படும் என்று பார்ப்போம் MNC и லாஜிஸ்டிக் இழப்பு.
பயன்படுத்தப்படும் இழப்பு செயல்பாட்டைப் பொறுத்து அபராதங்களைக் கணக்கிடுவதற்கான குறியீடு
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
ஒரு தவறு வழக்கு — மாதிரியானது ஒரு வகுப்பிற்கு ஒரு பொருளை ஒதுக்குகிறது 0,01 நிகழ்தகவுடன்
பயன்படுத்தினால் அபராதம் MNC இருக்கும்:
பயன்படுத்தினால் அபராதம் லாஜிஸ்டிக் இழப்பு இருக்கும்:
வலுவான நம்பிக்கையின் வழக்கு — மாதிரியானது ஒரு வகுப்பிற்கு ஒரு பொருளை ஒதுக்குகிறது 0,99 நிகழ்தகவுடன்
பயன்படுத்தினால் அபராதம் MNC இருக்கும்:
பயன்படுத்தினால் அபராதம் லாஜிஸ்டிக் இழப்பு இருக்கும்:
இந்த உதாரணம், மொத்தப் பிழை ஏற்பட்டால், இழப்புச் செயல்பாட்டினை நன்கு விளக்குகிறது பதிவு இழப்பு மாடலை விட கணிசமாக அபராதம் விதிக்கிறது எம்எஸ்இ. இழப்பு செயல்பாட்டைப் பயன்படுத்துவதற்கான தத்துவார்த்த பின்னணி என்ன என்பதை இப்போது புரிந்துகொள்வோம் பதிவு இழப்பு வகைப்பாடு சிக்கல்களில்.
05. அதிகபட்ச சாத்தியக்கூறு முறை மற்றும் லாஜிஸ்டிக் பின்னடைவு
ஆரம்பத்தில் உறுதியளித்தபடி, கட்டுரை எளிய எடுத்துக்காட்டுகளால் நிரம்பியுள்ளது. ஸ்டுடியோவில் மற்றொரு எடுத்துக்காட்டு மற்றும் பழைய விருந்தினர்கள் உள்ளனர் - வங்கி கடன் வாங்குபவர்கள்: வாஸ்யா, ஃபெத்யா மற்றும் லெஷா.
ஒரு பட்சத்தில், உதாரணத்தை உருவாக்குவதற்கு முன், வாழ்க்கையில் நாங்கள் ஆயிரக்கணக்கான அல்லது மில்லியன் கணக்கான பொருட்களின் பயிற்சி மாதிரியை பல்லாயிரக்கணக்கான அல்லது நூற்றுக்கணக்கான அம்சங்களைக் கையாளுகிறோம் என்பதை உங்களுக்கு நினைவூட்டுகிறேன். இருப்பினும், இங்கே எண்கள் எடுக்கப்படுகின்றன, இதனால் அவை புதிய தரவு விஞ்ஞானியின் தலையில் எளிதில் பொருந்துகின்றன.
உதாரணத்திற்கு திரும்புவோம். லெஷாவிற்கு வழங்க வேண்டாம் என்று அல்காரிதம் கூறியிருந்தாலும், வங்கியின் இயக்குனர் தேவைப்படும் அனைவருக்கும் கடன் வழங்க முடிவு செய்தார் என்று கற்பனை செய்துகொள்வோம். இப்போது போதுமான நேரம் கடந்துவிட்டது, மூன்று ஹீரோக்களில் யார் கடனை திருப்பிச் செலுத்தினார், யார் திருப்பிச் செலுத்தவில்லை என்பது எங்களுக்குத் தெரியும். என்ன எதிர்பார்க்க வேண்டும்: வாஸ்யா மற்றும் ஃபெத்யா கடனை திருப்பிச் செலுத்தினர், ஆனால் லெஷா செய்யவில்லை. இப்போது இந்த முடிவு நமக்கு ஒரு புதிய பயிற்சி மாதிரியாக இருக்கும் என்று கற்பனை செய்து கொள்வோம், அதே நேரத்தில், கடனைத் திருப்பிச் செலுத்துவதற்கான சாத்தியக்கூறுகளை பாதிக்கும் காரணிகள் (கடன் வாங்கியவரின் சம்பளம், மாதாந்திர கொடுப்பனவு அளவு) மறைந்துவிட்டதைப் போன்றது. பின்னர், உள்ளுணர்வாக, ஒவ்வொரு மூன்றாவது கடனாளியும் வங்கியில் கடனைத் திருப்பிச் செலுத்தவில்லை என்று நாம் கருதலாம் அல்லது வேறுவிதமாகக் கூறினால், அடுத்த கடனாளி கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு . இந்த உள்ளுணர்வு அனுமானம் கோட்பாட்டு உறுதிப்படுத்தல் மற்றும் அடிப்படையிலானது அதிகபட்ச சாத்தியக்கூறு முறை, பெரும்பாலும் இலக்கியத்தில் இது அழைக்கப்படுகிறது அதிகபட்ச சாத்தியக்கூறு கொள்கை.
முதலில், கருத்தியல் கருவியைப் பற்றி அறிந்து கொள்வோம்.
மாதிரி வாய்ப்பு துல்லியமாக அத்தகைய மாதிரியைப் பெறுவதற்கான நிகழ்தகவு, அத்தகைய அவதானிப்புகள்/முடிவுகளை சரியாகப் பெறுதல், அதாவது. ஒவ்வொரு மாதிரி முடிவுகளையும் பெறுவதற்கான நிகழ்தகவுகளின் தயாரிப்பு (உதாரணமாக, வாஸ்யா, ஃபெத்யா மற்றும் லெஷாவின் கடன் திருப்பிச் செலுத்தப்பட்டதா அல்லது அதே நேரத்தில் திருப்பிச் செலுத்தப்படாதா).
நிகழ்தகவு செயல்பாடு ஒரு மாதிரியின் சாத்தியத்தை விநியோக அளவுருக்களின் மதிப்புகளுடன் தொடர்புபடுத்துகிறது.
எங்கள் விஷயத்தில், பயிற்சி மாதிரியானது ஒரு பொதுவான பெர்னௌல்லி திட்டமாகும், இதில் சீரற்ற மாறி இரண்டு மதிப்புகளை மட்டுமே எடுக்கும்: அல்லது . எனவே, மாதிரி நிகழ்தகவை அளவுருவின் நிகழ்தகவு செயல்பாடாக எழுதலாம் பின்வருமாறு:
மேலே உள்ள பதிவை பின்வருமாறு விளக்கலாம். வாஸ்யா மற்றும் ஃபெத்யா கடனை திருப்பிச் செலுத்துவதற்கான கூட்டு நிகழ்தகவு சமம் , லெஷா கடனைத் திருப்பிச் செலுத்தாத நிகழ்தகவு சமம் (இது கடன் திருப்பிச் செலுத்தப்படவில்லை என்பதால்), மூன்று நிகழ்வுகளின் கூட்டு நிகழ்தகவு சமம் .
அதிகபட்ச சாத்தியக்கூறு முறை அறியப்படாத அளவுருவை அதிகப்படுத்துவதன் மூலம் மதிப்பிடுவதற்கான ஒரு முறையாகும் வாய்ப்பு செயல்பாடுகள். எங்கள் விஷயத்தில், அத்தகைய மதிப்பை நாம் கண்டுபிடிக்க வேண்டும் , எதில் அதன் அதிகபட்சத்தை அடைகிறது.
உண்மையான யோசனை எங்கிருந்து வருகிறது - நிகழ்தகவு செயல்பாடு அதிகபட்சமாக அடையும் அறியப்படாத அளவுருவின் மதிப்பைத் தேடுவது? மக்கள்தொகையைப் பற்றி நமக்குக் கிடைக்கும் அறிவின் ஒரே ஆதாரம் ஒரு மாதிரி என்ற எண்ணத்திலிருந்து இந்த யோசனையின் தோற்றம் உருவாகிறது. மக்கள்தொகையைப் பற்றி நமக்குத் தெரிந்த அனைத்தும் மாதிரியில் குறிப்பிடப்படுகின்றன. எனவே, ஒரு மாதிரி என்பது நமக்குக் கிடைக்கும் மக்கள்தொகையின் மிகத் துல்லியமான பிரதிபலிப்பு என்று நாம் கூறலாம். எனவே, கிடைக்கக்கூடிய மாதிரி மிகவும் சாத்தியமானதாக இருக்கும் ஒரு அளவுருவை நாம் கண்டுபிடிக்க வேண்டும்.
வெளிப்படையாக, நாங்கள் ஒரு தேர்வுமுறை சிக்கலைக் கையாளுகிறோம், அதில் ஒரு செயல்பாட்டின் தீவிர புள்ளியைக் கண்டறிய வேண்டும். தீவிர புள்ளியைக் கண்டறிய, முதல்-வரிசை நிலையைக் கருத்தில் கொள்வது அவசியம், அதாவது, செயல்பாட்டின் வழித்தோன்றலை பூஜ்ஜியத்திற்கு சமன் செய்து, விரும்பிய அளவுருவைப் பொறுத்து சமன்பாட்டைத் தீர்க்கவும். இருப்பினும், அதிக எண்ணிக்கையிலான காரணிகளின் தயாரிப்புகளின் வழித்தோன்றலைத் தேடுவது ஒரு நீண்ட பணியாக இருக்கலாம்; இதைத் தவிர்க்க, ஒரு சிறப்பு நுட்பம் உள்ளது - மடக்கைக்கு மாறுதல் வாய்ப்பு செயல்பாடுகள். அத்தகைய மாற்றம் ஏன் சாத்தியம்? செயல்பாட்டின் உச்சநிலையை நாம் தேடவில்லை என்பதில் கவனம் செலுத்துவோம், மற்றும் தீவிர புள்ளி, அதாவது அறியப்படாத அளவுருவின் மதிப்பு , எதில் அதன் அதிகபட்சத்தை அடைகிறது. மடக்கைக்கு நகரும் போது, தீவிர புள்ளி மாறாது (எனினும் உச்சம் மாறுபடும்), மடக்கை ஒரு மோனோடோனிக் செயல்பாடு என்பதால்.
மேற்கூறியவற்றுக்கு இணங்க, வாஸ்யா, ஃபெத்யா மற்றும் லெஷா ஆகியோரிடமிருந்து கடன்களுடன் எங்கள் முன்மாதிரியைத் தொடர்ந்து உருவாக்குவோம். முதலில் நாம் செல்லலாம் நிகழ்தகவு செயல்பாட்டின் மடக்கை:
இப்போது நாம் வெளிப்பாட்டை எளிதாக வேறுபடுத்தலாம் :
இறுதியாக, முதல்-வரிசை நிபந்தனையைக் கவனியுங்கள் - செயல்பாட்டின் வழித்தோன்றலை பூஜ்ஜியத்திற்கு சமன் செய்கிறோம்:
எனவே, கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு பற்றிய எங்கள் உள்ளுணர்வு மதிப்பீடு கோட்பாட்டளவில் நியாயப்படுத்தப்பட்டது.
அருமை, ஆனால் இந்த தகவலை இப்போது நாம் என்ன செய்ய வேண்டும்? ஒவ்வொரு மூன்றாவது கடனாளியும் வங்கிக்கு பணத்தை திருப்பித் தரவில்லை என்று நாம் கருதினால், பிந்தையவர் தவிர்க்க முடியாமல் திவாலாகிவிடுவார். அது சரி, ஆனால் கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை சமமாக மதிப்பிடும் போது மட்டுமே கடனைத் திருப்பிச் செலுத்துவதில் தாக்கத்தை ஏற்படுத்தும் காரணிகளை நாங்கள் கணக்கில் எடுத்துக்கொள்ளவில்லை: கடனாளியின் சம்பளம் மற்றும் மாதாந்திர கொடுப்பனவின் அளவு. இதே காரணிகளை கணக்கில் எடுத்துக்கொண்டு, ஒவ்வொரு வாடிக்கையாளரும் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை நாங்கள் முன்பு கணக்கிட்டோம் என்பதை நினைவில் கொள்வோம். நிலையான சமத்திலிருந்து வேறுபட்ட நிகழ்தகவுகளைப் பெற்றோம் என்பது தர்க்கரீதியானது .
மாதிரிகளின் சாத்தியக்கூறுகளை வரையறுப்போம்:
மாதிரி சாத்தியக்கூறுகளைக் கணக்கிடுவதற்கான குறியீடு
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
நிலையான மதிப்பில் மாதிரி வாய்ப்பு :
காரணிகளை கணக்கில் எடுத்துக்கொண்டு கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவைக் கணக்கிடும் போது மாதிரி வாய்ப்பு :
காரணிகளைப் பொறுத்து கணக்கிடப்பட்ட நிகழ்தகவு கொண்ட மாதிரியின் நிகழ்தகவு நிலையான நிகழ்தகவு மதிப்பைக் காட்டிலும் அதிகமாக உள்ளது. இதன் பொருள் என்ன? ஒவ்வொரு வாடிக்கையாளருக்கும் கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை மிகவும் துல்லியமாகத் தேர்ந்தெடுப்பதற்கு காரணிகளைப் பற்றிய அறிவு சாத்தியமாக்கியது என்று இது அறிவுறுத்துகிறது. எனவே, அடுத்த கடனை வழங்கும்போது, கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை மதிப்பிடுவதற்கு கட்டுரையின் பிரிவு 3 இன் முடிவில் முன்மொழியப்பட்ட மாதிரியைப் பயன்படுத்துவது மிகவும் சரியாக இருக்கும்.
ஆனால் பின்னர், நாம் அதிகரிக்க விரும்பினால் மாதிரி சாத்தியக்கூறு செயல்பாடு, அப்படியானால், வாஸ்யா, ஃபெத்யா மற்றும் லெஷா ஆகியவற்றிற்கான நிகழ்தகவுகளை உருவாக்கும் சில வழிமுறைகளை ஏன் பயன்படுத்தக்கூடாது, எடுத்துக்காட்டாக, முறையே 0.99, 0.99 மற்றும் 0.01. ஒருவேளை அத்தகைய அல்காரிதம் பயிற்சி மாதிரியில் சிறப்பாக செயல்படும், ஏனெனில் இது மாதிரி சாத்தியக்கூறு மதிப்பை நெருக்கமாக கொண்டு வரும் , ஆனால், முதலாவதாக, அத்தகைய வழிமுறையானது பொதுமைப்படுத்தல் திறனுடன் பெரும்பாலும் சிரமங்களைக் கொண்டிருக்கும், இரண்டாவதாக, இந்த வழிமுறை நிச்சயமாக நேரியல் அல்ல. அதிகப்படியான பயிற்சியை எதிர்த்துப் போராடும் முறைகள் (சமமாக பலவீனமான பொதுமைப்படுத்தல் திறன்) இந்த கட்டுரையின் திட்டத்தில் தெளிவாக சேர்க்கப்படவில்லை என்றால், இரண்டாவது புள்ளியை இன்னும் விரிவாகப் பார்ப்போம். இதைச் செய்ய, ஒரு எளிய கேள்விக்கு பதிலளிக்கவும். நமக்குத் தெரிந்த காரணிகளைக் கருத்தில் கொண்டு, வாஸ்யா மற்றும் ஃபெத்யா கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு ஒரே மாதிரியாக இருக்க முடியுமா? ஒலி தர்க்கத்தின் பார்வையில், நிச்சயமாக இல்லை, அது முடியாது. எனவே வாஸ்யா கடனை திருப்பிச் செலுத்த மாதத்திற்கு தனது சம்பளத்தில் 2.5% செலுத்துவார், மற்றும் ஃபெட்யா - கிட்டத்தட்ட 27,8%. மேலும் வரைபடம் 2 "கிளையண்ட் வகைப்பாடு" இல் ஃபெட்யாவை விட வாஸ்யா வகுப்புகளைப் பிரிக்கும் வரியிலிருந்து வெகு தொலைவில் இருப்பதைக் காண்கிறோம். இறுதியாக, நாம் செயல்பாடு என்று Vasya மற்றும் Fedya க்கு வெவ்வேறு மதிப்புகள் உள்ளன: Vasya க்கு 4.24 மற்றும் Fedya க்கு 1.0. இப்போது, எடுத்துக்காட்டாக, ஃபெட்யா அதிக அளவு ஆர்டரைப் பெற்றாலோ அல்லது சிறிய கடனைக் கேட்டாலோ, வாஸ்யா மற்றும் ஃபெத்யாவுக்கான கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவுகள் ஒரே மாதிரியாக இருக்கும். வேறு வார்த்தைகளில் கூறுவதானால், நேரியல் சார்ந்திருப்பதை ஏமாற்ற முடியாது. நாம் உண்மையில் முரண்பாடுகளை கணக்கிட்டால் , மற்றும் மெல்லிய காற்றில் இருந்து அவற்றை எடுக்கவில்லை, எங்கள் மதிப்புகள் என்று பாதுகாப்பாக சொல்ல முடியும் ஒவ்வொரு கடனாளியும் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை மதிப்பிடுவதற்கு சிறந்தது, ஆனால் குணகங்களின் நிர்ணயம் என்று கருதுவதற்கு நாங்கள் ஒப்புக்கொண்டோம். அனைத்து விதிகளின்படி மேற்கொள்ளப்பட்டது, பின்னர் நாங்கள் அவ்வாறு கருதுவோம் - நிகழ்தகவு பற்றிய சிறந்த மதிப்பீட்டை வழங்க எங்கள் குணகங்கள் அனுமதிக்கின்றன :)
இருப்பினும், நாங்கள் விலகுகிறோம். இந்த பிரிவில் எடைகளின் திசையன் எவ்வாறு தீர்மானிக்கப்படுகிறது என்பதைப் புரிந்து கொள்ள வேண்டும் , ஒவ்வொரு கடனாளியும் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவை மதிப்பிடுவது அவசியம்.
முரண்பாடுகளைத் தேடும் ஆயுதக் களஞ்சியத்தை சுருக்கமாகச் சுருக்கமாகக் கூறுவோம் :
1. இலக்கு மாறி (கணிப்பு மதிப்பு) மற்றும் முடிவைப் பாதிக்கும் காரணி ஆகியவற்றுக்கு இடையேயான உறவு நேரியல் என்று நாங்கள் கருதுகிறோம். இந்த காரணத்திற்காக இது பயன்படுத்தப்படுகிறது நேரியல் பின்னடைவு செயல்பாடு வகையான , பொருள்களை (வாடிக்கையாளர்களை) வகுப்புகளாகப் பிரிக்கும் வரி и அல்லது (கடனைத் திருப்பிச் செலுத்தக்கூடிய வாடிக்கையாளர்கள் மற்றும் இல்லாதவர்கள்). எங்கள் விஷயத்தில், சமன்பாடு வடிவம் உள்ளது .
2. நாங்கள் பயன்படுத்துகிறோம் தலைகீழ் லாஜிட் செயல்பாடு வகையான ஒரு வகுப்பைச் சேர்ந்த பொருளின் நிகழ்தகவைத் தீர்மானிக்க .
3. எங்கள் பயிற்சித் தொகுப்பை ஒரு பொதுமைப்படுத்தப்பட்ட செயலாக்கமாக நாங்கள் கருதுகிறோம் பெர்னோலி திட்டங்கள், அதாவது, ஒவ்வொரு பொருளுக்கும் ஒரு சீரற்ற மாறி உருவாக்கப்படுகிறது, இது நிகழ்தகவுடன் (ஒவ்வொரு பொருளுக்கும் அதன் சொந்த) மதிப்பு 1 மற்றும் நிகழ்தகவுடன் எடுக்கிறது - 0.
4. எதை அதிகரிக்க வேண்டும் என்பது நமக்குத் தெரியும் மாதிரி சாத்தியக்கூறு செயல்பாடு ஏற்றுக்கொள்ளப்பட்ட காரணிகளை கணக்கில் எடுத்துக்கொள்வதால், கிடைக்கக்கூடிய மாதிரி மிகவும் நம்பத்தகுந்ததாக மாறும். வேறு வார்த்தைகளில் கூறுவதானால், மாதிரி மிகவும் நம்பத்தகுந்த அளவுருக்களை நாம் தேர்ந்தெடுக்க வேண்டும். எங்கள் விஷயத்தில், தேர்ந்தெடுக்கப்பட்ட அளவுரு கடன் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு ஆகும் , இது அறியப்படாத குணகங்களைப் பொறுத்தது . எனவே எடைகளின் அத்தகைய வெக்டரை நாம் கண்டுபிடிக்க வேண்டும் , இதில் மாதிரியின் சாத்தியக்கூறு அதிகபட்சமாக இருக்கும்.
5. எதை அதிகரிக்க வேண்டும் என்பது எங்களுக்குத் தெரியும் மாதிரி வாய்ப்பு செயல்பாடுகள் நீங்கள் பயன்படுத்தலாம் அதிகபட்ச சாத்தியக்கூறு முறை. இந்த முறையுடன் வேலை செய்வதற்கான அனைத்து தந்திரமான தந்திரங்களையும் நாங்கள் அறிவோம்.
இப்படித்தான் பல கட்ட நகர்வாக மாறுகிறது :)
கட்டுரையின் ஆரம்பத்தில் இரண்டு வகையான இழப்பு செயல்பாடுகளைப் பெற விரும்பினோம் என்பதை இப்போது நினைவில் கொள்ளுங்கள் லாஜிஸ்டிக் இழப்பு பொருள் வகுப்புகள் எவ்வாறு நியமிக்கப்படுகின்றன என்பதைப் பொறுத்து. இரண்டு வகுப்புகளுடன் கூடிய வகைப்பாடு சிக்கல்களில், வகுப்புகள் என குறிக்கப்படுகின்றன и அல்லது . குறியீட்டைப் பொறுத்து, வெளியீடு தொடர்புடைய இழப்பு செயல்பாட்டைக் கொண்டிருக்கும்.
வழக்கு 1. பொருள்களின் வகைப்பாடு и
முன்னதாக, ஒரு மாதிரியின் சாத்தியக்கூறுகளை நிர்ணயிக்கும் போது, அதில் கடன் வாங்கியவர் கடனைத் திருப்பிச் செலுத்துவதற்கான நிகழ்தகவு காரணிகள் மற்றும் கொடுக்கப்பட்ட குணகங்களின் அடிப்படையில் கணக்கிடப்பட்டது. , நாங்கள் சூத்திரத்தைப் பயன்படுத்தினோம்:
உண்மையில் என்பது பொருள் தளவாட பதில் செயல்பாடுகள் கொடுக்கப்பட்ட எடை வெக்டருக்கு
மாதிரி நிகழ்தகவு செயல்பாட்டை பின்வருமாறு எழுதுவதிலிருந்து எதுவும் நம்மைத் தடுக்காது:
இந்த செயல்பாடு எவ்வாறு செயல்படுகிறது என்பதை சில புதிய ஆய்வாளர்கள் உடனடியாக புரிந்துகொள்வது சில நேரங்களில் கடினம். விஷயங்களை தெளிவுபடுத்தும் 4 சிறிய எடுத்துக்காட்டுகளைப் பார்ப்போம்:
1. என்றால் (அதாவது, பயிற்சி மாதிரியின் படி, பொருள் வகுப்பு +1 க்கு சொந்தமானது), மற்றும் எங்கள் அல்காரிதம் ஒரு பொருளை ஒரு வகுப்பிற்கு வகைப்படுத்துவதற்கான நிகழ்தகவை தீர்மானிக்கிறது 0.9 க்கு சமம், பின்னர் இந்த மாதிரி நிகழ்தகவு பின்வருமாறு கணக்கிடப்படும்:
2. என்றால் மற்றும் , பின்னர் கணக்கீடு இப்படி இருக்கும்:
3. என்றால் மற்றும் , பின்னர் கணக்கீடு இப்படி இருக்கும்:
4. என்றால் மற்றும் , பின்னர் கணக்கீடு இப்படி இருக்கும்:
1 மற்றும் 3 வழக்குகளில் அல்லது பொது வழக்கில் - ஒரு பொருளை ஒரு வகுப்பிற்கு ஒதுக்குவதற்கான நிகழ்தகவுகளின் சரியாக யூகிக்கப்பட்ட மதிப்புகளுடன், நிகழ்தகவு செயல்பாடு அதிகரிக்கப்படும் என்பது வெளிப்படையானது. .
ஒரு வகுப்பிற்கு ஒரு பொருளை ஒதுக்குவதற்கான நிகழ்தகவை தீர்மானிக்கும் போது குணகங்கள் மட்டுமே எங்களுக்குத் தெரியாது , பிறகு அவர்களைத் தேடுவோம். மேலே குறிப்பிட்டுள்ளபடி, இது ஒரு தேர்வுமுறைச் சிக்கலாகும், இதில் முதலில் எடைகளின் திசையன் தொடர்பான சாத்தியக்கூறு செயல்பாட்டின் வழித்தோன்றலைக் கண்டறிய வேண்டும். . இருப்பினும், முதலில் நமக்கான பணியை எளிமைப்படுத்துவது அர்த்தமுள்ளதாக இருக்கிறது: மடக்கையின் வழித்தோன்றலைத் தேடுவோம். வாய்ப்பு செயல்பாடுகள்.
மடக்கைக்கு பிறகு ஏன், in லாஜிஸ்டிக் பிழை செயல்பாடுகள், இருந்து அடையாளத்தை மாற்றினோம் மீது . ஒரு மாதிரியின் தரத்தை மதிப்பிடுவதில் உள்ள சிக்கல்களில், செயல்பாட்டின் மதிப்பைக் குறைப்பது வழக்கம் என்பதால், எல்லாம் எளிமையானது, வெளிப்பாட்டின் வலது பக்கத்தை நாங்கள் பெருக்குகிறோம். அதன்படி, பெரிதாக்குவதற்குப் பதிலாக, இப்போது செயல்பாட்டைக் குறைக்கிறோம்.
உண்மையில், இப்போது, உங்கள் கண்களுக்கு முன்பாக, இழப்பு செயல்பாடு மிகவும் கடினமாக பெறப்பட்டது - லாஜிஸ்டிக் இழப்பு இரண்டு வகுப்புகளைக் கொண்ட பயிற்சித் தொகுப்பிற்கு: и .
இப்போது, குணகங்களைக் கண்டறிய, நாம் வழித்தோன்றலைக் கண்டுபிடிக்க வேண்டும் லாஜிஸ்டிக் பிழை செயல்பாடுகள் பின்னர், சாய்வு வம்சாவளி அல்லது சீரான சாய்வு வம்சாவளி போன்ற எண்ணியல் தேர்வுமுறை முறைகளைப் பயன்படுத்தி, மிகவும் உகந்த குணகங்களைத் தேர்ந்தெடுக்கவும் . ஆனால், கட்டுரையின் கணிசமான அளவைக் கருத்தில் கொண்டு, வேறுபாட்டை நீங்களே செய்ய முன்மொழியப்பட்டது, அல்லது இது போன்ற விரிவான எடுத்துக்காட்டுகள் இல்லாமல் நிறைய எண்கணிதத்துடன் அடுத்த கட்டுரைக்கு இது ஒரு தலைப்பாக இருக்கும்.
வழக்கு 2. பொருள்களின் வகைப்பாடு и
இங்கே அணுகுமுறை வகுப்புகளைப் போலவே இருக்கும் и , ஆனால் இழப்பு செயல்பாட்டின் வெளியீட்டிற்கான பாதையே லாஜிஸ்டிக் இழப்பு, மேலும் அலங்காரமாக இருக்கும். ஆரம்பிக்கலாம். நிகழ்தகவு செயல்பாட்டிற்கு நாங்கள் ஆபரேட்டரைப் பயன்படுத்துவோம் "என்றால்... பிறகு...". அதாவது, என்றால் வது பொருள் வர்க்கத்தைச் சேர்ந்தது , பின்னர் மாதிரியின் நிகழ்தகவைக் கணக்கிட நாம் நிகழ்தகவைப் பயன்படுத்துகிறோம் , பொருள் வகுப்பைச் சேர்ந்ததாக இருந்தால் , பின்னர் நாம் சாத்தியக்கூறுகளை மாற்றுகிறோம் . நிகழ்தகவு செயல்பாடு இது போல் தெரிகிறது:
இது எவ்வாறு செயல்படுகிறது என்பதை நம் விரல்களில் விவரிப்போம். 4 வழக்குகளைக் கருத்தில் கொள்வோம்:
1. என்றால் и , பின்னர் மாதிரி வாய்ப்பு "செல்லும்"
2. என்றால் и , பின்னர் மாதிரி வாய்ப்பு "செல்லும்"
3. என்றால் и , பின்னர் மாதிரி வாய்ப்பு "செல்லும்"
4. என்றால் и , பின்னர் மாதிரி வாய்ப்பு "செல்லும்"
1 மற்றும் 3 வழக்குகளில், நிகழ்தகவுகள் அல்காரிதம் மூலம் சரியாக நிர்ணயிக்கப்பட்டால், அது வெளிப்படையானது. வாய்ப்பு செயல்பாடு பெரிதாக்கப்படும், அதாவது, இதைத்தான் நாம் பெற விரும்பினோம். இருப்பினும், இந்த அணுகுமுறை மிகவும் சிக்கலானது, அடுத்து நாம் ஒரு சிறிய குறியீட்டைக் கருத்தில் கொள்வோம். ஆனால் முதலில், அடையாள மாற்றத்துடன் சாத்தியக்கூறு செயல்பாட்டை மடக்கை செய்வோம், இப்போது அதைக் குறைப்போம்.
அதற்கு பதிலாக மாற்றுவோம் வெளிப்பாடு :
எளிய எண்கணித நுட்பங்களைப் பயன்படுத்தி மடக்கையின் கீழ் சரியான வார்த்தையை எளிதாக்குவோம்:
இப்போது ஆபரேட்டரை அகற்ற வேண்டிய நேரம் இது "என்றால்... பிறகு...". ஒரு பொருள் போது என்பதை நினைவில் கொள்க வகுப்பைச் சேர்ந்தது , பின்னர் மடக்கையின் கீழ் உள்ள வெளிப்பாட்டில், வகுப்பில், அதிகாரத்திற்கு உயர்த்தப்பட்டது , பொருள் வகுப்பைச் சேர்ந்ததாக இருந்தால் , பிறகு $e$ சக்திக்கு உயர்த்தப்படுகிறது . எனவே, இரண்டு நிகழ்வுகளையும் ஒன்றாக இணைப்பதன் மூலம் பட்டத்திற்கான குறியீட்டை எளிமைப்படுத்தலாம்: . பிறகு லாஜிஸ்டிக் பிழை செயல்பாடு படிவத்தை எடுக்கும்:
மடக்கை விதிகளுக்கு இணங்க, நாம் பின்னத்தைத் திருப்பி, அடையாளத்தை வைக்கிறோம் ""(கழித்தல்) மடக்கைக்கு, நாம் பெறுகிறோம்:
இங்கே இழப்பு செயல்பாடு உள்ளது தளவாட இழப்பு, இது வகுப்புகளுக்கு ஒதுக்கப்பட்ட பொருட்களுடன் பயிற்சி தொகுப்பில் பயன்படுத்தப்படுகிறது: и .
சரி, இந்த கட்டத்தில் நான் விடுப்பு எடுத்து கட்டுரையை முடிக்கிறோம்.
துணை பொருட்கள்
1. இலக்கியம்
1) பயன்பாட்டு பின்னடைவு பகுப்பாய்வு / என். டிராப்பர், ஜி. ஸ்மித் - 2வது பதிப்பு. – எம்.: நிதி மற்றும் புள்ளியியல், 1986 (ஆங்கிலத்திலிருந்து மொழிபெயர்ப்பு)
2) நிகழ்தகவு கோட்பாடு மற்றும் கணித புள்ளியியல் / V.E. க்மர்மன் - 9வது பதிப்பு. - எம்.: உயர்நிலைப் பள்ளி, 2003
3) நிகழ்தகவு கோட்பாடு / என்.ஐ. செர்னோவா - நோவோசிபிர்ஸ்க்: நோவோசிபிர்ஸ்க் மாநில பல்கலைக்கழகம், 2007
4) வணிக பகுப்பாய்வு: தரவு முதல் அறிவு வரை / பாக்லின் என். பி., ஓரேஷ்கோவ் வி. ஐ. - 2வது பதிப்பு. - செயின்ட் பீட்டர்ஸ்பர்க்: பீட்டர், 2013
5) தரவு அறிவியல் புதிதாக / ஜோயல் கிராஸ் - செயின்ட் பீட்டர்ஸ்பர்க்: BHV பீட்டர்ஸ்பர்க், 2017
6) தரவு அறிவியல் நிபுணர்களுக்கான நடைமுறை புள்ளிவிவரங்கள் / பி. புரூஸ், ஈ. புரூஸ் - செயின்ட் பீட்டர்ஸ்பர்க்: BHV பீட்டர்ஸ்பர்க், 2018
2. விரிவுரைகள், படிப்புகள் (வீடியோ)
1)
2)
3)
4)
5)
3. இணைய ஆதாரங்கள்
1)
2)
4)
6)
7)
8)
ஆதாரம்: www.habr.com