ఈ వ్యాసంలో, మేము పరివర్తన యొక్క సైద్ధాంతిక గణనలను విశ్లేషిస్తాము లీనియర్ రిగ్రెషన్ విధులు в విలోమ లాజిట్ ట్రాన్స్ఫర్మేషన్ ఫంక్షన్ (లేకపోతే లాజిస్టిక్ రెస్పాన్స్ ఫంక్షన్ అని పిలుస్తారు). అప్పుడు, ఆర్సెనల్ ఉపయోగించి గరిష్ట సంభావ్యత పద్ధతి, లాజిస్టిక్ రిగ్రెషన్ మోడల్కు అనుగుణంగా, మేము లాస్ ఫంక్షన్ని పొందుతాము లాజిస్టిక్ నష్టం, లేదా మరో మాటలో చెప్పాలంటే, లాజిస్టిక్ రిగ్రెషన్ మోడల్లో వెయిట్ వెక్టర్ యొక్క పారామితులు ఎంపిక చేయబడిన ఫంక్షన్ను మేము నిర్వచిస్తాము. .
వ్యాసం రూపురేఖలు:
- రెండు వేరియబుల్స్ మధ్య సరళ సంబంధాన్ని పునరావృతం చేద్దాం
- పరివర్తన ఆవశ్యకతను గుర్తిద్దాం లీనియర్ రిగ్రెషన్ విధులు в లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్
- పరివర్తనలు మరియు అవుట్పుట్లను చేద్దాం లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్
- పారామితులను ఎంచుకునేటప్పుడు కనీసం చతురస్రాల పద్ధతి ఎందుకు చెడ్డదో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం విధులు లాజిస్టిక్ నష్టం
- మేము ఉపయోగిస్తాము గరిష్ట సంభావ్యత పద్ధతి నిర్ణయించడానికి పారామితి ఎంపిక విధులు :
5.1 కేస్ 1: ఫంక్షన్ లాజిస్టిక్ నష్టం తరగతి హోదా కలిగిన వస్తువుల కోసం 0 и 1:
5.2 కేస్ 2: ఫంక్షన్ లాజిస్టిక్ నష్టం తరగతి హోదా కలిగిన వస్తువుల కోసం -1 и +1:
కథనం సాధారణ ఉదాహరణలతో నిండి ఉంది, దీనిలో అన్ని గణనలను మౌఖికంగా లేదా కాగితంపై సులభంగా చేయవచ్చు; కొన్ని సందర్భాల్లో, కాలిక్యులేటర్ అవసరం కావచ్చు. కాబట్టి సిద్ధంగా ఉండండి :)
ఈ కథనం ప్రాథమికంగా మెషిన్ లెర్నింగ్ యొక్క ప్రాథమిక విషయాలలో ప్రాథమిక స్థాయి పరిజ్ఞానం ఉన్న డేటా సైంటిస్టుల కోసం ఉద్దేశించబడింది.
వ్యాసం డ్రాయింగ్ గ్రాఫ్లు మరియు లెక్కల కోసం కోడ్ను కూడా అందిస్తుంది. అన్ని కోడ్ భాషలో వ్రాయబడింది పైథాన్ 2.7. ఉపయోగించిన సంస్కరణ యొక్క “నవీనత” గురించి నేను ముందుగానే వివరిస్తాను - నుండి బాగా తెలిసిన కోర్సు తీసుకోవడానికి ఇది ఒక షరతు. Yandex సమానమైన ప్రసిద్ధ ఆన్లైన్ విద్యా వేదికపై Coursera, మరియు, ఒకరు ఊహించినట్లుగా, ఈ కోర్సు ఆధారంగా మెటీరియల్ తయారు చేయబడింది.
01. స్ట్రెయిట్-లైన్ డిపెండెన్స్
ప్రశ్న అడగడం చాలా సహేతుకమైనది - లీనియర్ డిపెండెన్స్ మరియు లాజిస్టిక్ రిగ్రెషన్ దానితో ఏమి చేయాలి?
ఇది సులభం! లాజిస్టిక్ రిగ్రెషన్ అనేది లీనియర్ వర్గీకరణకు చెందిన నమూనాలలో ఒకటి. సరళంగా చెప్పాలంటే, లక్ష్య విలువలను అంచనా వేయడం లీనియర్ క్లాసిఫైయర్ యొక్క పని వేరియబుల్స్ నుండి (రిగ్రెసర్స్) . లక్షణాల మధ్య ఆధారపడటం నమ్ముతారు మరియు లక్ష్య విలువలు సరళ. అందువల్ల వర్గీకరణ పేరు - లీనియర్. చాలా స్థూలంగా చెప్పాలంటే, లాజిస్టిక్ రిగ్రెషన్ మోడల్ అనేది లక్షణాల మధ్య సరళ సంబంధం ఉందనే భావనపై ఆధారపడి ఉంటుంది. మరియు లక్ష్య విలువలు . ఇది కనెక్షన్.
స్టూడియోలో మొదటి ఉదాహరణ ఉంది మరియు ఇది సరిగ్గా, అధ్యయనం చేయబడిన పరిమాణాల రెక్టిలినియర్ డిపెండెన్స్ గురించి. కథనాన్ని తయారుచేసే ప్రక్రియలో, నేను ఇప్పటికే చాలా మందిని అంచున ఉంచిన ఒక ఉదాహరణను చూశాను - వోల్టేజ్పై కరెంట్ ఆధారపడటం (“అనువర్తిత రిగ్రెషన్ విశ్లేషణ”, N. డ్రేపర్, G. స్మిత్). అది కూడా ఇక్కడ చూద్దాం.
అనుగుణంగా ఓం చట్టం:
పేరు - ప్రస్తుత బలం, - వోల్టేజ్, - ప్రతిఘటన.
మనకు తెలియకపోతే ఓం యొక్క చట్టం, అప్పుడు మనం మార్చడం ద్వారా ఆధారపడటాన్ని అనుభవపూర్వకంగా కనుగొనవచ్చు మరియు కొలవడం , మద్దతు ఇస్తున్నప్పుడు స్థిర. అప్పుడు మనం డిపెండెన్స్ గ్రాఫ్ అని చూస్తాము от మూలం ద్వారా ఎక్కువ లేదా తక్కువ సరళ రేఖను ఇస్తుంది. మేము "ఎక్కువ లేదా తక్కువ" అని అంటాము ఎందుకంటే, సంబంధం వాస్తవానికి ఖచ్చితమైనది అయినప్పటికీ, మా కొలతలు చిన్న లోపాలను కలిగి ఉండవచ్చు మరియు అందువల్ల గ్రాఫ్లోని పాయింట్లు సరిగ్గా లైన్లో పడకపోవచ్చు, కానీ దాని చుట్టూ యాదృచ్ఛికంగా చెల్లాచెదురుగా ఉంటాయి.
గ్రాఫ్ 1 “డిపెండెన్స్” от »
చార్ట్ డ్రాయింగ్ కోడ్
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. లీనియర్ రిగ్రెషన్ సమీకరణాన్ని మార్చవలసిన అవసరం
మరొక ఉదాహరణ చూద్దాం. మనం బ్యాంక్లో పని చేస్తున్నామని ఊహించుకుందాం మరియు కొన్ని అంశాల ఆధారంగా రుణగ్రహీత రుణాన్ని తిరిగి చెల్లించే అవకాశాన్ని నిర్ణయించడం మా పని. పనిని సరళీకృతం చేయడానికి, మేము కేవలం రెండు అంశాలను మాత్రమే పరిశీలిస్తాము: రుణగ్రహీత యొక్క నెలవారీ జీతం మరియు నెలవారీ రుణ చెల్లింపు మొత్తం.
పని చాలా షరతులతో కూడుకున్నది, కానీ ఈ ఉదాహరణతో మనం ఎందుకు ఉపయోగించాలో అర్థం చేసుకోవచ్చు లీనియర్ రిగ్రెషన్ విధులు, మరియు ఫంక్షన్తో ఎలాంటి పరివర్తనలు నిర్వహించాలో కూడా కనుగొనండి.
ఉదాహరణకి తిరిగి వద్దాం. ఎంత ఎక్కువ జీతం తీసుకుంటే, రుణం తిరిగి చెల్లించడానికి రుణగ్రహీత నెలవారీగా కేటాయించగలరని అర్థం. అదే సమయంలో, ఒక నిర్దిష్ట జీతం పరిధికి ఈ సంబంధం చాలా సరళంగా ఉంటుంది. ఉదాహరణకు, 60.000 RUR నుండి 200.000 RUR వరకు జీతం శ్రేణిని తీసుకుందాం మరియు పేర్కొన్న జీతం పరిధిలో, జీతం పరిమాణంపై నెలవారీ చెల్లింపు పరిమాణం యొక్క ఆధారపడటం సరళంగా ఉంటుందని భావించండి. పేర్కొన్న వేతనాల శ్రేణికి జీతం-చెల్లింపు నిష్పత్తి 3 కంటే తక్కువగా ఉండదని మరియు రుణగ్రహీత ఇప్పటికీ రిజర్వ్లో 5.000 RUR కలిగి ఉండాలని వెల్లడించినట్లు చెప్పండి. మరియు ఈ సందర్భంలో మాత్రమే, రుణగ్రహీత బ్యాంకుకు రుణాన్ని తిరిగి చెల్లిస్తారని మేము ఊహిస్తాము. అప్పుడు, లీనియర్ రిగ్రెషన్ సమీకరణం రూపం తీసుకుంటుంది:
పేరు , , , - జీతం -వ రుణగ్రహీత, - రుణ చెల్లింపు -వ రుణగ్రహీత.
జీతం మరియు లోన్ చెల్లింపులను స్థిరమైన పారామితులతో సమీకరణంలోకి మార్చడం రుణాన్ని జారీ చేయాలా లేదా తిరస్కరించాలా అని మీరు నిర్ణయించుకోవచ్చు.
ముందుకు చూస్తే, ఇచ్చిన పారామితులతో మేము గమనించాము లీనియర్ రిగ్రెషన్ ఫంక్షన్, లో ఉపయోగించబడింది లాజిస్టిక్ ప్రతిస్పందన విధులు రుణం తిరిగి చెల్లించే సంభావ్యతను నిర్ణయించడానికి గణనలను క్లిష్టతరం చేసే పెద్ద విలువలను ఉత్పత్తి చేస్తుంది. అందువల్ల, మా గుణకాలను 25.000 రెట్లు తగ్గించాలని ప్రతిపాదించబడింది. గుణకాలలో ఈ పరివర్తన రుణం జారీ చేసే నిర్ణయాన్ని మార్చదు. భవిష్యత్తు కోసం ఈ విషయాన్ని గుర్తుంచుకుందాం, కానీ ఇప్పుడు, మనం ఏమి మాట్లాడుతున్నామో మరింత స్పష్టంగా చెప్పడానికి, ముగ్గురు సంభావ్య రుణగ్రహీతలతో పరిస్థితిని పరిశీలిద్దాం.
టేబుల్ 1 “సంభావ్య రుణగ్రహీతలు”
పట్టికను రూపొందించడానికి కోడ్
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
పట్టికలోని డేటాకు అనుగుణంగా, వాస్య, 120.000 RUR జీతంతో, రుణాన్ని పొందాలనుకుంటున్నారు, తద్వారా అతను దానిని నెలవారీ 3.000 RUR వద్ద తిరిగి చెల్లించవచ్చు. రుణాన్ని ఆమోదించడానికి, వాస్య యొక్క జీతం చెల్లింపు మొత్తం కంటే మూడు రెట్లు మించి ఉండాలి మరియు ఇంకా 5.000 RUR మిగిలి ఉండాలని మేము నిర్ణయించాము. Vasya ఈ అవసరాన్ని సంతృప్తి పరుస్తుంది: . 106.000 RUR కూడా మిగిలి ఉంది. లెక్కించేటప్పుడు వాస్తవం ఉన్నప్పటికీ మేము అసమానతలను తగ్గించాము 25.000 సార్లు, ఫలితం ఒకే విధంగా ఉంది - రుణాన్ని ఆమోదించవచ్చు. ఫెడ్యాకు కూడా రుణం అందుతుంది, కానీ లేషా, అతను ఎక్కువగా అందుకున్నప్పటికీ, అతని ఆకలిని అరికట్టవలసి ఉంటుంది.
ఈ కేసు కోసం ఒక గ్రాఫ్ గీద్దాం.
చార్ట్ 2 “రుణగ్రహీతల వర్గీకరణ”
గ్రాఫ్ గీయడానికి కోడ్
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
కాబట్టి, మా సరళ రేఖ, ఫంక్షన్కు అనుగుణంగా నిర్మించబడింది , "చెడు" రుణగ్రహీతలను "మంచి" నుండి వేరు చేస్తుంది. వారి కోరికలు వారి సామర్థ్యాలతో ఏకీభవించని రుణగ్రహీతలు రేఖకు (లేషా) పైన ఉన్నారు, అయితే మా మోడల్ యొక్క పారామితుల ప్రకారం, రుణాన్ని తిరిగి చెల్లించగలిగే వారు రేఖకు దిగువన ఉన్నారు (వాస్య మరియు ఫెడ్యా). మరో మాటలో చెప్పాలంటే, మనము ఇలా చెప్పగలము: మా డైరెక్ట్ లైన్ రుణగ్రహీతలను రెండు తరగతులుగా విభజిస్తుంది. వాటిని ఈ క్రింది విధంగా సూచిస్తాము: తరగతికి రుణాన్ని తిరిగి చెల్లించే అవకాశం ఉన్న రుణగ్రహీతలను మేము వర్గీకరిస్తాము లేదా రుణాన్ని తిరిగి చెల్లించలేని రుణగ్రహీతలను మేము చేర్చుతాము.
ఈ సాధారణ ఉదాహరణ నుండి తీర్మానాలను సంగ్రహిద్దాం. ఒక పాయింట్ తీసుకుందాం మరియు, పాయింట్ యొక్క కోఆర్డినేట్లను లైన్ యొక్క సంబంధిత సమీకరణంలోకి మార్చడం , మూడు ఎంపికలను పరిగణించండి:
- పాయింట్ లైన్ కింద ఉంటే మరియు మేము దానిని తరగతికి కేటాయిస్తాము , అప్పుడు ఫంక్షన్ విలువ నుండి సానుకూలంగా ఉంటుంది కు . దీనర్థం రుణాన్ని తిరిగి చెల్లించే సంభావ్యత లోపల ఉందని మనం భావించవచ్చు . ఫంక్షన్ విలువ పెద్దది, సంభావ్యత ఎక్కువ.
- ఒక పాయింట్ లైన్ పైన ఉంటే మరియు మేము దానిని తరగతికి కేటాయిస్తాము లేదా , అప్పుడు ఫంక్షన్ విలువ ప్రతికూలంగా ఉంటుంది కు . అప్పు తిరిగి చెల్లించే సంభావ్యత లోపల ఉందని మేము ఊహిస్తాము మరియు, ఫంక్షన్ యొక్క సంపూర్ణ విలువ ఎంత ఎక్కువగా ఉంటే, మన విశ్వాసం అంత ఎక్కువగా ఉంటుంది.
- పాయింట్ సరళ రేఖలో, రెండు తరగతుల మధ్య సరిహద్దులో ఉంటుంది. ఈ సందర్భంలో, ఫంక్షన్ యొక్క విలువ సమానంగా ఉంటుంది మరియు రుణాన్ని తిరిగి చెల్లించే సంభావ్యత సమానంగా ఉంటుంది .
ఇప్పుడు, మనకు రెండు కారకాలు లేవని ఊహించుకుందాం, కానీ డజన్ల కొద్దీ, మరియు మూడు కాదు, కానీ వేలాది మంది రుణగ్రహీతలు. అప్పుడు సరళ రేఖకు బదులుగా మనకు ఉంటుంది m-డైమెన్షనల్ విమానం మరియు గుణకాలు మేము గాలి నుండి తీసివేయబడము, కానీ అన్ని నిబంధనల ప్రకారం మరియు రుణాన్ని కలిగి ఉన్న లేదా తిరిగి చెల్లించని రుణగ్రహీతలపై సేకరించిన డేటా ఆధారంగా తీసుకోబడతాము. నిజానికి, మేము ఇప్పుడు ఇప్పటికే తెలిసిన కోఎఫీషియంట్లను ఉపయోగించి రుణగ్రహీతలను ఎంచుకుంటున్నామని గమనించండి . వాస్తవానికి, లాజిస్టిక్ రిగ్రెషన్ మోడల్ యొక్క పని ఖచ్చితంగా పారామితులను నిర్ణయించడం , నష్టం ఫంక్షన్ యొక్క విలువ లాజిస్టిక్ నష్టం కనిష్టానికి మొగ్గు చూపుతుంది. కానీ వెక్టర్ ఎలా లెక్కించబడుతుంది అనే దాని గురించి , మేము వ్యాసం యొక్క 5వ విభాగంలో మరింత కనుగొంటాము. ఈలోగా, మేము వాగ్దానం చేసిన భూమికి తిరిగి వస్తాము - మా బ్యాంకర్ మరియు అతని ముగ్గురు ఖాతాదారులకు.
ఫంక్షన్కి ధన్యవాదాలు ఎవరికి రుణం ఇవ్వవచ్చో మరియు ఎవరిని తిరస్కరించాలో మాకు తెలుసు. కానీ మీరు అలాంటి సమాచారంతో దర్శకుడి వద్దకు వెళ్లలేరు, ఎందుకంటే ప్రతి రుణగ్రహీత రుణం తిరిగి చెల్లించే సంభావ్యతను మా నుండి పొందాలని వారు కోరుకున్నారు. ఏం చేయాలి? సమాధానం సులభం - మేము ఏదో ఒకవిధంగా ఫంక్షన్ను మార్చాలి , దీని విలువలు పరిధిలో ఉంటాయి విలువలు పరిధిలో ఉండే ఫంక్షన్కి . మరియు అటువంటి ఫంక్షన్ ఉంది, దీనిని పిలుస్తారు లాజిస్టిక్ రెస్పాన్స్ ఫంక్షన్ లేదా ఇన్వర్స్-లాజిట్ ట్రాన్స్ఫర్మేషన్. కలుసుకోవడం:
ఇది ఎలా పనిచేస్తుందో దశల వారీగా చూద్దాం లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్. మేము వ్యతిరేక దిశలో నడుస్తామని గమనించండి, అనగా. నుండి పరిధిలో ఉండే సంభావ్యత విలువ మాకు తెలుసునని మేము ఊహిస్తాము కు ఆపై మేము ఈ విలువను మొత్తం సంఖ్యల పరిధికి "విడదీస్తాము" కు .
03. మేము లాజిస్టిక్ రెస్పాన్స్ ఫంక్షన్ని పొందాము
దశ 1. సంభావ్యత విలువలను పరిధిలోకి మార్చండి
ఫంక్షన్ యొక్క పరివర్తన సమయంలో в లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్ మేము మా క్రెడిట్ విశ్లేషకుడిని ఒంటరిగా వదిలి, బదులుగా బుక్మేకర్ల పర్యటనకు వెళ్తాము. లేదు, వాస్తవానికి, మేము పందెం వేయము, వ్యక్తీకరణ యొక్క అర్థం మనకు ఆసక్తిని కలిగిస్తుంది, ఉదాహరణకు, అవకాశం 4 నుండి 1. అసమానత, బెట్టింగ్ చేసేవారికి సుపరిచితం, “విజయాల” నిష్పత్తికి “ వైఫల్యాలు". సంభావ్యత పరంగా, అసమానత అనేది ఈవెంట్ సంభవించని సంభావ్యతతో భాగించబడిన సంఘటన యొక్క సంభావ్యత. ఈవెంట్ సంభవించే అవకాశం కోసం సూత్రాన్ని వ్రాస్దాం :
పేరు - ఒక సంఘటన సంభవించే సంభావ్యత, - జరగని సంఘటన సంభావ్యత
ఉదాహరణకు, "వెటెరోక్" అనే మారుపేరుతో ఉన్న యువ, బలమైన మరియు ఉల్లాసభరితమైన గుర్రం రేసులో "మటిల్డా" అనే వృద్ధురాలైన మరియు మందమైన వృద్ధురాలిని ఓడించే సంభావ్యత సమానంగా ఉంటే , అప్పుడు "Veterok" విజయావకాశాలు ఉంటాయి к మరియు వైస్ వెర్సా, అసమానతలను తెలుసుకోవడం, సంభావ్యతను లెక్కించడం మాకు కష్టం కాదు :
అందువల్ల, సంభావ్యతను అవకాశాలలోకి "అనువదించడం" నేర్చుకున్నాము, దాని నుండి విలువలను తీసుకుంటాము కు . మరో అడుగు వేసి, మొత్తం సంఖ్య రేఖకు సంభావ్యతను “అనువదించడం” నేర్చుకుందాం కు .
దశ 2. సంభావ్యత విలువలను పరిధిలోకి మార్చండి
ఈ దశ చాలా సులభం - అసమానత యొక్క సంవర్గమానాన్ని ఆయిలర్ సంఖ్య యొక్క ఆధారానికి తీసుకుందాం మరియు మేము పొందుతాము:
ఉంటే ఇప్పుడు మనకు తెలుసు , ఆపై విలువను లెక్కించండి చాలా సరళంగా ఉంటుంది మరియు అదనంగా, ఇది సానుకూలంగా ఉండాలి: . ఇది నిజం.
ఉత్సుకతతో, ఏమి జరుగుతుందో చూద్దాం , అప్పుడు మేము ప్రతికూల విలువను చూస్తాము . మేము తనిఖీ చేస్తాము: . అది నిజమే.
సంభావ్యత విలువను ఎలా మార్చాలో ఇప్పుడు మనకు తెలుసు కు నుండి మొత్తం సంఖ్య రేఖ వెంట కు . తదుపరి దశలో మేము దీనికి విరుద్ధంగా చేస్తాము.
ప్రస్తుతానికి, సంవర్గమాన నియమాల ప్రకారం, ఫంక్షన్ యొక్క విలువను తెలుసుకోవడం మేము గమనించాము , మీరు అసమానతలను లెక్కించవచ్చు:
అసమానతలను నిర్ణయించే ఈ పద్ధతి తదుపరి దశలో మాకు ఉపయోగకరంగా ఉంటుంది.
దశ 3. నిర్ణయించడానికి ఒక సూత్రాన్ని తీసుకుందాం
కాబట్టి మేము నేర్చుకున్నాము, తెలుసుకున్నాము , ఫంక్షన్ విలువలను కనుగొనండి . అయితే, వాస్తవానికి, మనకు సరిగ్గా వ్యతిరేకం కావాలి - విలువను తెలుసుకోవడం కనుగొనేందుకు . దీన్ని చేయడానికి, విలోమ అసమానత ఫంక్షన్ వంటి భావనను పరిశీలిద్దాం, దీని ప్రకారం:
వ్యాసంలో మేము పై సూత్రాన్ని పొందలేము, కానీ ఎగువ ఉదాహరణ నుండి సంఖ్యలను ఉపయోగించి దాన్ని తనిఖీ చేస్తాము. 4 నుండి 1 అసమానతతో మనకు తెలుసు (), ఈవెంట్ సంభవించే సంభావ్యత 0.8 () ప్రత్యామ్నాయం చేద్దాం: . ఇది ముందుగా నిర్వహించిన మా లెక్కలతో సమానంగా ఉంటుంది. ముందుకు వెళ్దాం.
చివరి దశలో మేము దానిని తగ్గించాము , అంటే మీరు విలోమ అసమానత ఫంక్షన్లో ప్రత్యామ్నాయం చేయవచ్చు. మాకు దొరికింది:
న్యూమరేటర్ మరియు హారం రెండింటినీ భాగించండి , అప్పుడు:
ఒకవేళ, మనం ఎక్కడా పొరపాటు చేయలేదని నిర్ధారించుకోవడానికి, మరో చిన్న తనిఖీ చేద్దాం. దశ 2 లో, మేము అని నిర్ణయించారు . అప్పుడు, విలువను ప్రత్యామ్నాయం చేయడం లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్లోకి, మేము పొందాలని ఆశిస్తున్నాము . మేము ప్రత్యామ్నాయం చేస్తాము మరియు పొందుతాము:
అభినందనలు, ప్రియమైన రీడర్, మేము లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్ను ఇప్పుడే పొందాము మరియు పరీక్షించాము. ఫంక్షన్ యొక్క గ్రాఫ్ను చూద్దాం.
గ్రాఫ్ 3 “లాజిస్టిక్ రెస్పాన్స్ ఫంక్షన్”
గ్రాఫ్ గీయడానికి కోడ్
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
సాహిత్యంలో మీరు ఈ ఫంక్షన్ పేరును కూడా కనుగొనవచ్చు సిగ్మోయిడ్ ఫంక్షన్. తరగతికి చెందిన వస్తువు యొక్క సంభావ్యతలో ప్రధాన మార్పు సాపేక్షంగా చిన్న పరిధిలోనే జరుగుతుందని గ్రాఫ్ స్పష్టంగా చూపిస్తుంది , ఎక్కడి నుంచో కు .
మా క్రెడిట్ విశ్లేషకుడికి తిరిగి రావాలని మరియు రుణం తిరిగి చెల్లించే సంభావ్యతను లెక్కించడంలో అతనికి సహాయపడాలని నేను సూచిస్తున్నాను, లేకుంటే అతను బోనస్ లేకుండా మిగిలిపోయే ప్రమాదం ఉంది :)
టేబుల్ 2 “సంభావ్య రుణగ్రహీతలు”
పట్టికను రూపొందించడానికి కోడ్
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
కాబట్టి, మేము రుణం తిరిగి చెల్లించే సంభావ్యతను నిర్ణయించాము. సాధారణంగా, ఇది నిజం అనిపిస్తుంది.
నిజానికి, వాస్య, 120.000 RUR జీతంతో, ప్రతి నెలా 3.000 RUR బ్యాంకుకు ఇవ్వగలిగే సంభావ్యత 100%కి దగ్గరగా ఉంటుంది. మార్గం ద్వారా, బ్యాంక్ పాలసీ అందించినట్లయితే, బ్యాంకు లెషాకు రుణం ఇవ్వగలదని మనం అర్థం చేసుకోవాలి, ఉదాహరణకు, 0.3 కంటే ఎక్కువ రుణం తిరిగి చెల్లించే సంభావ్యతతో ఖాతాదారులకు రుణం ఇవ్వడానికి. ఈ సందర్భంలో బ్యాంక్ సాధ్యమయ్యే నష్టాల కోసం పెద్ద నిల్వను సృష్టిస్తుంది.
జీతం-చెల్లింపు నిష్పత్తి కనీసం 3 మరియు 5.000 RUR మార్జిన్తో సీలింగ్ నుండి తీసుకోబడిందని కూడా గమనించాలి. అందువల్ల, మేము బరువుల వెక్టర్ను దాని అసలు రూపంలో ఉపయోగించలేము . మేము గుణకాలను బాగా తగ్గించాల్సిన అవసరం ఉంది మరియు ఈ సందర్భంలో మేము ప్రతి గుణకాన్ని 25.000 ద్వారా విభజించాము, అంటే, సారాంశంలో, మేము ఫలితాన్ని సర్దుబాటు చేసాము. కానీ ప్రారంభ దశలో పదార్థం యొక్క అవగాహనను సులభతరం చేయడానికి ఇది ప్రత్యేకంగా జరిగింది. జీవితంలో, మేము గుణకాలను కనుగొనడం మరియు సర్దుబాటు చేయడం అవసరం లేదు, కానీ వాటిని కనుగొనండి. వ్యాసం యొక్క తదుపరి విభాగాలలో మేము పారామితులను ఎంచుకున్న సమీకరణాలను పొందుతాము .
04. బరువుల వెక్టర్ను నిర్ణయించడానికి తక్కువ చతురస్రాల పద్ధతి లాజిస్టిక్ రెస్పాన్స్ ఫంక్షన్లో
బరువుల వెక్టార్ని ఎంచుకోవడానికి ఈ పద్ధతి మనకు ఇప్పటికే తెలుసు , వంటి కనిష్ట చతురస్రాల పద్ధతి (LSM) మరియు వాస్తవానికి, బైనరీ వర్గీకరణ సమస్యలలో మనం దానిని ఎందుకు ఉపయోగించకూడదు? నిజానికి, ఏదీ మిమ్మల్ని ఉపయోగించకుండా నిరోధించదు MNC, వర్గీకరణ సమస్యలలో ఈ పద్ధతి మాత్రమే తక్కువ ఖచ్చితమైన ఫలితాలను ఇస్తుంది లాజిస్టిక్ నష్టం. దీనికి సైద్ధాంతిక ఆధారం ఉంది. మొదట ఒక సాధారణ ఉదాహరణ చూద్దాం.
మన నమూనాలు (ఉపయోగించడం MSE и లాజిస్టిక్ నష్టం) ఇప్పటికే బరువుల వెక్టర్ను ఎంచుకోవడం ప్రారంభించింది మరియు మేము ఒక దశలో గణనను నిలిపివేసాము. మధ్యలో, చివరిలో లేదా ప్రారంభంలో అన్నది పట్టింపు లేదు, ప్రధాన విషయం ఏమిటంటే, మనకు ఇప్పటికే బరువుల వెక్టర్ యొక్క కొన్ని విలువలు ఉన్నాయి మరియు ఈ దశలో, బరువుల వెక్టర్ అని అనుకుందాం. రెండు మోడళ్లకు తేడాలు లేవు. అప్పుడు ఫలిత బరువులను తీసుకొని వాటిని భర్తీ చేయండి లాజిస్టిక్ ప్రతిస్పందన ఫంక్షన్ () తరగతికి చెందిన కొన్ని వస్తువు కోసం . ఎంచుకున్న వెక్టర్ వెక్టర్కు అనుగుణంగా, మా మోడల్ చాలా తప్పుగా మరియు దీనికి విరుద్ధంగా ఉన్నప్పుడు మేము రెండు సందర్భాలను పరిశీలిస్తాము - వస్తువు తరగతికి చెందినదని మోడల్ చాలా నమ్మకంగా ఉంది . ఉపయోగించినప్పుడు ఎలాంటి జరిమానాలు జారీ చేయబడతాయో చూద్దాం MNC и లాజిస్టిక్ నష్టం.
ఉపయోగించిన నష్టం ఫంక్షన్పై ఆధారపడి జరిమానాలను లెక్కించడానికి కోడ్
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
ఒక తప్పు కేసు - మోడల్ ఒక వస్తువును తరగతికి కేటాయిస్తుంది 0,01 సంభావ్యతతో
ఉపయోగంపై జరిమానా MNC ఉంటుంది:
ఉపయోగంపై జరిమానా లాజిస్టిక్ నష్టం ఉంటుంది:
బలమైన విశ్వాసం యొక్క సందర్భం - మోడల్ ఒక వస్తువును తరగతికి కేటాయిస్తుంది 0,99 సంభావ్యతతో
ఉపయోగంపై జరిమానా MNC ఉంటుంది:
ఉపయోగంపై జరిమానా లాజిస్టిక్ నష్టం ఉంటుంది:
ఈ ఉదాహరణ స్థూల లోపం విషయంలో లాస్ ఫంక్షన్ని బాగా వివరిస్తుంది లాగ్ నష్టం కంటే ఎక్కువ మోడల్కు జరిమానా విధిస్తుంది MSE. నష్టం ఫంక్షన్ని ఉపయోగించడంలో సైద్ధాంతిక నేపథ్యం ఏమిటో ఇప్పుడు అర్థం చేసుకుందాం లాగ్ నష్టం వర్గీకరణ సమస్యలలో.
05. గరిష్ట సంభావ్యత పద్ధతి మరియు లాజిస్టిక్ రిగ్రెషన్
ప్రారంభంలో వాగ్దానం చేసినట్లుగా, వ్యాసం సాధారణ ఉదాహరణలతో నిండి ఉంది. స్టూడియోలో మరొక ఉదాహరణ మరియు పాత అతిథులు ఉన్నారు - బ్యాంకు రుణగ్రహీతలు: వాస్య, ఫెడియా మరియు లేషా.
ఒకవేళ, ఉదాహరణను అభివృద్ధి చేయడానికి ముందు, జీవితంలో మేము పదుల లేదా వందల లక్షణాలతో వేల లేదా మిలియన్ల వస్తువుల శిక్షణ నమూనాతో వ్యవహరిస్తున్నామని నేను మీకు గుర్తు చేస్తాను. అయితే, ఇక్కడ సంఖ్యలు తీసుకోబడ్డాయి, తద్వారా అవి అనుభవం లేని డేటా శాస్త్రవేత్త యొక్క తలపైకి సులభంగా సరిపోతాయి.
ఉదాహరణకి తిరిగి వద్దాం. లేషాకు జారీ చేయవద్దని అల్గోరిథం చెప్పినప్పటికీ, బ్యాంక్ డైరెక్టర్ అవసరమైన ప్రతి ఒక్కరికీ రుణం ఇవ్వాలని నిర్ణయించుకున్నారని ఊహించుదాం. మరియు ఇప్పుడు తగినంత సమయం గడిచిపోయింది మరియు ముగ్గురు హీరోలలో ఎవరు రుణం చెల్లించారో మరియు ఎవరు చెల్లించలేదో మనకు తెలుసు. ఏమి ఆశించాలి: వాస్య మరియు ఫెడియా రుణాన్ని తిరిగి చెల్లించారు, కాని లేషా చేయలేదు. ఇప్పుడు ఈ ఫలితం మనకు కొత్త శిక్షణ నమూనాగా ఉంటుందని ఊహించుదాం మరియు అదే సమయంలో, రుణాన్ని తిరిగి చెల్లించే సంభావ్యతను ప్రభావితం చేసే కారకాలపై మొత్తం డేటా (రుణగ్రహీత జీతం, నెలవారీ చెల్లింపు పరిమాణం) అదృశ్యమైనట్లే. అప్పుడు, అకారణంగా, ప్రతి మూడవ రుణగ్రహీత బ్యాంకుకు రుణాన్ని తిరిగి చెల్లించలేదని లేదా మరో మాటలో చెప్పాలంటే, తదుపరి రుణగ్రహీత రుణాన్ని తిరిగి చెల్లించే సంభావ్యతను ఊహించవచ్చు. . ఈ సహజమైన ఊహ సైద్ధాంతిక నిర్ధారణను కలిగి ఉంది మరియు దానిపై ఆధారపడి ఉంటుంది గరిష్ట సంభావ్యత పద్ధతి, తరచుగా సాహిత్యంలో దీనిని పిలుస్తారు గరిష్ట సంభావ్యత సూత్రం.
మొదట, సంభావిత ఉపకరణంతో పరిచయం చేసుకుందాం.
నమూనా సంభావ్యత సరిగ్గా అటువంటి నమూనాను పొందే సంభావ్యత, సరిగ్గా అలాంటి పరిశీలనలు/ఫలితాలను పొందడం, అనగా. ప్రతి నమూనా ఫలితాలను పొందే సంభావ్యత యొక్క ఉత్పత్తి (ఉదాహరణకు, వాస్య, ఫెడ్యా మరియు లేషా యొక్క రుణం తిరిగి చెల్లించబడిందా లేదా అదే సమయంలో తిరిగి చెల్లించబడకపోయినా).
సంభావ్యత ఫంక్షన్ పంపిణీ పారామితుల విలువలకు నమూనా యొక్క సంభావ్యతను సూచిస్తుంది.
మా విషయంలో, శిక్షణ నమూనా అనేది సాధారణీకరించిన బెర్నౌలీ పథకం, దీనిలో యాదృచ్ఛిక వేరియబుల్ కేవలం రెండు విలువలను మాత్రమే తీసుకుంటుంది: లేదా . కాబట్టి, నమూనా సంభావ్యతను పరామితి యొక్క సంభావ్యత ఫంక్షన్గా వ్రాయవచ్చు క్రింది విధంగా:
పై ఎంట్రీని ఈ క్రింది విధంగా అర్థం చేసుకోవచ్చు. వాస్య మరియు ఫెడ్యా రుణాన్ని తిరిగి చెల్లించే ఉమ్మడి సంభావ్యత సమానంగా ఉంటుంది , లెషా రుణాన్ని తిరిగి చెల్లించని సంభావ్యత సమానంగా ఉంటుంది (ఇది జరిగిన రుణ చెల్లింపు కాదు కాబట్టి), మూడు సంఘటనల ఉమ్మడి సంభావ్యత సమానంగా ఉంటుంది .
గరిష్ట సంభావ్యత పద్ధతి గరిష్టీకరించడం ద్వారా తెలియని పరామితిని అంచనా వేయడానికి ఒక పద్ధతి సంభావ్యత విధులు. మా విషయంలో, మేము అలాంటి విలువను కనుగొనాలి దేని వద్ద గరిష్ట స్థాయికి చేరుకుంటుంది.
అసలు ఆలోచన ఎక్కడ నుండి వస్తుంది - సంభావ్యత ఫంక్షన్ గరిష్ట స్థాయికి చేరుకునే తెలియని పరామితి విలువ కోసం వెతకడానికి? జనాభా గురించి మనకు అందుబాటులో ఉన్న జ్ఞానం యొక్క ఏకైక మూలం నమూనా అనే ఆలోచన నుండి ఆలోచన యొక్క మూలాలు ఉత్పన్నమవుతాయి. జనాభా గురించి మనకు తెలిసిన ప్రతిదీ నమూనాలో సూచించబడుతుంది. అందువల్ల, మనకు అందుబాటులో ఉన్న జనాభా యొక్క అత్యంత ఖచ్చితమైన ప్రతిబింబం నమూనా అని మేము చెప్పగలం. అందువల్ల, అందుబాటులో ఉన్న నమూనా అత్యంత సంభావ్యంగా మారే పరామితిని మనం కనుగొనాలి.
సహజంగానే, మేము ఆప్టిమైజేషన్ సమస్యతో వ్యవహరిస్తున్నాము, దీనిలో మేము ఫంక్షన్ యొక్క విపరీత బిందువును కనుగొనవలసి ఉంటుంది. ఎక్స్ట్రీమ్ పాయింట్ను కనుగొనడానికి, మొదటి-ఆర్డర్ స్థితిని పరిగణనలోకి తీసుకోవడం అవసరం, అనగా, ఫంక్షన్ యొక్క ఉత్పన్నాన్ని సున్నాకి సమం చేసి, కావలసిన పరామితికి సంబంధించి సమీకరణాన్ని పరిష్కరించండి. అయినప్పటికీ, పెద్ద సంఖ్యలో కారకాల ఉత్పత్తి యొక్క ఉత్పన్నం కోసం శోధించడం సుదీర్ఘమైన పని; దీనిని నివారించడానికి, ఒక ప్రత్యేక సాంకేతికత ఉంది - లాగరిథమ్కు మారడం సంభావ్యత విధులు. అటువంటి పరివర్తన ఎందుకు సాధ్యమవుతుంది? మేము ఫంక్షన్ యొక్క అంత్య భాగాల కోసం వెతకడం లేదని వాస్తవానికి శ్రద్ధ చూపుదాం, మరియు ఎక్స్ట్రీమ్ పాయింట్, అంటే తెలియని పరామితి విలువ దేని వద్ద గరిష్ట స్థాయికి చేరుకుంటుంది. లాగరిథమ్కి వెళ్లినప్పుడు, ఎక్స్ట్రీమ్ పాయింట్ మారదు (అయితే ఎక్స్ట్రంమ్ కూడా భిన్నంగా ఉంటుంది), ఎందుకంటే లాగరిథమ్ మోనోటోనిక్ ఫంక్షన్.
పైన పేర్కొన్న వాటికి అనుగుణంగా, వాస్య, ఫెడియా మరియు లేషా నుండి రుణాలతో మా ఉదాహరణను అభివృద్ధి చేయడం కొనసాగించండి. ముందుగా మనం ముందుకు వెళ్దాం సంభావ్యత ఫంక్షన్ యొక్క సంవర్గమానం:
ఇప్పుడు మనం వ్యక్తీకరణను సులభంగా వేరు చేయవచ్చు :
చివరకు, మొదటి-ఆర్డర్ పరిస్థితిని పరిగణించండి - మేము ఫంక్షన్ యొక్క ఉత్పన్నాన్ని సున్నాకి సమం చేస్తాము:
అందువలన, రుణం తిరిగి చెల్లించే సంభావ్యత గురించి మా సహజమైన అంచనా సిద్ధాంతపరంగా సమర్థించబడింది.
చాలా బాగుంది, అయితే ఈ సమాచారంతో మనం ఇప్పుడు ఏమి చేయాలి? ప్రతి మూడవ రుణగ్రహీత బ్యాంకుకు డబ్బును తిరిగి ఇవ్వలేదని మేము ఊహించినట్లయితే, తరువాతి అనివార్యంగా దివాలా తీస్తుంది. అది సరైనది, కానీ రుణం తిరిగి చెల్లించే సంభావ్యతను సమానంగా అంచనా వేసేటప్పుడు మాత్రమే రుణ చెల్లింపును ప్రభావితం చేసే అంశాలను మేము పరిగణనలోకి తీసుకోలేదు: రుణగ్రహీత జీతం మరియు నెలవారీ చెల్లింపు పరిమాణం. ఇదే కారకాలను పరిగణనలోకి తీసుకుని, ప్రతి క్లయింట్ ద్వారా రుణాన్ని తిరిగి చెల్లించే సంభావ్యతను మేము గతంలో లెక్కించామని గుర్తుంచుకోండి. మేము స్థిరమైన సమానం నుండి భిన్నమైన సంభావ్యతలను పొందడం తార్కికం .
నమూనాల సంభావ్యతను నిర్వచిద్దాం:
నమూనా సంభావ్యతలను లెక్కించడానికి కోడ్
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
స్థిరమైన విలువ వద్ద నమూనా సంభావ్యత :
ఖాతా కారకాలను పరిగణనలోకి తీసుకొని రుణం తిరిగి చెల్లించే సంభావ్యతను లెక్కించేటప్పుడు నమూనా సంభావ్యత :
కారకాలపై ఆధారపడి లెక్కించబడిన సంభావ్యతతో నమూనా యొక్క సంభావ్యత స్థిరమైన సంభావ్యత విలువతో సంభావ్యత కంటే ఎక్కువగా ఉంటుంది. దీని అర్థం ఏమిటి? ప్రతి క్లయింట్కు రుణం తిరిగి చెల్లించే సంభావ్యతను మరింత ఖచ్చితంగా ఎంచుకోవడానికి కారకాల గురించిన జ్ఞానం సాధ్యపడుతుందని ఇది సూచిస్తుంది. అందువల్ల, తదుపరి రుణాన్ని జారీ చేసేటప్పుడు, రుణ చెల్లింపు సంభావ్యతను అంచనా వేయడానికి వ్యాసంలోని సెక్షన్ 3 చివరిలో ప్రతిపాదించబడిన నమూనాను ఉపయోగించడం మరింత సరైనది.
అయితే, మేము గరిష్టీకరించాలనుకుంటే నమూనా సంభావ్యత ఫంక్షన్, అలాంటప్పుడు వాస్య, ఫెడియా మరియు లేషాలకు సంభావ్యతలను ఉత్పత్తి చేసే కొన్ని అల్గారిథమ్లను ఎందుకు ఉపయోగించకూడదు, ఉదాహరణకు, వరుసగా 0.99, 0.99 మరియు 0.01కి సమానం. బహుశా అలాంటి అల్గోరిథం శిక్షణ నమూనాలో బాగా పని చేస్తుంది, ఎందుకంటే ఇది నమూనా సంభావ్యత విలువను దగ్గరగా తీసుకువస్తుంది , కానీ, మొదట, అటువంటి అల్గోరిథం సాధారణీకరణ సామర్థ్యంతో చాలా ఇబ్బందులు ఎదుర్కొంటుంది మరియు రెండవది, ఈ అల్గోరిథం ఖచ్చితంగా సరళంగా ఉండదు. మరియు ఈ వ్యాసం యొక్క ప్రణాళికలో ఓవర్ట్రైనింగ్ (సమానంగా బలహీనమైన సాధారణీకరణ సామర్ధ్యం) పోరాడే పద్ధతులు స్పష్టంగా చేర్చబడకపోతే, రెండవ అంశాన్ని మరింత వివరంగా చూద్దాం. దీన్ని చేయడానికి, ఒక సాధారణ ప్రశ్నకు సమాధానం ఇవ్వండి. మనకు తెలిసిన అంశాలను పరిగణనలోకి తీసుకుంటే, వాస్య మరియు ఫెడ్యా రుణాన్ని తిరిగి చెల్లించే సంభావ్యత ఒకేలా ఉంటుందా? ధ్వని తర్కం యొక్క దృక్కోణం నుండి, వాస్తవానికి కాదు, అది సాధ్యం కాదు. కాబట్టి వాస్య రుణాన్ని తిరిగి చెల్లించడానికి నెలకు తన జీతంలో 2.5% చెల్లిస్తుంది మరియు ఫెడ్యా - దాదాపు 27,8%. అలాగే గ్రాఫ్ 2 “క్లయింట్ వర్గీకరణ”లో, ఫెడియా కంటే క్లాస్లను వేరుచేసే లైన్ నుండి వాస్య చాలా ఎక్కువ దూరంలో ఉందని మనం చూస్తాము. మరియు చివరకు, మేము ఫంక్షన్ తెలుసు Vasya మరియు Fedya వేర్వేరు విలువలను తీసుకుంటుంది: Vasya కోసం 4.24 మరియు Fedya కోసం 1.0. ఇప్పుడు, ఉదాహరణకు, ఫెడ్యా ఎక్కువ పరిమాణంలో ఆర్డర్ సంపాదించినట్లయితే లేదా చిన్న రుణం కోసం అడిగితే, వాస్య మరియు ఫెడ్యా కోసం రుణాన్ని తిరిగి చెల్లించే సంభావ్యత సమానంగా ఉంటుంది. మరో మాటలో చెప్పాలంటే, సరళ ఆధారపడటాన్ని మోసం చేయలేము. మరియు మేము వాస్తవానికి అసమానతలను లెక్కించినట్లయితే , మరియు వాటిని గాలి నుండి బయటకు తీయలేదు, మా విలువలు అని మేము సురక్షితంగా చెప్పగలము ప్రతి రుణగ్రహీత ద్వారా రుణాన్ని తిరిగి చెల్లించే సంభావ్యతను అంచనా వేయడానికి ఉత్తమంగా మాకు అనుమతిస్తాయి, అయితే మేము గుణకాల యొక్క నిర్ణయం అని భావించడానికి అంగీకరించాము. అన్ని నియమాల ప్రకారం నిర్వహించబడింది, అప్పుడు మేము అలా అనుకుంటాము - సంభావ్యత యొక్క మంచి అంచనాను ఇవ్వడానికి మా గుణకాలు మాకు అనుమతిస్తాయి :)
అయితే, మేము పక్కకు తప్పుకుంటాము. ఈ విభాగంలో బరువుల వెక్టర్ ఎలా నిర్ణయించబడుతుందో మనం అర్థం చేసుకోవాలి , ప్రతి రుణగ్రహీత ద్వారా రుణాన్ని తిరిగి చెల్లించే సంభావ్యతను అంచనా వేయడానికి ఇది అవసరం.
మనం ఏ ఆయుధాగారంతో అసమానతలను వెతుకుతున్నామో క్లుప్తంగా సంగ్రహిద్దాం :
1. లక్ష్య వేరియబుల్ (అంచనా విలువ) మరియు ఫలితాన్ని ప్రభావితం చేసే అంశం మధ్య సంబంధం సరళంగా ఉంటుందని మేము ఊహిస్తాము. ఈ కారణంగా ఇది ఉపయోగించబడుతుంది లీనియర్ రిగ్రెషన్ ఫంక్షన్ జాతుల , వస్తువులను (క్లయింట్లు) తరగతులుగా విభజించే పంక్తి и లేదా (రుణాన్ని తిరిగి చెల్లించగలిగే ఖాతాదారులు మరియు చెల్లించని వారు). మా సందర్భంలో, సమీకరణం రూపం కలిగి ఉంటుంది .
2. మేము ఉపయోగిస్తాము విలోమ లాజిట్ ఫంక్షన్ జాతుల తరగతికి చెందిన వస్తువు యొక్క సంభావ్యతను నిర్ణయించడానికి .
3. మేము మా శిక్షణా సమితిని సాధారణీకరించిన అమలుగా పరిగణిస్తాము బెర్నౌలీ పథకాలు, అంటే, ప్రతి వస్తువుకు యాదృచ్ఛిక వేరియబుల్ ఉత్పత్తి చేయబడుతుంది, ఇది సంభావ్యతతో ఉంటుంది (ప్రతి వస్తువుకు దాని స్వంత) విలువ 1 మరియు సంభావ్యతతో ఉంటుంది - 0.
4. మనం గరిష్టీకరించాల్సిన అవసరం ఏమిటో మాకు తెలుసు నమూనా సంభావ్యత ఫంక్షన్ ఆమోదించబడిన కారకాలను పరిగణనలోకి తీసుకోవడం వలన అందుబాటులో ఉన్న నమూనా అత్యంత ఆమోదయోగ్యమైనదిగా మారుతుంది. మరో మాటలో చెప్పాలంటే, నమూనా అత్యంత ఆమోదయోగ్యమైన పారామితులను మనం ఎంచుకోవాలి. మా విషయంలో, ఎంచుకున్న పరామితి రుణం తిరిగి చెల్లించే సంభావ్యత , ఇది తెలియని గుణకాలపై ఆధారపడి ఉంటుంది . కాబట్టి మనం బరువుల అటువంటి వెక్టర్ను కనుగొనాలి , దీనిలో నమూనా యొక్క సంభావ్యత గరిష్టంగా ఉంటుంది.
5. ఏది గరిష్టీకరించాలో మాకు తెలుసు నమూనా సంభావ్యత విధులు ఉపయోగించవచ్చు గరిష్ట సంభావ్యత పద్ధతి. మరియు ఈ పద్ధతితో పని చేయడానికి అన్ని గమ్మత్తైన ఉపాయాలు మాకు తెలుసు.
ఇది బహుళ-దశల తరలింపుగా ఎలా మారుతుంది :)
వ్యాసం ప్రారంభంలోనే మేము రెండు రకాల లాస్ ఫంక్షన్లను పొందాలనుకుంటున్నామని ఇప్పుడు గుర్తుంచుకోండి లాజిస్టిక్ నష్టం ఆబ్జెక్ట్ తరగతులు ఎలా నియమించబడ్డాయనే దానిపై ఆధారపడి ఉంటుంది. రెండు తరగతులతో వర్గీకరణ సమస్యలలో, తరగతులు ఇలా సూచించబడతాయి и లేదా . సంజ్ఞామానం ఆధారంగా, అవుట్పుట్ సంబంధిత లాస్ ఫంక్షన్ను కలిగి ఉంటుంది.
కేసు 1. వస్తువుల వర్గీకరణ и
ఇంతకు ముందు, ఒక నమూనా యొక్క సంభావ్యతను నిర్ణయించేటప్పుడు, దీనిలో రుణగ్రహీత రుణం తిరిగి చెల్లించే సంభావ్యతను కారకాలు మరియు ఇచ్చిన గుణకాల ఆధారంగా లెక్కించబడుతుంది. , మేము సూత్రాన్ని వర్తింపజేసాము:
నిజానికి అనేది అర్థం లాజిస్టిక్ ప్రతిస్పందన విధులు బరువులు ఇచ్చిన వెక్టర్ కోసం
అప్పుడు నమూనా సంభావ్యత ఫంక్షన్ను ఈ క్రింది విధంగా వ్రాయకుండా మనల్ని ఏదీ నిరోధించదు:
కొంతమంది అనుభవం లేని విశ్లేషకులు ఈ ఫంక్షన్ ఎలా పనిచేస్తుందో వెంటనే అర్థం చేసుకోవడం కొన్నిసార్లు కష్టం. విషయాలను క్లియర్ చేసే 4 చిన్న ఉదాహరణలను చూద్దాం:
1. ఉంటే (అనగా, శిక్షణ నమూనా ప్రకారం, వస్తువు తరగతి +1కి చెందినది), మరియు మా అల్గోరిథం ఒక వస్తువును తరగతికి వర్గీకరించే సంభావ్యతను నిర్ణయిస్తుంది 0.9కి సమానం, అప్పుడు ఈ నమూనా సంభావ్యత క్రింది విధంగా లెక్కించబడుతుంది:
2. ఉంటే మరియు , అప్పుడు గణన ఇలా ఉంటుంది:
3. ఉంటే మరియు , అప్పుడు గణన ఇలా ఉంటుంది:
4. ఉంటే మరియు , అప్పుడు గణన ఇలా ఉంటుంది:
1 మరియు 3 సందర్భాలలో లేదా సాధారణ సందర్భంలో - ఒక వస్తువును తరగతికి కేటాయించే సంభావ్యత యొక్క సరిగ్గా అంచనా వేసిన విలువలతో సంభావ్యత ఫంక్షన్ గరిష్టీకరించబడుతుందని స్పష్టంగా తెలుస్తుంది. .
ఒక వస్తువును తరగతికి కేటాయించే సంభావ్యతను నిర్ణయించేటప్పుడు వాస్తవం కారణంగా మనకు గుణకాలు మాత్రమే తెలియవు , అప్పుడు మేము వారి కోసం చూస్తాము. పైన చెప్పినట్లుగా, ఇది ఆప్టిమైజేషన్ సమస్య, దీనిలో ముందుగా మనం బరువుల వెక్టర్కు సంబంధించి సంభావ్యత ఫంక్షన్ యొక్క ఉత్పన్నాన్ని కనుగొనాలి. . అయితే, మొదట మన కోసం పనిని సరళీకృతం చేయడం అర్ధమే: మేము లాగరిథమ్ యొక్క ఉత్పన్నం కోసం చూస్తాము సంభావ్యత విధులు.
ఎందుకు లాగరిథమ్ తర్వాత, ఇన్ లాజిస్టిక్ లోపం విధులు, నుండి గుర్తును మార్చాము న . ప్రతిదీ చాలా సులభం, ఎందుకంటే మోడల్ నాణ్యతను అంచనా వేయడంలో ఫంక్షన్ యొక్క విలువను తగ్గించడం ఆచారం కాబట్టి, మేము వ్యక్తీకరణ యొక్క కుడి వైపున గుణించాము మరియు తదనుగుణంగా, గరిష్టీకరించడానికి బదులుగా, ఇప్పుడు మేము ఫంక్షన్ను కనిష్టీకరించాము.
అసలైన, ప్రస్తుతం, మీ కళ్ళ ముందు, నష్టం ఫంక్షన్ చాలా శ్రమతో ఉద్భవించింది - లాజిస్టిక్ నష్టం రెండు తరగతులతో కూడిన శిక్షణా సమితి కోసం: и .
ఇప్పుడు, గుణకాలను కనుగొనడానికి, మనం కేవలం ఉత్పన్నాన్ని కనుగొనాలి లాజిస్టిక్ లోపం విధులు ఆపై, సంఖ్యాపరమైన ఆప్టిమైజేషన్ పద్ధతులను ఉపయోగించి, గ్రేడియంట్ డిసెంట్ లేదా యాదృచ్ఛిక ప్రవణత అవరోహణ వంటివి, అత్యంత అనుకూలమైన గుణకాలను ఎంచుకోండి . కానీ, వ్యాసం యొక్క గణనీయమైన పరిమాణాన్ని బట్టి, మీ స్వంతంగా భేదాన్ని నిర్వహించాలని ప్రతిపాదించబడింది లేదా అటువంటి వివరణాత్మక ఉదాహరణలు లేకుండా చాలా అంకగణితంతో తదుపరి కథనానికి ఇది ఒక అంశం కావచ్చు.
కేసు 2. వస్తువుల వర్గీకరణ и
ఇక్కడ విధానం తరగతుల మాదిరిగానే ఉంటుంది и , కానీ నష్టం ఫంక్షన్ యొక్క అవుట్పుట్కు మార్గం లాజిస్టిక్ నష్టం, మరింత అలంకరించబడిన ఉంటుంది. ప్రారంభిద్దాం. సంభావ్యత ఫంక్షన్ కోసం మేము ఆపరేటర్ని ఉపయోగిస్తాము "అయితే... అప్పుడు...". అంటే, ఉంటే వ వస్తువు తరగతికి చెందినది , అప్పుడు నమూనా యొక్క సంభావ్యతను లెక్కించడానికి మేము సంభావ్యతను ఉపయోగిస్తాము , వస్తువు తరగతికి చెందినది అయితే , అప్పుడు మేము సంభావ్యతలోకి ప్రత్యామ్నాయం చేస్తాము . సంభావ్యత ఫంక్షన్ ఇలా కనిపిస్తుంది:
ఇది ఎలా పనిచేస్తుందో మన వేళ్లపై వివరిస్తాము. 4 కేసులను పరిశీలిద్దాం:
1. ఉంటే и , అప్పుడు నమూనా సంభావ్యత "వెళ్ళిపోతుంది"
2. ఉంటే и , అప్పుడు నమూనా సంభావ్యత "వెళ్ళిపోతుంది"
3. ఉంటే и , అప్పుడు నమూనా సంభావ్యత "వెళ్ళిపోతుంది"
4. ఉంటే и , అప్పుడు నమూనా సంభావ్యత "వెళ్ళిపోతుంది"
1 మరియు 3 సందర్భాలలో, అల్గోరిథం ద్వారా సంభావ్యత సరిగ్గా నిర్ణయించబడినప్పుడు, స్పష్టంగా ఉంటుంది. సంభావ్యత ఫంక్షన్ గరిష్టీకరించబడుతుంది, అంటే, మేము పొందాలనుకున్నది ఇదే. అయితే, ఈ విధానం చాలా గజిబిజిగా ఉంది మరియు తదుపరి మేము మరింత కాంపాక్ట్ సంజ్ఞామానాన్ని పరిశీలిస్తాము. అయితే మొదట, సంకేత మార్పుతో సంభావ్యత ఫంక్షన్ని లాగరిథమ్ చేద్దాం, ఇప్పుడు మనం దానిని కనిష్టీకరించాలి.
బదులుగా ప్రత్యామ్నాయం చేద్దాం వ్యక్తీకరణ :
సరళమైన అంకగణిత పద్ధతులను ఉపయోగించి సంవర్గమానం క్రింద సరైన పదాన్ని సరళీకృతం చేద్దాం మరియు పొందండి:
ఇప్పుడు ఆపరేటర్ను వదిలించుకోవడానికి సమయం ఆసన్నమైంది "అయితే... అప్పుడు...". ఒక వస్తువు ఉన్నప్పుడు గమనించండి తరగతికి చెందినది , ఆపై సంవర్గమానం కింద వ్యక్తీకరణలో, హారంలో, అధికారానికి ఎదిగింది , వస్తువు తరగతికి చెందినది అయితే , అప్పుడు $e$ శక్తికి పెంచబడుతుంది . కాబట్టి, రెండు సందర్భాలను ఒకటిగా కలపడం ద్వారా డిగ్రీకి సంబంధించిన సంజ్ఞామానాన్ని సరళీకరించవచ్చు: ... అప్పుడు లాజిస్టిక్ లోపం ఫంక్షన్ రూపం తీసుకుంటుంది:
లాగరిథమ్ నియమాలకు అనుగుణంగా, మేము భిన్నాన్ని తిప్పి, గుర్తును ఉంచాము "" (మైనస్) లాగరిథమ్ కోసం, మనకు లభిస్తుంది:
ఇక్కడ నష్టం ఫంక్షన్ ఉంది లాజిస్టిక్ నష్టం, ఇది తరగతులకు కేటాయించిన వస్తువులతో శిక్షణా సెట్లో ఉపయోగించబడుతుంది: и .
సరే, ఈ సమయంలో నేను నా సెలవు తీసుకుంటాను మరియు మేము కథనాన్ని ముగించాము.
సహాయక పదార్థాలు
1. సాహిత్యం
1) అప్లైడ్ రిగ్రెషన్ అనాలిసిస్ / N. డ్రేపర్, G. స్మిత్ - 2వ ఎడిషన్. – M.: ఫైనాన్స్ అండ్ స్టాటిస్టిక్స్, 1986 (ఇంగ్లీష్ నుండి అనువాదం)
2) సంభావ్యత సిద్ధాంతం మరియు గణిత గణాంకాలు / V.E. గ్ముర్మాన్ - 9వ ఎడిషన్. - M.: హయ్యర్ స్కూల్, 2003
3) సంభావ్యత సిద్ధాంతం / N.I. చెర్నోవా - నోవోసిబిర్స్క్: నోవోసిబిర్స్క్ స్టేట్ యూనివర్శిటీ, 2007
4) బిజినెస్ అనలిటిక్స్: డేటా నుండి నాలెడ్జ్ వరకు / పాక్లిన్ N. B., Oreshkov V. I. - 2nd ed. - సెయింట్ పీటర్స్బర్గ్: పీటర్, 2013
5) డేటా సైన్స్ మొదటి నుండి డేటా సైన్స్ / జోయెల్ గ్రాస్ - సెయింట్ పీటర్స్బర్గ్: BHV పీటర్స్బర్గ్, 2017
6) డేటా సైన్స్ నిపుణుల కోసం ప్రాక్టికల్ స్టాటిస్టిక్స్ / P. బ్రూస్, E. బ్రూస్ - సెయింట్ పీటర్స్బర్గ్: BHV పీటర్స్బర్గ్, 2018
2. ఉపన్యాసాలు, కోర్సులు (వీడియో)
1)
2)
3)
4)
5)
3. ఇంటర్నెట్ మూలాలు
1)
2)
4)