Sehloohong sena, re tla sekaseka lipalo tsa theoretical tsa phetoho mesebetsi ea linear regression в ts'ebetso ea phetoho e fapaneng (e seng e bitsoa "logistic response function)". Ka mor'a moo, sebelisa arsenal boholo ba monyetla oa mokhoa, ho ea ka mokhoa oa ho khutlisa thepa, re fumana mosebetsi oa tahlehelo Logistic Loss, kapa ka mantsoe a mang, re tla hlalosa ts'ebetso eo ka eona liparamente tsa vector ea boima li khethoang ka mokhoa oa ho khutlisa lintho. .
Kemiso ea sengoloa:
- A re phete kamano ea mela pakeng tsa mefuta e 'meli
- Ha re tsebeng tlhokeho ya phetoho mesebetsi ea linear regression в tshebetso ya karabelo ya thepa
- Ha re etseng liphetoho le tlhahiso tshebetso ya karabelo ya thepa
- Ha re leke ho utloisisa hore na hobaneng mokhoa oa li-square tse nyane o le mpe ha o khetha liparamente mesebetsi Logistic Loss
- Re sebelisa boholo ba monyetla oa mokhoa bakeng sa ho tseba mesebetsi ea khetho ea parameter :
5.1. Taba ea 1: mosebetsi Logistic Loss bakeng sa lintho tse nang le mabitso a sehlopha 0 и 1:
5.2. Taba ea 2: mosebetsi Logistic Loss bakeng sa lintho tse nang le mabitso a sehlopha -1 и +1:
Sengoloa se na le mehlala e bonolo eo ho eona ho leng bonolo ho etsa lipalo ka molomo kapa pampiring; maemong a mang, ho ka hlokahala sebali sa lipalo. Kahoo itokise :)
Sengoliloeng sena se reretsoe bo-rasaense ba data ba nang le boemo ba pele ba tsebo metheong ea ho ithuta ka mochini.
Sengoliloeng se tla boela se fane ka khoutu ea ho taka li-graph le lipalo. Khoutu eohle e ngotsoe ka puo python-2.7. E-re ke hlalose esale pele ka "bocha" ba mofuta o sebelisitsoeng - ona ke o mong oa maemo a ho nka thupelo e tsebahalang ho tsoa ho Yandex sethaleng sa thuto ea inthanete se tsebahalang ka ho lekana Coursera, ’me, joalokaha motho a ka ’na a nahana, boitsebiso bo ile ba lokisetsoa motheong oa thupelo ena.
01. Ho itšetleha ka mokhoa o otlolohileng
Hoa utloahala ho botsa potso - ho itšetleha ka mela le ho theoleha ha lintho ho amana joang le eona?
Ho bonolo! Logistic regression ke e 'ngoe ea mehlala eo e leng ea sehlopha sa linear. Ka mantsoe a bonolo, mosebetsi oa mohlophisi oa linear ke ho bolela esale pele boleng ba sepheo ho tloha ho mefuta e fapaneng (regressors) . Ho lumeloa hore ho itšetleha pakeng tsa litšobotsi le boleng ba sepheo linear. Kahoo lebitso la classifier - linear. Ho e beha ka mokhoa o hlakileng haholo, mohlala oa tlhophiso ea thepa o ipapisitse le maikutlo a hore ho na le kamano e haufi lipakeng tsa litšobotsi. le boleng ba sepheo . Ena ke khokahano.
Ho na le mohlala oa pele setsing sa studio, 'me ke, ka nepo, mabapi le ho itšetleha ka rectilinear ea bongata bo ithutoang. Ha ke ntse ke hlophisa sengoloa, ke ile ka kopana le mohlala o seng o behile batho ba bangata - ho its'etleha ha hona joale ho voltage. ("Tlhahlobo e sebelisitsoeng ea ho fokotseha", N. Draper, G. Smith). Re tla e sheba le mona.
Tumellanong le Molao oa Ohm:
kae - matla a hona joale, - Palo ea li-volts, - ho hanyetsa.
Haeba re ne re sa tsebe Molao oa Ohm, joale re ka fumana ho itšetleha ka matla ka ho fetoha le ho lekanya , ha a ntse a tšehetsa tsitsitseng. Joale re ne re tla bona hore kerafo ea ho itšetleha от e fana ka mola o otlolohileng ho feta kapa o monyane ho ya ka semelo. Re re "ho feta kapa ka tlase" hobane, le hoja kamano e hlile e nepahetse, litekanyo tsa rona li ka 'na tsa e-na le liphoso tse nyenyane, ka hona lintlha tse holim'a graph li ka' na tsa se ke tsa oela hantle moleng, empa li tla hasana ho pota-pota ka mokhoa o sa reroang.
Kerafo ea 1 "Ho itšetleha" от »
Khoutu ea ho taka chate
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. Tlhokahalo ea ho fetola equation ea linear regression
A re hlahlobeng mohlala o mong. Ha re nahane hore re sebetsa bankeng mme mosebetsi oa rona ke ho fumana monyetla oa hore motho ea alimang a khutlise sekoloto ho latela lintlha tse itseng. E le ho nolofatsa mosebetsi, re tla nahana ka lintlha tse peli feela: moputso oa khoeli le khoeli oa motho ea alimang le chelete ea khoeli ea khoeli ea ho lefa kalimo.
Mosebetsi o na le maemo a mangata, empa ka mohlala ona re ka utloisisa hore na ke hobane'ng ha ho sa lekana ho o sebelisa mesebetsi ea linear regression, hape u fumane hore na ke liphetoho life tse lokelang ho etsoa ka ts'ebetso.
A re khutleleng mohlaleng. Ho utloisisoa hore ha moputso o phahame, ke moo motho ea alimang a tla khona ho fana ka khoeli le khoeli ho lefa sekoloto. Ka nako e ts'oanang, bakeng sa mefuta e itseng ea moputso kamano ena e tla ba e tsitsitseng. Ka mohlala, a re nke tekanyo ea moputso ho tloha ho 60.000 RUR ho ea ho 200.000 RUR 'me re nke hore ka tekanyo e boletsoeng ea moputso, ho itšetlehile ka boholo ba tefo ea khoeli le khoeli ka boholo ba moputso ke moeli. A re re bakeng sa mefuta e fapaneng ea meputso ho ile ha senoloa hore tekanyo ea moputso ho ea ho tefo e ke ke ea oela ka tlase ho 3 mme ea alimang o ntse a e-na le 5.000 RUR sebakeng sa polokelo. 'Me feela tabeng ena, re tla nahana hore motho ea alimang o tla lefa sekoloto ho banka. Ebe, equation ea linear regression e tla nka sebopeho:
moo , , , - moputso - ea alimang, - tefo ea kalimo -th ea alimang.
Ho fetola moputso le tefo ea kalimo ka li-parameter tse tsitsitseng ho equation U ka etsa qeto ea ho fana ka chelete kapa ho hana kalimo.
Ha re sheba pele, re hlokomela hore, ka mekhahlelo e fanoeng tshebetso ya ho kgutlela morao mola, sebelisoa ka mesebetsi ea karabelo ea lintho e tla hlahisa litheko tse kholo tse tla thatafatsa lipalo ho fumana menyetla ea ho khutlisa kalimo. Ka hona, ho reretsoe ho fokotsa li-coefficients tsa rona, ha re re, ka makhetlo a 25.000. Phetoho ena ho li-coefficients e ke ke ea fetola qeto ea ho fana ka mokoloto. A re hopoleng ntlha ena bakeng sa nako e tlang, empa hona joale, ho hlakisa le ho feta seo re buang ka sona, a re nahaneng ka boemo le batho ba bararo ba ka alimang.
Letlapa la 1 "Baalimi ba ka bang teng"
Khoutu ea ho hlahisa tafole
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
Ho ea ka lintlha tse tafoleng, Vasya, ea nang le moputso oa 120.000 RUR, o batla ho fumana mokoloto e le hore a ka e lefa khoeli le khoeli ho 3.000 RUR. Re ile ra etsa qeto ea hore e le hore re amohele mokoloto, moputso oa Vasya o tlameha ho feta tekanyo ea tefo ea makhetlo a mararo, 'me ho ntse ho e-na le 5.000 RUR e setseng. Vasya e khotsofatsa tlhoko ena: . Esita le 106.000 RUR e ntse e le teng. Ho sa tsotellehe 'nete ea hore ha ho bala re fokotsa menyetla Ka makhetlo a 25.000, sephetho se ne se tšoana - mokoloto o ka amoheloa. Fedya le eena o tla fumana mokoloto, empa Lesha, ho sa tsotellehe hore o fumana chelete e ngata, o tla tlameha ho thibela takatso ea hae ea lijo.
Ha re takang kerafo bakeng sa nyeoe ena.
Chate 2 “Sehlopha sa ba alimang”
Khoutu ea ho taka kerafo
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Kahoo, mola oa rona o otlolohileng, o hahiloeng ho latela mosebetsi , e arola ba alimang “ba babe” ho ba “molemo”. Ba alimang bao litakatso tsa bona li sa lumellaneng le bokhoni ba bona ba ka holim'a moeli (Lesha), athe bao, ho ea ka litekanyetso tsa mohlala oa rona, ba khonang ho lefa sekoloto ba ka tlaase ho moeli (Vasya le Fedya). Ka mantsoe a mang, re ka bua sena: mohala oa rona o tobileng o arola ba alimang ka lihlopha tse peli. A re li hlaloseng ka tsela e latelang: ho sehlopha Re tla arola ba alimang bao ho ka etsahalang hore ba lefe kalimo e le kapa Re tla kenyelletsa ba alimang bao mohlomong ba ke keng ba khona ho lefa sekoloto.
A re akaretseng liqeto tse tsoang mohlaleng ona o bonolo. Ha re nke ntlha le, ho fetola lihokahanyo tsa ntlha ho equation e tsamaellanang ea mola , nahana ka likhetho tse tharo:
- Haeba ntlha e tlas'a mola 'me re e abela sehlopha , joale boleng ba mosebetsi e tla ba positive ho tloha ho . Sena se bolela hore re ka nka hore monyetla oa ho lefa sekoloto o teng . Ha boleng ba ts'ebetso bo le boholo, menyetla e phahame.
- Haeba ntlha e ka holimo ho mola 'me re e abela sehlopha kapa , joale boleng ba mosebetsi bo tla ba negative ho tloha ho . Joale re tla nka hore monyetla oa ho lefa sekoloto o ka hare 'me, ha boleng bo felletseng ba ts'ebetso bo boholo, bo phahamisa tšepo ea rona.
- Ntlha e moleng o otlolohileng, moeling o pakeng tsa lihlopha tse peli. Tabeng ena, boleng ba mosebetsi e tla lekana 'me monyetla oa ho lefa sekoloto o lekana le .
Joale, a re nahaneng hore ha re na lintlha tse peli, empa tse ngata, eseng tse tharo, empa likete tsa ba alimang. Joale sebakeng sa mola o otlolohileng re tla ba le m-dimensional sefofane le coefficients re ke ke ra tlosoa moeeng o mosesaane, empa re nkiloe ho ea ka melao eohle, 'me motheong oa boitsebiso bo bokelitsoeng ho ba alimang ba nang le kapa ba sa lefa sekoloto. Ebile, hlokomela hore joale re khetha ba alimang re sebelisa li-coefficients tse seng li ntse li tsejoa . Ha e le hantle, mosebetsi oa mokhoa oa ho khutlisetsa lintho ka mokhoa o nepahetseng ke ho tseba li-parameter , moo boleng ba mosebetsi oa tahlehelo Logistic Loss tla sekamela ho bonyane. Empa mabapi le hore na vector e baloa joang , re tla fumana ho eketsehileng karolong ea 5 ea sehlooho sena. Khabareng, re khutlela naheng e tšepisitsoeng - ho rabanka oa rona le bareki ba hae ba bararo.
Ke leboha mosebetsi rea tseba hore na ke mang ea ka alingoang le ea lokelang ho hanoa. Empa u ke ke ua ea ho motsamaisi ka boitsebiso bo joalo, hobane ba ne ba batla ho fumana ho rona monyetla oa ho lefa mokoloto ka motho e mong le e mong ea alimang. Se o lokelang ho se etsa? Karabo e bonolo - re hloka ho fetola ts'ebetso ka tsela e itseng , eo boleng ba eona bo leng maemong a fapaneng ho ts'ebetso eo boleng ba eona bo tlang ho ba har'a marang-rang . 'Me mosebetsi o joalo o teng, o bitsoa tshebetso ya karabelo kapa phetoho e fapaneng. Kopana:
Ha re bone mohato ka mohato hore na e sebetsa joang tshebetso ya karabelo ya thepa. Hlokomela hore re tla tsamaea ka tsela e fapaneng, i.e. re tla nka hore re tseba boleng ba kgoneho, e leng sebakeng sa ho tloha ho 'me joale re tla "nyolla" boleng bona ho palo eohle ea linomoro ho tloha ho .
03. Re fumana mosebetsi oa karabelo ea thepa
Mohato oa 1. Fetolela menyetla ea boleng ho ba mefuta
Nakong ea phetoho ea ts'ebetso в tshebetso ya karabelo ya thepa Re tla siea mohlahlobi oa rona oa mekoloto a le mong ebe re etela barekisi ba libuka. Che, ehlile, re ke ke ra beha libeche, sohle se re khahlang moo ke moelelo oa polelo, mohlala, monyetla ke 4 ho isa ho 1. Menyetla, e tsebahalang ho bohle ba bechang, ke karolelano ea "katleho" ho " ho hloleha”. Ka mantsoe a ka etsahalang, liphapang ke monyetla oa hore ketsahalo e etsahale e arotsoe ke monyetla oa hore ketsahalo e se ke ea etsahala. Ha re ngole mokhoa oa monyetla oa hore ketsahalo e etsahale :
kae - monyetla oa hore ketsahalo e etsahale, — monyetla oa hore ketsahalo HA e etsahale
Ka mohlala, haeba monyetla oa hore pere e nyenyane, e matla le e bapalang e bitsoang "Veterok" e tla otla mosali-moholo ea tsofetseng ea bitsoang "Matilda" peisong e lekana le , joale menyetla ea katleho bakeng sa "Veterok" e tla ba к 'me ka tsela e fapaneng, ho tseba menyetla, ho ke ke ha e-ba thata ho rona ho bala monyetla :
Kahoo, re ithutile ho "fetola" monyetla oa menyetla, e nkang boleng ho tsoa ho eona ho . Ha re nke mohato o mong hape 'me re ithute ho "fetola" monyetla oa mola oa linomoro kaofela ho tloha ho ho .
Mohato oa 2. Fetolela menyetla ea boleng ho ba mefuta
Mohato ona o bonolo haholo - ha re nkeng logarithm ea menyetla motheong oa nomoro ea Euler. mme re fumana:
Joale rea tseba hore haeba , ebe u bala boleng e tla ba bonolo haholo mme, ho feta moo, e lokela ho ba ntle: . Ke 'nete.
Ka lebaka la bohelehele, a re hlahlobeng hore na haeba , joale re lebeletse ho bona boleng bo bobe . Re hlahloba: . Ee ho joalo.
Hona joale re tseba ho fetola boleng ba monyetla ho tloha ho hammoho le mola kaofela oa linomoro ho tloha ho . Mothating o latelang re tla etsa se fapaneng.
Hona joale, re hlokomela hore ho ea ka melao ea logarithm, ho tseba bohlokoa ba mosebetsi , o ka bala menyetla:
Mokhoa ona oa ho khetholla liphapang o tla ba molemo ho rona mohatong o latelang.
Mohato oa 3. Ha re qaleng mokhoa oa ho tseba
Kahoo re ile ra ithuta, ho tseba , fumana litekanyetso tsa ts'ebetso . Leha ho le joalo, ha e le hantle, re hloka se fapaneng hantle - ho tseba boleng fumana . Ho etsa sena, a re reteleheleng mohopolong o kang oa inverse odds function, ho latela hore:
Sehloohong re ke ke ra fumana foromo e ka holimo, empa re tla e hlahloba re sebelisa linomoro tse tsoang mohlaleng o ka holimo. Rea tseba hore ka menyetla ea 4 ho isa ho 1 (), monyetla oa hore ketsahalo e etsahale ke 0.8 (). Ha re etseng sebaka: . Sena se lumellana le lipalo tsa rona tse entsoeng pejana. Ha re tsoeleng pele.
Mohatong oa ho qetela re fihletse seo , ho bolelang hore o ka etsa phapanyetso ho ts'ebetso e fapaneng. Re fumana:
Arola bobeli palo le denominator ka , Joale:
Ha ho ka etsahala, ho etsa bonnete ba hore ha rea etsa phoso kae kapa kae, re tla etsa cheke e nyane hape. Mohato oa 2, re bakeng sa ikemiselitse seo . Ebe, ho fetola boleng ts'ebetsong ea karabelo ea logistic, re lebelletse ho fumana . Re kenya sebaka ebe re fumana:
Kea u lebohela, 'mali ea ratehang, re sa tsoa qala le ho leka ts'ebetso ea karabelo ea lisebelisoa. Ha re shebeng kerafo ea tšebetso.
Kerafo ea 3 "Mosebetsi oa karabelo ea Logistic"
Khoutu ea ho taka kerafo
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Lingoliloeng u ka boela ua fumana lebitso la mosebetsi ona e le mosebetsi oa sigmoid. Kerafo e bontša ka ho hlaka hore phetoho e kholo monyetla oa ntho eo e leng ea sehlopha e etsahala ka har'a mefuta e batlang e le nyane. , kae-kae ho tloha ho .
Ke fana ka maikutlo a ho khutlela ho mohlahlobi oa rona oa mekoloto le ho mo thusa ho bala monyetla oa ho khutlisa kalimo, ho seng joalo o ipeha kotsing ea ho siuoa ntle le bonase :)
Letlapa la 2 "Baalimi ba ka bang teng"
Khoutu ea ho hlahisa tafole
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
Kahoo, re hlokometse monyetla oa ho khutlisa kalimo. Ka kakaretso, sena se bonahala e le 'nete.
Ka sebele, monyetla oa hore Vasya, ea nang le moputso oa 120.000 RUR, o tla khona ho fana ka 3.000 RUR ho banka khoeli le khoeli e haufi le 100%. Ka tsela, re tlameha ho utloisisa hore banka e ka fana ka mokoloto ho Lesha haeba pholisi ea banka e fana ka mohlala, bakeng sa ho alima bareki ba nang le monyetla oa ho lefa chelete e fetang, ho re, 0.3. Ke feela tabeng ena banka e tla theha polokelo e kholoanyane bakeng sa tahlehelo e ka khonehang.
Hape hoa lokela ho hlokomeloa hore karo-karolelano ea moputso ho tefo ea bonyane 3 le ka moeli oa 5.000 RUR e nkiloe ho tloha siling. Ka hona, re ne re ke ke ra sebelisa vector ea boima ka sebopeho sa eona sa pele . Re ne re hloka ho fokotsa li-coefficients haholo, 'me tabeng ena re arola coefficient e' ngoe le e 'ngoe ka 25.000, ke hore, ha e le hantle, re ile ra fetola sephetho. Empa sena se ile sa etsoa ka ho khetheha ho nolofatsa kutloisiso ea boitsebiso boemong ba pele. Bophelong, re ke ke ra hloka ho qapa le ho lokisa li-coefficients, empa re li fumane. Likarolong tse latelang tsa sengoloa re tla fumana li-equations tseo li-parameter li khethiloeng ka tsona .
04. Mokhoa o fokolang oa lisekoere oa ho khetholla vector ea boima tšebetsong ea karabelo ea lintho
Re se re tseba mokhoa ona oa ho khetha vector ea boima , joalo bonyane lisekoere mokhoa (LSM) 'me ha e le hantle, ke hobane'ng ha joale re sa e sebelise ka mathata a lihlopha tsa binary? Ka 'nete, ha ho letho le u thibelang ho sebelisa MNC, mokhoa ona feela ka mathata a lihlopha o fana ka liphello tse sa nepahaleng ho feta Logistic Loss. Ho na le motheo oa khopolo-taba bakeng sa sena. A re qaleng ka ho sheba mohlala o le mong o bonolo.
Ha re nke hore mehlala ea rona (ho sebelisa MSE и Logistic Loss) ba se ba qalile ho khetha vector of weights mme ra emisa ho bala ka mohato o itseng. Ho sa tsotellehe hore na bohareng, qetellong kapa qalong, ntho e ka sehloohong ke hore re se re ntse re e-na le litekanyetso tse itseng tsa vector ea boima 'me re nke hore mohato ona, vector of weights. bakeng sa mehlala ka bobeli ha ho na phapang. Ebe u nka litekanyo tse hlahisoang 'me u li nkele sebaka tshebetso ya karabelo ya thepa () bakeng sa ntho e itseng eo e leng ya sehlopha . Re hlahloba linyeoe tse peli ha, ho latela vector e khethiloeng ea litekanyo, mohlala oa rona o fositse haholo mme ka tsela e fapaneng - mohlala o kholisehile haholo hore ntho ke ea sehlopha. . Ha re boneng hore na ho tla ntšoa likotlo life ha u sebelisa MNC и Logistic Loss.
Khoutu ea ho bala likotlo ho latela ts'ebetso ea tahlehelo e sebelisitsoeng
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
Taba ea phoso - mohlala o abela sehlopha ntho e itseng ka monyetla oa 0,01
Kotlo ha e sebelisoa MNC e tla ba:
Kotlo ha e sebelisoa Logistic Loss e tla ba:
Nyeoe ea kholiseho e matla - mohlala o abela sehlopha ntho e itseng ka monyetla oa 0,99
Kotlo ha e sebelisoa MNC e tla ba:
Kotlo ha e sebelisoa Logistic Loss e tla ba:
Mohlala ona o bontša hantle hore ha ho ka ba le phoso e kholo ts'ebetso ea tahlehelo Tahlehelo ea Loko penalizes ea mohlala haholo ho feta MSE. Joale ha re utloisise hore na semelo sa theory ke eng mabapi le ho sebelisa ts'ebetso ea tahlehelo Tahlehelo ea Loko mathateng a lihlopha.
05. Mokhoa o phahameng oa monyetla le ho fokotseha ha thepa
Joalokaha ho tšepisitsoe qalong, sehlooho sena se tletse mehlala e bonolo. Ka studio ho na le mohlala o mong le baeti ba khale - ba alimang banka: Vasya, Fedya le Lesha.
Haeba ho ka etsahala, pele ke etsa mohlala, e re ke u hopotse hore bophelong re sebetsana le sampole ea koetliso ea likete kapa limilione tsa lintho tse nang le likarolo tse mashome kapa tse makholo. Leha ho le joalo, mona lipalo li nkiloe e le hore li ka kena habonolo hloohong ea rasaense oa data ea novice.
A re khutleleng mohlaleng. A re ke re nahane hore mookameli oa banka o ile a etsa qeto ea ho fana ka mokoloto ho bohle ba hlokang, ho sa tsotellehe taba ea hore algorithm e ile ea mo bolella hore a se ke a e fa Lesha. 'Me joale nako e lekaneng e se e fetile' me rea tseba hore na ke ofe ho bahale ba bararo ba ileng ba lefa sekoloto le ba sa kang ba lefa. Ho ne ho ka lebelloa eng: Vasya le Fedya ba ile ba lefa sekoloto seo, empa Lesha ha aa ka a etsa joalo. Joale a re nahaneng hore sephetho sena e tla ba mohlala o mocha oa koetliso bakeng sa rona 'me, ka nako e ts'oanang, ho tšoana le ha lintlha tsohle tse mabapi le lintlha tse susumetsang monyetla oa ho lefa sekoloto (moputso oa motho ea alimang, boholo ba tefo ea khoeli le khoeli) e nyametse. Joale, ka mokhoa o hlakileng, re ka nka hore moalimi e mong le e mong oa boraro ha a buse mokoloto bankeng, kapa ka mantsoe a mang, monyetla oa hore moalimi ea latelang a buse mokoloto. . Maikutlo ana a utloahalang a na le tiiso ea khopolo-taba 'me e thehiloe ho boholo ba monyetla oa mokhoa, hangata libukeng tseo e bitsoa boholo ba monyetla molao-motheo.
Taba ea pele, a re tloaelane le lisebelisoa tsa mohopolo.
Monyetla oa ho etsa sampole ke monyetla oa ho fumana sampole e joalo hantle, ho fumana litebello/liphetho tse joalo hantle, ke hore. sehlahisoa sa menyetla ea ho fumana e 'ngoe le e' ngoe ea liphetho tsa mohlala (mohlala, hore na mokoloto oa Vasya, Fedya le Lesha o ile oa lefshoa kapa o sa buseletsoa ka nako e le 'ngoe).
Ts'ebetso ea monyetla e amana le monyetla oa sampole ho boleng ba liparamente tsa kabo.
Tabeng ea rona, mohlala oa koetliso ke leano le akaretsang la Bernoulli, moo ho fetoha ho sa tloaelehang ho nkang litekanyetso tse peli feela: kapa . Ka hona, mohlala oa monyetla o ka ngoloa e le ts'ebetso ea monyetla oa paramente ka tsela e latelang:
Keno e ka holimo e ka hlalosoa ka tsela e latelang. Monyetla o kopanetsoeng oa hore Vasya le Fedya ba tla lefa mokoloto o lekana le , monyetla oa hore Lesha A SE KE A buseletsa kalimo e lekana le (kaha e ne e se puseletso ea kalimo e etsahetseng), ka hona, monyetla o kopaneng oa liketsahalo tsena tse tharo oa lekana. .
Mokhoa o moholo oa monyetla ke mokhoa oa ho hakanya paramethara e sa tsejoeng ka ho eketsa menyetla ea mesebetsi. Tabeng ea rona, re hloka ho fumana boleng bo joalo , moo e fihlella boholo ba yona.
Maikutlo a sebele a tsoa hokae - ho batla boleng ba parameter e sa tsejoeng moo monyetla oa ho sebetsa o fihla holimo? Tšimoloho ea khopolo e tsoa khopolong ea hore mohlala ke oona feela mohloli oa tsebo o fumanehang ho rona ka baahi. Ntho e 'ngoe le e 'ngoe eo re e tsebang ka palo ea baahi e emetsoe ka mohlala. Ka hona, sohle seo re ka se buang ke hore sampole ke pontšo e nepahetseng ka ho fetesisa ea palo ea batho e fumanehang ho rona. Ka hona, re hloka ho fumana parameter eo sampuli e fumanehang e bang teng ka ho fetisisa.
Ho hlakile hore re sebetsana le bothata ba ho ntlafatsa moo re hlokang ho fumana ntlha ea mantlha ea ts'ebetso. E le hore u fumane ntlha e feteletseng, ho hlokahala hore u nahane ka boemo ba pele, ke hore, ho lekanya motsoako oa mosebetsi ho zero le ho rarolla equation mabapi le parameter e lakatsehang. Leha ho le joalo, ho batla sehlahisoa sa sehlahisoa sa lintlha tse ngata e ka ba mosebetsi o molelele; ho qoba sena, ho na le mokhoa o ikhethileng - ho fetohela ho logarithm. menyetla ea mesebetsi. Ke hobane’ng ha phetoho e joalo e ka etsahala? A re ele hloko taba ea hore ha re batle ho fetelletsa tšebetso ka boeona, le ntlha e feteletseng, ke hore, boleng ba parameter e sa tsejoeng , moo e fihlella boholo ba yona. Ha u fallela ho logarithm, ntlha e feteletseng ha e fetohe (le hoja extremum ka boeona e tla fapana), kaha logarithm ke mosebetsi oa monotonic.
A re, ho latela se ka holimo, re tsoele pele ho ntshetsa pele mohlala oa rona ka likalimo tsa Vasya, Fedya le Lesha. Ha re tsoeleng pele ho logarithm ea ts'ebetso ea monyetla:
Hona joale re ka khetholla poleloana habonolo ka :
'Me qetellong, nahana ka boemo ba tatellano ea pele - re lekanya motsoako oa ts'ebetso ho zero:
Kahoo, khakanyo ea rona e hlakileng ea monyetla oa ho lefa kalimo e ile ea lokafatsoa ka khopolo.
E kholo, empa re lokela ho etsa eng ka tlhahisoleseling ee hona joale? Haeba re nka hore motho e mong le e mong oa boraro ea alimang ha a khutlisetse chelete bankeng, joale oa morao-rao o tla fela. Ho lokile, empa feela ha ho hlahlojoa monyetla oa ho khutlisa kalimo e lekanang le Ha rea ka ra ela hloko lintlha tse susumetsang puseletso ea mokoloto: moputso oa motho ea alimang le boholo ba tefo ea khoeli le khoeli. A re hopoleng hore nakong e fetileng re ile ra bala monyetla oa ho khutlisa kalimo ke moreki e mong le e mong, re ela hloko lintlha tsena. Hoa utloahala hore re fumane menyetla e fapaneng le e lekanang kamehla .
Ha re hlalose monyetla oa lisampole:
Khoutu ea ho bala menyetla ea mehlala
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
Mohlala oa monyetla oa boleng bo sa feleng :
Mohlala oa monyetla ha ho baloa monyetla oa ho khutlisa kalimo ho nahanoa ka lintlha :
Monyetla oa sampuli o nang le monyetla o baliloeng ho latela lintlha o hlahile o phahametse monyetla o nang le boleng bo sa fetoheng. See se bolelang? Sena se fana ka maikutlo a hore tsebo e mabapi le lintlha e entse hore ho khonehe ho khetha ka nepo monyetla oa ho khutlisa kalimo bakeng sa moreki e mong le e mong. Ka hona, ha ho fanoa ka kalimo e latelang, ho tla ba ho nepahetseng haholoanyane ho sebelisa mohlala o hlahisitsoeng qetellong ea karolo ea 3 ea sengoloa bakeng sa ho lekola monyetla oa ho lefa sekoloto.
Empa ka nako eo, haeba re batla ho maximize mohlala oa monyetla oa ts'ebetso, joale ke hobane'ng ha u sa sebelise algorithm e itseng e tla hlahisa menyetla ea Vasya, Fedya le Lesha, mohlala, e lekanang le 0.99, 0.99 le 0.01, ka ho latellana. Mohlomong algorithm e joalo e tla sebetsa hantle sampuling ea koetliso, kaha e tla tlisa boleng ba mohlala o haufi , empa, pele, algorithm e joalo e ka 'na ea e-ba le mathata ka bokhoni ba kakaretso,' me ea bobeli, algorithm ena e ke ke ea e-ba ea moeli. 'Me haeba mekhoa ea ho loantša ho feta tekano (bokhoni bo lekanang le bo fokolang ba kakaretso) ha e kenyelelitsoe ka ho hlaka morerong oa sehlooho sena, joale a re ke re tsamaee ka ntlha ea bobeli ka ho qaqileng haholoanyane. Ho etsa sena, feela araba potso e bonolo. Na monyetla oa hore Vasya le Fedya ba busetse mokoloto o ka tšoana, ho ela hloko lintlha tseo re li tsebang? Ho ea ka pono ea logic ea molumo, ha e le hantle, ha e khone. Kahoo Vasya o tla lefa 2.5% ea moputso oa hae ka khoeli ho lefa sekoloto, 'me Fedya - hoo e ka bang 27,8%. Hape ho graph 2 "Sehlopha sa bareki" re bona hore Vasya o hole haholo le moeli o arolang lihlopha ho feta Fedya. 'Me qetellong, rea tseba hore mosebetsi oo bakeng sa Vasya le Fedya ba nka litekanyetso tse fapaneng: 4.24 bakeng sa Vasya le 1.0 bakeng sa Fedya. Hona joale, haeba Fedya, ka mohlala, a fumane taelo ea boholo ho feta kapa a kōpa kalimo e nyenyane, joale menyetla ea ho lefa sekoloto sa Vasya le Fedya e ne e tla tšoana. Ka mantsoe a mang, ho itšetleha ka mokhoa o tloaelehileng ho ke ke ha thetsoa. 'Me haeba re hlile re balile menyetla , 'me ha lia ka tsa li ntša moeeng o mosesaane, re ne re ka bua ka mokhoa o sireletsehileng hore litekanyetso tsa rona Ho molemo ho re lumella ho hakanya monyetla oa ho khutlisa kalimo ke motho e mong le e mong ea alimang, empa kaha re lumellane ho nahana hore qeto ea li-coefficients. e entsoe ho latela melao eohle, joale re tla nahana joalo - li-coefficients tsa rona li re lumella ho fana ka tekanyo e ntle ea monyetla :)
Leha ho le joalo, re kheloha. Karolong ena re hloka ho utloisisa hore na vector ea boima e khethoa joang , e leng ho hlokahalang ho hlahloba monyetla oa ho lefa sekoloto ke motho e mong le e mong ea alimang.
Ha re ke re akaretsa ka bokhuts'oane hore na re batla lihlomo life tsa arsenal :
1. Re nka hore kamano pakeng tsa sepheo se fapaneng (boleng ba ho bolela esale pele) le ntlha e susumetsang sephetho ke linear. Ka lebaka lena, e sebelisoa tshebetso ya ho kgutlela morao mola mosa , mola o arolang lintho (bareki) ka lihlopha и kapa (bareki ba khonang ho lefa sekoloto le ba sa khoneng ho lefa). Tabeng ea rona, equation e na le sebopeho .
2. Re sebelisa ts'ebetso ea logit e fapaneng mosa ho fumana monyetla wa ntho eo e leng ya sehlopha .
3. Re nka koetliso ea rona e le ts'ebetsong ea kakaretso Merero ea Bernoulli, ke hore, bakeng sa ntho e 'ngoe le e' ngoe ho hlahisoa phetoho e sa reroang, eo ka monyetla (ea eona bakeng sa ntho e 'ngoe le e' ngoe) e nka boleng ba 1 'me ka monyetla - 0.
4. Re tseba seo re se hlokang ho eketsa mohlala oa monyetla oa ts'ebetso ho ela hloko lintlha tse amoheloang e le hore sampole e teng e be e utloahalang ka ho fetisisa. Ka mantsoe a mang, re hloka ho khetha liparamente moo sampole e tla utloahala haholo. Tabeng ea rona, parameter e khethiloeng ke monyetla oa ho lefa mokoloto , eo hape e itšetlehileng ka li-coefficients tse sa tsejoeng . Kahoo re hloka ho fumana vector e joalo ea boima , moo monyetla oa hore sampuli e be boholo.
5. Re tseba seo re lokelang ho se etsa maximize mohlala oa menyetla ea mesebetsi u ka e sebelisa boholo ba monyetla oa mokhoa. 'Me re tseba maqheka ohle a bolotsana a ho sebetsa ka mokhoa ona.
Ena ke tsela eo e fetohang mohato oa mehato e mengata :)
Joale hopola hore qalong ea sengoloa re ne re batla ho fumana mefuta e 'meli ea mesebetsi ea tahlehelo Logistic Loss ho itšetlehile ka hore na lihlopha tsa lintho li khethoa joang. Ho ile ha etsahala hore mathata a lihlopha tse nang le lihlopha tse peli, lihlopha li hlalosoa e le и kapa . Ho ipapisitsoe le notation, tlhahiso e tla ba le ts'ebetso ea tahlehelo e tsamaellanang.
Case 1. Classification of things in и
Pejana, ha ho etsoa qeto ea monyetla oa sampole, eo ho eona monyetla oa ho khutlisa sekoloto ke motho ea alimang o neng o baloa ho ipapisitsoe le lintlha le li-coefficients. , re sebelisitse foromo:
Ha e le hantle ke moelelo mesebetsi ea karabelo ea lintho bakeng sa vector e fanoeng ea boima
Joale ha ho letho le re thibelang ho ngola mohlala oa monyetla oa ho sebetsa ka tsela e latelang:
Hoa etsahala hore ka linako tse ling ho thata ho bahlahlobisisi ba bang ba li-novice ho utloisisa hang-hang hore na mosebetsi ona o sebetsa joang. Ha re shebeng mehlala e 4 e khuts'oane e tla hlakisa tsohle:
1. haeba (ke hore, ho latela mohlala oa koetliso, ntho ke ea sehlopha sa +1), le algorithm ea rona e etsa qeto ea monyetla oa ho arola ntho ka sehlopha e lekanang le 0.9, joale karolo ena ea mohlala oa monyetla o tla baloa ka tsela e latelang:
2. haeba le , joale lipalo li tla ba tjena:
3. haeba le , joale lipalo li tla ba tjena:
4. haeba le , joale lipalo li tla ba tjena:
Ho totobetse hore ts'ebetso ea menyetla e tla eketsoa maemong a 1 le a 3 kapa ka kakaretso - ka litekanyetso tse hakanyetsoang hantle tsa menyetla ea ho abela sehlopha ntho e itseng. .
Ka lebaka la 'nete ea hore ha ho khethoa monyetla oa ho fana ka ntho ho sehlopha Ha re tsebe li-coefficients feela , joale re tla ba batla. Joalokaha ho boletsoe ka holimo, ena ke bothata ba ho ntlafatsa moo pele re hlokang ho fumana motsoako oa ts'ebetso ea monyetla mabapi le vector of weights. . Leha ho le joalo, pele hoa utloahala ho nolofatsa mosebetsi bakeng sa rona: re tla batla motsoako oa logarithm. menyetla ea mesebetsi.
Hobaneng kamora logarithm, ho mesebetsi ea phoso ea lisebelisoa, re fetotse letšoao ho tloha mabapi le . Ntho e ngoe le e ngoe e bonolo, hobane mathateng a ho lekola boleng ba mohlala ke tloaelo ho fokotsa boleng ba ts'ebetso, re atisitse lehlakore le letona la polelo ka. 'me ho latela, ho e-na le ho eketsa, joale re fokotsa mosebetsi.
Ha e le hantle, hona joale, ka pel'a mahlo a hau, mosebetsi oa tahlehelo o ne o nkiloe ka mokhoa o bohloko - Logistic Loss bakeng sa koetliso e nang le lihlopha tse peli: и .
Hona joale, ho fumana li-coefficients, re hloka feela ho fumana derivative mesebetsi ea phoso ea lisebelisoa 'me joale, ka ho sebelisa mekhoa ea ho ntlafatsa lipalo, joalo ka ho theoha ha sekhahla kapa ho theoha ha stochastic gradient, khetha li-coefficients tse nepahetseng ka ho fetisisa. . Empa, ha ho nahanoa ka bongata bo bongata ba sengoloa, ho khothaletsoa ho etsa phapang u le mong, kapa mohlomong ena e tla ba sehlooho sa sengoloa se latelang se nang le lipalo tse ngata ntle le mehlala e hlakileng joalo.
Case 2. Classification of things in и
Mokhoa mona o tla tšoana le oa litlelase и , empa tsela ka boeona e lebisang tlhahiso ea mosebetsi oa tahlehelo Logistic Loss, e tla ba e majabajaba le ho feta. Ha re qaleng. Bakeng sa ts'ebetso ea monyetla re tla sebelisa opareitara "haeba ... ebe...". Ke hore, haeba Ntho ea th ke ea sehlopha , ebe ho bala monyetla oa sampuli eo re e sebelisang , haeba ntho e le ea sehlopha , ebe re kenya sebaka sa monyetla . Sena ke seo mosebetsi oa monyetla o shebahalang ka sona:
A re hlaloseng ka menoana ea rona hore na e sebetsa joang. Ha re nahaneng ka linyeoe tse 4:
1. haeba и , joale monyetla oa sampole o tla "tsamaea"
2. haeba и , joale monyetla oa sampole o tla "tsamaea"
3. haeba и , joale monyetla oa sampole o tla "tsamaea"
4. haeba и , joale monyetla oa sampole o tla "tsamaea"
Ho hlakile hore maemong a 1 le a 3, ha menyetla e ne e khethoa ka nepo ke algorithm, mosebetsi oa monyetla e tla holisoa, ke hore, sena ke sona seo re neng re batla ho se fumana. Leha ho le joalo, mokhoa ona o boima haholo 'me ka mor'a moo re tla nahana ka tlhaloso e kopanetsoeng haholoanyane. Empa pele, a re logarithm ts'ebetso ea monyetla ka phetoho ea lets'oao, kaha joale re tla e fokotsa.
Ha re nkeng sebaka polelo :
Ha re nolofatse lentsoe le nepahetseng tlasa logarithm re sebelisa mekhoa e bonolo ea lipalo mme re fumane:
Joale ke nako ea ho tlosa opareitara "haeba ... ebe...". Hlokomela hore ha ntho ke ea sehlopha , joale polelong e tlas’a logarithm, ho denominator, phahamisitsoe matleng , haeba ntho e le ea sehlopha , ebe $e$ e phahamisetsoa matleng . Ka hona, notation bakeng sa degree e ka nolofalloa ka ho kopanya linyeoe tsena ka bobeli ho e le 'ngoe: ... Joale tshebetso ya phoso ya dintho e tla nka foromo:
Ho ea ka melao ea logarithm, re fetola karoloana ebe re beha letšoao ""(Minus) bakeng sa logarithm, re fumana:
Mona ke ts'ebetso ea tahlehelo tahlehelo ea thepa, e sebelisoang thupelong e behiloeng ka lintho tse abetsoeng lihlopha: и .
Joale, hona joale kea tsamaea 'me re phethela sehlooho sena.
Lisebelisoa tse thusang
1. Lingoliloeng
1) Tlhahlobo ea ho fokotseha e sebelisitsoeng / N. Draper, G. Smith - 2nd ed. – M.: Finance and Statistics, 1986 (phetolelo ho tsoa ho Senyesemane)
2) Khopolo-taba ea monyetla le lipalo-palo tsa lipalo / V.E. Gmurman - 9th ed. - M.: Sekolo se Phahameng, 2003
3) Khopolo ea monyetla / N.I. Chernova - Novosibirsk: Univesithi ea Naha ea Novosibirsk, 2007
4) Litlhahlobo tsa khoebo: ho tloha ho data ho ea ho tsebo / Paklin N. B., Oreshkov V. I. - 2nd ed. - St. Petersburg: Peter, 2013
5) Data Science Data saense ho tloha qalong / Joel Gras - St. Petersburg: BHV Petersburg, 2017
6) Lipalopalo tse sebetsang bakeng sa litsebi tsa Data Science / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018
2. Lithuto, lithuto (video)
1)
2)
3)
4)
5)
3. Mehloli ea Inthanete
1)
2)
3)
4)
6)
7)
Source: www.habr.com