San Airteagal seo, déanfaimid anailís ar ríomhanna teoiriciúla an chlaochlaithe feidhmeanna aischéimnithí líneach в feidhm claochlaithe lóistíochta inbhéartach (ar a dtugtar feidhm freagartha loighisticice ar shlí eile). Ansin, ag baint úsáide as an Arsenal modh dóchúlacht uasta, i gcomhréir leis an múnla aischéimnithí loighisticiúla ag baint léi, díorthaíonn muid an fheidhm chaillteanais Caillteanas Loighistic, или другими словами, мы определим функцию, с помощью которой в модели логистической регрессии подбираются параметры вектора весов .
Imlíne alt:
- Lig dúinn an gaol líneach idir dhá athróg a athrá
- Aithnímid an gá atá le claochlú feidhmeanna aischéimnithí líneach в feidhm freagartha loighistice
- Déanaimis na claochluithe agus an t-aschur feidhm freagartha loighistice
- Déanaimis iarracht a thuiscint cén fáth go bhfuil an modh cearnóga is lú dona nuair a bhíonn paraiméadair á roghnú agat feidhmeanna Caillteanas Loighistic
- úsáidimid modh dóchúlacht uasta chun cinneadh a dhéanamh feidhmeanna roghnúcháin paraiméadar :
5.1. Cás 1: feidhm Caillteanas Loighistic le haghaidh rudaí le hainmniúcháin ranga 0 и 1:
5.2. Cás 2: feidhm Caillteanas Loighistic le haghaidh rudaí le hainmniúcháin ranga -1 и +1:
Tá an t-alt lán le samplaí simplí ina bhfuil sé éasca gach ríomh a dhéanamh ó bhéal nó ar pháipéar; d’fhéadfadh go mbeadh áireamhán ag teastáil i gcásanna áirithe. Mar sin déan réidh :)
Tá an t-alt seo dírithe go príomha ar eolaithe sonraí a bhfuil leibhéal tosaigh eolais acu ar bhunchlocha na meaisínfhoghlama.
Soláthróidh an t-alt cód freisin chun graif agus ríomhaireachtaí a tharraingt. Tá gach cód scríofa sa teanga python-2.7. Lig dom a mhíniú roimh ré faoin “nua” den leagan a úsáidtear - seo ceann de na coinníollacha chun an cúrsa aitheanta a ghlacadh ó Yandex ar ardán oideachais ar líne chomh-aitheanta Coursera, agus, mar a d’fhéadfaí a cheapadh, ullmhaíodh an t-ábhar bunaithe ar an gcúrsa seo.
01. Spleáchas ar líne dhíreach
Tá sé réasúnta go leor an cheist a chur - cad a bhaineann le spleáchas líneach agus cúlchéimniú lóistíochta leis?
Tá sé simplí! Tá aischéimniú lóistíochta ar cheann de na samhlacha a bhaineann leis an aicmitheoir líneach. I bhfocail shimplí, is é tasc aicmitheora líneach spriocluachanna a thuar ó athróga (aischéimneoirí) . Creidtear go bhfuil an spleáchas idir na saintréithe agus spriocluachanna líneach. Mar sin ainm an aicmitheora - líneach. Chun é a chur go han-gharbh, tá an tsamhail aischéimniúcháin lóistíochta bunaithe ar an toimhde go bhfuil gaol líneach idir na tréithe agus spriocluachanna . Is é seo an nasc.
Tá an chéad sampla sa stiúideo, agus baineann sé, i gceart, le spleáchas dronlíneach na gcainníochtaí atá á staidéar. Agus an t-alt á ullmhú, tháinig mé trasna ar shampla a chuir go leor daoine ar an imeall cheana féin - spleáchas an tsrutha ar voltas (“Anailís aischéimniúcháin fheidhmeach”, N. Draper, G. Smith). Breathnóimid air anseo freisin.
De réir dlí Ohm:
I gcás ina - neart reatha, - voltas, - friotaíocht.
Más rud é nach raibh a fhios againn dlí Ohm, ansin d'fhéadfadh muid a fháil ar an spleáchas empirically trí athrú agus tomhas , agus iad ag tacú seasta. Ansin, ba mhaith linn a fheiceáil go bhfuil an graf spleáchas ó a thugann líne dhíreach níos mó nó níos lú tríd an mbunús. Deirimid “níos mó nó níos lú” mar, cé go bhfuil an gaol i ndáiríre cruinn, is féidir go mbeidh earráidí beaga inár dtomhais, agus mar sin seans nach dtitfidh na pointí ar an ngraf go díreach ar an líne, ach go scaipfear timpeall air go randamach.
Graf 1 “Cleithiúnas” ó »
Cóid líníocht chairt
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. An gá atá leis an gcothromóid aischéimnithí líneach a athrú
Breathnaímid ar shampla eile. Samhlóimid go n-oibrímid i mbanc agus is é an tasc atá againn ná an dóchúlacht go n-aisíocfaidh an t-iasachtaí an iasacht a chinneadh ag brath ar fhachtóirí áirithe. Chun an tasc a shimpliú, ní dhéanfaimid ach dhá fhachtóir a mheas: tuarastal míosúil an iasachtaí agus méid aisíocaíochta míosúil na hiasachta.
Tá an tasc an-choinníollach, ach leis an sampla seo is féidir linn a thuiscint cén fáth nach leor é a úsáid feidhmeanna aischéimnithí líneach, agus freisin a fháil amach cad iad na claochluithe is gá a dhéanamh leis an bhfeidhm.
Fillfimid ar an sampla. Tuigtear dá airde an tuarastal, is amhlaidh is mó a bheidh an t-iasachtaí in ann a leithdháileadh go míosúil chun an iasacht a aisíoc. Ag an am céanna, le haghaidh raon tuarastail áirithe beidh an caidreamh seo sách líneach. Mar shampla, déanaimis raon tuarastail a ghlacadh ó 60.000 RUR go 200.000 RUR agus glacadh leis go bhfuil an spleáchas ar mhéid na híocaíochta míosúla ar mhéid an tuarastail líneach sa raon tuarastail sonraithe. Ligean le rá gur tugadh le fios don raon sonraithe pá nach féidir leis an gcóimheas tuarastail-le-íocaíocht titim faoi bhun 3 agus go gcaithfidh an t-iasachtaí fós 5.000 RUR a bheith i gcúlchiste. Agus ach amháin sa chás seo, glacfaimid leis go n-aisíocfaidh an t-iasachtaí an iasacht leis an mbanc. Ansin, beidh an chothromóid aischéimniúcháin líneach san fhoirm:
i gcás , , , - tuarastal -ú iasachtaí, - íocaíocht iasachta -ú iasachtaí.
Tuarastal agus íocaíocht iasachta a chur in ionad paraiméadair sheasta sa chothromóid Féadfaidh tú cinneadh a dhéanamh ar iasacht a eisiúint nó a dhiúltú.
Ag breathnú amach romhainn, tugaimid faoi deara, leis na paraiméadair a thugtar feidhm aischéimnithí líneach, a úsáidtear i feidhmeanna freagartha loighistice tabharfaidh sé luachanna móra ar aird a dhéanfaidh ríomhaireachtaí casta chun na dóchúlachtaí maidir le haisíocaíocht iasachta a chinneadh. Mar sin, tá sé beartaithe ár gcomhéifeachtaí a laghdú, abair, faoi 25.000 uair. Ní athróidh an claochlú seo ar na comhéifeachtaí an cinneadh chun iasacht a eisiúint. Déanaimis cuimhneamh ar an bpointe seo don todhchaí, ach anois, chun é a dhéanamh níos soiléire fós cad faoi a bhfuilimid ag caint, déanaimis machnamh ar an scéal le triúr iasachtaithe ionchasacha.
Tábla 1 “Iasachtaithe ionchasacha”
Cóid chun an tábla a chruthú
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
De réir na sonraí sa tábla, tá Vasya, le tuarastal 120.000 RUR, ag iarraidh iasacht a fháil ionas gur féidir leis a aisíoc go míosúil ag 3.000 RUR. Chinneamar, chun an iasacht a cheadú, go gcaithfidh tuarastal Vasya a bheith níos mó ná trí oiread na híocaíochta, agus ní mór go mbeadh 5.000 RUR fágtha fós. Sásaíonn Vasya an riachtanas seo: . Fiú 106.000 RUR fós. In ainneoin gur nuair a ríomh tá na corrlaigh laghdaithe againn 25.000 uair, bhí an toradh mar an gcéanna - is féidir an iasacht a cheadú. Gheobhaidh Fedya iasacht freisin, ach beidh ar Lesha, in ainneoin go bhfaighidh sé an chuid is mó, srian a chur ar a goil.
Tarraingímid graf don chás seo.
Cairt 2 “Aicmiú na n-iasachtaithe”
Cóid chun an graf a tharraingt
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Mar sin, ár líne dhíreach, tógtha i gcomhréir leis an bhfeidhm , scarann iasachtaithe “olc” ó iasachtaí “maith”. Tá na hiasachtaithe sin nach bhfuil a gcuid mianta ag teacht lena gcumas os cionn na líne (Lesha), agus iad siúd atá, de réir pharaiméadair ár múnla, in ann an iasacht a aisíoc faoi bhun na líne (Vasya agus Fedya). I bhfocail eile, is féidir linn é seo a rá: roinntear ár líne dhíreach iasachtaithe ina dhá rang. Léirímid iad mar seo a leanas: don rang Déanfaimid rangú ar na hiasachtaithe sin is dóichí go n-aisíocfaidh siad an iasacht mar nó Cuirfimid na hiasachtaithe sin san áireamh ar dócha nach mbeidh siad in ann an iasacht a aisíoc.
Lig dúinn achoimre a dhéanamh ar na conclúidí ón sampla simplí seo. Glacaimis pointe agus, ag cur comhordanáidí an phointe isteach sa chothromóid chomhfhreagrach den líne , smaoinigh ar thrí rogha:
- Má tá an pointe faoin líne agus sannaimid don rang é , ansin luach na feidhme beidh dearfach ó до . Ciallaíonn sé seo gur féidir linn glacadh leis go bhfuil an dóchúlacht go n-aisíocfar an iasacht laistigh . Dá mhéad luach na feidhme, is airde an dóchúlacht.
- Má tá pointe os cionn líne agus sannaimid don rang é nó , ansin beidh luach na feidhme diúltach ó до . Ansin glacfaimid leis go bhfuil an dóchúlacht go n-aisíocfar fiach laistigh de agus, dá mhéad luach absalóideach na feidhme, is airde ár muinín.
- Tá an pointe ar líne dhíreach, ar an teorainn idir dhá rang. Sa chás seo, luach na feidhme beidh comhionann agus is ionann an dóchúlacht go n-aisíocfar an iasacht .
Anois, déanaimis a shamhlú nach bhfuil dhá fhachtóir againn, ach an iliomad, agus ní trí cinn, ach na mílte iasachtaithe. Ansin in ionad líne dhíreach beidh orainn m-tríthoiseach eitleán agus comhéifeachtaí ní bhainfear amach as an aer sinn, ach díorthaithe muid de réir na rialacha go léir, agus ar bhonn sonraí carntha ar iasachtaithe a bhfuil nó nár aisíoc an iasacht. Agus go deimhin, tabhair faoi deara go bhfuil muid anois ag roghnú iasachtaithe ag baint úsáide as comhéifeachtaí atá ar eolas cheana féin . Go deimhin, is é tasc an mhúnla aischéimnithí loighisticice go beacht na paraiméadair a chinneadh , ag a luach an fheidhm caillteanais Caillteanas Loighistic beidh claonadh go dtí an t-íosmhéid. Ach faoi conas a ríomhtar an veicteoir , gheobhaidh muid tuilleadh eolais sa 5ú cuid den alt. Idir an dá linn, filleann muid ar an talamh geallta - chuig ár baincéir agus a thriúr cliant.
A bhuíochas leis an bhfeidhm tá a fhios againn cé is féidir iasacht a thabhairt agus cé a gcaithfear é a dhiúltú. Ach ní féidir leat dul chuig an stiúrthóir le faisnéis den sórt sin, toisc go raibh siad ag iarraidh a fháil uainn an dóchúlacht go n-aisíocfadh gach iasachtaí an iasacht. Cad atá le déanamh? Is é an freagra simplí - ní mór dúinn a athrú ar bhealach ar an fheidhm , a bhfuil a luachanna suite sa raon chuig feidhm a mbeidh a luachanna suite sa raon . Agus feidhm den sórt sin ann, tá sé ar a dtugtar feidhm freagartha lóistíochta nó claochlú inbhéartach-logit. Buail le:
A ligean ar a fheiceáil céim ar chéim conas a oibríonn sé feidhm freagartha loighistice. Tabhair faoi deara go siúilfimid sa treo eile, i.e. glacfaimid leis go bhfuil luach na dóchúlachta ar eolas againn, atá sa raon ó до agus ansin déanfaimid an luach seo a “scaoileadh” chuig an raon iomlán uimhreacha ó до .
03. Faighimid an fheidhm freagartha lóistíochta
Céim 1. Tiontaigh na luachanna dóchúlachta i raon
Le linn an claochlú ar an fheidhm в feidhm freagartha loighistice Fágfaimid ár n-anailísí creidmheasa ina n-aonar agus déanfaimid turas timpeall na ngeallghlacadóirí ina ionad sin. Ní hea, ar ndóigh, ní chuirfimid geallta, is é an rud ar fad a bhfuil suim againn ann ná brí na habairte, mar shampla, is é 4 go 1 an seans. teipeanna”. I dtéarmaí dóchúlachta, is ionann corrlaigh agus an dóchúlacht go dtarlóidh teagmhas roinnte ar an dóchúlacht nach dtarlóidh an teagmhas. Déanaimis an fhoirmle a scríobh síos don seans go dtarlóidh teagmhas :
I gcás ina - an dóchúlacht go dtarlóidh teagmhas, — dóchúlacht NACH dtarlóidh teagmhas
Mar shampla, más ionann an dóchúlacht go mbuailfidh capall óg, láidir agus spraíúil leis an leasainm “Veterok” seanbhean bhlasta darb ainm “Matilda” ag rás. , ansin beidh an seans go n-éireoidh le "Veterok". к agus vice versa, agus fios na n-odds, ní bheidh sé deacair dúinn an dóchúlacht a ríomh :
Mar sin, tá foghlamtha againn chun dóchúlacht a “aistriú” ina seansanna, a thógann luachanna ó до . Déanaimis céim amháin eile agus foghlaim conas an dóchúlacht a “aistriú” go dtí an uimhirlíne iomlán ó до .
Céim 2. Tiontaigh na luachanna dóchúlachta i raon
Tá an chéim seo an-simplí - déanaimis logarithm na gconarthaí a thógáil go dtí bonn uimhir Euler agus faighimid:
Anois tá a fhios againn go má , ansin ríomh an luach beidh sé an-simplí agus, ina theannta sin, ba cheart go mbeadh sé dearfach: . Tá sé seo fíor.
As fiosracht, déanaimis seiceáil cad a tharlaíonn má , ansin táimid ag súil le luach diúltach a fheiceáil . Déanaimid seiceáil: . Sin céart.
Anois tá a fhios againn conas an luach dóchúlachta a thiontú ó до feadh an uimhirlíne iomlán ó до . Sa chéad chéim eile déanfaimid a mhalairt.
Chun anois, tugaimid faoi deara go bhfuil i gcomhréir leis na rialacha logartamach, a fhios agam an luach na feidhme , is féidir leat na corrlaigh a ríomh:
Beidh an modh seo chun corrlaigh a chinneadh úsáideach dúinn sa chéad chéim eile.
Céim 3. A ligean ar dhíorthú foirmle a chinneadh
Mar sin d'fhoghlaim muid, a fhios agam , faigh luachanna feidhme . Mar sin féin, i ndáiríre, ní mór dúinn go díreach os coinne - a fhios agam an luach aimsigh . Chun seo a dhéanamh, déanaimis dul chuig coincheap mar fheidhm na gconarthaí inbhéartacha, mar a leanas:
San alt ní dhíorthaigh muid an fhoirmle thuas, ach déanfaimid é a sheiceáil ag baint úsáide as na huimhreacha ón sampla thuas. Tá a fhios againn go bhfuil corrlaigh 4 go 1 (), is é an dóchúlacht go dtarlóidh an teagmhas ná 0.8 (). Déanaimis ionadú: . Tagann sé seo lenár ríomhanna a rinneadh níos luaithe. A ligean ar bogadh ar aghaidh.
Sa chéim dheireanach rinneamar é sin a asbhaint , rud a chiallaíonn gur féidir leat ionadú a dhéanamh sa fheidhm odds inbhéartach. Faighimid:
Roinn an t-uimhreoir agus an t-ainmneoir ar , Ansin:
Ar eagla na heagla, lena chinntiú nach bhfuil botún déanta againn áit ar bith, déanaimis seiceáil beag amháin eile. I gcéim 2, táimid le haghaidh chinneadh go . Ansin, an luach a chur in ionad isteach sa fheidhm freagartha lóistíochta, táimid ag súil a fháil . Déanaimid ionadach agus faighimid:
Comhghairdeachas leat, a léitheoir, a stór, tá an fheidhm freagartha loighisticice díreach tar éis a dhíorthú agus a thástáil. Breathnaímid ar ghraf na feidhme.
Graf 3 “Feidhm freagartha loighisticice”
Cóid chun an graf a tharraingt
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Sa litríocht is féidir leat ainm na feidhme seo a fháil freisin mar сигмоид-функция. Léiríonn an graf go soiléir go dtarlaíonn an t-athrú is mó ar an dóchúlacht go mbaineann réad le haicme laistigh de raon réasúnta beag , áit éigin ó до .
Molaim duit filleadh ar ár n-anailísí creidmheasa agus cuidiú leis an dóchúlacht go n-aisíocfar iasacht a ríomh, ar shlí eile tá an baol ann go bhfágfar gan bónas :)
Tábla 2 “Iasachtaithe ionchasacha”
Cóid chun an tábla a chruthú
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
Mar sin, ní mór dúinn a chinneadh an dóchúlacht aisíoc iasachta. Go ginearálta, is cosúil go bhfuil sé seo fíor.
Go deimhin, tá an dóchúlacht go mbeidh Vasya, le tuarastal de 120.000 RUR, in ann 3.000 RUR a thabhairt don bhanc gach mí gar do 100%. Dála an scéil, ní mór dúinn a thuiscint gur féidir le banc iasacht a eisiúint chuig Lesha má fhorálann polasaí an bhainc, mar shampla, chun iasacht a thabhairt do chliaint a bhfuil dóchúlacht níos mó ná, abair, 0.3 ar iasacht acu. Níl ann ach sa chás seo go gcruthóidh an banc cúlchiste níos mó le haghaidh caillteanas féideartha.
Ba cheart a thabhairt faoi deara freisin gur tógadh an cóimheas tuarastail-le-íocaíocht de 3 ar a laghad agus le corrlach de 5.000 RUR ón uasteorainn. Mar sin, níorbh fhéidir linn veicteoir na meáchain a úsáid ina bhunfhoirm . Ní mór dúinn na comhéifeachtaí a laghdú go mór, agus sa chás seo roinneamar gach comhéifeacht faoi 25.000, is é sin, go bunúsach, choigeartaigh muid an toradh. Ach rinneadh é seo go sonrach chun tuiscint ar an ábhar a shimpliú ag an gcéim tosaigh. Sa saol, ní bheidh orainn comhéifeachtaí a chumadh agus a choigeartú, ach iad a aimsiú. Sna chéad ranna eile den alt díorthóimid na cothromóidí lena roghnaítear na paraiméadair .
04. Cearnóga ar a laghad modh chun veicteoir meáchain a chinneadh san fheidhm freagartha loighistice
Tá an modh seo ar eolas againn cheana féin chun veicteoir meáchain a roghnú Mar modh na cearnóige is lú (LSM) agus go deimhin, cén fáth nach n-úsáidfimid é i bhfadhbanna aicmithe dénártha? Go deimhin, ní chuireann aon rud cosc ort úsáid a bhaint as MNC, ní thugann ach an modh seo i bhfadhbanna aicmithe torthaí nach bhfuil chomh cruinn céanna Caillteanas Loighistic. Tá bunús teoiriciúil leis seo. Breathnaímid ar dtús ar shampla simplí amháin.
A ligean ar glacadh leis go bhfuil ár samhlacha (ag baint úsáide as MSE и Caillteanas Loighistic) tosaithe cheana féin ag roghnú veicteoir na meáchain agus stopamar an ríomh ag céim éigin. Is cuma cé acu sa lár, ag an deireadh nó ag an tús, is é an rud is mó ná go bhfuil luachanna áirithe de veicteora na meáchain againn cheana féin agus glacaimis leis, ag an gcéim seo, veicteoir na meáchain. níl aon difríochtaí ann don dá mhúnla. Ansin tóg na meáchain mar thoradh air agus cuir isteach iad feidhm freagartha loighistice () le haghaidh réad éigin a bhaineann leis an rang . Scrúdaímid dhá chás, de réir an veicteora roghnaithe meáchain, go bhfuil ár múnla an-dearfach agus vice versa - tá an tsamhail an-mhuiníneach go mbaineann an réad leis an rang. . Feicfimid cad iad na fíneálacha a eiseofar agus tú ag úsáid MNC и Caillteanas Loighistic.
Cód chun pionóis a ríomh ag brath ar an bhfeidhm chaillteanais a úsáidtear
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
Cás botún — sannann an tsamhail réad do rang le dóchúlacht 0,01
Pionós ar úsáid MNC Beidh:
Pionós ar úsáid Caillteanas Loighistic Beidh:
Cás láidir muiníne — sannann an tsamhail réad do rang le dóchúlacht 0,99
Pionós ar úsáid MNC Beidh:
Pionós ar úsáid Caillteanas Loighistic Beidh:
Léiríonn an sampla seo go maith an fheidhm chaillteanais i gcás ollearráide Caillteanas Log pionós a ghearradh ar an tsamhail i bhfad níos mó ná MSE. Tuigimid anois cad é an cúlra teoiriciúil maidir leis an bhfeidhm chaillteanais a úsáid Caillteanas Log i fadhbanna aicmithe.
05. Modh dóchúlachta uasta agus aischéimniú lóistíochta
Mar a gealladh ag an tús, tá an t-alt lán le samplaí simplí. Sa stiúideo tá sampla eile agus sean-aíonna - iasachtaithe bainc: Vasya, Fedya agus Lesha.
Ar eagla na heagla, roimh an sampla a fhorbairt, lig dom i gcuimhne duit go bhfuil muid ag déileáil le sampla oiliúna de na mílte nó na milliúin de rudaí le na mílte nó na céadta gnéithe sa saol. Mar sin féin, anseo tógtar na huimhreacha ionas gur féidir leo luí isteach go héasca ar cheann eolaí sonraí novice.
Fillfimid ar an sampla. Samhlóimid gur chinn stiúrthóir an bhainc iasacht a eisiúint do gach duine i ngátar, in ainneoin gur dúirt an t-algartam leis gan é a eisiúint chuig Lesha. Agus anois tá go leor ama caite agus tá a fhios againn cé acu de na trí laochra a d'aisíoc an iasacht agus cé acu nár aisíoc. Cad a bhíothas ag súil leis: d’aisíoc Vasya agus Fedya an iasacht, ach ní dhearna Lesha. Anois déanaimis a shamhlú gur sampla oiliúna nua a bheidh sa toradh seo dúinn agus, ag an am céanna, tá sé amhail is dá mbeadh na sonraí go léir ar na fachtóirí a mbíonn tionchar acu ar an dóchúlacht go n-aisíocfar an iasacht (tuarastal an iasachtaí, méid na híocaíochta míosúla) imithe. Ansin, go hintuigthe, is féidir linn glacadh leis nach n-aisíocann gach tríú iasachtaí an iasacht leis an mbanc, nó i bhfocail eile, an dóchúlacht go n-aisíocfaidh an chéad iasachtaí eile an iasacht. . Tá deimhniú teoiriciúil ag an toimhde iomasach seo agus tá sé bunaithe ar modh dóchúlacht uasta, go minic sa litríocht a thugtar air prionsabal na dóchúlachta uasta.
Gcéad dul síos, a ligean ar a fháil acquainted leis an gaireas coincheapúil.
Dóchúlacht samplála an dóchúlacht go bhfaighfear go beacht sampla den sórt sin, go bhfaighfí go díreach na breathnuithe/torthaí sin, i.e. toradh na dóchúlachta go bhfaighfí gach ceann de na torthaí samplacha (mar shampla, cibé acu an ndearnadh iasacht Vasya, Fedya agus Lesha a aisíoc nó nár aisíocadh ag an am céanna).
Feidhm dóchúlachta an dóchúlacht go dtarlóidh sampla le luachanna na bparaiméadar dáilte.
Inár gcás, is scéim ghinearálaithe Bernoulli é an sampla oiliúna, nach nglacann an athróg randamach ach dhá luach: nó . Mar sin, is féidir an dóchúlacht samplach a scríobh mar fheidhm chosúlachta an pharaiméadar ar an mbealach seo a leanas:
Is féidir an iontráil thuas a léirmhíniú mar seo a leanas. Is ionann an dóchúlacht chomhpháirteach go n-aisíocfaidh Vasya agus Fedya an iasacht , is ionann an dóchúlacht NACH n-aisíocfaidh Lesha an iasacht (ós rud é NACH í an aisíocaíocht iasachta a tharla), mar sin is ionann comhdhóchúlacht na dtrí imeacht .
Modh dóchúlacht uasta Is modh é chun paraiméadar anaithnid a mheas trí uasmhéadú feidhmeanna cosúlachta. Inár gcás, ní mór dúinn luach den sórt sin a fháil ag a bhfuil sroicheann a uasmhéid.
Cad as a dtagann an smaoineamh iarbhír - luach paraiméadar anaithnid a lorg ag a sroicheann an fheidhm chosúlachta uasmhéid? Eascraíonn bunús an smaoineamh ón smaoineamh gurb é sampla an t-aon fhoinse eolais atá ar fáil dúinn faoin daonra. Tá gach rud atá ar eolas againn faoin daonra léirithe sa sampla. Mar sin, níl le rá againn ach gurb é sampla an léiriú is cruinne ar an daonra atá ar fáil dúinn. Dá bhrí sin, ní mór dúinn paraiméadar a aimsiú ag a n-éireoidh an sampla atá ar fáil an ceann is dóichí.
Is léir go bhfuilimid ag déileáil le fadhb leas iomlán a bhaint as a gcaithfimid bunphointe feidhme a aimsiú. Chun an pointe extremum a fháil, is gá an coinníoll céad-ordú a mheas, is é sin, díorthach na feidhme a chomhionannú go nialas agus an chothromóid a réiteach maidir leis an bparaiméadar atá ag teastáil. Mar sin féin, is féidir tasc fada a bheith ag cuardach díorthach táirge ar líon mór fachtóirí; chun é seo a sheachaint, tá teicníc speisialta ann - aistriú chuig an logarithm. feidhmeanna cosúlachta. Cén fáth a bhfuil a leithéid de aistriú indéanta? Tabhair aird ar an bhfíric nach bhfuil muid ag lorg foirceann na feidhme féin, agus an pointe extremum, is é sin, luach an pharaiméadar anaithnid ag a bhfuil sroicheann a uasmhéid. Nuair a bhogtar go logarithm, ní athraíonn an pointe foircneach (cé go mbeidh an foirceann féin difriúil), ós rud é gur feidhm monotonach é an logartamach.
Déanaimis, i gcomhréir leis an méid thuas, leanúint ar aghaidh ag forbairt ár sampla le hiasachtaí ó Vasya, Fedya agus Lesha. An Chéad a ligean ar bogadh ar aghaidh go dtí logarithm na feidhme cosúlachta:
Anois is féidir linn an abairt a idirdhealú go héasca trí :
Agus ar deireadh, smaoinigh ar an gcoinníoll den chéad ordú - déanaimid díorthach na feidhme a chothromú go nialas:
Dá bhrí sin, ár meastachán iomasach ar an dóchúlacht aisíoc iasachta bhí údar teoiriciúil leis.
Go hiontach, ach cad ba cheart dúinn a dhéanamh leis an eolas seo anois? Má ghlacaimid leis nach dtugann gach tríú iasachtaí an t-airgead ar ais chuig an mbanc, is cinnte go rachaidh an dara ceann ina fhéimheach. Tá sé sin ceart, ach amháin nuair a dhéantar measúnú ar an dóchúlacht go n-aisíocfar iasacht cothrom le Níor chuireamar san áireamh na fachtóirí a mbíonn tionchar acu ar aisíoc iasachta: tuarastal an iasachtaí agus méid na híocaíochta míosúla. Lig dúinn cuimhneamh go bhfuil ríomh againn roimhe seo ar an dóchúlacht go n-aisíocfaidh gach cliant ar an iasacht, ag cur na fachtóirí céanna san áireamh. Tá sé loighciúil go bhfuaireamar dóchúlachtaí a bhí difriúil leis an gcomhionann tairiseach .
Sainmhínímid an dóchúlacht go mbeidh samplaí ann:
Cód chun dóchúlachtaí samplacha a ríomh
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
Dóchúlacht shamplach ag luach tairiseach :
Dóchúlacht shamplach agus an dóchúlacht go n-aisíocfar iasacht á ríomh ag cur fachtóirí san áireamh :
Tharla an dóchúlacht go mbeadh sampla le dóchúlacht arna ríomh ag brath ar na fachtóirí níos airde ná an dóchúlacht le luach dóchúlachta tairiseach. Cad a chiallaíonn sé seo? Tugann sé seo le tuiscint gur féidir le heolas ar na fachtóirí a bheith indéanta an dóchúlacht go n-aisíocfaí iasachtaí do gach cliant ar bhealach níos cruinne a roghnú. Mar sin, agus an chéad iasacht eile á heisiúint, bheadh sé níos ceart an tsamhail atá molta ag deireadh alt 3 den alt a úsáid chun an dóchúlacht go n-aisíocfar fiacha a mheasúnú.
Ach ansin, más mian linn a uasmhéadú feidhm dóchúlachta samplach, ansin cén fáth nach n-úsáideann tú roinnt algartam a tháirgeann dóchúlachtaí do Vasya, Fedya agus Lesha, mar shampla, comhionann le 0.99, 0.99 agus 0.01, faoi seach. B'fhéidir go bhfeidhmeoidh algartam den sórt sin go maith ar an sampla oiliúna, toisc go dtabharfaidh sé luach dóchúlachta an tsampla níos gaire dó , ach, ar an gcéad dul síos, is dóichí go mbeidh deacrachtaí ag algartam den sórt sin le cumas ginearálaithe, agus sa dara háit, is cinnte nach mbeidh an algartam seo líneach. Agus más léir nach bhfuil modhanna chun ró-oiliúint a chomhrac (cumas ginearálaithe chomh lag) san áireamh i bplean an ailt seo, ansin déanaimis dul tríd an dara pointe go mion. Chun seo a dhéanamh, freagair ceist shimplí. An bhféadfadh an dóchúlacht go n-aisíocfadh Vasya agus Fedya an iasacht a bheith mar a chéile, agus na fachtóirí is eol dúinn á gcur san áireamh? Ó thaobh na loighce fuaime de, ar ndóigh ní féidir, ní féidir. Mar sin íocfaidh Vasya 2.5% dá thuarastal in aghaidh na míosa chun an iasacht a aisíoc, agus Fedya - beagnach 27,8%. Chomh maith leis sin i ngraf 2 “Aicmiú cliant” feicimid go bhfuil Vasya i bhfad níos faide ón líne a scarann na ranganna ná Fedya. Agus ar deireadh, tá a fhios againn go bhfuil an fheidhm do Vasya agus tógann Fedya luachanna éagsúla: 4.24 do Vasya agus 1.0 do Fedya. Anois, má thuill Fedya, mar shampla, ord méide níos mó nó má d'iarr sé iasacht níos lú, ansin bheadh na dóchúlachtaí go n-aisíocfaí an iasacht do Vasya agus Fedya cosúil leis. I bhfocail eile, ní féidir spleáchas líneach a chur amú. Agus má ríomh againn i ndáiríre an odds , agus nár thóg siad as an aer tanaí iad, d'fhéadfadh muid a rá go sábháilte go bhfuil ár luachanna is fearr ligean dúinn meastachán a dhéanamh ar an dóchúlacht go n-aisíocfaidh gach iasachtaí an iasacht, ach ós rud é gur aontaigh muid glacadh leis go gcinnfear na comhéifeachtaí Rinneadh é de réir na rialacha go léir, ansin glacfaimid leis - ligeann ár gcomhéifeachtaí dúinn meastachán níos fearr a thabhairt ar an dóchúlacht :)
Mar sin féin, táimid ag digress. Sa chuid seo ní mór dúinn a thuiscint conas a chinntear veicteoir meáchain , atá riachtanach chun measúnú a dhéanamh ar an dóchúlacht go n-aisíocfaidh gach iasachtaí an iasacht.
Lig dúinn achoimre achomair a dhéanamh leis an Arsenal a théann muid ag lorg odds :
1. Glacaimid leis go bhfuil an gaol idir an sprioc-athróg (luach réamh-mheastacháin) agus an fachtóir a mbíonn tionchar aige ar an toradh líneach. Ar an ábhar seo úsáidtear é feidhm aischéimnithí líneach den chineál , a roinneann an líne rudaí (cliaint) ina ranganna и nó (cliaint atá in ann an iasacht a aisíoc agus iad siúd nach bhfuil). In ár gcás, tá an fhoirm ag an gcothromóid .
2. Úsáidimid feidhm logit inbhéartach den chineál chun an dóchúlacht go mbaineann réad le haicme a chinneadh .
3. Breithnímid ár sraith oiliúna mar chur i bhfeidhm ginearálaithe Scéimeanna Bernoulli, is é sin, gintear athróg randamach i gcás gach oibiachta, rud a bhfuil dóchúlacht ann (a chuid féin do gach oibiacht) glacann sé an luach 1 agus leis an dóchúlacht - 0.
4. Tá a fhios againn cad is gá dúinn a uasmhéadú feidhm dóchúlachta samplach na fachtóirí a nglactar leo a chur san áireamh ionas go mbeidh an sampla atá ar fáil ar an gceann is sochreidte. I bhfocail eile, ní mór dúinn paraiméadair a roghnú ag a mbeidh an sampla is sochreidte. Is é ár gcás, is é an paraiméadar roghnaithe an dóchúlacht aisíoc iasachta , a bhraitheann ar a seal ar comhéifeachtaí anaithnid . Mar sin ní mór dúinn veicteoir meáchain den sórt sin a fháil , ag a mbeidh an dóchúlacht go mbeidh an sampla uasta.
5. Tá a fhios againn cad a uasmhéadú feidhmeanna dóchúlachta samplach is féidir é a úsáid modh dóchúlacht uasta. Agus tá a fhios againn go léir na cleasanna tricky a bheith ag obair leis an modh seo.
Seo mar a tharlaíonn sé gur bogadh ilchéime é :)
Anois cuimhnigh gur theastaigh uainn ag tús an ailt dhá chineál feidhmeanna caillteanais a dhíorthú Caillteanas Loighistic ag brath ar an gcaoi a n-ainmnítear aicmí oibiachta. Tharla sé mar sin go bhfuil na haicmí sainithe i bhfadhbanna aicmithe le dhá rang и nó . Ag brath ar an nodaireacht, beidh feidhm chaillteanais chomhfhreagrach ag an aschur.
Cás 1. Rudaí a aicmiú ina и
Níos luaithe, nuair a bhí an dóchúlacht go dtarlódh sampla á chinneadh, inar ríomhadh an dóchúlacht go n-aisíocfadh an t-iasachtaí fiacha bunaithe ar fhachtóirí agus comhéifeachtaí tugtha , chuireamar an fhoirmle i bhfeidhm:
Dáiríre is é an bhrí feidhmeanna freagartha loighistice le haghaidh veicteoir meáchain ar leith
Ansin ní chuireann aon rud cosc orainn an fheidhm dóchúlachta samplach a scríobh mar seo a leanas:
Tarlaíonn sé go mbíonn sé deacair uaireanta do roinnt anailísí novice a thuiscint láithreach conas a oibríonn an fheidhm seo. Breathnaímid ar 4 shampla ghearr a ghlanfaidh gach rud:
1. Más rud é (i.e., de réir an tsampla oiliúna, baineann an réad le haicme +1), agus lenár n-algartam a chinneann an dóchúlacht go ndéanfar réad a rangú d'aicme comhionann le 0.9, ansin déanfar dóchúlacht an phíosa samplach seo a ríomh mar seo a leanas:
2. Más rud é Agus , ansin beidh an ríomh mar seo:
3. Más rud é Agus , ansin beidh an ríomh mar seo:
4. Más rud é Agus , ansin beidh an ríomh mar seo:
Is léir go n-uasmhéadófar feidhm na dóchúlachta i gcásanna 1 agus 3 nó sa chás ginearálta - le luachanna a thuaradh i gceart ar na dóchúlachtaí a bhaineann le réad a shannadh d'aicme .
Mar gheall ar an bhfíric go bhfuil nuair a chinneadh an dóchúlacht rud a shannadh do rang Níl a fhios againn ach na comhéifeachtaí , ansin beidh muid ag lorg dóibh. Mar a luadh thuas, is fadhb leas iomlán a bhaint í seo ina gcaithfimid ar dtús díorthach na feidhme cosúlachta a fháil maidir le veicteoir meáchain. . Mar sin féin, ar dtús déanann sé ciall an tasc a shimpliú dúinn féin: féachfaimid le haghaidh díorthach an logartaim feidhmeanna cosúlachta.
Cén fáth tar éis logarithm, i feidhmeanna earráide loighisticice, d'athraigh muid an comhartha ó ar . Tá gach rud simplí, mar nuair a bhíonn fadhbanna le measúnú a dhéanamh ar cháilíocht mhúnla is gnách luach feidhme a íoslaghdú, d'iolraíomar an taobh deas den slonn faoi agus dá réir sin, in ionad a uasmhéadú, anois táimid ag íoslaghdú an fheidhm.
I ndáiríre, ceart anois, roimh do chuid súl, bhí an fheidhm caillteanais díorthaithe go cúramach - Caillteanas Loighistic le haghaidh sraith oiliúna le dhá rang: и .
Anois, chun na comhéifeachtaí a aimsiú, ní gá dúinn ach an díorthach a aimsiú feidhmeanna earráide loighisticice agus ansin, ag baint úsáide as modhanna uimhriúla barrfheabhsaithe, mar shliocht grádán nó shliocht grádáin stochastic, roghnaigh na comhéifeachtaí is fearr . Ach, i bhfianaise líon suntasach an ailt, tá sé beartaithe an t-idirdhealú a dhéanamh leat féin, nó b'fhéidir go mbeidh sé seo ina ábhar don chéad alt eile le go leor uimhríochta gan samplaí mionsonraithe den sórt sin.
Cás 2. Rudaí a aicmiú ina и
Beidh an cur chuige anseo mar an gcéanna leis na ranganna и , ach an cosán féin chun an t-aschur an fheidhm caillteanais Caillteanas Loighistic, beidh sé níos ornáideach. Ar aghaidh linn. Maidir leis an bhfeidhm chosúlachta úsáidfimid an t-oibreoir “má... ansin…”... Is é sin, más rud é Is leis an rang an ú réad , ansin chun dóchúlacht an tsampla a ríomh úsáidimid an dóchúlacht , más leis an rang an réad , ansin táimid in ionad isteach an dóchúlacht . Seo mar a bhreathnaíonn an fheidhm chosúlachta:
Lig dúinn cur síos ar ár méara conas a oibríonn sé. Déanaimis machnamh ar 4 chás:
1. Más rud é и , ansin beidh an dóchúlacht samplála "dul"
2. Más rud é и , ansin beidh an dóchúlacht samplála "dul"
3. Más rud é и , ansin beidh an dóchúlacht samplála "dul"
4. Más rud é и , ansin beidh an dóchúlacht samplála "dul"
Is léir, i gcásanna 1 agus 3, nuair a chinn an algartam na dóchúlachtaí i gceart, feidhm cosúlachta a uasmhéadú, is é sin, is é seo go díreach cad a theastaigh uainn a fháil. Mar sin féin, tá an cur chuige seo an-deacair agus ina dhiaidh sin déanfaimid machnamh ar nodaireacht níos dlúithe. Ach ar dtús, déanaimis logarithm an fheidhm dóchúlachta le hathrú comhartha, ós rud é anois déanfaimid é a íoslaghdú.
A ligean ar ionadach léiriú :
Déanaimis an téarma ceart a shimpliú faoin logarithm ag baint úsáide as teicnící uimhríochta simplí agus faigh:
Anois tá sé in am fáil réidh leis an oibreoir “má... ansin…”. Tabhair faoi deara nuair a réad bhaineann leis an rang , ansin sa slonn faoin logarithm, san ainmneoir, ardaithe chun na cumhachta , más leis an rang an réad , ansin ardaítear $e$ chuig an gcumhacht . Mar sin, is féidir nodaireacht na céime a shimpliú tríd an dá chás a chomhcheangal i gceann amháin: . Ansin feidhm earráide loighisticice beidh an fhoirm:
De réir rialacha logartamach, déanaimid an codán a iompú agus cuirimid amach an comhartha "" (lúide) don logartaim, faigheann muid:
Seo é an fheidhm caillteanais caillteanas loighistice, a úsáidtear sa tacar oiliúna le rudaí a shanntar do ranganna: и .
Bhuel, ag an bpointe seo glacaim mo shaoire agus cuirimid an t-alt i gcrích.
Ábhair chúnta
1. Litríocht
1) Anailís aischéimniúcháin Fheidhmeach / N. Draper, G. Smith - 2ú eag. – M.: Airgeadas agus Staidreamh, 1986 (aistriúchán ón mBéarla)
2) Teoiric dóchúlachta agus staitisticí matamaitice / V.E. Gmurman - 9ú heag. - M.: Ardscoil, 2003
3) Teoiric dóchúlachta / N.I. Chernova - Novosibirsk: Ollscoil Stáit Novosibirsk, 2007
4) Anailísíocht ghnó: ó shonraí go eolas / Paklin N. B., Oreshkov V. I. - 2ú eag. — St Petersburg: Peadar, 2013
5) Eolaíocht Sonraí Eolaíocht sonraí ón tús / Joel Gras - St. Petersburg: BHV Petersburg, 2017
6) Staitisticí praiticiúla do speisialtóirí Eolaíochta Sonraí / P. Bruce, E. Bruce - St Petersburg: BHV Petersburg, 2018
2. Léachtaí, cúrsaí (físeán)
1)
2)
3)
4)
5)
3. Foinsí Idirlín
1)
2)
3)
4)
5)
7)
Foinse: will.com