F'dan l-artikolu, aħna se nanalizzaw il-kalkoli teoretiċi tat-trasformazzjoni funzjonijiet ta' rigressjoni lineari в funzjoni ta 'trasformazzjoni logit inversa (imsejħa funzjoni ta' rispons loġistiku). Imbagħad, billi tuża l-armament metodu ta' probabbiltà massima, skond il-mudell ta 'rigressjoni loġistika, aħna niksbu l-funzjoni tat-telf Telf Loġistika, jew fi kliem ieħor, aħna se niddefinixxu funzjoni li biha jintgħażlu l-parametri tal-vettur tal-piż fil-mudell tar-rigressjoni loġistika .
Kontorn tal-Artikolu:
- Ejja nirrepetu r-relazzjoni lineari bejn żewġ varjabbli
- Ejja nidentifikaw il-ħtieġa għal trasformazzjoni funzjonijiet ta' rigressjoni lineari в funzjoni ta 'rispons loġistiku
- Ejja nwettqu t-trasformazzjonijiet u l-output funzjoni ta 'rispons loġistiku
- Ejja nippruvaw nifhmu għaliex il-metodu tal-inqas kwadri huwa ħażin meta tagħżel il-parametri funzjonijiet Telf Loġistika
- Aħna nużaw metodu ta' probabbiltà massima għad-determinazzjoni funzjonijiet tal-għażla tal-parametri :
5.1. Każ 1: funzjoni Telf Loġistika għal oġġetti b'denominazzjonijiet ta' klassi 0 и 1:
5.2. Każ 2: funzjoni Telf Loġistika għal oġġetti b'denominazzjonijiet ta' klassi -1 и +1:
L-artikolu huwa mimli eżempji sempliċi li fihom il-kalkoli kollha huma faċli biex isiru bil-fomm jew fuq il-karta; f'xi każijiet, jista 'jkun meħtieġ kalkolatur. Mela lesti :)
Dan l-artikolu huwa primarjament maħsub għal xjenzati tad-dejta b'livell inizjali ta 'għarfien fil-baŜi tat-tagħlim tal-magni.
L-artikolu se jipprovdi wkoll kodiċi għat-tpinġija ta 'grafiċi u kalkoli. Il-kodiċi kollu huwa miktub fil-lingwa Python 2.7. Ħa nispjega minn qabel dwar in-"novità" tal-verżjoni użata - din hija waħda mill-kundizzjonijiet biex tieħu l-kors magħruf minn Yandex fuq pjattaforma edukattiva onlajn daqstant magħrufa Coursera, u, kif wieħed jista’ jassumi, il-materjal kien ippreparat ibbażat fuq dan il-kors.
01. Dipendenza fuq linja dritta
Huwa pjuttost raġonevoli li tistaqsi l-mistoqsija - x'għandha x'taqsam magħha d-dipendenza lineari u r-rigressjoni loġistika?
Huwa sempliċi! Ir-rigressjoni loġistika hija waħda mill-mudelli li jappartjenu għall-klassifikatur lineari. Fi kliem sempliċi, il-kompitu ta 'klassifikatur lineari huwa li jbassar valuri fil-mira minn varjabbli (rigressuri) . Huwa maħsub li d-dipendenza bejn il-karatteristiċi u valuri fil-mira lineari. Għalhekk l-isem tal-klassifikatur - lineari. Fi kliem ieħor bejn wieħed u ieħor, il-mudell tar-rigressjoni loġistika huwa bbażat fuq is-suppożizzjoni li hemm relazzjoni lineari bejn il-karatteristiċi u valuri fil-mira . Din hija l-konnessjoni.
Hemm l-ewwel eżempju fl-istudjo, u huwa, b'mod korrett, dwar id-dipendenza rettilineari tal-kwantitajiet li qed jiġu studjati. Fil-proċess tat-tħejjija tal-artiklu, iltqajt ma' eżempju li diġà poġġa ħafna nies fit-tarf - id-dipendenza tal-kurrent fuq il-vultaġġ (“Analiżi ta’ rigressjoni applikata”, N. Draper, G. Smith). Aħna ser inħarsu lejha hawn ukoll.
Skont Il-liġi ta' Ohm:
fejn - is-saħħa tal-kurrent, - vultaġġ, - reżistenza.
Kieku ma konniex nafu Il-liġi ta' Ohm, allura nistgħu nsibu d-dipendenza empirikament billi nbiddlu u l-kejl , filwaqt li tappoġġja fiss. Imbagħad naraw li l-graff tad-dipendenza minn jagħti linja ftit jew wisq dritta mill-oriġini. Ngħidu "aktar jew inqas" għaliex, għalkemm ir-relazzjoni hija fil-fatt preċiża, il-kejl tagħna jista 'jkun fih żbalji żgħar, u għalhekk il-punti fuq il-graff jistgħu ma jaqgħux eżattament fuq il-linja, iżda se jkunu mxerrda madwarha b'mod każwali.
Grafika 1 “Dipendenza” minn »
Kodiċi tat-tpinġija taċ-ċart
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. Il-ħtieġa li tittrasforma l-ekwazzjoni ta' rigressjoni lineari
Ejja nħarsu lejn eżempju ieħor. Ejja nimmaġinaw li naħdmu f'bank u l-kompitu tagħna huwa li niddeterminaw il-probabbiltà li min jissellef iħallas lura s-self skont ċerti fatturi. Biex nissimplifikaw il-kompitu, se nikkunsidraw biss żewġ fatturi: is-salarju ta 'kull xahar ta' min jissellef u l-ammont ta 'ħlas lura ta' kull xahar tas-self.
Il-kompitu huwa kundizzjonali ħafna, iżda b'dan l-eżempju nistgħu nifhmu għaliex mhux biżżejjed li tuża funzjonijiet ta' rigressjoni lineari, u sib ukoll liema trasformazzjonijiet jeħtieġ li jitwettqu bil-funzjoni.
Ejja nerġgħu lura għall-eżempju. Huwa mifhum li iktar ma jkun għoli s-salarju, aktar min jissellef ikun jista’ jalloka kull xahar biex iħallas lura s-self. Fl-istess ħin, għal ċertu firxa ta 'salarju din ir-relazzjoni se tkun pjuttost lineari. Pereżempju, ejja nieħdu firxa ta 'salarju minn 60.000 RUR għal 200.000 RUR u nassumu li fil-firxa ta' salarju speċifikata, id-dipendenza tad-daqs tal-ħlas ta 'kull xahar fuq id-daqs tas-salarju hija lineari. Ejja ngħidu li għall-firxa speċifikata ta 'pagi ġie żvelat li l-proporzjon tas-salarju għall-ħlas ma jistax jaqa' taħt it-3 u min jissellef xorta jrid ikollu 5.000 RUR fir-riżerva. U f'dan il-każ biss, se nassumu li min jissellef se jħallas lura s-self lill-bank. Imbagħad, l-ekwazzjoni ta' rigressjoni lineari se tieħu l-forma:
fejn , , , - salarju -th min jissellef, - ħlas tas-self -th min jissellef.
Is-sostituzzjoni tas-salarju u l-ħlas tas-self b'parametri fissi fl-ekwazzjoni Tista' tiddeċiedi jekk toħroġx jew tirrifjutax self.
B'ħarsa 'l quddiem, ninnotaw li, bil-parametri mogħtija funzjoni ta' rigressjoni lineari, użat fi funzjonijiet ta' rispons loġistiku se jipproduċi valuri kbar li jikkumplikaw il-kalkoli biex jiddeterminaw il-probabbiltajiet ta 'ħlas lura tas-self. Għalhekk, huwa propost li nnaqqsu l-koeffiċjenti tagħna, ejja ngħidu, b'25.000 darba. Din it-trasformazzjoni fil-koeffiċjenti mhux se tbiddel id-deċiżjoni li jinħareġ self. Ejja niftakru dan il-punt għall-futur, iżda issa, biex nagħmilha aktar ċara dwar dak li qed nitkellmu, ejja nikkunsidraw is-sitwazzjoni bi tliet min jissellef potenzjali.
Tabella 1 “Min jissellef potenzjali”
Kodiċi għall-ġenerazzjoni tat-tabella
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
Skont id-dejta fit-tabella, Vasya, b'salarju ta '120.000 RUR, irid jirċievi self sabiex ikun jista' jħallas lura kull xahar bi 3.000 RUR. Aħna ddeterminajna li sabiex napprova s-self, is-salarju ta 'Vasya għandu jaqbeż tliet darbiet l-ammont tal-ħlas, u għad irid ikun fadal 5.000 RUR. Vasya tissodisfa dan ir-rekwiżit: . Anke 106.000 RUR fadal. Minkejja l-fatt li meta tikkalkula naqqsu l-odds 25.000 darba, ir-riżultat kien l-istess - is-self jista 'jiġi approvat. Fedya se jirċievi wkoll self, iżda Lesha, minkejja l-fatt li jirċievi l-aktar, ikollu jrażżan l-aptit.
Ejja nfasslu graff għal dan il-każ.
Grafika 2 “Klassifikazzjoni ta’ min jissellef”
Kodiċi għat-tfassil tal-graff
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Allura, il-linja dritta tagħna, mibnija skond il-funzjoni , jifred dawk li jissellfu "ħżiena" minn dawk "tajbin". Dawk li jissellfu li x-xewqat tagħhom ma jikkoinċidux mal-kapaċitajiet tagħhom huma 'l fuq mil-linja (Lesha), filwaqt li dawk li, skont il-parametri tal-mudell tagħna, huma kapaċi jħallsu lura s-self huma taħt il-linja (Vasya u Fedya). Fi kliem ieħor, nistgħu ngħidu dan: il-linja diretta tagħna taqsam lil min jissellef f'żewġ klassijiet. Ejja nindikawhom kif ġej: għall-klassi ejja nikklassifikaw lil dawk li jissellfu li huma l-aktar probabbli li jħallsu lura s-self bħala jew Se ninkludu lil dawk li jissellfu li x'aktarx mhux se jkunu jistgħu jħallsu lura s-self.
Ejja nġabru fil-qosor il-konklużjonijiet minn dan l-eżempju sempliċi. Ejja nieħdu punt u, tissostitwixxi l-koordinati tal-punt fl-ekwazzjoni korrispondenti tal-linja , ikkunsidra tliet għażliet:
- Jekk il-punt ikun taħt il-linja u aħna jassenjawh lill-klassi , allura l-valur tal-funzjoni se jkun pożittiv minn li . Dan ifisser li nistgħu nassumu li l-probabbiltà li tħallas lura s-self hija fi ħdan . Iktar ma jkun kbir il-valur tal-funzjoni, iktar tkun għolja l-probabbiltà.
- Jekk punt huwa 'l fuq minn linja u aħna jassenjawh lill-klassi jew , allura l-valur tal-funzjoni se jkun negattiv minn li . Imbagħad se nassumu li l-probabbiltà ta 'ħlas lura tad-dejn hija fi ħdan u, iktar ma jkun kbir il-valur assolut tal-funzjoni, iktar ikun għoli l-fiduċja tagħna.
- Il-punt huwa fuq linja dritta, fuq il-konfini bejn żewġ klassijiet. F'dan il-każ, il-valur tal-funzjoni se jkun ugwali u l-probabbiltà li jitħallas lura s-self hija ugwali għal .
Issa, ejja nimmaġinaw li m'għandniex żewġ fatturi, iżda għexieren, u mhux tlieta, iżda eluf ta 'min jissellef. Imbagħad minflok linja dritta jkollna m-dimensjonali pjan u koeffiċjenti aħna mhux se jittieħdu barra mill-arja, iżda derivati skond ir-regoli kollha, u fuq il-bażi ta 'dejta akkumulata dwar dawk li jissellfu li jkunu jew ma ħallsux lura s-self. U tabilħaqq, innota li issa qed nagħżlu lil min jissellef billi nużaw koeffiċjenti diġà magħrufa . Fil-fatt, il-kompitu tal-mudell ta 'rigressjoni loġistika huwa preċiżament li jiddetermina l-parametri , li fiha l-valur tal-funzjoni tat-telf Telf Loġistika se tendenza għall-minimu. Imma dwar kif jiġi kkalkulat il-vettur , se nsiru nafu aktar fil-5 taqsima tal-artiklu. Sadanittant, nirritornaw lejn l-art imwiegħda - lill-bankier tagħna u t-tliet klijenti tiegħu.
Grazzi għall-funzjoni nafu min jista’ jingħata self u min irid jiġi miċħud. Imma ma tistax tmur għand id-direttur b'tali informazzjoni, għax riedu jiksbu mingħandna l-probabbiltà li kull min jissellef iħallas lura s-self. X'tagħmel? It-tweġiba hija sempliċi - għandna bżonn b'xi mod tittrasforma l-funzjoni , li l-valuri tagħhom jinsabu fil-medda għal funzjoni li l-valuri tagħha jkunu fil-medda . U tali funzjoni teżisti, tissejjaħ funzjoni ta 'rispons loġistiku jew trasformazzjoni ta' logit invers. Iltaqa':
Ejja naraw pass pass kif taħdem funzjoni ta 'rispons loġistiku. Innota li se nimxu fid-direzzjoni opposta, i.e. aħna se nassumu li nafu l-valur tal-probabbiltà, li tinsab fil-medda minn li u allura aħna se "niżola" dan il-valur għall-firxa sħiħa ta 'numri minn li .
03. Aħna niksbu l-funzjoni ta 'rispons loġistiku
Pass 1. Ikkonverti l-valuri tal-probabbiltà f'firxa
Matul it-trasformazzjoni tal-funzjoni в funzjoni ta 'rispons loġistiku Aħna nħallu l-analista tal-kreditu tagħna waħdu u minflok nagħtu dawra mal-bookmakers. Le, ovvjament, mhux se npoġġu imħatri, dak kollu li jinteressana hemm it-tifsira tal-espressjoni, pereżempju, iċ-ċans huwa 4 għal 1. L-odds, familjari għall-imħatri kollha, huma l-proporzjon ta '"suċċessi" għal " fallimenti”. F'termini ta' probabbiltà, l-odds huma l-probabbiltà li jseħħ avveniment diviż bil-probabbiltà li l-avveniment ma jseħħx. Ejja nikteb il-formula għaċ-ċans li jseħħ avveniment :
fejn - probabbiltà li jseħħ avveniment, — probabbiltà li avveniment MA jseħħx
Pereżempju, jekk il-probabbiltà li żiemel żagħżugħ, b’saħħtu u jilgħab imlaqqam “Veterok” se jħabbat anzjana anzjana u flabby jisimha “Matilda” waqt tiġrija hija ugwali għal , allura ċ-ċansijiet ta 'suċċess għal "Veterok" se jkunu к u viċi versa, li nkunu nafu l-odds, mhux se jkun diffiċli għalina li nikkalkulaw il-probabbiltà :
Għalhekk, tgħallimna "tittraduċi" il-probabbiltà f'ċansijiet, li jieħdu l-valuri minn li . Ejja nieħdu pass ieħor u nitgħallmu "tittraduċu" il-probabbiltà għal-linja tan-numri kollha minn li .
Pass 2. Ikkonverti l-valuri tal-probabbiltà f'firxa
Dan il-pass huwa sempliċi ħafna - ejja nieħdu l-logaritmu tal-odds għall-bażi tan-numru ta 'Euler u jkollna:
Issa nafu li jekk , imbagħad ikkalkula l-valur se jkun sempliċi ħafna u, barra minn hekk, għandu jkun pożittiv: . Dan huwa minnu.
Minn kurżità, ejja niċċekkjaw x'jiġri jekk , allura nistennew li naraw valur negattiv . Aħna niċċekkjaw: . Hekk hu.
Issa nafu kif nikkonverti l-valur tal-probabbiltà minn li tul il-linja tan-numri kollha minn li . Fil-pass li jmiss se nagħmlu l-oppost.
Għalissa, aħna ninnotaw li skond ir-regoli tal-logaritmu, jafu l-valur tal-funzjoni , tista' tikkalkula l-odds:
Dan il-metodu biex niddeterminaw l-odds se jkun utli għalina fil-pass li jmiss.
Pass 3. Ejja nikseb formula biex tiddetermina
Allura tgħallimna, nafu , sib il-valuri tal-funzjoni . Madankollu, fil-fatt, għandna bżonn eżattament l-oppost - li nkunu nafu l-valur issib . Biex tagħmel dan, ejja nduru għal kunċett bħalma huwa l-funzjoni tal-odds inversi, li skontha:
Fl-artiklu mhux se nġibu l-formula ta 'hawn fuq, iżda se niċċekkjawha billi tuża n-numri mill-eżempju ta' hawn fuq. Nafu li b'odds ta '4 għal 1 (), il-probabbiltà li l-avveniment iseħħ hija 0.8 (). Ejja nagħmlu sostituzzjoni: . Dan jikkoinċidi mal-kalkoli tagħna mwettqa qabel. Ejja nimxu fuq.
Fl-aħħar pass aħna deduċijna li , li jfisser li tista 'tagħmel sostituzzjoni fil-funzjoni ta' odds inversi. Nirċievu:
Aqsam kemm in-numeratur kif ukoll id-denominatur bi , Imbagħad:
Fil-każ, biex niżguraw li ma għamilna żball imkien, nagħmlu kontroll żgħir ieħor. Fil-pass 2, aħna għall iddeterminat li . Imbagħad, tissostitwixxi l-valur fil-funzjoni ta 'rispons loġistiku, nistennew li tikseb . Nissostitwixxu u niksbu:
Prosit, għeżież qarrej, għadna kif derivati u ttestjaw il-funzjoni ta 'rispons loġistiku. Ejja nħarsu lejn il-graff tal-funzjoni.
Grafika 3 “Funzjoni ta’ rispons loġistiku”
Kodiċi għat-tfassil tal-graff
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Fil-letteratura tista 'ssib ukoll l-isem ta' din il-funzjoni bħala funzjoni sigma. Il-graff turi biċ-ċar li l-bidla ewlenija fil-probabbiltà ta’ oġġett li jappartjeni għal klassi sseħħ f’medda relattivament żgħira , x'imkien minn li .
Nissuġġerixxi li terġa' lura għand l-analista tal-kreditu tagħna u ngħinu jikkalkula l-probabbiltà ta' ħlas lura tas-self, inkella jirriskja li jitħalla mingħajr bonus :)
Tabella 2 “Min jissellef potenzjali”
Kodiċi għall-ġenerazzjoni tat-tabella
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
Allura, iddeterminajna l-probabbiltà ta 'ħlas lura tas-self. B'mod ġenerali, dan jidher li huwa minnu.
Tabilħaqq, il-probabbiltà li Vasya, b'salarju ta '120.000 RUR, ikun jista' jagħti 3.000 RUR lill-bank kull xahar hija qrib il-100%. Mill-mod, irridu nifhmu li bank jista 'joħroġ self lil Lesha jekk il-politika tal-bank tipprovdi, pereżempju, għal self lill-klijenti bi probabbiltà ta' ħlas lura tas-self ta 'aktar minn, ngħidu aħna, 0.3. Huwa biss li f'dan il-każ il-bank se joħloq riżerva akbar għal telf possibbli.
Ta' min jinnota wkoll li l-proporzjon tas-salarju għall-ħlas ta' mill-inqas 3 u b'marġni ta' 5.000 RUR ittieħed mil-limitu massimu. Għalhekk, ma nistgħux nużaw il-vettur tal-piżijiet fil-forma oriġinali tiegħu . Kellna nnaqqsu ħafna l-koeffiċjenti, u f'dan il-każ qsamna kull koeffiċjent b'25.000, jiġifieri, essenzjalment, aġġustajna r-riżultat. Iżda dan sar speċifikament biex jissimplifika l-fehim tal-materjal fl-istadju inizjali. Fil-ħajja, mhux se jkollna bżonn nivvintaw u naġġustaw il-koeffiċjenti, iżda nsibuhom. Fis-sezzjonijiet li jmiss ta 'l-artiklu se nidħlu l-ekwazzjonijiet li bihom jintgħażlu l-parametri .
04. Metodu tal-inqas kwadri għad-determinazzjoni tal-vettur tal-piżijiet fil-funzjoni tar-rispons loġistiku
Aħna diġà nafu dan il-metodu għall-għażla ta 'vettur ta' piżijiet Kif metodu tal-inqas kwadri (LSM) u fil-fatt, għaliex ma nużawhiex imbagħad fi problemi ta 'klassifikazzjoni binarja? Tabilħaqq, xejn ma jipprevjenik milli tuża MNC, dan il-metodu biss fi problemi ta 'klassifikazzjoni jagħti riżultati li huma inqas preċiżi minn Telf Loġistika. Hemm bażi teoretika għal dan. Ejja l-ewwel nħarsu lejn eżempju wieħed sempliċi.
Ejja nassumu li l-mudelli tagħna (bl-użu MSE и Telf Loġistika) diġà bdew jagħżlu l-vector tal-piżijiet u waqqafna l-kalkolu f'xi pass. Ma jimpurtax jekk fin-nofs, fl-aħħar jew fil-bidu, il-ħaġa prinċipali hija li diġà għandna xi valuri tal-vettur tal-piżijiet u ejja nassumu li f'dan il-pass, il-vettur tal-piżijiet għaż-żewġ mudelli m'hemm l-ebda differenzi. Imbagħad ħu l-piżijiet li jirriżultaw u tibdilhom ġo funzjoni ta 'rispons loġistiku () għal xi oġġett li jappartjeni għall-klassi . Aħna neżaminaw żewġ każijiet meta, skont il-vettur magħżul tal-piżijiet, il-mudell tagħna huwa żbaljat ħafna u viċi versa - il-mudell huwa kunfidenti ħafna li l-oġġett jappartjeni għall-klassi . Ejja naraw x'multi se jinħarġu meta tuża MNC и Telf Loġistika.
Kodiċi biex tikkalkula l-penali skont il-funzjoni tat-telf użata
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
Każ ta’ tfixkil — il-mudell jassenja oġġett lil klassi bi probabbiltà ta’ 0,01
Piena fuq l-użu MNC se jkun:
Piena fuq l-użu Telf Loġistika se jkun:
Każ ta’ fiduċja qawwija — il-mudell jassenja oġġett lil klassi bi probabbiltà ta’ 0,99
Piena fuq l-użu MNC se jkun:
Piena fuq l-użu Telf Loġistika se jkun:
Dan l-eżempju juri tajjeb li f'każ ta' żball gross il-funzjoni tat-telf Telf ta' Log jippenalizza l-mudell b'mod sinifikanti aktar minn MSE. Ejja issa nifhmu x'inhu l-isfond teoretiku għall-użu tal-funzjoni tat-telf Telf ta' Log fi problemi ta’ klassifikazzjoni.
05. Metodu ta' probabbiltà massima u rigressjoni loġistika
Kif imwiegħed fil-bidu, l-artiklu huwa mimli eżempji sempliċi. Fl-istudjo hemm eżempju ieħor u mistednin qodma - min jissellef il-bank: Vasya, Fedya u Lesha.
Fil-każ, qabel ma tiżviluppa l-eżempju, ħalluni nfakkarkom li fil-ħajja qed nittrattaw ma 'kampjun ta' taħriġ ta 'eluf jew miljuni ta' oġġetti b'għexieren jew mijiet ta 'karatteristiċi. Madankollu, hawn in-numri jittieħdu sabiex ikunu jistgħu faċilment jidħlu fil-kap ta 'xjenzat tad-dejta novizzi.
Ejja nerġgħu lura għall-eżempju. Ejja nimmaġinaw li d-direttur tal-bank iddeċieda li joħroġ self lil kulħadd fil-bżonn, minkejja l-fatt li l-algoritmu qallu biex ma joħroġx lil Lesha. U issa għadda biżżejjed żmien u nafu min mit-tliet eroj ħallas lura s-self u min le. Dak li kien mistenni: Vasya u Fedya ħallsu lura s-self, iżda Lesha ma għamlux. Issa ejja nimmaġinaw li dan ir-riżultat se jkun kampjun ġdid ta’ taħriġ għalina u, fl-istess ħin, bħallikieku d-dejta kollha dwar il-fatturi li jinfluwenzaw il-probabbiltà li jitħallas lura s-self (salarju ta’ min jissellef, daqs tal-ħlas ta’ kull xahar) sparixxa. Imbagħad, intuwittivament, nistgħu nassumu li kull terz li jissellef ma jħallasx lura s-self lill-bank, jew fi kliem ieħor, il-probabbiltà li min jissellef li jmiss iħallas lura s-self. . Din is-suppożizzjoni intuwittiva għandha konferma teoretika u hija bbażata fuq metodu ta' probabbiltà massima, ħafna drabi fil-letteratura tissejjaħ prinċipju ta' probabbiltà massima.
L-ewwel, ejja nikfamiljarizzaw ma 'l-apparat kunċettwali.
Probabbiltà ta' kampjunar hija l-probabbiltà li jinkiseb eżattament tali kampjun, li jinkisbu eżattament dawn l-osservazzjonijiet/riżultati, i.e. il-prodott tal-probabbiltajiet li jinkiseb kull wieħed mir-riżultati tal-kampjun (per eżempju, jekk is-self ta 'Vasya, Fedya u Lesha ġiex imħallas lura jew le fl-istess ħin).
Funzjoni ta' probabbiltà jirrelata l-probabbiltà ta' kampjun mal-valuri tal-parametri tad-distribuzzjoni.
Fil-każ tagħna, il-kampjun tat-taħriġ huwa skema Bernoulli ġeneralizzata, li fiha l-varjabbli każwali tieħu biss żewġ valuri: jew . Għalhekk, il-probabbiltà tal-kampjun tista 'tinkiteb bħala funzjoni ta' probabbiltà tal-parametru kif ġej:
L-entrata ta' hawn fuq tista' tiġi interpretata kif ġej. Il-probabbiltà konġunta li Vasya u Fedya jħallsu lura s-self hija ugwali għal , il-probabbiltà li Lesha MHUX tħallas lura s-self hija ugwali għal (billi ma kienx il-ħlas lura tas-self li seħħ), għalhekk il-probabbiltà konġunta tat-tliet avvenimenti hija ugwali .
Metodu ta' probabbiltà massima huwa metodu biex jiġi stmat parametru mhux magħruf billi jiġi massimizzat funzjonijiet ta' probabbiltà. Fil-każ tagħna, irridu nsibu tali valur , li fiha jilħaq il-massimu tiegħu.
Minn fejn ġejja l-idea attwali - biex tfittex il-valur ta 'parametru mhux magħruf li fih il-funzjoni ta' probabbiltà tilħaq massimu? L-oriġini tal-idea joħorġu mill-idea li kampjun huwa l-uniku sors ta 'għarfien disponibbli għalina dwar il-popolazzjoni. Dak kollu li nafu dwar il-popolazzjoni huwa rappreżentat fil-kampjun. Għalhekk, kull ma nistgħu ngħidu huwa li kampjun huwa l-aktar riflessjoni preċiża tal-popolazzjoni disponibbli għalina. Għalhekk, irridu nsibu parametru li fih il-kampjun disponibbli jsir l-aktar probabbli.
Ovvjament, qed nittrattaw problema ta 'ottimizzazzjoni li fiha għandna bżonn insibu l-punt extremum ta' funzjoni. Biex issib il-punt extremum, huwa meħtieġ li tiġi kkunsidrata l-kundizzjoni tal-ewwel ordni, jiġifieri, id-derivattiva tal-funzjoni tiġi ugwali għal żero u ssolvi l-ekwazzjoni fir-rigward tal-parametru mixtieq. Madankollu, it-tfittxija għad-derivattiva ta 'prodott ta' numru kbir ta 'fatturi tista' tkun biċċa xogħol twila; biex tevita dan, hemm teknika speċjali - taqleb għal-logaritmu funzjonijiet ta' probabbiltà. Għaliex hija possibbli tali tranżizzjoni? Ejja nagħtu attenzjoni għall-fatt li m'aħniex qed infittxu l-extremum tal-funzjoni nnifisha, u l-punt extremum, jiġifieri, il-valur tal-parametru mhux magħruf , li fiha jilħaq il-massimu tiegħu. Meta timxi għal logaritmu, il-punt estrem ma jinbidelx (għalkemm l-extremum innifsu se jvarja), peress li l-logaritmu huwa funzjoni monotonika.
Ejja, skont dan ta 'hawn fuq, inkomplu niżviluppaw l-eżempju tagħna b'self minn Vasya, Fedya u Lesha. L-ewwel ejja ngħaddu għal logaritmu tal-funzjoni ta' probabbiltà:
Issa nistgħu faċilment jiddifferenzjaw l-espressjoni minn :
U fl-aħħarnett, ikkunsidra l-kundizzjoni tal-ewwel ordni - aħna nqabblu d-derivattiva tal-funzjoni għal żero:
Għalhekk, l-istima intuwittiva tagħna tal-probabbiltà ta 'ħlas lura tas-self kien teoretikament iġġustifikat.
Kbir, imma x'għandna nagħmlu b'din l-informazzjoni issa? Jekk nassumu li kull terz li jissellef ma jirritornax il-flus lill-bank, allura dan tal-aħħar inevitabilment ifalli. Dak id-dritt, iżda biss meta tiġi vvalutata l-probabbiltà ta 'ħlas lura tas-self ugwali għal Aħna ma qisniex il-fatturi li jinfluwenzaw il-ħlas lura tas-self: is-salarju ta 'min jissellef u d-daqs tal-ħlas ta' kull xahar. Ejja niftakru li qabel kkalkulajna l-probabbiltà ta 'ħlas lura tas-self minn kull klijent, b'kont meħud ta' dawn l-istess fatturi. Huwa loġiku li ksibna probabbiltajiet differenti mill-kostanti ugwali .
Ejja niddefinixxu l-probabbiltà tal-kampjuni:
Kodiċi għall-kalkolu tal-probabbiltajiet tal-kampjun
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
Probabbiltà ta' kampjun b'valur kostanti :
Probabbiltà ta' kampjun meta tiġi kkalkulata l-probabbiltà ta' ħlas lura tas-self b'kont meħud tal-fatturi :
Il-probabbiltà ta' kampjun bi probabbiltà kkalkulata skont il-fatturi rriżulta li kienet ogħla mill-probabbiltà b'valur ta' probabbiltà kostanti. Xi jfisser dan? Dan jissuġġerixxi li l-għarfien dwar il-fatturi għamilha possibbli li tintgħażel b'mod aktar preċiż il-probabbiltà tal-ħlas lura tas-self għal kull klijent. Għalhekk, meta jinħareġ is-self li jmiss, ikun aktar korrett li jintuża l-mudell propost fl-aħħar tat-taqsima 3 tal-artikolu għall-valutazzjoni tal-probabbiltà tal-ħlas lura tad-dejn.
Iżda mbagħad, jekk irridu li jimmassimizzaw funzjoni tal-probabbiltà tal-kampjun, allura għaliex ma tużax xi algoritmu li jipproduċi probabbiltajiet għal Vasya, Fedya u Lesha, pereżempju, ugwali għal 0.99, 0.99 u 0.01, rispettivament. Forsi tali algoritmu se jwettaq tajjeb fuq il-kampjun tat-taħriġ, peress li jġib il-valur tal-probabbiltà tal-kampjun eqreb lejn , iżda, l-ewwelnett, algoritmu bħal dan x'aktarx ikollu diffikultajiet bil-kapaċità ta 'ġeneralizzazzjoni, u t-tieni, dan l-algoritmu żgur mhux se jkun lineari. U jekk il-metodi ta 'ġlieda kontra t-taħriġ żejjed (kapaċità ta' ġeneralizzazzjoni ugwalment dgħajfa) mhumiex inklużi b'mod ċar fil-pjan ta 'dan l-artikolu, allura ejja ngħaddu mit-tieni punt f'aktar dettall. Biex tagħmel dan, wieġeb mistoqsija sempliċi. Tista' l-probabbiltà li Vasya u Fedya jħallsu lura s-self tkun l-istess, b'kont meħud tal-fatturi magħrufa lilna? Mil-lat tal-loġika soda, ovvjament le, ma tistax. Allura Vasya se tħallas 2.5% tas-salarju tiegħu kull xahar biex iħallas lura s-self, u Fedya - kważi 27,8%. Ukoll fil-graff 2 "Klassifikazzjoni tal-Klijent" naraw li Vasya hija ħafna aktar 'il bogħod mil-linja li tissepara l-klassijiet minn Fedya. U finalment, nafu li l-funzjoni għal Vasya u Fedya jieħu valuri differenti: 4.24 għal Vasya u 1.0 għal Fedya. Issa, jekk Fedya, pereżempju, kiseb ordni ta 'kobor aktar jew talab għal self iżgħar, allura l-probabbiltajiet li jħallas lura s-self għal Vasya u Fedya jkunu simili. Fi kliem ieħor, id-dipendenza lineari ma tistax tiġi mqarraq. U jekk aħna fil-fatt ikkalkula l-odds , u ma ħadithomx mill-arja, nistgħu ngħidu bla periklu li l-valuri tagħna l-aħjar inessu nistmaw il-probabbiltà tal-ħlas lura tas-self minn kull min jissellef, iżda peress li qbilna li nassumu li d-determinazzjoni tal-koeffiċjenti twettqet skont ir-regoli kollha, allura aħna se nassumu hekk - il-koeffiċjenti tagħna jippermettulna nagħtu stima aħjar tal-probabbiltà :)
Madankollu, aħna digress. F'din it-taqsima għandna bżonn nifhmu kif il-vettur tal-piżijiet huwa determinat , li huwa meħtieġ biex tiġi vvalutata l-probabbiltà ta 'ħlas lura tas-self minn kull min jissellef.
Ejja nġabru fil-qosor b'liema armament immorru nfittxu l-odds :
1. Nassumu li r-relazzjoni bejn il-varjabbli fil-mira (valur tat-tbassir) u l-fattur li jinfluwenza r-riżultat hija lineari. Għal din ir-raġuni huwa użat funzjoni ta' rigressjoni lineari tip , li l-linja tagħha taqsam l-oġġetti (klijenti) fi klassijiet и jew (klijenti li huma kapaċi jħallsu lura s-self u dawk li mhumiex). Fil-każ tagħna, l-ekwazzjoni għandha l-forma .
2. Aħna nużaw funzjoni logit inversa tip biex tiddetermina l-probabbiltà li oġġett jappartjeni għal klassi .
3. Aħna nqisu s-sett ta 'taħriġ tagħna bħala implimentazzjoni ta' ġeneralizzata skemi Bernoulli, jiġifieri, għal kull oġġett tiġi ġġenerata varjabbli każwali, li bi probabbiltà (tagħha għal kull oġġett) tieħu l-valur 1 u bi probabbiltà - 0.
4. Aħna nafu dak li għandna bżonn biex jimmassimizzaw funzjoni tal-probabbiltà tal-kampjun filwaqt li jitqiesu l-fatturi aċċettati sabiex il-kampjun disponibbli jsir l-aktar plawsibbli. Fi kliem ieħor, għandna bżonn nagħżlu parametri li fihom il-kampjun ikun l-aktar plawsibbli. Fil-każ tagħna, il-parametru magħżul huwa l-probabbiltà ta 'ħlas lura tas-self , li mbagħad jiddependi fuq koeffiċjenti mhux magħrufa . Dan ifisser li għandna bżonn insibu tali vettur ta 'piżijiet , li fiha l-probabbiltà tal-kampjun tkun massima.
5. Nafu x'nimmassimizzaw funzjonijiet ta' probabbiltà tal-kampjun tista 'tuża metodu ta' probabbiltà massima. U nafu l-tricks delikati kollha biex jaħdmu ma 'dan il-metodu.
Dan huwa kif jirriżulta li jkun mossa f'diversi passi :)
Issa ftakar li fil-bidu nett tal-artiklu ridna nidħlu żewġ tipi ta 'funzjonijiet ta' telf Telf Loġistika skond kif il-klassijiet ta' l-oġġetti huma nominati. Ġara li fi problemi ta 'klassifikazzjoni b'żewġ klassijiet, il-klassijiet huma indikati bħala и jew . Skont in-notazzjoni, l-output ikollu funzjoni ta 'telf korrispondenti.
Każ 1. Klassifikazzjoni ta' oġġetti fi и
Aktar kmieni, meta ġiet iddeterminata l-probabbiltà ta 'kampjun, li fih il-probabbiltà ta' ħlas lura tad-dejn minn min jissellef kienet ikkalkulata abbażi ta 'fatturi u koeffiċjenti mogħtija , applikajna l-formula:
Attwalment hija t-tifsira funzjonijiet ta' rispons loġistiku għal vettur partikolari ta' piżijiet
Imbagħad xejn ma jżommna milli niktbu l-funzjoni tal-probabbiltà tal-kampjun kif ġej:
Jiġri li kultant huwa diffiċli għal xi analisti novizzi biex jifhmu immedjatament kif taħdem din il-funzjoni. Ejja nħarsu lejn 4 eżempji qosra li jiċċaraw l-affarijiet:
1. Jekk (jiġifieri, skont il-kampjun tat-taħriġ, l-oġġett jappartjeni għall-klassi +1), u l-algoritmu tagħna jiddetermina l-probabbiltà li oġġett jiġi kklassifikat għal klassi ugwali għal 0.9, allura din il-biċċa tal-probabbiltà tal-kampjun tiġi kkalkulata kif ġej:
2. Jekk U , allura l-kalkolu jkun bħal dan:
3. Jekk U , allura l-kalkolu jkun bħal dan:
4. Jekk U , allura l-kalkolu jkun bħal dan:
Huwa ovvju li l-funzjoni ta 'probabbiltà se tkun massimizzata fil-każijiet 1 u 3 jew fil-każ ġenerali - b'valuri misselen b'mod korrett tal-probabbiltajiet li jiġi assenjat oġġett għal klassi .
Minħabba l-fatt li meta tiġi ddeterminata l-probabbiltà li jiġi assenjat oġġett lil klassi Aħna biss ma nafux il-koeffiċjenti , imbagħad infittxuhom. Kif imsemmi hawn fuq, din hija problema ta 'ottimizzazzjoni li fiha l-ewwel għandna bżonn insibu d-derivattiva tal-funzjoni ta' probabbiltà fir-rigward tal-vettur tal-piżijiet . Madankollu, l-ewwel jagħmel sens li nissimplifikaw il-kompitu għalina nfusna: se nfittxu d-derivattiva tal-logaritmu funzjonijiet ta' probabbiltà.
Għaliex wara logaritmu, in funzjonijiet ta' żball loġistiku, biddilna s-sinjal minn fuq . Kollox huwa sempliċi, peress li fil-problemi ta 'valutazzjoni tal-kwalità ta' mudell huwa normali li jiġi minimizzat il-valur ta 'funzjoni, aħna mmultiplikat in-naħa tal-lemin tal-espressjoni billi u għalhekk, minflok timmassimizza, issa aħna jimminimizzaw il-funzjoni.
Fil-fatt, issa, quddiem għajnejk, il-funzjoni tat-telf kienet derivata bir-reqqa - Telf Loġistika għal sett ta’ taħriġ b’żewġ klassijiet: и .
Issa, biex issib il-koeffiċjenti, irridu biss insibu d-derivattiv funzjonijiet ta' żball loġistiku u mbagħad, bl-użu ta 'metodi ta' ottimizzazzjoni numerika, bħal dixxendenza tal-gradjent jew inżul tal-gradjent stokastiku, agħżel l-aktar koeffiċjenti ottimali . Iżda, minħabba l-volum konsiderevoli tal-artiklu, huwa propost li twettaq id-divrenzjar waħedek, jew forsi dan ikun suġġett għall-artiklu li jmiss b'ħafna aritmetika mingħajr eżempji dettaljati bħal dawn.
Każ 2. Klassifikazzjoni ta' oġġetti fi и
L-approċċ hawnhekk se jkun l-istess bħal fil-klassijiet и , iżda l-mogħdija nnifisha għall-output tal-funzjoni tat-telf Telf Loġistika, se jkun aktar Jeronimo. Ejja nibdew. Għall-funzjoni tal-probabbiltà se nużaw l-operatur "jekk... allura...". Jiġifieri jekk L-oġġett th jappartjeni għall-klassi , imbagħad biex nikkalkulaw il-probabbiltà tal-kampjun nużaw il-probabbiltà , jekk l-oġġett jappartjeni għall-klassi , imbagħad nissostitwixxu fil-probabbiltà . Dan huwa kif tidher il-funzjoni tal-probabbiltà:
Ejja niddeskrivu fuq subgħajna kif taħdem. Ejja nikkunsidraw 4 każijiet:
1. Jekk и , allura l-probabbiltà tat-teħid tal-kampjuni "jmur"
2. Jekk и , allura l-probabbiltà tat-teħid tal-kampjuni "jmur"
3. Jekk и , allura l-probabbiltà tat-teħid tal-kampjuni "jmur"
4. Jekk и , allura l-probabbiltà tat-teħid tal-kampjuni "jmur"
Huwa ovvju li fil-każijiet 1 u 3, meta l-probabbiltajiet ġew determinati b'mod korrett mill-algoritmu, funzjoni ta' probabbiltà se jkun massimizzat, jiġifieri, dan huwa eżattament dak li ridna niksbu. Madankollu, dan l-approċċ huwa pjuttost ingombranti u li jmiss se nikkunsidraw notazzjoni aktar kompatta. Imma l-ewwel, ejja logaritmu l-funzjoni tal-probabbiltà b'bidla tas-sinjal, peress li issa se nnaqqsuha.
Ejja nissostitwixxu minflok espressjoni :
Ejja nissimplifikaw it-terminu t-tajjeb taħt il-logaritmu billi tuża tekniki aritmetiċi sempliċi u nikseb:
Issa wasal iż-żmien li teħles mill-operatur "jekk... allura...". Innota li meta oġġett jappartjeni għall-klassi , imbagħad fl-espressjoni taħt il-logaritmu, fid-denominatur, imqajjem għall-poter , jekk l-oġġett jappartjeni għall-klassi , imbagħad $e$ jittella' għall-poter . Għalhekk, in-notazzjoni għall-grad tista 'tiġi ssimplifikata billi tgħaqqad iż-żewġ każijiet f'wieħed: . Imbagħad funzjoni ta 'żball loġistiku se tieħu l-forma:
Skont ir-regoli tal-logaritmu, aħna ndawwru l-frazzjoni u noffru s-sinjal "" (nieqes) għal-logaritmu, irridu:
Hawnhekk hija l-funzjoni tat-telf telf loġistiku, li jintuża fis-sett ta' taħriġ b'oġġetti assenjati għal klassijiet: и .
Ukoll, f'dan il-punt nieħu l-leave tiegħi u nikkonkludu l-artiklu.
Materjali awżiljarji
1. Letteratura
1) Analiżi ta' rigressjoni applikata / N. Draper, G. Smith - it-2 ed. – M.: Finanzi u Statistika, 1986 (traduzzjoni mill-Ingliż)
2) Teorija tal-probabbiltà u statistika matematika / V.E. Gmurman - 9 ed. - M.: Skola Għolja, 2003
3) Teorija tal-probabbiltà / N.I. Chernova - Novosibirsk: Novosibirsk State University, 2007
4) Analitika tan-negozju: mid-dejta għall-għarfien / Paklin N. B., Oreshkov V. I. - 2 ed. — San Pietruburgu: Peter, 2013
5) Xjenza tad-Data Xjenza tad-dejta mill-bidu / Joel Gras - San Pietruburgu: BHV Petersburg, 2017
6) Statistika prattika għal speċjalisti tax-Xjenza tad-Data / P. Bruce, E. Bruce - San Pietruburgu: BHV Petersburg, 2018
2. Lezzjonijiet, korsijiet (video)
1)
2)
3)
4)
5)
3. Sorsi tal-Internet
1)
2)
3)
4)
6)