Nan atik sa a, nou pral analize kalkil teyorik transfòmasyon an fonksyon regresyon lineyè в fonksyon transfòmasyon lojistik envès (otreman yo rele fonksyon repons lojistik). Lè sa a, lè l sèvi avèk asenal la metòd maksimòm chans, an akò ak modèl la regression lojistik, nou tire fonksyon pèt la Pèt lojistik, oswa nan lòt mo, nou pral defini yon fonksyon ak ki paramèt yo nan vektè pwa a yo chwazi nan modèl la regression lojistik. .
Deskripsyon atik:
- Ann repete relasyon lineyè ant de varyab
- Ann idantifye nesesite pou transfòmasyon fonksyon regresyon lineyè в fonksyon repons lojistik
- Ann pote soti nan transfòmasyon yo ak pwodiksyon an fonksyon repons lojistik
- Ann eseye konprann poukisa metòd la pi piti kare se move lè w ap chwazi paramèt fonksyon Pèt lojistik
- Nou itilize metòd maksimòm chans pou detèmine fonksyon seleksyon paramèt :
5.1. Ka 1: fonksyon Pèt lojistik pou objè ki gen deziyasyon klas 0 и 1:
5.2. Ka 2: fonksyon Pèt lojistik pou objè ki gen deziyasyon klas -1 и +1:
Atik la ranpli ak egzanp senp kote tout kalkil yo fasil pou fè oralman oswa sou papye; nan kèk ka, yon kalkilatris ka nesesè. Se konsa, pare :)
Atik sa a se sitou gen entansyon pou syantis done ki gen yon nivo inisyal konesans nan Basics yo nan aprantisaj machin.
Atik la pral bay kòd tou pou desen graf ak kalkil. Tout kòd ekri nan lang lan piton 2.7. Kite m 'eksplike davans sou "nouveau" nan vèsyon an itilize - sa a se youn nan kondisyon yo pou pran kou a byen li te ye soti nan Yandèks sou yon platfòm edikasyon sou entènèt egalman byen li te ye Coursera, epi, jan yon moun ta ka sipoze, yo te prepare materyèl la baze sou kou sa a.
01. Depandans dwat
Li se byen rezonab pou poze kesyon an - ki sa depandans lineyè ak regresyon lojistik gen fè ak li?
Li senp! Regression lojistik se youn nan modèl ki fè pati klasifikasyon lineyè a. Nan mo senp, travay yon klasifikasyon lineyè se predi valè sib yo soti nan varyab (regresè) . Yo kwè ke depandans ki genyen ant karakteristik yo ak valè sib yo lineyè. Pakonsekan non an nan klasifikasyon an - lineyè. Pou mete li trè apeprè, modèl regresyon lojistik la baze sou sipozisyon ke gen yon relasyon lineyè ant karakteristik yo. ak valè sib yo . Sa a se koneksyon an.
Gen premye egzanp nan estidyo a, epi li se, kòrèkteman, sou depandans nan rektliniè nan kantite yo ap etidye. Nan pwosesis la nan prepare atik la, mwen te vin atravè yon egzanp ki te deja mete anpil moun sou kwen - depandans aktyèl la sou vòltaj. ("Analiz regresyon aplike", N. Draper, G. Smith). Nou pral gade li isit la tou.
Dapre Lwa Ohm:
kote - fòs aktyèl, - vòltaj, - rezistans.
Si nou pat konnen Lalwa Ohm, Lè sa a, nou ta ka jwenn depandans la anpirik lè nou chanje ak mezire , pandan y ap sipòte fiks. Lè sa a, nou ta wè ke graf la depandans soti nan bay yon liy plis oswa mwens dwat atravè orijin nan. Nou di "plis oswa mwens" paske, byenke relasyon an se aktyèlman egzat, mezi nou yo ka gen ti erè, ak Se poutèt sa pwen yo sou graf la ka pa tonbe egzakteman sou liy lan, men yo pral gaye alantou li owaza.
Grafik 1 "Depandans" soti nan »
Kòd desen tablo
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. Bezwen pou transfòme ekwasyon regression lineyè a
Ann gade yon lòt egzanp. Ann imajine ke nou travay nan yon bank ak travay nou an se detèmine chans pou prete lajan an repeye prè a depann sou sèten faktè. Pou senplifye travay la, nou pral konsidere sèlman de faktè: salè chak mwa prete lajan an ak kantite lajan an ranbousman chak mwa.
Travay la trè kondisyonèl, men ak egzanp sa a nou ka konprann poukisa li pa ase pou itilize fonksyon regresyon lineyè, epi tou chèche konnen ki transfòmasyon yo bezwen fèt ak fonksyon an.
Ann retounen nan egzanp lan. Li konprann ke pi wo salè a, plis prete lajan an yo pral kapab asiyen chak mwa pou repeye prè a. An menm tan an, pou yon seri salè sèten relasyon sa a pral byen lineyè. Pou egzanp, ann pran yon seri salè soti nan 60.000 RUR a 200.000 RUR epi sipoze ke nan seri a salè espesifye, depandans nan gwosè a nan peman an chak mwa sou gwosè a nan salè a se lineyè. Ann di ke pou seri a espesifye nan salè yo te revele ke rapò a salè-a-peman pa ka tonbe anba a 3 epi prete lajan an dwe toujou gen 5.000 RUR an rezèv. Epi sèlman nan ka sa a, nou pral asime ke prete lajan an ap remèt prè a nan bank la. Lè sa a, ekwasyon regression lineyè a pral pran fòm sa a:
kote , , , - salè -yèm prete lajan, - peman prè -yèm prete lajan.
Ranplase salè ak peman prè ak paramèt fiks nan ekwasyon an Ou ka deside si ou bay oswa refize yon prè.
Gade pi devan, nou sonje ke, ak paramèt yo bay yo fonksyon regresyon lineyè, itilize nan fonksyon repons lojistik pral pwodwi gwo valè ki pral konplike kalkil yo detèmine pwobabilite yo nan ranbousman prè. Se poutèt sa, li pwopoze pou redwi koyefisyan nou an, ann di, pa 25.000 fwa. Sa a transfòmasyon nan koyefisyan yo pa pral chanje desizyon an bay yon prè. Se pou nou sonje pwen sa a pou tan kap vini an, men kounye a, fè li menm pi klè sa n ap pale de, an n konsidere sitiyasyon an ak twa prete potansyèl yo.
Tablo 1 "Prete potansyèl yo"
Kòd pou jenere tab la
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
Dapre done ki nan tablo a, Vasya, ak yon salè 120.000 RUR, vle resevwa yon prè pou li ka remèt li chak mwa nan 3.000 RUR. Nou te detèmine ke yo nan lòd yo apwouve prè a, salè Vasya a dwe depase twa fwa kantite lajan an nan peman an, epi yo dwe toujou gen 5.000 RUR ki rete. Vasya satisfè kondisyon sa a: . Menm 106.000 RUR rete. Malgre lefèt ke lè kalkile nou te redwi chans yo 25.000 fwa, rezilta a te menm bagay la tou - ka prè a dwe apwouve. Fedya pral tou resevwa yon prè, men Lesha, malgre lefèt ke li resevwa pi plis la, pral oblije kwape apeti li.
Ann trase yon graf pou ka sa a.
Tablo 2 "Klasifikasyon prete yo"
Kòd pou trase graf la
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Se konsa, liy dwat nou an, konstwi an akò ak fonksyon an , separe "move" prete yo ak "bon" yo. Moun sa yo ki prete ki gen dezi pa kowenside ak kapasite yo pi wo pase liy lan (Lesha), pandan ke moun ki, dapre paramèt yo nan modèl nou an, yo kapab repeye prè a yo anba liy lan (Vasya ak Fedya). Nan lòt mo, nou ka di sa a: liy dirèk nou an divize prete yo an de klas. Se pou nou endike yo jan sa a: nan klas Nou pral klase emprunteurs sa yo ki gen plis chans pou repeye prè a kòm oswa Nou pral enkli moun ki prete ki gen plis chans pa yo pral kapab remèt prè a.
Ann rezime konklizyon ki soti nan egzanp senp sa a. Ann pran yon pwen epi, ranplase kowòdone pwen an nan ekwasyon korespondan liy lan , konsidere twa opsyon:
- Si pwen an anba liy lan epi nou bay klas la li , Lè sa a, valè a nan fonksyon an pral pozitif soti nan до . Sa vle di nou ka asime ke pwobabilite pou repeye prè a se nan . Pi gwo valè fonksyon an, se pi gwo pwobabilite a.
- Si yon pwen anlè yon liy epi nou bay klas la li oswa , Lè sa a, valè a nan fonksyon an pral negatif soti nan до . Lè sa a, nou pral asime ke pwobabilite pou ranbousman dèt la se nan epi, pi gwo valè absoli fonksyon an, se pi gwo konfyans nou.
- Pwen an se sou yon liy dwat, sou fwontyè ant de klas yo. Nan ka sa a, valè fonksyon an pral egal ak pwobabilite pou ranbouse prè a egal a .
Koulye a, an n imajine ke nou pa gen de faktè, men plizyè douzèn, epi yo pa twa, men dè milye de prete. Lè sa a, olye de yon liy dwat nou pral genyen m-dimansyon plan ak koyefisyan nou pa pral pran soti nan lè mens, men sòti dapre tout règ yo, ak sou baz done akimile sou prete ki gen oswa ki pa gen repeye prè a. Ak tout bon, sonje ke nou yo kounye a se chwazi prete lè l sèvi avèk koyefisyan deja li te ye . An reyalite, travay la nan modèl la regression lojistik se jisteman detèmine paramèt yo , nan ki valè fonksyon pèt la Pèt lojistik pral gen tandans pou minimòm lan. Men sou ki jan vektè a kalkile , n ap jwenn plis enfòmasyon nan 5yèm seksyon atik la. Nan entre-temps la, nou retounen nan peyi te pwomèt la - nan Bankye nou an ak twa kliyan l 'yo.
Mèsi a fonksyon an nou konnen ki moun ki ka bay yon prè ak ki moun ki bezwen refize. Men, ou pa ka ale nan direktè a ak enfòmasyon sa yo, paske yo te vle jwenn nan men nou pwobabilite pou ranbousman prè a pa chak prete lajan. Kisa pou fe? Repons lan se senp - nou bezwen yon jan kanmenm transfòme fonksyon an , ki gen valè kouche nan seri a nan yon fonksyon ki gen valè yo pral kouche nan seri a . Ak fonksyon sa a egziste, li rele fonksyon repons lojistik oswa transfòmasyon envès-logit. Rankontre:
Ann wè etap pa etap ki jan li fonksyone fonksyon repons lojistik. Remake byen ke nou pral mache nan direksyon opoze a, i.e. nou pral asime ke nou konnen valè a pwobabilite, ki manti nan seri a soti nan до ak Lè sa a, nou pral "demonte" valè sa a nan seri a tout antye de nimewo soti nan до .
03. Nou tire fonksyon repons lojistik la
Etap 1. Konvèti valè pwobabilite yo nan yon seri
Pandan transfòmasyon fonksyon an в fonksyon repons lojistik Nou pral kite analis kredi nou an pou kont li epi fè yon toune nan boukmèyker yo pito. Non, nan kou, nou pa pral mete parye, tout sa ki enterese nou gen siyifikasyon an nan ekspresyon an, pou egzanp, chans lan se 4 a 1. Chans yo, abitye nan tout paryeur, se rapò a nan "siksè" ak " echèk”. Nan tèm pwobabilite, chans yo se pwobabilite pou yon evènman rive divize pa pwobabilite pou evènman an pa rive. Ann ekri fòmil pou chans pou yon evènman rive :
kote - pwobabilite pou yon evènman rive, — pwobabilite pou yon evènman PA rive
Pou egzanp, si pwobabilite pou yon chwal jèn, fò ak jwe sou non "Veterok" pral bat yon vye granmoun ak flask fanm ki rele "Matilda" nan yon kous egal a , Lè sa a, chans yo nan siksè pou "Veterok" yo pral к ak vis vèrsa, konnen chans yo, li pa pral difisil pou nou kalkile pwobabilite a :
Kidonk, nou te aprann "tradwi" pwobabilite nan chans, ki pran valè nan до . Ann fè yon lòt etap epi aprann "tradwi" pwobabilite a nan liy nimerik la tout antye до .
Etap 2. Konvèti valè pwobabilite yo nan yon seri
Etap sa a trè senp - ann pran logaritm chans yo nan baz nimewo Euler la. epi nou jwenn:
Kounye a nou konnen ke si , Lè sa a, kalkile valè a pral trè senp epi, anplis, li ta dwe pozitif: . Sa a se vre.
Soti nan kiryozite, an n tcheke e si , Lè sa a, nou espere wè yon valè negatif . Nou tcheke: . Se vre.
Koulye a, nou konnen ki jan yo konvèti valè a pwobabilite soti nan до sou tout liy nimewo a soti nan до . Nan pwochen etap la nou pral fè opoze a.
Pou kounye a, nou sonje ke an akò ak règ yo nan logaritm, konnen valè a nan fonksyon an , ou ka kalkile chans yo:
Metòd sa a pou detèmine chans yo pral itil nou nan pwochen etap la.
Etap 3. Ann dériver yon fòmil pou detèmine
Se konsa, nou te aprann, konnen , jwenn valè fonksyon . Sepandan, an reyalite, nou bezwen egzakteman opoze a - konnen valè a jwenn . Pou fè sa, se pou nou ale nan yon konsèp tankou fonksyon chans envès, dapre ki:
Nan atik la nou pa pral derive fòmil ki anwo a, men nou pral tcheke li lè l sèvi avèk nimewo ki soti nan egzanp ki anwo a. Nou konnen ke ak chans 4 a 1 (), pwobabilite pou evènman an rive se 0.8 (). Ann fè yon sibstitisyon: . Sa a kowenside ak kalkil nou te fè pi bonè. Ann avanse.
Nan dènye etap la nou dedwi sa , ki vle di ou ka fè yon sibstitisyon nan fonksyon chans envès la. Nou jwenn:
Divize nimeratè a ak denominatè a pa , Lè sa a:
Jis nan ka, asire w ke nou pa te fè yon erè nenpòt kote, nou pral fè yon lòt ti chèk. Nan etap 2, nou pou detèmine sa . Lè sa a, ranplase valè a nan fonksyon an repons lojistik, nou espere jwenn . Nou ranplase epi jwenn:
Felisitasyon, chè lektè, nou jis sòti ak teste fonksyon repons lojistik la. Ann gade graf fonksyon an.
Grafik 3 "Fonksyon repons lojistik"
Kòd pou trase graf la
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
Nan literati a ou ka jwenn tou non fonksyon sa a kòm fonksyon sigmoid. Grafik la montre klèman ke chanjman prensipal la nan pwobabilite pou yon objè ki fè pati yon klas rive nan yon seri relativman piti. , yon kote nan до .
Mwen sijere retounen nan analis kredi nou an epi ede l 'kalkile pwobabilite pou ranbousman prè, otreman li riske yo te kite san yon bonis :)
Tablo 2 "Prete potansyèl yo"
Kòd pou jenere tab la
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
Se konsa, nou te detèmine pwobabilite pou ranbousman prè. An jeneral, sa sanble vre.
Vreman vre, pwobabilite pou Vasya, ak yon salè 120.000 RUR, yo pral kapab bay 3.000 RUR nan bank la chak mwa se fèmen nan 100%. By wout la, nou dwe konprann ke bank la ka bay yon prè bay Lesha si règleman bank la bay, pou egzanp, pou prete bay kliyan ki gen yon pwobabilite pou ranbousman prè a plis pase, di, 0.3. Li jis ke nan ka sa a bank la pral kreye yon rezèv pi gwo pou pèt posib.
Li ta dwe remake tou ke rapò a salè-a-peman nan omwen 3 ak ak yon maj nan 5.000 RUR te pran nan plafon an. Se poutèt sa, nou pa t 'kapab itilize vektè pwa a nan fòm orijinal li . Nou te bezwen redwi anpil koyefisyan yo, ak nan ka sa a nou divize chak koyefisyan pa 25.000, se sa ki, nan sans, nou ajiste rezilta a. Men, sa a te fè espesyalman pou senplifye konpreyansyon yo genyen sou materyèl la nan premye etap la. Nan lavi, nou pa pral bezwen envante ak ajiste koyefisyan, men jwenn yo. Nan pwochen seksyon atik la nou pral tire ekwasyon yo chwazi paramèt yo .
04. Metòd pi piti kare pou detèmine vektè pwa yo nan fonksyon repons lojistik la
Nou deja konnen metòd sa a pou chwazi yon vektè pwa Kòm metòd pi piti kare (LSM) e an reyalite, poukisa nou pa sèvi ak li nan pwoblèm klasifikasyon binè? Vreman vre, pa gen anyen anpeche w itilize MNC, se sèlman metòd sa a nan pwoblèm klasifikasyon bay rezilta ki mwens egzat pase Pèt lojistik. Gen yon baz teyorik pou sa. Ann premye gade nan yon egzanp senp.
Ann sipoze ke modèl nou yo (itilize MSE и Pèt lojistik) deja kòmanse chwazi vektè pwa yo epi nou sispann kalkil la nan kèk etap. Li pa enpòtan si wi ou non nan mitan an, nan fen a oswa nan kòmansman an, bagay prensipal la se ke nou deja gen kèk valè nan vektè a nan pwa epi an n sipoze ke nan etap sa a, vektè a nan pwa. pou tou de modèl pa gen okenn diferans. Lè sa a, pran pwa ki kapab lakòz yo epi ranplase yo nan fonksyon repons lojistik () pou kèk objè ki fè pati klas la . Nou egzamine de ka lè, an akò ak vektè a chwazi nan pwa, modèl nou an trè erè ak vis vèrsa - modèl la gen anpil konfyans ke objè a fè pati klas la. . Ann wè ki amann yo pral bay lè w ap itilize MNC и Pèt lojistik.
Kòd pou kalkile penalite selon fonksyon pèt yo itilize
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
Yon ka yon erè — modèl la bay yon objè nan yon klas ak yon pwobabilite 0,01
Sanksyon sou itilizasyon MNC ap:
Sanksyon sou itilizasyon Pèt lojistik ap:
Yon ka nan konfyans fò — modèl la bay yon objè nan yon klas ak yon pwobabilite 0,99
Sanksyon sou itilizasyon MNC ap:
Sanksyon sou itilizasyon Pèt lojistik ap:
Egzanp sa a montre byen ke nan ka ta gen yon erè brit fonksyon pèt la Log Pèt penalize modèl la siyifikativman plis pase MSE. Ann konprann kounye a ki sa background nan teyorik se lè l sèvi avèk fonksyon pèt la Log Pèt nan pwoblèm klasifikasyon.
05. Metòd maksimòm chans ak regression lojistik
Kòm te pwomèt la nan kòmansman an, atik la gen anpil egzanp senp. Nan estidyo a gen yon lòt egzanp ak envite fin vye granmoun - prete labank: Vasya, Fedya ak Lesha.
Jis nan ka, anvan yo devlope egzanp lan, kite m 'fè ou sonje ke nan lavi nou ap fè fas ak yon echantiyon fòmasyon nan dè milye oswa dè milyon de objè ki gen plizyè dizèn oswa dè santèn de karakteristik. Sepandan, isit la nimewo yo pran pou yo ka fasilman anfòm nan tèt la nan yon syantis done inisyasyon.
Ann retounen nan egzanp lan. Ann imajine ke direktè bank la deside bay yon prè bay tout moun ki nan bezwen, malgre lefèt ke algorithm la te di l 'pa bay li bay Lesha. Epi kounyeya ase tan pase e nou konnen kilès nan twa ewo yo ki te remèt prè a e kiyès ki pa t fè sa. Ki sa ki te dwe atann: Vasya ak Fedya remèt prè a, men Lesha pa t '. Koulye a, an n imajine ke rezilta sa a pral yon echantiyon fòmasyon nouvo pou nou epi, an menm tan an, se kòm si tout done sou faktè ki enfliyanse chans pou ranbouse prè a (salè prete lajan an, gwosè peman an chak mwa) te disparèt. Lè sa a, entwitif, nou ka asime ke chak twazyèm prete pa ranbouse prè a nan bank la, oswa nan lòt mo, pwobabilite pou pwochen prete lajan an remèt prè a. . Sipozisyon sa a entwisyon gen konfimasyon teyorik epi li baze sou metòd maksimòm chans, souvan nan literati yo rele li prensip maksimòm chans.
Premyèman, ann fè konesans ak aparèy konseptyèl ekspresyon an.
Chans pou pran echantiyon se pwobabilite pou jwenn egzakteman yon echantiyon konsa, jwenn egzakteman obsèvasyon/rezilta sa yo, i.e. pwodwi a nan pwobabilite yo pou jwenn chak nan rezilta echantiyon yo (pa egzanp, si prè a nan Vasya, Fedya ak Lesha te remèt oswa ou pa ranbouse an menm tan an).
Fonksyon chans gen rapò chans pou yon echantiyon ak valè paramèt distribisyon yo.
Nan ka nou an, echantiyon fòmasyon an se yon konplo Bernoulli jeneralize, nan ki varyab o aza a pran sèlman de valè: oswa . Se poutèt sa, chans echantiyon an ka ekri kòm yon fonksyon chans nan paramèt la jan sa a:
Antre ki anwo a ka entèprete jan sa a. Pwobabilite a jwenti ke Vasya ak Fedya pral remèt prè a egal a , pwobabilite pou Lesha PA repeye prè a egal a (depi se pa ranbousman prè a ki te fèt), kidonk pwobabilite jwenti tout twa evènman yo egal .
Metòd maksimòm chans se yon metòd pou estime yon paramèt enkoni pa maksimize fonksyon chans. Nan ka nou an, nou bezwen jwenn yon valè konsa nan ki ... rive nan maksimòm li.
Ki kote lide aktyèl la soti - pou chèche valè yon paramèt enkoni nan ki fonksyon chans lan rive nan yon maksimòm? Orijin lide a soti nan lide ke yon echantiyon se sèl sous konesans ki disponib pou nou sou popilasyon an. Tout sa nou konnen sou popilasyon an reprezante nan echantiyon an. Se poutèt sa, tout sa nou ka di se ke yon echantiyon se refleksyon ki pi egzak nan popilasyon an ki disponib pou nou. Se poutèt sa, nou bezwen jwenn yon paramèt kote echantiyon ki disponib la vin pi pwobab la.
Li evidan, nou ap fè fas ak yon pwoblèm optimize nan ki nou bezwen jwenn pwen an ekstrèm nan yon fonksyon. Pou jwenn pwen an ekstrèm, li nesesè yo konsidere kondisyon an premye lòd, se sa ki, egalize derive nan fonksyon an zewo epi rezoud ekwasyon an ki gen rapò ak paramèt vle a. Sepandan, chèche derive yon pwodwi nan yon gwo kantite faktè ka yon travay long; pou fè pou evite sa a, gen yon teknik espesyal - chanje nan logaritm la. fonksyon chans. Poukisa yon tranzisyon konsa posib? Se pou nou peye atansyon sou lefèt ke nou pa ap chèche pou ekstrèm nan fonksyon nan tèt li, ak pwen an ekstrèm, se sa ki, valè a nan paramèt la enkoni nan ki ... rive nan maksimòm li. Lè w ap deplase nan yon logaritm, pwen ekstrèm nan pa chanje (byenke ekstrèm nan tèt li ap diferan), paske logaritm nan se yon fonksyon monotone.
Ann, an akò ak pi wo a, kontinye devlope egzanp nou an ak prè soti nan Vasya, Fedya ak Lesha. Premye ann ale nan logaritm fonksyon chans:
Koulye a, nou ka fasilman diferansye ekspresyon an pa :
Epi finalman, konsidere kondisyon premye lòd la - nou egalize derive fonksyon an ak zewo:
Kidonk, estimasyon entwisyon nou an nan pwobabilite pou ranbousman prè teyorikman jistifye.
Gwo, men kisa nou ta dwe fè ak enfòmasyon sa yo kounye a? Si nou sipoze ke chak twazyèm prete pa retounen lajan an nan bank la, Lè sa a, lèt la pral inevitableman ale depourvu. Sa a dwat, men sèlman lè evalye pwobabilite pou ranbousman prè egal a Nou pa t 'pran an kont faktè ki enfliyanse ranbousman prè: salè prete lajan an ak gwosè a nan peman an chak mwa. Se pou nou sonje ke nou te deja kalkile pwobabilite pou ranbousman prè a pa chak kliyan, pran an kont faktè sa yo menm. Li lojik ke nou jwenn pwobabilite diferan de konstan egal a .
Ann defini chans pou echantiyon yo genyen:
Kòd pou kalkile echantiyon chans
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
Egzanp chans pou yon valè konstan :
Egzanp chans lè kalkile pwobabilite pou ranbousman prè pran an kont faktè :
Chans pou yon echantiyon ki gen yon pwobabilite kalkile depann sou faktè yo te vin pi wo pase chans pou yon valè pwobabilite konstan. Ki sa sa a vle di? Sa a sijere ke konesans sou faktè yo te fè li posib pi byen chwazi pwobabilite pou ranbousman prè pou chak kliyan. Se poutèt sa, lè yo bay pwochen prè a, li ta pi kòrèk pou sèvi ak modèl yo pwopoze nan fen seksyon 3 nan atik la pou evalye pwobabilite pou ranbousman dèt la.
Men, lè sa a, si nou vle maksimize fonksyon chans echantiyon, Lè sa a, poukisa pa sèvi ak kèk algorithm ki pral pwodwi pwobabilite pou Vasya, Fedya ak Lesha, pou egzanp, egal a 0.99, 0.99 ak 0.01, respektivman. Petèt yon algorithm konsa ap fè byen sou echantiyon fòmasyon an, paske li pral pote valè chans echantiyon an pi pre. , men, premyèman, algorithm sa a pral gen plis chans gen difikilte ak kapasite jeneralizasyon, ak dezyèmman, algorithm sa a pral definitivman pa lineyè. Men, si metòd pou konbat overtraining (egalman fèb jeneralizasyon kapasite) klèman pa enkli nan plan an nan atik sa a, Lè sa a, ann ale nan dezyèm pwen an plis detay. Pou fè sa, jis reponn yon kesyon senp. Èske pwobabilite pou Vasya ak Fedya ranbouse prè a ka menm, pran an kont faktè nou konnen? Soti nan pwen de vi nan lojik son, nan kou pa, li pa kapab. Se konsa, Vasya pral peye 2.5% nan salè li pou chak mwa yo repeye prè a, ak Fedya - prèske 27,8%. Epitou nan graf 2 "Klasifikasyon Kliyan" nou wè Vasya pi lwen pase liy ki separe klas yo pase Fedya. Epi finalman, nou konnen ke fonksyon an pou Vasya ak Fedya pran valè diferan: 4.24 pou Vasya ak 1.0 pou Fedya. Koulye a, si Fedya, pou egzanp, touche yon lòd nan grandè plis oswa mande pou yon prè ki pi piti, Lè sa a, pwobabilite yo pou repeye prè a pou Vasya ak Fedya ta dwe menm jan an. Nan lòt mo, depandans lineyè pa ka twonpe. Men, si nou aktyèlman kalkile chans yo , epi yo pa t 'pran yo soti nan lè mens, nou te kapab san danje di ke valè nou yo pi bon pèmèt nou estime pwobabilite pou ranbousman prè a pa chak prete lajan, men depi nou te dakò asime ke detèminasyon an nan koyefisyan yo te fèt dapre tout règ yo, Lè sa a, nou pral sipoze sa - koyefisyan nou yo pèmèt nou bay yon estimasyon pi bon nan pwobabilite a :)
Sepandan, nou digress. Nan seksyon sa a nou bezwen konprann ki jan vektè pwa yo detèmine , ki nesesè pou evalye pwobabilite pou ranbousman prè a pa chak prete lajan.
Se pou nou rezime yon ti tan ak ki asenal nou ale chèche chans :
1. Nou sipoze ke relasyon ki genyen ant varyab sib la (valè prediksyon) ak faktè ki enfliyanse rezilta a se lineyè. Pou rezon sa a yo itilize li fonksyon regresyon lineyè espès , liy ki divize objè (kliyan) an klas и oswa (kliyan ki kapab remèt prè a ak moun ki pa). Nan ka nou an, ekwasyon an gen fòm nan .
2. Nou itilize fonksyon logit envès espès pou detèmine pwobabilite pou yon objè ki fè pati yon klas .
3. Nou konsidere seri fòmasyon nou an kòm yon aplikasyon jeneralize Konplo Bernoulli, se sa ki, pou chak objè yon varyab o aza pwodwi, ki ak pwobabilite (pwòp li pou chak objè) pran valè 1 ak pwobabilite - NAN.
4. Nou konnen sa nou bezwen pou maksimize fonksyon chans echantiyon pran an konsiderasyon faktè yo aksepte pou echantiyon ki disponib la vin pi plauzib la. Nan lòt mo, nou bezwen chwazi paramèt kote echantiyon an pral pi posib. Nan ka nou an, paramèt la chwazi se pwobabilite pou ranbousman prè , ki an vire depann sou koyefisyan enkoni . Se konsa, nou bezwen jwenn tankou yon vektè nan pwa , nan ki chans pou echantiyon an pral maksimòm.
5. nou konnen sa pou maksimize echantiyon fonksyon chans ou ka itilize metòd maksimòm chans. Epi nou konnen tout ke trik nouvèl yo difisil yo travay ak metòd sa a.
Men ki jan li vire soti nan yon mouvman milti-etap :)
Koulye a, sonje ke nan kòmansman an anpil nan atik la nou te vle dériver de kalite fonksyon pèt Pèt lojistik depann sou fason klas objè yo deziyen. Li te rive ke nan pwoblèm klasifikasyon ak de klas, klas yo deziye kòm и oswa . Tou depan de notasyon an, pwodiksyon an pral gen yon fonksyon pèt korespondan.
Ka 1. Klasifikasyon objè yo nan и
Byen bonè, lè yo detèmine chans pou yon echantiyon, nan ki pwobabilite pou ranbousman dèt pa prete lajan an te kalkile ki baze sou faktè ak bay koyefisyan , nou aplike fòmil la:
Aktyèlman se siyifikasyon an fonksyon repons lojistik pou yon vektè pwa bay yo
Lè sa a, pa gen anyen ki anpeche nou ekri fonksyon chans echantiyon an jan sa a:
Li rive ke pafwa li difisil pou kèk analis inisyasyon imedyatman konprann ki jan fonksyon sa a fonksyone. Ann gade 4 egzanp kout ki pral klè bagay yo:
1. Si (sa vle di, dapre echantiyon fòmasyon an, objè a fè pati klas +1), ak algorithm nou an. detèmine pwobabilite pou klasifye yon objè nan yon klas egal a 0.9, Lè sa a, moso sa a nan chans echantiyon yo pral kalkile jan sa a:
2. Si Ak , Lè sa a, kalkil la pral tankou sa a:
3. Si Ak , Lè sa a, kalkil la pral tankou sa a:
4. Si Ak , Lè sa a, kalkil la pral tankou sa a:
Li evidan ke fonksyon chans yo pral maksimize nan ka 1 ak 3 oswa nan ka jeneral la - ak valè kòrèkteman devine nan pwobabilite yo nan plase yon objè nan yon klas. .
Akòz lefèt ke lè yo detèmine pwobabilite pou plase yon objè nan yon klas Nou sèlman pa konnen koyefisyan yo , Lè sa a, nou pral chèche pou yo. Kòm mansyone pi wo a, sa a se yon pwoblèm optimize nan ki premye nou bezwen jwenn derive nan fonksyon an chans ki gen rapò ak vektè a nan pwa. . Sepandan, premye li fè sans pou senplifye travay la pou tèt nou: nou pral chèche derive logaritm la. fonksyon chans.
Poukisa apre logaritm, nan fonksyon erè lojistik, nou chanje siy ki soti nan sou . Tout bagay senp, piske nan pwoblèm pou evalye kalite yon modèl li abitye minimize valè yon fonksyon, nou miltipliye bò dwat ekspresyon an pa epi kòmsadwa, olye pou yo maksimize, kounye a nou minimize fonksyon an.
Aktyèlman, kounye a, devan je ou, fonksyon pèt la te rigoureusement sòti - Pèt lojistik pou yon seri fòmasyon ak de klas: и .
Koulye a, pou jwenn koyefisyan yo, nou jis bezwen jwenn derive a fonksyon erè lojistik ak Lè sa a, lè l sèvi avèk metòd optimize nimerik, tankou desandan gradyan oswa desandan gradyan stochastic, chwazi koyefisyan ki pi optimal yo. . Men, bay volim nan konsiderab nan atik la, li pwopoze pote soti nan diferansyasyon an poukont ou, oswa petèt sa a pral yon sijè pou pwochen atik la ak yon anpil nan aritmetik san yo pa egzanp detaye sa yo.
Ka 2. Klasifikasyon objè yo nan и
Apwòch la isit la pral menm jan ak klas yo и , men chemen an tèt li nan pwodiksyon an nan fonksyon an pèt Pèt lojistik, yo pral plis òneman. An n kòmanse. Pou fonksyon chans nou pral sèvi ak operatè a "si... Lè sa a..."... Sa se, si Tèm objè a fè pati klas la , Lè sa a, pou kalkile chans pou echantiyon an nou itilize pwobabilite a , si objè a fè pati klas la , Lè sa a, nou ranplase nan chans lan . Men sa fonksyon chans lan sanble:
Se pou nou dekri sou dwèt nou ki jan li fonksyone. Ann konsidere 4 ka:
1. Si и , Lè sa a, chans pou pran echantiyon an pral "ale"
2. Si и , Lè sa a, chans pou pran echantiyon an pral "ale"
3. Si и , Lè sa a, chans pou pran echantiyon an pral "ale"
4. Si и , Lè sa a, chans pou pran echantiyon an pral "ale"
Li evidan ke nan ka 1 ak 3, lè pwobabilite yo te kòrèkteman detèmine pa algorithm la, fonksyon chans pral maksimize, se sa ki, sa a se egzakteman sa nou te vle jwenn. Sepandan, apwòch sa a se byen ankonbran ak pwochen nou pral konsidere yon notasyon plis kontra enfòmèl ant. Men, anvan, se pou yo logaritm fonksyon an chans ak yon chanjman nan siy, depi kounye a nou pral minimize li.
Ann ranplase pito ekspresyon :
Ann senplifye bon tèm anba logaritm la lè l sèvi avèk teknik aritmetik senp epi jwenn:
Koulye a, li lè yo debarase m de operatè a "si... Lè sa a...". Remake byen ke lè yon objè ki fè pati klas la , Lè sa a, nan ekspresyon ki anba logaritm la, nan denominatè a, leve sou pouvwa a , si objè a fè pati klas la , Lè sa a, $e$ leve sou pouvwa a . Se poutèt sa, notasyon an pou degre ka senplifye lè w konbine tou de ka yo nan yon sèl: . Lè sa a ,. fonksyon erè lojistik pral pran fòm sa a:
An akò ak règ logaritm yo, nou vire fraksyon nan epi mete siy la "."(mwens) pou logaritm la, nou jwenn:
Isit la se fonksyon pèt la pèt lojistik, ki itilize nan seri fòmasyon an ak objè yo asiyen nan klas yo: и .
Oke, nan pwen sa a mwen pran konje mwen epi nou konkli atik la.
Materyèl oksilyè
1. Literati
1) Aplike analiz regresyon / N. Draper, G. Smith - 2yèm ed. – M.: Finans ak Estatistik, 1986 (tradiksyon nan lang angle)
2) Teyori pwobabilite ak estatistik matematik / V.E. Gmurman - 9yèm ed. - M.: Lekòl siperyè, 2003
3) Teyori pwobabilite / N.I. Chernova - Novosibirsk: Novosibirsk State University, 2007
4) Analiz biznis: soti nan done nan konesans / Paklin N. B., Oreshkov V. I. - 2nd ed. — Saint Petersburg: Peter, 2013
5) Data Science Data science from scratch / Joel Gras - St. Petersburg: BHV Petersburg, 2017
6) Estatistik pratik pou espesyalis Syans Done / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018
2. Konferans, kou (videyo)
1)
2)
3)
4)
5)
3. Sous Entènèt
1)
2)
4)