Moulen sou regression lojistik

Moulen sou regression lojistik

Nan atik sa a, nou pral analize kalkil teyorik transfòmasyon an fonksyon regresyon lineyè в fonksyon transfòmasyon lojistik envès (otreman yo rele fonksyon repons lojistik). Lè sa a, lè l sèvi avèk asenal la metòd maksimòm chans, an akò ak modèl la regression lojistik, nou tire fonksyon pèt la Pèt lojistik, oswa nan lòt mo, nou pral defini yon fonksyon ak ki paramèt yo nan vektè pwa a yo chwazi nan modèl la regression lojistik. Moulen sou regression lojistik.

Deskripsyon atik:

  1. Ann repete relasyon lineyè ant de varyab
  2. Ann idantifye nesesite pou transfòmasyon fonksyon regresyon lineyè Moulen sou regression lojistik в fonksyon repons lojistik Moulen sou regression lojistik
  3. Ann pote soti nan transfòmasyon yo ak pwodiksyon an fonksyon repons lojistik
  4. Ann eseye konprann poukisa metòd la pi piti kare se move lè w ap chwazi paramèt Moulen sou regression lojistik fonksyon Pèt lojistik
  5. Nou itilize metòd maksimòm chans pou detèmine fonksyon seleksyon paramèt Moulen sou regression lojistik:

    5.1. Ka 1: fonksyon Pèt lojistik pou objè ki gen deziyasyon klas 0 и 1:

    Moulen sou regression lojistik

    5.2. Ka 2: fonksyon Pèt lojistik pou objè ki gen deziyasyon klas -1 и +1:

    Moulen sou regression lojistik


Atik la ranpli ak egzanp senp kote tout kalkil yo fasil pou fè oralman oswa sou papye; nan kèk ka, yon kalkilatris ka nesesè. Se konsa, pare :)

Atik sa a se sitou gen entansyon pou syantis done ki gen yon nivo inisyal konesans nan Basics yo nan aprantisaj machin.

Atik la pral bay kòd tou pou desen graf ak kalkil. Tout kòd ekri nan lang lan piton 2.7. Kite m 'eksplike davans sou "nouveau" nan vèsyon an itilize - sa a se youn nan kondisyon yo pou pran kou a byen li te ye soti nan Yandèks sou yon platfòm edikasyon sou entènèt egalman byen li te ye Coursera, epi, jan yon moun ta ka sipoze, yo te prepare materyèl la baze sou kou sa a.

01. Depandans dwat

Li se byen rezonab pou poze kesyon an - ki sa depandans lineyè ak regresyon lojistik gen fè ak li?

Li senp! Regression lojistik se youn nan modèl ki fè pati klasifikasyon lineyè a. Nan mo senp, travay yon klasifikasyon lineyè se predi valè sib yo Moulen sou regression lojistik soti nan varyab (regresè) Moulen sou regression lojistik. Yo kwè ke depandans ki genyen ant karakteristik yo Moulen sou regression lojistik ak valè sib yo Moulen sou regression lojistik lineyè. Pakonsekan non an nan klasifikasyon an - lineyè. Pou mete li trè apeprè, modèl regresyon lojistik la baze sou sipozisyon ke gen yon relasyon lineyè ant karakteristik yo. Moulen sou regression lojistik ak valè sib yo Moulen sou regression lojistik. Sa a se koneksyon an.

Gen premye egzanp nan estidyo a, epi li se, kòrèkteman, sou depandans nan rektliniè nan kantite yo ap etidye. Nan pwosesis la nan prepare atik la, mwen te vin atravè yon egzanp ki te deja mete anpil moun sou kwen - depandans aktyèl la sou vòltaj. ("Analiz regresyon aplike", N. Draper, G. Smith). Nou pral gade li isit la tou.

Dapre Lwa Ohm:

Moulen sou regression lojistikkote Moulen sou regression lojistik - fòs aktyèl, Moulen sou regression lojistik - vòltaj, Moulen sou regression lojistik - rezistans.

Si nou pat konnen Lalwa Ohm, Lè sa a, nou ta ka jwenn depandans la anpirik lè nou chanje Moulen sou regression lojistik ak mezire Moulen sou regression lojistik, pandan y ap sipòte Moulen sou regression lojistik fiks. Lè sa a, nou ta wè ke graf la depandans Moulen sou regression lojistik soti nan Moulen sou regression lojistik bay yon liy plis oswa mwens dwat atravè orijin nan. Nou di "plis oswa mwens" paske, byenke relasyon an se aktyèlman egzat, mezi nou yo ka gen ti erè, ak Se poutèt sa pwen yo sou graf la ka pa tonbe egzakteman sou liy lan, men yo pral gaye alantou li owaza.

Grafik 1 "Depandans" Moulen sou regression lojistik soti nan Moulen sou regression lojistik»

Moulen sou regression lojistik

Kòd desen tablo

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. Bezwen pou transfòme ekwasyon regression lineyè a

Ann gade yon lòt egzanp. Ann imajine ke nou travay nan yon bank ak travay nou an se detèmine chans pou prete lajan an repeye prè a depann sou sèten faktè. Pou senplifye travay la, nou pral konsidere sèlman de faktè: salè chak mwa prete lajan an ak kantite lajan an ranbousman chak mwa.

Travay la trè kondisyonèl, men ak egzanp sa a nou ka konprann poukisa li pa ase pou itilize fonksyon regresyon lineyè, epi tou chèche konnen ki transfòmasyon yo bezwen fèt ak fonksyon an.

Ann retounen nan egzanp lan. Li konprann ke pi wo salè a, plis prete lajan an yo pral kapab asiyen chak mwa pou repeye prè a. An menm tan an, pou yon seri salè sèten relasyon sa a pral byen lineyè. Pou egzanp, ann pran yon seri salè soti nan 60.000 RUR a 200.000 RUR epi sipoze ke nan seri a salè espesifye, depandans nan gwosè a nan peman an chak mwa sou gwosè a nan salè a se lineyè. Ann di ke pou seri a espesifye nan salè yo te revele ke rapò a salè-a-peman pa ka tonbe anba a 3 epi prete lajan an dwe toujou gen 5.000 RUR an rezèv. Epi sèlman nan ka sa a, nou pral asime ke prete lajan an ap remèt prè a nan bank la. Lè sa a, ekwasyon regression lineyè a pral pran fòm sa a:

Moulen sou regression lojistik

kote Moulen sou regression lojistik, Moulen sou regression lojistik, Moulen sou regression lojistik, Moulen sou regression lojistik - salè Moulen sou regression lojistik-yèm prete lajan, Moulen sou regression lojistik - peman prè Moulen sou regression lojistik-yèm prete lajan.

Ranplase salè ak peman prè ak paramèt fiks nan ekwasyon an Moulen sou regression lojistik Ou ka deside si ou bay oswa refize yon prè.

Gade pi devan, nou sonje ke, ak paramèt yo bay yo Moulen sou regression lojistik fonksyon regresyon lineyè, itilize nan fonksyon repons lojistik pral pwodwi gwo valè ki pral konplike kalkil yo detèmine pwobabilite yo nan ranbousman prè. Se poutèt sa, li pwopoze pou redwi koyefisyan nou an, ann di, pa 25.000 fwa. Sa a transfòmasyon nan koyefisyan yo pa pral chanje desizyon an bay yon prè. Se pou nou sonje pwen sa a pou tan kap vini an, men kounye a, fè li menm pi klè sa n ap pale de, an n konsidere sitiyasyon an ak twa prete potansyèl yo.

Tablo 1 "Prete potansyèl yo"

Moulen sou regression lojistik

Kòd pou jenere tab la

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

Dapre done ki nan tablo a, Vasya, ak yon salè 120.000 RUR, vle resevwa yon prè pou li ka remèt li chak mwa nan 3.000 RUR. Nou te detèmine ke yo nan lòd yo apwouve prè a, salè Vasya a dwe depase twa fwa kantite lajan an nan peman an, epi yo dwe toujou gen 5.000 RUR ki rete. Vasya satisfè kondisyon sa a: Moulen sou regression lojistik. Menm 106.000 RUR rete. Malgre lefèt ke lè kalkile Moulen sou regression lojistik nou te redwi chans yo Moulen sou regression lojistik 25.000 fwa, rezilta a te menm bagay la tou - ka prè a dwe apwouve. Fedya pral tou resevwa yon prè, men Lesha, malgre lefèt ke li resevwa pi plis la, pral oblije kwape apeti li.

Ann trase yon graf pou ka sa a.

Tablo 2 "Klasifikasyon prete yo"

Moulen sou regression lojistik

Kòd pou trase graf la

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Se konsa, liy dwat nou an, konstwi an akò ak fonksyon an Moulen sou regression lojistik, separe "move" prete yo ak "bon" yo. Moun sa yo ki prete ki gen dezi pa kowenside ak kapasite yo pi wo pase liy lan (Lesha), pandan ke moun ki, dapre paramèt yo nan modèl nou an, yo kapab repeye prè a yo anba liy lan (Vasya ak Fedya). Nan lòt mo, nou ka di sa a: liy dirèk nou an divize prete yo an de klas. Se pou nou endike yo jan sa a: nan klas Moulen sou regression lojistik Nou pral klase emprunteurs sa yo ki gen plis chans pou repeye prè a kòm Moulen sou regression lojistik oswa Moulen sou regression lojistik Nou pral enkli moun ki prete ki gen plis chans pa yo pral kapab remèt prè a.

Ann rezime konklizyon ki soti nan egzanp senp sa a. Ann pran yon pwen Moulen sou regression lojistik epi, ranplase kowòdone pwen an nan ekwasyon korespondan liy lan Moulen sou regression lojistik, konsidere twa opsyon:

  1. Si pwen an anba liy lan epi nou bay klas la li Moulen sou regression lojistik, Lè sa a, valè a nan fonksyon an Moulen sou regression lojistik pral pozitif soti nan Moulen sou regression lojistik до Moulen sou regression lojistik. Sa vle di nou ka asime ke pwobabilite pou repeye prè a se nan Moulen sou regression lojistik. Pi gwo valè fonksyon an, se pi gwo pwobabilite a.
  2. Si yon pwen anlè yon liy epi nou bay klas la li Moulen sou regression lojistik oswa Moulen sou regression lojistik, Lè sa a, valè a nan fonksyon an pral negatif soti nan Moulen sou regression lojistik до Moulen sou regression lojistik. Lè sa a, nou pral asime ke pwobabilite pou ranbousman dèt la se nan Moulen sou regression lojistik epi, pi gwo valè absoli fonksyon an, se pi gwo konfyans nou.
  3. Pwen an se sou yon liy dwat, sou fwontyè ant de klas yo. Nan ka sa a, valè fonksyon an Moulen sou regression lojistik pral egal Moulen sou regression lojistik ak pwobabilite pou ranbouse prè a egal a Moulen sou regression lojistik.

Koulye a, an n imajine ke nou pa gen de faktè, men plizyè douzèn, epi yo pa twa, men dè milye de prete. Lè sa a, olye de yon liy dwat nou pral genyen m-dimansyon plan ak koyefisyan Moulen sou regression lojistik nou pa pral pran soti nan lè mens, men sòti dapre tout règ yo, ak sou baz done akimile sou prete ki gen oswa ki pa gen repeye prè a. Ak tout bon, sonje ke nou yo kounye a se chwazi prete lè l sèvi avèk koyefisyan deja li te ye Moulen sou regression lojistik. An reyalite, travay la nan modèl la regression lojistik se jisteman detèmine paramèt yo Moulen sou regression lojistik, nan ki valè fonksyon pèt la Pèt lojistik pral gen tandans pou minimòm lan. Men sou ki jan vektè a kalkile Moulen sou regression lojistik, n ap jwenn plis enfòmasyon nan 5yèm seksyon atik la. Nan entre-temps la, nou retounen nan peyi te pwomèt la - nan Bankye nou an ak twa kliyan l 'yo.

Mèsi a fonksyon an Moulen sou regression lojistik nou konnen ki moun ki ka bay yon prè ak ki moun ki bezwen refize. Men, ou pa ka ale nan direktè a ak enfòmasyon sa yo, paske yo te vle jwenn nan men nou pwobabilite pou ranbousman prè a pa chak prete lajan. Kisa pou fe? Repons lan se senp - nou bezwen yon jan kanmenm transfòme fonksyon an Moulen sou regression lojistik, ki gen valè kouche nan seri a Moulen sou regression lojistik nan yon fonksyon ki gen valè yo pral kouche nan seri a Moulen sou regression lojistik. Ak fonksyon sa a egziste, li rele fonksyon repons lojistik oswa transfòmasyon envès-logit. Rankontre:

Moulen sou regression lojistik

Ann wè etap pa etap ki jan li fonksyone fonksyon repons lojistik. Remake byen ke nou pral mache nan direksyon opoze a, i.e. nou pral asime ke nou konnen valè a pwobabilite, ki manti nan seri a soti nan Moulen sou regression lojistik до Moulen sou regression lojistik ak Lè sa a, nou pral "demonte" valè sa a nan seri a tout antye de nimewo soti nan Moulen sou regression lojistik до Moulen sou regression lojistik.

03. Nou tire fonksyon repons lojistik la

Etap 1. Konvèti valè pwobabilite yo nan yon seri Moulen sou regression lojistik

Pandan transfòmasyon fonksyon an Moulen sou regression lojistik в fonksyon repons lojistik Moulen sou regression lojistik Nou pral kite analis kredi nou an pou kont li epi fè yon toune nan boukmèyker yo pito. Non, nan kou, nou pa pral mete parye, tout sa ki enterese nou gen siyifikasyon an nan ekspresyon an, pou egzanp, chans lan se 4 a 1. Chans yo, abitye nan tout paryeur, se rapò a nan "siksè" ak " echèk”. Nan tèm pwobabilite, chans yo se pwobabilite pou yon evènman rive divize pa pwobabilite pou evènman an pa rive. Ann ekri fòmil pou chans pou yon evènman rive Moulen sou regression lojistik:

Moulen sou regression lojistik

kote Moulen sou regression lojistik - pwobabilite pou yon evènman rive, Moulen sou regression lojistik — pwobabilite pou yon evènman PA rive

Pou egzanp, si pwobabilite pou yon chwal jèn, fò ak jwe sou non "Veterok" pral bat yon vye granmoun ak flask fanm ki rele "Matilda" nan yon kous egal a Moulen sou regression lojistik, Lè sa a, chans yo nan siksè pou "Veterok" yo pral Moulen sou regression lojistik к Moulen sou regression lojistik Moulen sou regression lojistik ak vis vèrsa, konnen chans yo, li pa pral difisil pou nou kalkile pwobabilite a Moulen sou regression lojistik:

Moulen sou regression lojistik

Kidonk, nou te aprann "tradwi" pwobabilite nan chans, ki pran valè nan Moulen sou regression lojistik до Moulen sou regression lojistik. Ann fè yon lòt etap epi aprann "tradwi" pwobabilite a nan liy nimerik la tout antye Moulen sou regression lojistik до Moulen sou regression lojistik.

Etap 2. Konvèti valè pwobabilite yo nan yon seri Moulen sou regression lojistik

Etap sa a trè senp - ann pran logaritm chans yo nan baz nimewo Euler la. Moulen sou regression lojistik epi nou jwenn:

Moulen sou regression lojistik

Kounye a nou konnen ke si Moulen sou regression lojistik, Lè sa a, kalkile valè a Moulen sou regression lojistik pral trè senp epi, anplis, li ta dwe pozitif: Moulen sou regression lojistik. Sa a se vre.

Soti nan kiryozite, an n tcheke e si Moulen sou regression lojistik, Lè sa a, nou espere wè yon valè negatif Moulen sou regression lojistik. Nou tcheke: Moulen sou regression lojistik. Se vre.

Koulye a, nou konnen ki jan yo konvèti valè a pwobabilite soti nan Moulen sou regression lojistik до Moulen sou regression lojistik sou tout liy nimewo a soti nan Moulen sou regression lojistik до Moulen sou regression lojistik. Nan pwochen etap la nou pral fè opoze a.

Pou kounye a, nou sonje ke an akò ak règ yo nan logaritm, konnen valè a nan fonksyon an Moulen sou regression lojistik, ou ka kalkile chans yo:

Moulen sou regression lojistik

Metòd sa a pou detèmine chans yo pral itil nou nan pwochen etap la.

Etap 3. Ann dériver yon fòmil pou detèmine Moulen sou regression lojistik

Se konsa, nou te aprann, konnen Moulen sou regression lojistik, jwenn valè fonksyon Moulen sou regression lojistik. Sepandan, an reyalite, nou bezwen egzakteman opoze a - konnen valè a Moulen sou regression lojistik jwenn Moulen sou regression lojistik. Pou fè sa, se pou nou ale nan yon konsèp tankou fonksyon chans envès, dapre ki:

Moulen sou regression lojistik

Nan atik la nou pa pral derive fòmil ki anwo a, men nou pral tcheke li lè l sèvi avèk nimewo ki soti nan egzanp ki anwo a. Nou konnen ke ak chans 4 a 1 (Moulen sou regression lojistik), pwobabilite pou evènman an rive se 0.8 (Moulen sou regression lojistik). Ann fè yon sibstitisyon: Moulen sou regression lojistik. Sa a kowenside ak kalkil nou te fè pi bonè. Ann avanse.

Nan dènye etap la nou dedwi sa Moulen sou regression lojistik, ki vle di ou ka fè yon sibstitisyon nan fonksyon chans envès la. Nou jwenn:

Moulen sou regression lojistik

Divize nimeratè a ak denominatè a pa Moulen sou regression lojistik, Lè sa a:

Moulen sou regression lojistik

Jis nan ka, asire w ke nou pa te fè yon erè nenpòt kote, nou pral fè yon lòt ti chèk. Nan etap 2, nou pou Moulen sou regression lojistik detèmine sa Moulen sou regression lojistik. Lè sa a, ranplase valè a Moulen sou regression lojistik nan fonksyon an repons lojistik, nou espere jwenn Moulen sou regression lojistik. Nou ranplase epi jwenn: Moulen sou regression lojistik

Felisitasyon, chè lektè, nou jis sòti ak teste fonksyon repons lojistik la. Ann gade graf fonksyon an.

Grafik 3 "Fonksyon repons lojistik"

Moulen sou regression lojistik

Kòd pou trase graf la

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Nan literati a ou ka jwenn tou non fonksyon sa a kòm fonksyon sigmoid. Grafik la montre klèman ke chanjman prensipal la nan pwobabilite pou yon objè ki fè pati yon klas rive nan yon seri relativman piti. Moulen sou regression lojistik, yon kote nan Moulen sou regression lojistik до Moulen sou regression lojistik.

Mwen sijere retounen nan analis kredi nou an epi ede l 'kalkile pwobabilite pou ranbousman prè, otreman li riske yo te kite san yon bonis :)

Tablo 2 "Prete potansyèl yo"

Moulen sou regression lojistik

Kòd pou jenere tab la

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Se konsa, nou te detèmine pwobabilite pou ranbousman prè. An jeneral, sa sanble vre.

Vreman vre, pwobabilite pou Vasya, ak yon salè 120.000 RUR, yo pral kapab bay 3.000 RUR nan bank la chak mwa se fèmen nan 100%. By wout la, nou dwe konprann ke bank la ka bay yon prè bay Lesha si règleman bank la bay, pou egzanp, pou prete bay kliyan ki gen yon pwobabilite pou ranbousman prè a plis pase, di, 0.3. Li jis ke nan ka sa a bank la pral kreye yon rezèv pi gwo pou pèt posib.

Li ta dwe remake tou ke rapò a salè-a-peman nan omwen 3 ak ak yon maj nan 5.000 RUR te pran nan plafon an. Se poutèt sa, nou pa t 'kapab itilize vektè pwa a nan fòm orijinal li Moulen sou regression lojistik. Nou te bezwen redwi anpil koyefisyan yo, ak nan ka sa a nou divize chak koyefisyan pa 25.000, se sa ki, nan sans, nou ajiste rezilta a. Men, sa a te fè espesyalman pou senplifye konpreyansyon yo genyen sou materyèl la nan premye etap la. Nan lavi, nou pa pral bezwen envante ak ajiste koyefisyan, men jwenn yo. Nan pwochen seksyon atik la nou pral tire ekwasyon yo chwazi paramèt yo Moulen sou regression lojistik.

04. Metòd pi piti kare pou detèmine vektè pwa yo Moulen sou regression lojistik nan fonksyon repons lojistik la

Nou deja konnen metòd sa a pou chwazi yon vektè pwa Moulen sou regression lojistikKòm metòd pi piti kare (LSM) e an reyalite, poukisa nou pa sèvi ak li nan pwoblèm klasifikasyon binè? Vreman vre, pa gen anyen anpeche w itilize MNC, se sèlman metòd sa a nan pwoblèm klasifikasyon bay rezilta ki mwens egzat pase Pèt lojistik. Gen yon baz teyorik pou sa. Ann premye gade nan yon egzanp senp.

Ann sipoze ke modèl nou yo (itilize MSE и Pèt lojistik) deja kòmanse chwazi vektè pwa yo Moulen sou regression lojistik epi nou sispann kalkil la nan kèk etap. Li pa enpòtan si wi ou non nan mitan an, nan fen a oswa nan kòmansman an, bagay prensipal la se ke nou deja gen kèk valè nan vektè a nan pwa epi an n sipoze ke nan etap sa a, vektè a nan pwa. Moulen sou regression lojistik pou tou de modèl pa gen okenn diferans. Lè sa a, pran pwa ki kapab lakòz yo epi ranplase yo nan fonksyon repons lojistik (Moulen sou regression lojistik) pou kèk objè ki fè pati klas la Moulen sou regression lojistik. Nou egzamine de ka lè, an akò ak vektè a chwazi nan pwa, modèl nou an trè erè ak vis vèrsa - modèl la gen anpil konfyans ke objè a fè pati klas la. Moulen sou regression lojistik. Ann wè ki amann yo pral bay lè w ap itilize MNC и Pèt lojistik.

Kòd pou kalkile penalite selon fonksyon pèt yo itilize

# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1

# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2

Yon ka yon erè — modèl la bay yon objè nan yon klas Moulen sou regression lojistik ak yon pwobabilite 0,01

Sanksyon sou itilizasyon MNC ap:
Moulen sou regression lojistik

Sanksyon sou itilizasyon Pèt lojistik ap:
Moulen sou regression lojistik

Yon ka nan konfyans fò — modèl la bay yon objè nan yon klas Moulen sou regression lojistik ak yon pwobabilite 0,99

Sanksyon sou itilizasyon MNC ap:
Moulen sou regression lojistik

Sanksyon sou itilizasyon Pèt lojistik ap:
Moulen sou regression lojistik

Egzanp sa a montre byen ke nan ka ta gen yon erè brit fonksyon pèt la Log Pèt penalize modèl la siyifikativman plis pase MSE. Ann konprann kounye a ki sa background nan teyorik se lè l sèvi avèk fonksyon pèt la Log Pèt nan pwoblèm klasifikasyon.

05. Metòd maksimòm chans ak regression lojistik

Kòm te pwomèt la nan kòmansman an, atik la gen anpil egzanp senp. Nan estidyo a gen yon lòt egzanp ak envite fin vye granmoun - prete labank: Vasya, Fedya ak Lesha.

Jis nan ka, anvan yo devlope egzanp lan, kite m 'fè ou sonje ke nan lavi nou ap fè fas ak yon echantiyon fòmasyon nan dè milye oswa dè milyon de objè ki gen plizyè dizèn oswa dè santèn de karakteristik. Sepandan, isit la nimewo yo pran pou yo ka fasilman anfòm nan tèt la nan yon syantis done inisyasyon.

Ann retounen nan egzanp lan. Ann imajine ke direktè bank la deside bay yon prè bay tout moun ki nan bezwen, malgre lefèt ke algorithm la te di l 'pa bay li bay Lesha. Epi kounyeya ase tan pase e nou konnen kilès nan twa ewo yo ki te remèt prè a e kiyès ki pa t fè sa. Ki sa ki te dwe atann: Vasya ak Fedya remèt prè a, men Lesha pa t '. Koulye a, an n imajine ke rezilta sa a pral yon echantiyon fòmasyon nouvo pou nou epi, an menm tan an, se kòm si tout done sou faktè ki enfliyanse chans pou ranbouse prè a (salè prete lajan an, gwosè peman an chak mwa) te disparèt. Lè sa a, entwitif, nou ka asime ke chak twazyèm prete pa ranbouse prè a nan bank la, oswa nan lòt mo, pwobabilite pou pwochen prete lajan an remèt prè a. Moulen sou regression lojistik. Sipozisyon sa a entwisyon gen konfimasyon teyorik epi li baze sou metòd maksimòm chans, souvan nan literati yo rele li prensip maksimòm chans.

Premyèman, ann fè konesans ak aparèy konseptyèl ekspresyon an.

Chans pou pran echantiyon se pwobabilite pou jwenn egzakteman yon echantiyon konsa, jwenn egzakteman obsèvasyon/rezilta sa yo, i.e. pwodwi a nan pwobabilite yo pou jwenn chak nan rezilta echantiyon yo (pa egzanp, si prè a nan Vasya, Fedya ak Lesha te remèt oswa ou pa ranbouse an menm tan an).

Fonksyon chans gen rapò chans pou yon echantiyon ak valè paramèt distribisyon yo.

Nan ka nou an, echantiyon fòmasyon an se yon konplo Bernoulli jeneralize, nan ki varyab o aza a pran sèlman de valè: Moulen sou regression lojistik oswa Moulen sou regression lojistik. Se poutèt sa, chans echantiyon an ka ekri kòm yon fonksyon chans nan paramèt la Moulen sou regression lojistik jan sa a:

Moulen sou regression lojistik
Moulen sou regression lojistik

Antre ki anwo a ka entèprete jan sa a. Pwobabilite a jwenti ke Vasya ak Fedya pral remèt prè a egal a Moulen sou regression lojistik, pwobabilite pou Lesha PA repeye prè a egal a Moulen sou regression lojistik (depi se pa ranbousman prè a ki te fèt), kidonk pwobabilite jwenti tout twa evènman yo egal Moulen sou regression lojistik.

Metòd maksimòm chans se yon metòd pou estime yon paramèt enkoni pa maksimize fonksyon chans. Nan ka nou an, nou bezwen jwenn yon valè konsa Moulen sou regression lojistiknan ki ... Moulen sou regression lojistik rive nan maksimòm li.

Ki kote lide aktyèl la soti - pou chèche valè yon paramèt enkoni nan ki fonksyon chans lan rive nan yon maksimòm? Orijin lide a soti nan lide ke yon echantiyon se sèl sous konesans ki disponib pou nou sou popilasyon an. Tout sa nou konnen sou popilasyon an reprezante nan echantiyon an. Se poutèt sa, tout sa nou ka di se ke yon echantiyon se refleksyon ki pi egzak nan popilasyon an ki disponib pou nou. Se poutèt sa, nou bezwen jwenn yon paramèt kote echantiyon ki disponib la vin pi pwobab la.

Li evidan, nou ap fè fas ak yon pwoblèm optimize nan ki nou bezwen jwenn pwen an ekstrèm nan yon fonksyon. Pou jwenn pwen an ekstrèm, li nesesè yo konsidere kondisyon an premye lòd, se sa ki, egalize derive nan fonksyon an zewo epi rezoud ekwasyon an ki gen rapò ak paramèt vle a. Sepandan, chèche derive yon pwodwi nan yon gwo kantite faktè ka yon travay long; pou fè pou evite sa a, gen yon teknik espesyal - chanje nan logaritm la. fonksyon chans. Poukisa yon tranzisyon konsa posib? Se pou nou peye atansyon sou lefèt ke nou pa ap chèche pou ekstrèm nan fonksyon nan tèt liMoulen sou regression lojistik, ak pwen an ekstrèm, se sa ki, valè a nan paramèt la enkoni Moulen sou regression lojistiknan ki ... Moulen sou regression lojistik rive nan maksimòm li. Lè w ap deplase nan yon logaritm, pwen ekstrèm nan pa chanje (byenke ekstrèm nan tèt li ap diferan), paske logaritm nan se yon fonksyon monotone.

Ann, an akò ak pi wo a, kontinye devlope egzanp nou an ak prè soti nan Vasya, Fedya ak Lesha. Premye ann ale nan logaritm fonksyon chans:

Moulen sou regression lojistik

Koulye a, nou ka fasilman diferansye ekspresyon an pa Moulen sou regression lojistik:

Moulen sou regression lojistik

Epi finalman, konsidere kondisyon premye lòd la - nou egalize derive fonksyon an ak zewo:

Moulen sou regression lojistik

Kidonk, estimasyon entwisyon nou an nan pwobabilite pou ranbousman prè Moulen sou regression lojistik teyorikman jistifye.

Gwo, men kisa nou ta dwe fè ak enfòmasyon sa yo kounye a? Si nou sipoze ke chak twazyèm prete pa retounen lajan an nan bank la, Lè sa a, lèt la pral inevitableman ale depourvu. Sa a dwat, men sèlman lè evalye pwobabilite pou ranbousman prè egal a Moulen sou regression lojistik Nou pa t 'pran an kont faktè ki enfliyanse ranbousman prè: salè prete lajan an ak gwosè a nan peman an chak mwa. Se pou nou sonje ke nou te deja kalkile pwobabilite pou ranbousman prè a pa chak kliyan, pran an kont faktè sa yo menm. Li lojik ke nou jwenn pwobabilite diferan de konstan egal a Moulen sou regression lojistik.

Ann defini chans pou echantiyon yo genyen:

Kòd pou kalkile echantiyon chans

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)

Egzanp chans pou yon valè konstan Moulen sou regression lojistik:

Moulen sou regression lojistik

Egzanp chans lè kalkile pwobabilite pou ranbousman prè pran an kont faktè Moulen sou regression lojistik:

Moulen sou regression lojistik
Moulen sou regression lojistik

Chans pou yon echantiyon ki gen yon pwobabilite kalkile depann sou faktè yo te vin pi wo pase chans pou yon valè pwobabilite konstan. Ki sa sa a vle di? Sa a sijere ke konesans sou faktè yo te fè li posib pi byen chwazi pwobabilite pou ranbousman prè pou chak kliyan. Se poutèt sa, lè yo bay pwochen prè a, li ta pi kòrèk pou sèvi ak modèl yo pwopoze nan fen seksyon 3 nan atik la pou evalye pwobabilite pou ranbousman dèt la.

Men, lè sa a, si nou vle maksimize fonksyon chans echantiyon, Lè sa a, poukisa pa sèvi ak kèk algorithm ki pral pwodwi pwobabilite pou Vasya, Fedya ak Lesha, pou egzanp, egal a 0.99, 0.99 ak 0.01, respektivman. Petèt yon algorithm konsa ap fè byen sou echantiyon fòmasyon an, paske li pral pote valè chans echantiyon an pi pre. Moulen sou regression lojistik, men, premyèman, algorithm sa a pral gen plis chans gen difikilte ak kapasite jeneralizasyon, ak dezyèmman, algorithm sa a pral definitivman pa lineyè. Men, si metòd pou konbat overtraining (egalman fèb jeneralizasyon kapasite) klèman pa enkli nan plan an nan atik sa a, Lè sa a, ann ale nan dezyèm pwen an plis detay. Pou fè sa, jis reponn yon kesyon senp. Èske pwobabilite pou Vasya ak Fedya ranbouse prè a ka menm, pran an kont faktè nou konnen? Soti nan pwen de vi nan lojik son, nan kou pa, li pa kapab. Se konsa, Vasya pral peye 2.5% nan salè li pou chak mwa yo repeye prè a, ak Fedya - prèske 27,8%. Epitou nan graf 2 "Klasifikasyon Kliyan" nou wè Vasya pi lwen pase liy ki separe klas yo pase Fedya. Epi finalman, nou konnen ke fonksyon an Moulen sou regression lojistik pou Vasya ak Fedya pran valè diferan: 4.24 pou Vasya ak 1.0 pou Fedya. Koulye a, si Fedya, pou egzanp, touche yon lòd nan grandè plis oswa mande pou yon prè ki pi piti, Lè sa a, pwobabilite yo pou repeye prè a pou Vasya ak Fedya ta dwe menm jan an. Nan lòt mo, depandans lineyè pa ka twonpe. Men, si nou aktyèlman kalkile chans yo Moulen sou regression lojistik, epi yo pa t 'pran yo soti nan lè mens, nou te kapab san danje di ke valè nou yo Moulen sou regression lojistik pi bon pèmèt nou estime pwobabilite pou ranbousman prè a pa chak prete lajan, men depi nou te dakò asime ke detèminasyon an nan koyefisyan yo Moulen sou regression lojistik te fèt dapre tout règ yo, Lè sa a, nou pral sipoze sa - koyefisyan nou yo pèmèt nou bay yon estimasyon pi bon nan pwobabilite a :)

Sepandan, nou digress. Nan seksyon sa a nou bezwen konprann ki jan vektè pwa yo detèmine Moulen sou regression lojistik, ki nesesè pou evalye pwobabilite pou ranbousman prè a pa chak prete lajan.

Se pou nou rezime yon ti tan ak ki asenal nou ale chèche chans Moulen sou regression lojistik:

1. Nou sipoze ke relasyon ki genyen ant varyab sib la (valè prediksyon) ak faktè ki enfliyanse rezilta a se lineyè. Pou rezon sa a yo itilize li fonksyon regresyon lineyè espès Moulen sou regression lojistik, liy ki divize objè (kliyan) an klas Moulen sou regression lojistik и Moulen sou regression lojistik oswa Moulen sou regression lojistik (kliyan ki kapab remèt prè a ak moun ki pa). Nan ka nou an, ekwasyon an gen fòm nan Moulen sou regression lojistik.

2. Nou itilize fonksyon logit envès espès Moulen sou regression lojistik pou detèmine pwobabilite pou yon objè ki fè pati yon klas Moulen sou regression lojistik.

3. Nou konsidere seri fòmasyon nou an kòm yon aplikasyon jeneralize Konplo Bernoulli, se sa ki, pou chak objè yon varyab o aza pwodwi, ki ak pwobabilite Moulen sou regression lojistik (pwòp li pou chak objè) pran valè 1 ak pwobabilite Moulen sou regression lojistik - NAN.

4. Nou konnen sa nou bezwen pou maksimize fonksyon chans echantiyon pran an konsiderasyon faktè yo aksepte pou echantiyon ki disponib la vin pi plauzib la. Nan lòt mo, nou bezwen chwazi paramèt kote echantiyon an pral pi posib. Nan ka nou an, paramèt la chwazi se pwobabilite pou ranbousman prè Moulen sou regression lojistik, ki an vire depann sou koyefisyan enkoni Moulen sou regression lojistik. Se konsa, nou bezwen jwenn tankou yon vektè nan pwa Moulen sou regression lojistik, nan ki chans pou echantiyon an pral maksimòm.

5. nou konnen sa pou maksimize echantiyon fonksyon chans ou ka itilize metòd maksimòm chans. Epi nou konnen tout ke trik nouvèl yo difisil yo travay ak metòd sa a.

Men ki jan li vire soti nan yon mouvman milti-etap :)

Koulye a, sonje ke nan kòmansman an anpil nan atik la nou te vle dériver de kalite fonksyon pèt Pèt lojistik depann sou fason klas objè yo deziyen. Li te rive ke nan pwoblèm klasifikasyon ak de klas, klas yo deziye kòm Moulen sou regression lojistik и Moulen sou regression lojistik oswa Moulen sou regression lojistik. Tou depan de notasyon an, pwodiksyon an pral gen yon fonksyon pèt korespondan.

Ka 1. Klasifikasyon objè yo nan Moulen sou regression lojistik и Moulen sou regression lojistik

Byen bonè, lè yo detèmine chans pou yon echantiyon, nan ki pwobabilite pou ranbousman dèt pa prete lajan an te kalkile ki baze sou faktè ak bay koyefisyan Moulen sou regression lojistik, nou aplike fòmil la:

Moulen sou regression lojistik

Aktyèlman Moulen sou regression lojistik se siyifikasyon an fonksyon repons lojistik Moulen sou regression lojistik pou yon vektè pwa bay yo Moulen sou regression lojistik

Lè sa a, pa gen anyen ki anpeche nou ekri fonksyon chans echantiyon an jan sa a:

Moulen sou regression lojistik

Li rive ke pafwa li difisil pou kèk analis inisyasyon imedyatman konprann ki jan fonksyon sa a fonksyone. Ann gade 4 egzanp kout ki pral klè bagay yo:

1. Si Moulen sou regression lojistik (sa vle di, dapre echantiyon fòmasyon an, objè a fè pati klas +1), ak algorithm nou an. Moulen sou regression lojistik detèmine pwobabilite pou klasifye yon objè nan yon klas Moulen sou regression lojistik egal a 0.9, Lè sa a, moso sa a nan chans echantiyon yo pral kalkile jan sa a:

Moulen sou regression lojistik

2. Si Moulen sou regression lojistikAk Moulen sou regression lojistik, Lè sa a, kalkil la pral tankou sa a:

Moulen sou regression lojistik

3. Si Moulen sou regression lojistikAk Moulen sou regression lojistik, Lè sa a, kalkil la pral tankou sa a:

Moulen sou regression lojistik

4. Si Moulen sou regression lojistikAk Moulen sou regression lojistik, Lè sa a, kalkil la pral tankou sa a:

Moulen sou regression lojistik

Li evidan ke fonksyon chans yo pral maksimize nan ka 1 ak 3 oswa nan ka jeneral la - ak valè kòrèkteman devine nan pwobabilite yo nan plase yon objè nan yon klas. Moulen sou regression lojistik.

Akòz lefèt ke lè yo detèmine pwobabilite pou plase yon objè nan yon klas Moulen sou regression lojistik Nou sèlman pa konnen koyefisyan yo Moulen sou regression lojistik, Lè sa a, nou pral chèche pou yo. Kòm mansyone pi wo a, sa a se yon pwoblèm optimize nan ki premye nou bezwen jwenn derive nan fonksyon an chans ki gen rapò ak vektè a nan pwa. Moulen sou regression lojistik. Sepandan, premye li fè sans pou senplifye travay la pou tèt nou: nou pral chèche derive logaritm la. fonksyon chans.

Moulen sou regression lojistik

Poukisa apre logaritm, nan fonksyon erè lojistik, nou chanje siy ki soti nan Moulen sou regression lojistik sou Moulen sou regression lojistik. Tout bagay senp, piske nan pwoblèm pou evalye kalite yon modèl li abitye minimize valè yon fonksyon, nou miltipliye bò dwat ekspresyon an pa Moulen sou regression lojistik epi kòmsadwa, olye pou yo maksimize, kounye a nou minimize fonksyon an.

Aktyèlman, kounye a, devan je ou, fonksyon pèt la te rigoureusement sòti - Pèt lojistik pou yon seri fòmasyon ak de klas: Moulen sou regression lojistik и Moulen sou regression lojistik.

Koulye a, pou jwenn koyefisyan yo, nou jis bezwen jwenn derive a fonksyon erè lojistik ak Lè sa a, lè l sèvi avèk metòd optimize nimerik, tankou desandan gradyan oswa desandan gradyan stochastic, chwazi koyefisyan ki pi optimal yo. Moulen sou regression lojistik. Men, bay volim nan konsiderab nan atik la, li pwopoze pote soti nan diferansyasyon an poukont ou, oswa petèt sa a pral yon sijè pou pwochen atik la ak yon anpil nan aritmetik san yo pa egzanp detaye sa yo.

Ka 2. Klasifikasyon objè yo nan Moulen sou regression lojistik и Moulen sou regression lojistik

Apwòch la isit la pral menm jan ak klas yo Moulen sou regression lojistik и Moulen sou regression lojistik, men chemen an tèt li nan pwodiksyon an nan fonksyon an pèt Pèt lojistik, yo pral plis òneman. An n kòmanse. Pou fonksyon chans nou pral sèvi ak operatè a "si... Lè sa a..."... Sa se, si Moulen sou regression lojistikTèm objè a fè pati klas la Moulen sou regression lojistik, Lè sa a, pou kalkile chans pou echantiyon an nou itilize pwobabilite a Moulen sou regression lojistik, si objè a fè pati klas la Moulen sou regression lojistik, Lè sa a, nou ranplase nan chans lan Moulen sou regression lojistik. Men sa fonksyon chans lan sanble:

Moulen sou regression lojistik

Se pou nou dekri sou dwèt nou ki jan li fonksyone. Ann konsidere 4 ka:

1. Si Moulen sou regression lojistik и Moulen sou regression lojistik, Lè sa a, chans pou pran echantiyon an pral "ale" Moulen sou regression lojistik

2. Si Moulen sou regression lojistik и Moulen sou regression lojistik, Lè sa a, chans pou pran echantiyon an pral "ale" Moulen sou regression lojistik

3. Si Moulen sou regression lojistik и Moulen sou regression lojistik, Lè sa a, chans pou pran echantiyon an pral "ale" Moulen sou regression lojistik

4. Si Moulen sou regression lojistik и Moulen sou regression lojistik, Lè sa a, chans pou pran echantiyon an pral "ale" Moulen sou regression lojistik

Li evidan ke nan ka 1 ak 3, lè pwobabilite yo te kòrèkteman detèmine pa algorithm la, fonksyon chans pral maksimize, se sa ki, sa a se egzakteman sa nou te vle jwenn. Sepandan, apwòch sa a se byen ankonbran ak pwochen nou pral konsidere yon notasyon plis kontra enfòmèl ant. Men, anvan, se pou yo logaritm fonksyon an chans ak yon chanjman nan siy, depi kounye a nou pral minimize li.

Moulen sou regression lojistik

Ann ranplase pito Moulen sou regression lojistik ekspresyon Moulen sou regression lojistik:

Moulen sou regression lojistik

Ann senplifye bon tèm anba logaritm la lè l sèvi avèk teknik aritmetik senp epi jwenn:

Moulen sou regression lojistik

Koulye a, li lè yo debarase m de operatè a "si... Lè sa a...". Remake byen ke lè yon objè Moulen sou regression lojistik ki fè pati klas la Moulen sou regression lojistik, Lè sa a, nan ekspresyon ki anba logaritm la, nan denominatè a, Moulen sou regression lojistik leve sou pouvwa a Moulen sou regression lojistik, si objè a fè pati klas la Moulen sou regression lojistik, Lè sa a, $e$ leve sou pouvwa a Moulen sou regression lojistik. Se poutèt sa, notasyon an pou degre ka senplifye lè w konbine tou de ka yo nan yon sèl: Moulen sou regression lojistik. Lè sa a ,. fonksyon erè lojistik pral pran fòm sa a:

Moulen sou regression lojistik

An akò ak règ logaritm yo, nou vire fraksyon nan epi mete siy la ".Moulen sou regression lojistik"(mwens) pou logaritm la, nou jwenn:

Moulen sou regression lojistik

Isit la se fonksyon pèt la pèt lojistik, ki itilize nan seri fòmasyon an ak objè yo asiyen nan klas yo: Moulen sou regression lojistik и Moulen sou regression lojistik.

Oke, nan pwen sa a mwen pran konje mwen epi nou konkli atik la.

Moulen sou regression lojistik Travay anvan otè a se "Pote ekwasyon regression lineyè a nan fòm matris"

Materyèl oksilyè

1. Literati

1) Aplike analiz regresyon / N. Draper, G. Smith - 2yèm ed. – M.: Finans ak Estatistik, 1986 (tradiksyon nan lang angle)

2) Teyori pwobabilite ak estatistik matematik / V.E. Gmurman - 9yèm ed. - M.: Lekòl siperyè, 2003

3) Teyori pwobabilite / N.I. Chernova - Novosibirsk: Novosibirsk State University, 2007

4) Analiz biznis: soti nan done nan konesans / Paklin N. B., Oreshkov V. I. - 2nd ed. — Saint Petersburg: Peter, 2013

5) Data Science Data science from scratch / Joel Gras - St. Petersburg: BHV Petersburg, 2017

6) Estatistik pratik pou espesyalis Syans Done / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018

2. Konferans, kou (videyo)

1) Sans nan metòd la maksimòm chans, Boris Demeshev

2) Metòd maksimòm chans nan ka a kontinyèl, Boris Demeshev

3) Regression lojistik. Louvri ODS kou, Yury Kashnitsky

4) Konferans 4, Evgeny Sokolov (apati 47 minit videyo)

5) Regression lojistik, Vyacheslav Vorontsov

3. Sous Entènèt

1) Klasifikasyon lineyè ak modèl regression

2) Ki jan yo fasil konprann regresyon lojistik

3) Fonksyon erè lojistik

4) Tès endepandan ak fòmil Bernoulli

5) Balad nan MMP

6) Metòd maksimòm chans

7) Fòmil ak pwopriyete logaritm yo

8) Poukisa nimewo Moulen sou regression lojistik?

9) Klasifikasyon lineyè

Sous: www.habr.com

Add nouvo kòmantè