Pag-usap sa logistic regression

Pag-usap sa logistic regression

Niini nga artikulo, atong analisahon ang teoretikal nga mga kalkulasyon sa pagbag-o mga function sa linear regression Π² inverse logit transformation function (kon dili gitawag nga logistic response function). Dayon, gamit ang arsenal maximum nga posibilidad nga pamaagi, uyon sa modelo sa logistic regression, nakuha namon ang function sa pagkawala Logistic nga Pagkawala, o sa laing pagkasulti, atong ipasabut ang usa ka function diin ang mga parameter sa gibug-aton nga vector gipili sa logistic regression model Pag-usap sa logistic regression.

Balay sa artikulo:

  1. Atong sublion ang linear nga relasyon tali sa duha ka variable
  2. Atong ilhon ang panginahanglan sa pagbag-o mga function sa linear regression Pag-usap sa logistic regression Π² logistic tubag function Pag-usap sa logistic regression
  3. Atong buhaton ang mga pagbag-o ug output logistic tubag function
  4. Atong sulayan nga masabtan kung ngano nga ang labing gamay nga pamaagi sa mga kwadro dili maayo sa pagpili sa mga parameter Pag-usap sa logistic regression gimbuhaton Logistic nga Pagkawala
  5. Gigamit namo maximum nga posibilidad nga pamaagi alang sa pagtino mga function sa pagpili sa parameter Pag-usap sa logistic regression:

    5.1. Kaso 1: function Logistic nga Pagkawala alang sa mga butang nga adunay mga ngalan sa klase 0 ΠΈ 1:

    Pag-usap sa logistic regression

    5.2. Kaso 2: function Logistic nga Pagkawala alang sa mga butang nga adunay mga ngalan sa klase -1 ΠΈ +1:

    Pag-usap sa logistic regression


Ang artikulo puno sa yano nga mga pananglitan diin ang tanan nga mga kalkulasyon sayon ​​​​buhaton sa binaba o sa papel; sa pipila ka mga kaso, ang usa ka calculator mahimong gikinahanglan. Busa pangandam :)

Kini nga artikulo sa panguna gituyo alang sa mga data scientist nga adunay pasiunang lebel sa kahibalo sa mga sukaranan sa pagkat-on sa makina.

Ang artikulo maghatag usab og code alang sa pagdrowing og mga graph ug kalkulasyon. Ang tanan nga code gisulat sa pinulongan sawa sa 2.7. Tugoti ako nga ipasabut daan ang bahin sa "bag-o" sa bersyon nga gigamit - kini usa sa mga kondisyon alang sa pagkuha sa ilado nga kurso gikan sa Yandex sa usa ka bantog nga online nga plataporma sa edukasyon Coursera, ug, sama sa mahimong hunahunaon sa usa, ang materyal giandam base niini nga kurso.

01. Tul-id nga linya nga pagsalig

Makatarunganon ang pagpangutana sa pangutana - unsa ang kalabotan niini sa linear dependence ug logistic regression?

Yano ra! Ang logistic regression usa sa mga modelo nga nahisakop sa linear classifier. Sa yano nga mga pulong, ang tahas sa usa ka linear classifier mao ang pagtagna sa mga target nga kantidad Pag-usap sa logistic regression gikan sa mga variable (regressors) Pag-usap sa logistic regression. Gituohan nga ang pagsalig tali sa mga kinaiya Pag-usap sa logistic regression ug target nga mga kantidad Pag-usap sa logistic regression linear. Busa ang ngalan sa classifier - linear. Sa pagkabutang niini nga halos, ang logistic regression nga modelo gibase sa pangagpas nga adunay usa ka linear nga relasyon tali sa mga kinaiya. Pag-usap sa logistic regression ug target nga mga kantidad Pag-usap sa logistic regression. Kini ang koneksyon.

Adunay unang pananglitan sa studio, ug kini, sa husto, mahitungod sa rectilinear nga pagsalig sa mga gidaghanon nga gitun-an. Sa proseso sa pag-andam sa artikulo, nakit-an nako ang usa ka pananglitan nga nagbutang na sa daghang mga tawo sa sulud - ang pagsalig sa kasamtangan sa boltahe (β€œApplied regression analysis”, N. Draper, G. Smith). Atong tan-awon dinhi usab.

Sumala sa Ang balaod sa Ohm:

Pag-usap sa logistic regressiondiin Pag-usap sa logistic regression - kasamtangan nga kusog, Pag-usap sa logistic regression - boltahe, Pag-usap sa logistic regression - pagsukol.

Kung wala ta kabalo Ang balaod ni Ohm, unya atong makita ang pagsalig sa empirically pinaagi sa pagbag-o Pag-usap sa logistic regression ug pagsukod Pag-usap sa logistic regression, samtang nagsuporta Pag-usap sa logistic regression naayo. Unya atong makita nga ang dependence graph Pag-usap sa logistic regression gikan sa Pag-usap sa logistic regression naghatag og mas daghan o dili kaayo tul-id nga linya pinaagi sa gigikanan. Nag-ingon kami nga "kapin o kulang" tungod kay, bisan kung ang relasyon sa tinuud tukma, ang among mga pagsukod mahimo’g adunay gamay nga mga sayup, ug busa ang mga punto sa graph mahimong dili mahulog sa eksakto sa linya, apan magkatag sa palibot niini nga random.

Grap 1 "Pagsalig" Pag-usap sa logistic regression gikan sa Pag-usap sa logistic regressionΒ»

Pag-usap sa logistic regression

Chart drawing code

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. Ang panginahanglan sa pagbag-o sa linear regression equation

Atong tan-awon ang laing pananglitan. Hunahunaa nga nagtrabaho kita sa usa ka bangko ug ang atong tahas mao ang pagtino sa posibilidad nga ang nanghulam makabayad sa utang depende sa pipila ka mga hinungdan. Aron mapasayon ​​ang buluhaton, duha lang ka butang ang atong tagdon: ang binuwan nga suweldo sa nanghulam ug ang binuwan nga kantidad sa pagbayad sa utang.

Ang buluhaton kay kondisyonal kaayo, apan sa kini nga pananglitan atong masabtan nganong dili kini igo nga gamiton mga function sa linear regression, ug hibal-i usab kung unsang mga pagbag-o ang kinahanglan buhaton sa function.

Balikan nato ang pananglitan. Nasabtan nga kon mas taas ang suweldo, mas daghan ang maka-alokar sa nangutang matag buwan aron mabayran ang utang. Sa parehas nga oras, alang sa usa ka piho nga sakup sa suweldo kini nga relasyon mahimong linear. Pananglitan, magkuha kita og suweldo gikan sa 60.000 RUR ngadto sa 200.000 RUR ug isipon nga sa gitakda nga suweldo, ang pagsalig sa gidak-on sa binulan nga pagbayad sa gidak-on sa suweldo linear. Ingnon ta nga alang sa espesipikong han-ay sa suholan gipadayag nga ang salary-to-payment ratio dili mahimong ubos sa 3 ug ang nanghulam kinahanglan pa nga adunay 5.000 RUR nga reserba. Ug sa kini nga kaso, atong hunahunaon nga ang nanghulam magbayad sa utang sa bangko. Unya, ang linear regression equation mokuha sa porma:

Pag-usap sa logistic regression

diin Pag-usap sa logistic regression, Pag-usap sa logistic regression, Pag-usap sa logistic regression, Pag-usap sa logistic regression - suweldo Pag-usap sa logistic regression- ika-nangungutang, Pag-usap sa logistic regression - pagbayad sa utang Pag-usap sa logistic regression-ika nangutang.

Pag-ilis sa suweldo ug pagbayad sa utang nga adunay mga piho nga parameter sa equation Pag-usap sa logistic regression Makahukom ka kung mag-isyu o magdumili sa usa ka pautang.

Sa pagtan-aw sa unahan, among namatikdan nga, uban ang gihatag nga mga parameter Pag-usap sa logistic regression linear regression function, gigamit sa mga gimbuhaton sa pagtubag sa logistik maghimo daghang mga kantidad nga makapakomplikado sa mga kalkulasyon aron mahibal-an ang mga posibilidad sa pagbayad sa utang. Busa, gisugyot nga pakunhuran ang atong mga coefficient, ingnon ta, sa 25.000 ka beses. Kini nga pagbag-o sa mga coefficient dili magbag-o sa desisyon sa pag-isyu sa usa ka pautang. Atong hinumdoman kini nga punto alang sa umaabot, apan karon, aron mas klaro kung unsa ang atong gihisgutan, atong tagdon ang sitwasyon sa tulo ka potensyal nga manghulam.

Talaan 1 "Potensyal nga mga mangutang"

Pag-usap sa logistic regression

Code alang sa paghimo sa lamesa

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

Pinauyon sa datos sa lamesa, si Vasya, nga adunay suweldo nga 120.000 RUR, gusto nga makadawat usa ka pautang aron mabayran niya kini matag bulan sa 3.000 RUR. Gitino namo nga aron maaprobahan ang loan, ang suweldo ni Vasya kinahanglang molapas sa tulo ka pilo sa kantidad sa bayronon, ug kinahanglang 5.000 RUR pa ang nahibilin. Gituman ni Vasya kini nga kinahanglanon: Pag-usap sa logistic regression. Bisan ang 106.000 RUR nagpabilin. Bisan pa sa kamatuoran nga sa diha nga kalkulado Pag-usap sa logistic regression gipakunhod namo ang posibilidad Pag-usap sa logistic regression 25.000 ka beses, pareho ang resulta - maaprobahan ang loan. Makadawat usab og loan si Fedya, apan si Lesha, bisan pa sa kamatuoran nga labing daghan ang iyang nadawat, kinahanglan nga pugngan ang iyang mga gana.

Magdrowing kita og graph alang niini nga kaso.

Tsart 2 "Klasipikasyon sa mga nangutang"

Pag-usap sa logistic regression

Code para sa pagdrowing sa graph

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Busa, ang atong tul-id nga linya, nga gitukod sumala sa function Pag-usap sa logistic regression, nagbulag sa "daotan" nga mga nangutang gikan sa "maayo". Kadtong mga nanghulam kansang mga tinguha dili motakdo sa ilang mga kapabilidad anaa sa ibabaw sa linya (Lesha), samtang kadtong, sumala sa mga parameter sa atong modelo, makahimo sa pagbayad sa loan ubos sa linya (Vasya ug Fedya). Sa laing pagkasulti, mahimo natong isulti kini: ang atong direktang linya nagbahin sa mga nangutang ngadto sa duha ka klase. Atong itudlo sila sa mosunod: ngadto sa klase Pag-usap sa logistic regression Among iklasipikar kadtong mga nanghulam nga lagmit makabayad sa utang ingon Pag-usap sa logistic regression o Pag-usap sa logistic regression Among iapil kadtong mga nanghulam nga lagmit dili makabayad sa utang.

Atong i-summarize ang mga konklusyon gikan niining yano nga pananglitan. Atong hisgotan ang usa ka punto Pag-usap sa logistic regression ug, pag-ilis sa mga koordinasyon sa punto ngadto sa katugbang nga equation sa linya Pag-usap sa logistic regression, tagda ang tulo ka kapilian:

  1. Kon ang punto ubos sa linya ug ato kining i-assign sa klase Pag-usap sa logistic regression, unya ang bili sa function Pag-usap sa logistic regression mahimong positibo gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression. Kini nagpasabot nga kita makahunahuna nga ang kalagmitan sa pagbayad sa loan anaa sa sulod Pag-usap sa logistic regression. Mas dako ang function value, mas taas ang probability.
  2. Kung ang usa ka punto labaw sa usa ka linya ug among i-assign kini sa klase Pag-usap sa logistic regression o Pag-usap sa logistic regression, unya ang bili sa function mahimong negatibo gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression. Dayon atong hunahunaon nga ang kalagmitan sa pagbayad sa utang anaa sa sulod Pag-usap sa logistic regression ug, kon mas dako ang hingpit nga bili sa function, mas taas ang atong pagsalig.
  3. Ang punto anaa sa tul-id nga linya, sa utlanan tali sa duha ka klase. Sa kini nga kaso, ang kantidad sa function Pag-usap sa logistic regression mahimong managsama Pag-usap sa logistic regression ug ang kalagmitan sa pagbayad sa loan mao ang katumbas sa Pag-usap sa logistic regression.

Karon, atong hunahunaon nga kita adunay dili duha ka mga butang, apan dosena, ug dili tulo, apan liboan ka mga nangutang. Unya imbes nga usa ka tul-id nga linya kita adunay m-dimensyon eroplano ug coefficients Pag-usap sa logistic regression dili kami makuha gikan sa manipis nga hangin, apan nakuha sumala sa tanan nga mga lagda, ug pinasukad sa natipon nga datos sa mga nangutang nga adunay o wala makabayad sa utang. Ug sa tinuud, timan-i nga nagpili kami karon sa mga nangutang gamit ang nahibal-an na nga mga coefficient Pag-usap sa logistic regression. Sa tinuud, ang tahas sa modelo sa logistic regression mao ang tukma nga pagtino sa mga parameter Pag-usap sa logistic regression, diin ang bili sa pagkawala function Logistic nga Pagkawala mahimong labing gamay. Apan kung giunsa ang pagkalkulo sa vector Pag-usap sa logistic regression, atong mahibaloan ang dugang pa sa ika-5 nga seksiyon sa artikulo. Sa kasamtangan, mibalik kami sa gisaad nga yuta - sa among bangkero ug sa iyang tulo ka mga kliyente.

Salamat sa function Pag-usap sa logistic regression nahibal-an namon kung kinsa ang mahimong hatagan ug utang ug kung kinsa ang kinahanglan nga balibaran. Apan dili ka makaadto sa direktor nga adunay ingon nga kasayuran, tungod kay gusto nila nga makuha gikan kanamo ang posibilidad sa matag nangutang nga magbayad sa utang. Unsay buhaton? Ang tubag yano - kinahanglan naton nga usbon ang function Pag-usap sa logistic regression, kansang mga kantidad anaa sa range Pag-usap sa logistic regression sa usa ka function kansang mga kantidad anaa sa range Pag-usap sa logistic regression. Ug ang ingon nga function naglungtad, kini gitawag logistic response function o inverse-logit nga pagbag-o. Magkita:

Pag-usap sa logistic regression

Atong tan-awon ang lakang sa lakang kung giunsa kini molihok logistic tubag function. Timan-i nga kita maglakaw sa atbang nga direksyon, i.e. kita maghunahuna nga kita nahibalo sa kalagmitan bili, nga anaa sa han-ay gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression ug dayon atong "i-unwind" kini nga bili ngadto sa tibuok nga han-ay sa mga numero gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression.

03. Atong makuha ang logistic response function

Lakang 1. I-convert ang probability values ​​ngadto sa range Pag-usap sa logistic regression

Sa panahon sa pagbag-o sa function Pag-usap sa logistic regression Π² logistic tubag function Pag-usap sa logistic regression Among biyaan ang among credit analyst ug magsuroy-suroy na hinuon sa mga bookmaker. Dili, siyempre, dili kami magbutang og mga pusta, ang tanan nga makapainteres kanamo mao ang kahulugan sa ekspresyon, pananglitan, ang higayon mao ang 4 hangtod 1. Ang mga posibilidad, pamilyar sa tanan nga mga bettors, mao ang ratio sa "mga kalampusan" sa " mga kapakyasan”. Sa mga termino sa kalagmitan, ang mga posibilidad mao ang kalagmitan sa usa ka panghitabo nga mahitabo gibahin sa kalagmitan sa panghitabo nga wala mahitabo. Atong isulat ang pormula alang sa kahigayonan sa usa ka panghitabo nga mahitabo Pag-usap sa logistic regression:

Pag-usap sa logistic regression

diin Pag-usap sa logistic regression - kalagmitan sa usa ka panghitabo nga mahitabo, Pag-usap sa logistic regression β€” kalagmitan sa usa ka panghitabo DILI mahitabo

Pananglitan, kung ang kalagmitan nga ang usa ka batan-on, kusgan ug dula nga kabayo nga gianggaan og "Veterok" makapildi sa usa ka tigulang ug luwang nga tigulang nga babaye nga ginganlag "Matilda" sa usa ka lumba parehas sa Pag-usap sa logistic regression, unya ang mga kahigayonan sa kalampusan alang sa "Veterok" mahimong Pag-usap sa logistic regression ΠΊ Pag-usap sa logistic regression Pag-usap sa logistic regression ug vice versa, nahibal-an ang mga posibilidad, dili lisud alang kanato ang pagkalkula sa posibilidad Pag-usap sa logistic regression:

Pag-usap sa logistic regression

Sa ingon, nakakat-on kami sa "paghubad" sa kalagmitan ngadto sa mga kahigayonan, nga nagkuha sa mga bili gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression. Mohimo pa kita og usa ka lakang ug magkat-on sa β€œpaghubad” sa posibilidad sa tibuok nga linya sa numero gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression.

Lakang 2. I-convert ang probability values ​​ngadto sa range Pag-usap sa logistic regression

Kini nga lakang yano ra - atong dad-on ang logarithm sa mga posibilidad sa base sa numero ni Euler Pag-usap sa logistic regression ug atong makuha:

Pag-usap sa logistic regression

Karon nahibal-an namon nga kung Pag-usap sa logistic regression, unya kuwentaha ang bili Pag-usap sa logistic regression mahimong yano kaayo ug, dugang pa, kini kinahanglan nga positibo: Pag-usap sa logistic regression. Tinuod kini.

Out of curiosity, let's check what if Pag-usap sa logistic regression, unya nagpaabut kami nga makakita og negatibo nga kantidad Pag-usap sa logistic regression. Atong susihon: Pag-usap sa logistic regression. Sakto gyud.

Karon nahibal-an namon kung giunsa ang pag-convert sa kantidad sa kalagmitan gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression subay sa tibuok linya sa numero gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression. Sa sunod nga lakang atong buhaton ang sukwahi.

Sa pagkakaron, atong namatikdan nga uyon sa mga lagda sa logarithm, nahibal-an ang bili sa function Pag-usap sa logistic regression, mahimo nimong kuwentahon ang mga posibilidad:

Pag-usap sa logistic regression

Kini nga pamaagi sa pagtino sa mga posibilidad mahimong mapuslanon sa sunod nga lakang.

Lakang 3. Magkuha kita og pormula aron matino Pag-usap sa logistic regression

Mao nga nakakat-on kami, nahibal-an Pag-usap sa logistic regression, pangitaa ang function values Pag-usap sa logistic regression. Bisan pa, sa tinuud, kinahanglan naton ang eksaktong kaatbang - nahibal-an ang kantidad Pag-usap sa logistic regression pangitaa Pag-usap sa logistic regression. Sa pagbuhat niini, kita mobalik ngadto sa ingon nga usa ka konsepto sama sa inverse odds function, sumala sa diin:

Pag-usap sa logistic regression

Sa artikulo dili nato makuha ang pormula sa ibabaw, apan atong susihon kini gamit ang mga numero gikan sa panig-ingnan sa ibabaw. Nahibal-an namon nga adunay posibilidad nga 4 hangtod 1 (Pag-usap sa logistic regression), ang kalagmitan sa panghitabo nga nahitabo mao ang 0.8 (Pag-usap sa logistic regression). Maghimo kita og usa ka pagpuli: Pag-usap sa logistic regression. Nahiuyon kini sa among mga kalkulasyon nga gihimo kaniadto. Magpadayon ta.

Sa katapusan nga lakang, among nahibal-an kana Pag-usap sa logistic regression, nga nagpasabot nga makahimo ka og substitution sa inverse odds function. Atong makuha:

Pag-usap sa logistic regression

Bahina ang numerator ug denominator pinaagi sa Pag-usap sa logistic regression, Unya:

Pag-usap sa logistic regression

Sa kaso lang, aron masiguro nga wala kami masayop bisan asa, maghimo kami usa pa ka gamay nga pagsusi. Sa lakang 2, kami alang sa Pag-usap sa logistic regression determinado nga Pag-usap sa logistic regression. Dayon, ilisan ang bili Pag-usap sa logistic regression ngadto sa logistic response function, atong gilauman nga makuha Pag-usap sa logistic regression. Atong ilisan ug makuha: Pag-usap sa logistic regression

Pahalipay, minahal nga magbabasa, bag-o lang namon nakuha ug gisulayan ang function sa pagtubag sa logistic. Atong tan-awon ang graph sa function.

Graph 3 "Logistic response function"

Pag-usap sa logistic regression

Code para sa pagdrowing sa graph

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Sa literatura makit-an usab nimo ang ngalan niini nga function ingon sigmoid function. Ang graph tin-aw nga nagpakita nga ang nag-unang kausaban sa kalagmitan sa usa ka butang nga iya sa usa ka klase mahitabo sulod sa usa ka medyo gamay nga range. Pag-usap sa logistic regression, diin gikan Pag-usap sa logistic regression sa Pag-usap sa logistic regression.

Gisugyot nako nga mobalik sa among analista sa kredito ug tabangan siya nga makalkula ang posibilidad nga mabayran ang utang, kung dili, peligro siya nga wala’y bonus :)

Talaan 2 "Potensyal nga mga mangutang"

Pag-usap sa logistic regression

Code alang sa paghimo sa lamesa

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Mao nga, nahibal-an namon ang posibilidad sa pagbayad sa utang. Sa kinatibuk-an, kini daw tinuod.

Sa tinuud, ang posibilidad nga si Vasya, nga adunay suweldo nga 120.000 RUR, makahatag 3.000 RUR sa bangko matag bulan hapit sa 100%. Pinaagi sa dalan, kinahanglan natong masabtan nga ang usa ka bangko mahimong mag-isyu sa usa ka pautang sa Lesha kung ang polisiya sa bangko naghatag, pananglitan, alang sa pagpahulam sa mga kliyente nga adunay posibilidad sa pagbayad sa utang nga labaw pa sa, ingnon, 0.3. Kini ra nga sa kini nga kaso ang bangko maghimo usa ka mas dako nga reserba alang sa posible nga mga pagkawala.

Kinahanglan usab nga hinumdoman nga ang ratio sa suweldo-sa-bayad nga labing menos 3 ug adunay margin nga 5.000 RUR gikuha gikan sa kisame. Busa, dili namo magamit ang vector sa mga gibug-aton sa orihinal nga porma niini Pag-usap sa logistic regression. Kinahanglan namon nga mapakunhod pag-ayo ang mga coefficient, ug sa kini nga kaso gibahin namon ang matag coefficient sa 25.000, nga mao, sa esensya, among gi-adjust ang resulta. Apan kini espesipikong gihimo aron sa pagpayano sa pagsabot sa materyal sa unang yugto. Sa kinabuhi, dili kinahanglan nga mag-imbento ug mag-adjust sa mga coefficient, apan pangitaon kini. Sa sunod nga mga seksyon sa artikulo atong makuha ang mga equation diin gipili ang mga parameter Pag-usap sa logistic regression.

04. Labing gamay nga squares nga pamaagi alang sa pagtino sa vector sa mga gibug-aton Pag-usap sa logistic regression sa logistic response function

Nahibal-an na namon kini nga pamaagi sa pagpili sa usa ka vector sa mga gibug-aton Pag-usap sa logistic regression, ingon labing gamay nga squares nga pamaagi (LSM) ug sa pagkatinuod, nganong dili man nato kini gamiton sa binary classification nga mga problema? Sa pagkatinuod, walay makapugong kanimo sa paggamit MNC, kini nga pamaagi lamang sa mga problema sa klasipikasyon naghatag mga resulta nga dili kaayo tukma kaysa Logistic nga Pagkawala. Adunay usa ka teoretikal nga sukaranan alang niini. Atong tan-awon una ang usa ka yano nga pananglitan.

Atong isipon nga ang atong mga modelo (gamit MSE ΠΈ Logistic nga Pagkawala) nagsugod na sa pagpili sa vector sa mga gibug-aton Pag-usap sa logistic regression ug gihunong namo ang kalkulasyon sa usa ka lakang. Dili igsapayan kung sa tunga-tunga, sa katapusan o sa sinugdanan, ang panguna nga butang mao nga kita adunay pipila ka mga kantidad sa vector sa mga gibug-aton ug atong hunahunaon nga sa kini nga lakang, ang vector sa mga gibug-aton Pag-usap sa logistic regression alang sa duha ka mga modelo walay mga kalainan. Dayon kuhaa ang resulta nga mga gibug-aton ug ilisan kini logistic tubag function (Pag-usap sa logistic regression) alang sa pipila ka butang nga iya sa klase Pag-usap sa logistic regression. Gisusi namon ang duha ka mga kaso kung, uyon sa gipili nga vector sa mga gibug-aton, ang among modelo sayup kaayo ug vice versa - ang modelo masaligon kaayo nga ang butang iya sa klase Pag-usap sa logistic regression. Atong tan-awon kung unsang mga multa ang ipagawas kung gamiton MNC ΠΈ Logistic nga Pagkawala.

Code sa pagkalkulo sa mga silot depende sa pagkawala function nga gigamit

# класс ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°
y = 1
# Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ отнСсСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ классу Π² соотвСтствии с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Π¨Ρ‚Ρ€Π°Ρ„ MSE ΠΏΡ€ΠΈ Π³Ρ€ΡƒΠ±ΠΎΠΉ ошибкС =', MSE_1

# напишСм Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ для вычислСния f(w,x) ΠΏΡ€ΠΈ извСстной вСроятности отнСсСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Π¨Ρ‚Ρ€Π°Ρ„ Log Loss ΠΏΡ€ΠΈ Π³Ρ€ΡƒΠ±ΠΎΠΉ ошибкС =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Π¨Ρ‚Ρ€Π°Ρ„ MSE ΠΏΡ€ΠΈ сильной увСрСнности =', MSE_2
print 'Π¨Ρ‚Ρ€Π°Ρ„ Log Loss ΠΏΡ€ΠΈ сильной увСрСнности =', LogLoss_2

Usa ka kaso sa usa ka sayup - ang modelo nag-assign sa usa ka butang sa usa ka klase Pag-usap sa logistic regression nga adunay posibilidad nga 0,01

Silot sa paggamit MNC mahimong:
Pag-usap sa logistic regression

Silot sa paggamit Logistic nga Pagkawala mahimong:
Pag-usap sa logistic regression

Usa ka kaso sa lig-on nga pagsalig - ang modelo nag-assign sa usa ka butang sa usa ka klase Pag-usap sa logistic regression nga adunay posibilidad nga 0,99

Silot sa paggamit MNC mahimong:
Pag-usap sa logistic regression

Silot sa paggamit Logistic nga Pagkawala mahimong:
Pag-usap sa logistic regression

Kini nga pananglitan nagpakita og maayo nga sa kaso sa usa ka grabe nga sayop ang pagkawala function Pagkawala sa Log silotan ang modelo kamahinungdanon labaw pa kay sa MSE. Atong sabton karon kung unsa ang theoretical background sa paggamit sa function sa pagkawala Pagkawala sa Log sa mga problema sa klasipikasyon.

05. Maximum likelihood method ug logistic regression

Ingon sa gisaad sa sinugdanan, ang artikulo puno sa yano nga mga pananglitan. Sa studio adunay laing pananglitan ug mga tigulang nga bisita - mga nangutang sa bangko: Vasya, Fedya ug Lesha.

Sa kaso lang, sa dili pa mapalambo ang panig-ingnan, pahinumdoman ko ikaw nga sa kinabuhi kita nag-atubang sa usa ka sample sa pagbansay sa liboan o milyon nga mga butang nga adunay napulo o gatusan nga mga bahin. Bisan pa, dinhi gikuha ang mga numero aron dali silang mahaum sa ulo sa usa ka bag-o nga siyentipiko sa datos.

Balikan nato ang pananglitan. Hunahunaa nga ang direktor sa bangko nakahukom sa pag-isyu sa usa ka pautang sa tanan nga nanginahanglan, bisan pa sa kamatuoran nga ang algorithm nagsulti kaniya nga dili kini i-isyu ngadto kang Lesha. Ug karon igo na nga panahon ang milabay ug nahibal-an namon kung kinsa sa tulo nga mga bayani ang nakabayad sa utang ug kung kinsa ang wala. Unsa ang gipaabut: Gibayran ni Vasya ug Fedya ang utang, apan si Lesha wala. Karon atong hunahunaon nga kini nga resulta mahimong usa ka bag-ong sampol sa pagbansay alang kanato ug, sa samang higayon, ingon og ang tanan nga datos sa mga hinungdan nga nag-impluwensya sa posibilidad sa pagbayad sa utang (suweldo sa nangutang, gidak-on sa binulan nga pagbayad) nawala. Dayon, sa intuitively, mahimo natong hunahunaon nga ang matag ikatulo nga nangutang dili mobayad sa utang ngadto sa bangko, o sa laing pagkasulti, ang kalagmitan sa sunod nga nangutang sa pagbayad sa utang. Pag-usap sa logistic regression. Kini nga intuitive nga pangagpas adunay teoretikal nga pagkumpirma ug gibase sa maximum nga posibilidad nga pamaagi, kasagaran sa literatura kini gitawag prinsipyo sa maximum nga posibilidad.

Una, atong masinati ang conceptual apparatus.

Sampling kalagmitan mao ang kalagmitan sa pagkuha sa tukma sa ingon nga sampol, pagkuha sa tukma sa ingon nga mga obserbasyon / resulta, i.e. ang produkto sa mga kalagmitan nga makuha ang matag usa sa mga resulta sa sample (pananglitan, kung ang utang sa Vasya, Fedya ug Lesha gibayran o wala gibayran sa samang higayon).

Lagmit nga function gilangkit ang posibilidad sa usa ka sample sa mga kantidad sa mga parameter sa pag-apod-apod.

Sa among kaso, ang sample sa pagbansay usa ka kinatibuk-an nga laraw sa Bernoulli, diin ang random variable nagkuha lamang sa duha ka mga kantidad: Pag-usap sa logistic regression o Pag-usap sa logistic regression. Busa, ang sample nga kalagmitan mahimong isulat isip usa ka posibilidad nga function sa parameter Pag-usap sa logistic regression ingon sa mosunod:

Pag-usap sa logistic regression
Pag-usap sa logistic regression

Ang entry sa ibabaw mahimong hubaron ingon sa mosunod. Ang hiniusang kalagmitan nga si Vasya ug Fedya mobayad sa utang katumbas sa Pag-usap sa logistic regression, ang kalagmitan nga DILI mobayad si Lesha sa utang katumbas sa Pag-usap sa logistic regression (Tungod kay DILI ang pagbayad sa utang nga nahitabo), busa ang managsama nga posibilidad sa tanan nga tulo nga mga panghitabo managsama Pag-usap sa logistic regression.

Maximum nga posibilidad nga pamaagi mao ang usa ka paagi sa pagbanabana sa usa ka wala mailhi nga parameter pinaagi sa pag-maximize mga function sa kalagmitan. Sa among kahimtang, kinahanglan namon nga makit-an ang ingon nga kantidad Pag-usap sa logistic regression, diin Pag-usap sa logistic regression moabot sa iyang maximum.

Diin gikan ang aktuwal nga ideya - aron pangitaon ang bili sa usa ka wala mailhi nga parameter diin ang posibilidad nga function moabot sa usa ka maximum? Ang sinugdanan sa ideya naggikan sa ideya nga ang usa ka sample mao lamang ang tinubdan sa kahibalo nga anaa kanato mahitungod sa populasyon. Ang tanan nga nahibal-an namon bahin sa populasyon girepresentar sa sample. Busa, ang tanan nga atong masulti mao nga ang usa ka sample mao ang labing tukma nga pagpamalandong sa populasyon nga magamit kanato. Busa, kinahanglan natong pangitaon ang usa ka parametro diin ang anaa nga sample mahimong labing lagmit.

Dayag, nag-atubang kami sa usa ka problema sa pag-optimize diin kinahanglan namon pangitaon ang labi nga punto sa usa ka function. Aron makit-an ang extremum point, kinahanglan nga tagdon ang kondisyon sa una nga han-ay, nga mao, iparehas ang derivative sa function sa zero ug sulbaron ang equation nga may kalabotan sa gusto nga parameter. Bisan pa, ang pagpangita alang sa gigikanan sa usa ka produkto sa daghang mga hinungdan mahimo’g usa ka taas nga buluhaton; aron malikayan kini, adunay usa ka espesyal nga teknik - pagbalhin sa logarithm mga function sa kalagmitan. Nganong posible ang maong transisyon? Atong hatagan ug pagtagad ang kamatuoran nga wala nato pangitaa ang sobra sa function mismoPag-usap sa logistic regression, ug ang extremum point, nga mao, ang bili sa wala mailhi nga parameter Pag-usap sa logistic regression, diin Pag-usap sa logistic regression moabot sa iyang maximum. Kung mobalhin sa usa ka logarithm, ang extremum point dili mausab (bisan pa nga ang extremum mismo magkalainlain), tungod kay ang logarithm usa ka monotonic function.

Atong, uyon sa ibabaw, magpadayon sa pagpalambo sa atong panig-ingnan sa mga pautang gikan sa Vasya, Fedya ug Lesha. Una kita magpadayon sa logarithm sa function sa posibilidad:

Pag-usap sa logistic regression

Karon dali na natong mailhan ang ekspresyon pinaagi sa Pag-usap sa logistic regression:

Pag-usap sa logistic regression

Ug sa katapusan, hunahunaa ang kahimtang sa una nga pagkahan-ay - gipakasama namon ang gigikanan sa function sa zero:

Pag-usap sa logistic regression

Sa ingon, ang among intuitive nga pagbanabana sa posibilidad sa pagbayad sa utang Pag-usap sa logistic regression gipakamatarung sa teorya.

Nindot, apan unsay angay natong buhaton niini nga impormasyon karon? Kung atong hunahunaon nga ang matag ikatulo nga nanghulam dili ibalik ang kuwarta sa bangko, nan ang naulahi dili kalikayan nga mabangkarota. Husto kana, apan kung gisusi lamang ang posibilidad sa pagbayad sa utang nga katumbas sa Pag-usap sa logistic regression Wala namo tagda ang mga hinungdan nga nakaimpluwensya sa pagbayad sa utang: ang sweldo sa nanghulam ug ang gidak-on sa binuwan nga bayranan. Atong hinumdoman nga kaniadto atong gikalkulo ang kalagmitan sa pagbayad sa utang sa matag kliyente, nga gikonsiderar kining sama nga mga hinungdan. Makatarunganon nga nakakuha kami mga posibilidad nga lahi sa kanunay nga managsama Pag-usap sa logistic regression.

Atong ipasabut ang posibilidad sa mga sampol:

Kodigo alang sa pagkalkulo sa mga posibilidad sa sample

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'ΠŸΡ€Π°Π²Π΄ΠΎΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΏΡ€ΠΈ константном Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'ΠŸΡ€Π°Π²Π΄ΠΎΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΏΡ€ΠΈ расчСтном Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ p:', round(likelihood(y,p_log_response),3)

Sample nga posibilidad sa usa ka kanunay nga kantidad Pag-usap sa logistic regression:

Pag-usap sa logistic regression

Sample nga kalagmitan sa diha nga ang pagkalkulo sa kalagmitan sa loan pagbayad sa pagkuha ngadto sa asoy sa mga hinungdan Pag-usap sa logistic regression:

Pag-usap sa logistic regression
Pag-usap sa logistic regression

Ang kalagmitan sa usa ka sample nga adunay usa ka kalagmitan nga kalkulado depende sa mga hinungdan nahimo nga mas taas kaysa sa kalagmitan nga adunay usa ka kanunay nga kalagmitan nga kantidad. Unsay buot ipasabot niini? Kini nagsugyot nga ang kahibalo bahin sa mga hinungdan nagpaposible sa mas tukma nga pagpili sa posibilidad sa pagbayad sa utang alang sa matag kliyente. Busa, kung mag-isyu sa sunod nga pautang, mas husto nga gamiton ang modelo nga gisugyot sa katapusan sa seksyon 3 sa artikulo alang sa pagsusi sa posibilidad sa pagbayad sa utang.

Apan unya, kung gusto naton nga ma-maximize sampol nga posibilidad function, unya nganong dili mogamit sa pipila ka algorithm nga magpatunghag mga kalagmitan alang sa Vasya, Fedya ug Lesha, pananglitan, katumbas sa 0.99, 0.99 ug 0.01, matag usa. Tingali ang ingon nga usa ka algorithm mahimo’g maayo sa sample sa pagbansay, tungod kay kini magdala sa kantidad nga posibilidad sa sample nga mas duol sa Pag-usap sa logistic regression, apan, una, ang ingon nga algorithm lagmit adunay mga kalisud sa abilidad sa pag-generalization, ug ikaduha, kini nga algorithm siguradong dili linear. Ug kung ang mga pamaagi sa pagbatok sa overtraining (parehas nga huyang nga abilidad sa pag-generalization) klaro nga wala gilakip sa plano niini nga artikulo, nan atong susihon ang ikaduha nga punto sa mas detalyado. Aron mahimo kini, tubaga lang ang usa ka yano nga pangutana. Mahimo ba nga managsama ang posibilidad sa pagbayad ni Vasya ug Fedya sa utang, nga gikonsiderar ang mga hinungdan nga nahibal-an namon? Gikan sa punto sa panglantaw sa sound logic, siyempre dili, kini dili mahimo. Busa si Vasya mobayad sa 2.5% sa iyang suweldo kada bulan aron mabayran ang utang, ug Fedya - hapit 27,8%. Usab sa graph 2 "klasipikasyon sa kliyente" atong makita nga ang Vasya mas layo pa sa linya nga nagbulag sa mga klase kay sa Fedya. Ug sa katapusan, nahibal-an namon nga ang function Pag-usap sa logistic regression alang sa Vasya ug Fedya nagkinahanglan og lain-laing mga bili: 4.24 alang sa Vasya ug 1.0 alang sa Fedya. Karon, kung si Fedya, pananglitan, nakakuha usa ka order sa kadako o nangayo alang sa usa ka gamay nga pautang, nan ang mga kalagmitan sa pagbayad sa utang para sa Vasya ug Fedya parehas. Sa laing pagkasulti, ang linear dependence dili malimbongan. Ug kung gikalkulo gyud nato ang mga posibilidad Pag-usap sa logistic regression, ug wala sila gikuha gikan sa manipis nga hangin, kita luwas nga makaingon nga ang atong mga mithi Pag-usap sa logistic regression labing maayo nga nagtugot kanamo sa pagbanabana sa kalagmitan sa pagbayad sa utang sa matag nangutang, apan tungod kay kami miuyon sa paghunahuna nga ang determinasyon sa mga coefficients Pag-usap sa logistic regression gihimo sumala sa tanan nga mga lagda, unya atong hunahunaon - ang atong mga coefficient nagtugot kanato sa paghatag sa usa ka mas maayo nga banabana sa kalagmitan :)

Bisan pa niana, kami nagpalayo. Niini nga seksyon kinahanglan natong masabtan kung giunsa pagtino ang vector sa mga gibug-aton Pag-usap sa logistic regression, nga gikinahanglan aron masusi ang kalagmitan sa pagbayad sa utang sa matag nangutang.

Atong i-summarize sa makadiyot kung unsa nga arsenal ang atong gipangita nga mga kalisud Pag-usap sa logistic regression:

1. Nagtuo kami nga ang relasyon tali sa target variable (prediction value) ug ang factor nga nag-impluwensya sa resulta kay linear. Tungod niini nga hinungdan kini gigamit linear regression function sakop sa henero nga Pag-usap sa logistic regression, ang linya nga nagbahin sa mga butang (kliyente) sa mga klase Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression o Pag-usap sa logistic regression (mga kliyente nga makabayad sa utang ug kadtong wala). Sa among kaso, ang equation adunay porma Pag-usap sa logistic regression.

2. Gigamit namo inverse logit function sakop sa henero nga Pag-usap sa logistic regression aron mahibal-an ang posibilidad sa usa ka butang nga nahisakop sa usa ka klase Pag-usap sa logistic regression.

3. Among gikonsiderar ang among training set isip pagpatuman sa usa ka generalized Bernoulli nga mga laraw, nga mao, alang sa matag butang usa ka random variable ang namugna, nga adunay posibilidad Pag-usap sa logistic regression (sa iyang kaugalingon alang sa matag butang) nagkuha sa kantidad nga 1 ug adunay posibilidad Pag-usap sa logistic regression - 0.

4. Nahibal-an namon kung unsa ang kinahanglan namon nga mapadako sampol nga posibilidad function nga gikonsiderar ang gidawat nga mga hinungdan aron ang magamit nga sample mahimong labing katuohan. Sa laing pagkasulti, kinahanglan natong pilion ang mga parameter diin ang sample mahimong labing katuohan. Sa among kaso, ang gipili nga parameter mao ang posibilidad sa pagbayad sa utang Pag-usap sa logistic regression, nga sa baylo nagdepende sa wala mahibal-an nga mga coefficient Pag-usap sa logistic regression. Mao nga kinahanglan naton pangitaon ang ingon nga vector sa mga gibug-aton Pag-usap sa logistic regression, diin ang kalagmitan sa sample mahimong maximum.

5. Nahibal-an namon kung unsa ang pag-maximize sampol nga posibilidad nga mga gimbuhaton mahimo gamiton maximum nga posibilidad nga pamaagi. Ug nahibal-an namon ang tanan nga malisud nga mga limbong aron magamit kini nga pamaagi.

Ingon niini kung giunsa kini nahimo nga usa ka multi-step nga paglihok :)

Karon hinumdomi nga sa sinugdanan pa lang sa artikulo gusto namong makuha ang duha ka matang sa mga function sa pagkawala Logistic nga Pagkawala depende kung giunsa gitudlo ang mga klase sa butang. Nahitabo kini nga sa mga problema sa klasipikasyon nga adunay duha ka klase, ang mga klase gipunting ingon Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression o Pag-usap sa logistic regression. Depende sa notasyon, ang output adunay katumbas nga function sa pagkawala.

Kaso 1. Klasipikasyon sa mga butang ngadto sa Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression

Sa sayo pa, sa pagtino sa kalagmitan sa usa ka sample, diin ang kalagmitan sa pagbayad sa utang sa nangutang gikalkulo base sa mga hinungdan ug gihatag coefficients Pag-usap sa logistic regression, gigamit namo ang pormula:

Pag-usap sa logistic regression

Ang tinuod Pag-usap sa logistic regression mao ang kahulogan mga gimbuhaton sa pagtubag sa logistik Pag-usap sa logistic regression alang sa gihatag nga vector sa gibug-aton Pag-usap sa logistic regression

Unya walay makapugong kanamo sa pagsulat sa sampol nga posibilidad nga function sama sa mosunod:

Pag-usap sa logistic regression

Nahitabo nga usahay lisud alang sa pipila nga mga bag-ong analista nga masabtan dayon kung giunsa kini nga gimbuhaton. Atong tan-awon ang 4 ka mugbong mga pananglitan nga makapatin-aw sa mga butang:

1. kon Pag-usap sa logistic regression (i.e., sumala sa sample sa pagbansay, ang butang iya sa klase +1), ug ang among algorithm Pag-usap sa logistic regression nagtino sa kalagmitan sa pagklasipikar sa usa ka butang ngadto sa usa ka klase Pag-usap sa logistic regression katumbas sa 0.9, nan kini nga piraso sa sample nga posibilidad makalkula ingon sa mosunod:

Pag-usap sa logistic regression

2. kon Pag-usap sa logistic regressionug Pag-usap sa logistic regression, unya ang kalkulasyon mahimong sama niini:

Pag-usap sa logistic regression

3. kon Pag-usap sa logistic regressionug Pag-usap sa logistic regression, unya ang kalkulasyon mahimong sama niini:

Pag-usap sa logistic regression

4. kon Pag-usap sa logistic regressionug Pag-usap sa logistic regression, unya ang kalkulasyon mahimong sama niini:

Pag-usap sa logistic regression

Dayag nga ang posibilidad nga pag-obra ma-maximize sa mga kaso 1 ug 3 o sa kinatibuk-ang kaso - nga adunay husto nga pagtag-an nga mga kantidad sa mga posibilidad sa pag-assign sa usa ka butang sa usa ka klase. Pag-usap sa logistic regression.

Tungod sa kamatuoran nga sa diha nga pagtino sa kalagmitan sa pag-assign sa usa ka butang ngadto sa usa ka klase Pag-usap sa logistic regression Wala lang nato nahibal-an ang mga coefficient Pag-usap sa logistic regression, unya pangitaon namo sila. Sama sa nahisgutan sa ibabaw, kini usa ka problema sa pag-optimize diin kinahanglan una naton pangitaon ang gigikanan sa function sa posibilidad nga may kalabotan sa vector sa mga gibug-aton. Pag-usap sa logistic regression. Bisan pa, una nga makatarunganon nga pasimplehon ang buluhaton alang sa atong kaugalingon: pangitaon naton ang gigikanan sa logarithm mga function sa kalagmitan.

Pag-usap sa logistic regression

Nganong human sa logarithm, sa logistic error functions, giusab namo ang karatula gikan sa Pag-usap sa logistic regression sa Pag-usap sa logistic regression. Ang tanan yano ra, tungod kay sa mga problema sa pagtimbang-timbang sa kalidad sa usa ka modelo naandan na nga maminusan ang kantidad sa usa ka function, gipadaghan namon ang tuo nga bahin sa ekspresyon pinaagi sa Pag-usap sa logistic regression ug sumala niana, imbes nga i-maximize, karon atong giminusan ang function.

Sa tinuud, karon, sa atubangan sa imong mga mata, ang pagkawala sa function nga nakuha pag-ayo - Logistic nga Pagkawala alang sa usa ka set sa pagbansay nga adunay duha ka klase: Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression.

Karon, aron makit-an ang mga coefficient, kinahanglan lang naton pangitaon ang derivative logistic error functions ug dayon, gamit ang numerical optimization nga mga pamaagi, sama sa gradient descent o stochastic gradient descent, pilia ang labing maayo nga coefficients Pag-usap sa logistic regression. Apan, tungod sa daghang gidaghanon sa artikulo, gisugyot nga buhaton ang pagkalainlain sa imong kaugalingon, o tingali kini usa ka hilisgutan alang sa sunod nga artikulo nga adunay daghang aritmetika nga wala ang ingon nga detalyado nga mga pananglitan.

Kaso 2. Klasipikasyon sa mga butang ngadto sa Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression

Ang pamaagi dinhi mahimong parehas sa mga klase Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression, apan ang dalan sa iyang kaugalingon ngadto sa output sa pagkawala function Logistic nga Pagkawala, mahimong mas madayandayan. Magsugod na ta. Alang sa posibilidad nga function atong gamiton ang operator "kung... unya...". Sa ato pa, kung Pag-usap sa logistic regressionAng ika nga butang iya sa klase Pag-usap sa logistic regression, unya sa pagkalkulo sa kalagmitan sa sample atong gamiton ang kalagmitan Pag-usap sa logistic regression, kon ang butang iya sa klase Pag-usap sa logistic regression, unya atong ilisan sa posibilidad Pag-usap sa logistic regression. Mao kini ang hitsura sa function sa posibilidad:

Pag-usap sa logistic regression

Atong ihulagway sa atong mga tudlo kung giunsa kini paglihok. Atong tagdon ang 4 ka kaso:

1. kon Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression, unya ang sampling nga posibilidad "moadto" Pag-usap sa logistic regression

2. kon Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression, unya ang sampling nga posibilidad "moadto" Pag-usap sa logistic regression

3. kon Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression, unya ang sampling nga posibilidad "moadto" Pag-usap sa logistic regression

4. kon Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression, unya ang sampling nga posibilidad "moadto" Pag-usap sa logistic regression

Klaro nga sa mga kaso 1 ug 3, kung ang mga probabilidad husto nga gitino sa algorithm, function sa kalagmitan ma-maximize, kana mao, kini gyud ang gusto namon makuha. Bisan pa, kini nga pamaagi medyo hasol ug sa sunod atong tagdon ang usa ka mas compact notation. Apan una, atong logarithm ang function sa posibilidad nga adunay usa ka pagbag-o sa timaan, tungod kay karon atong maminusan kini.

Pag-usap sa logistic regression

Ilisan na hinuon nato Pag-usap sa logistic regression pagpahayag Pag-usap sa logistic regression:

Pag-usap sa logistic regression

Atong pasimplehon ang husto nga termino ubos sa logarithm gamit ang yano nga mga teknik sa aritmetika ug makuha:

Pag-usap sa logistic regression

Karon na ang panahon sa pagtangtang sa operator "kung... unya...". Timan-i nga kung ang usa ka butang Pag-usap sa logistic regression sakop sa klase Pag-usap sa logistic regression, unya sa ekspresyon ubos sa logarithm, sa denominator, Pag-usap sa logistic regression gibayaw ngadto sa gahum Pag-usap sa logistic regression, kon ang butang iya sa klase Pag-usap sa logistic regression, unya ang $e$ gipataas sa gahum Pag-usap sa logistic regression. Busa, ang notasyon alang sa degree mahimong mapasayon ​​pinaagi sa paghiusa sa duha ka mga kaso ngadto sa usa: Pag-usap sa logistic regression. Unya logistic error function kuhaon ang porma:

Pag-usap sa logistic regression

Sumala sa mga lagda sa logarithm, atong ibalik ang tipik ug ibutang ang timaan "Pag-usap sa logistic regression"(minus) alang sa logarithm, atong makuha:

Pag-usap sa logistic regression

Ania ang function sa pagkawala pagkawala sa logistik, nga gigamit sa set sa pagbansay nga adunay mga butang nga gi-assign sa mga klase: Pag-usap sa logistic regression ΠΈ Pag-usap sa logistic regression.

Aw, niining puntoha ako mobiya ug atong tapuson ang artikulo.

Pag-usap sa logistic regression Ang miaging trabaho sa tagsulat mao ang "Pagdala sa linear regression equation ngadto sa matrix form"

Mga materyales sa auxiliary

1. Literatura

1) Applied regression analysis / N. Draper, G. Smith - 2nd ed. – M.: Finance and Statistics, 1986 (hubad gikan sa English)

2) Probability theory ug mathematical statistics / V.E. Gmurman - ika-9 nga ed. - M.: Higher School, 2003

3) Teorya sa kalagmitan / N.I. Chernova - Novosibirsk: Novosibirsk State University, 2007

4) Business analytics: gikan sa datos ngadto sa kahibalo / Paklin N. B., Oreshkov V. I. - 2nd ed. β€” St. Petersburg: Pedro, 2013

5) Data Science Data science gikan sa scratch / Joel Gras - St. Petersburg: BHV Petersburg, 2017

6) Praktikal nga estadistika para sa mga espesyalista sa Data Science / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018

2. Mga lektyur, kurso (video)

1) Ang esensya sa labing kadaghan nga pamaagi sa posibilidad, si Boris Demeshev

2) Maximum posibilidad nga pamaagi sa padayon nga kaso, Boris Demeshev

3) Logistic regression. Bukas nga kurso sa ODS, Yury Kashnitsky

4) Lecture 4, Evgeny Sokolov (gikan sa 47 minutos nga video)

5) Logistic regression, Vyacheslav Vorontsov

3. Mga tinubdan sa Internet

1) Linear classification ug regression nga mga modelo

2) Sa Unsang Paagi Makasabut sa Logistic Regression

3) Logistic error function

4) Independent nga mga pagsulay ug Bernoulli nga pormula

5) Balada sa MMP

6) Maximum nga posibilidad nga pamaagi

7) Mga pormula ug mga kabtangan sa logarithms

8) Ngano number Pag-usap sa logistic regression?

9) Linear classifier

Source: www.habr.com

Idugang sa usa ka comment