Li ser regresîyona lojîstîkî dixebitîn

Li ser regresîyona lojîstîkî dixebitîn

Di vê gotarê de, em ê hesabên teorîkî yên veguherînê analîz bikin fonksiyonên regression linear в Fonksiyona veguherîna logîtê ya berevajî (ku wekî din jê re fonksiyona bersiva lojîstîk tê gotin). Piştre, arsenal bikar bînin rêbaza îhtîmala herî zêde, li gorî modela regresyona lojîstîkî, em fonksiyona windabûnê derdixin Lojîstîkê Loss, an bi gotinek din, em ê fonksiyonek ku pê re pîvanên vektora giraniyê di modela regresyona lojîstîkî de têne hilbijartin diyar bikin. Li ser regresîyona lojîstîkî dixebitîn.

Bernameya gotarê:

  1. Ka em pêwendiya xêzikî ya di navbera du guherbaran de dubare bikin
  2. Werin em hewcedariya veguherînê nas bikin fonksiyonên regression linear Li ser regresîyona lojîstîkî dixebitîn в fonksiyona bersiva lojîstîk Li ser regresîyona lojîstîkî dixebitîn
  3. Werin em veguherîn û derketinê pêk bînin fonksiyona bersiva lojîstîk
  4. Werin em hewl bidin ku fêm bikin ka çima rêbaza çargoşeya herî kêm dema hilbijartina parametreyan xirab e Li ser regresîyona lojîstîkî dixebitîn fonksiyonên Lojîstîkê Loss
  5. Em bikar tînin rêbaza îhtîmala herî zêde ji bo diyarkirina fonksiyonên hilbijartina parametre Li ser regresîyona lojîstîkî dixebitîn:

    5.1. Rewş 1: fonksiyon Lojîstîkê Loss ji bo tiştên ku bi navên class 0 и 1:

    Li ser regresîyona lojîstîkî dixebitîn

    5.2. Rewş 2: fonksiyon Lojîstîkê Loss ji bo tiştên ku bi navên class -1 и +1:

    Li ser regresîyona lojîstîkî dixebitîn


Gotar bi mînakên hêsan tije ye ku tê de hemî hesab bi devkî an li ser kaxezê hêsan e; Di hin rewşan de, dibe ku hesabkerek hewce bike. Ji ber vê yekê amade bibin :)

Ev gotar bi giranî ji zanyarên daneyê re ku di bingehên fêrbûna makîneyê de astek destpêkê ya zanînê ne armanc e.

Gotar dê ji bo xêzkirina grafîkan û hesaban kod jî peyda bike. Hemî kod bi ziman têne nivîsandin python-2.7. Bihêle ez pêşî li ser "nûze"ya guhertoya hatî bikar anîn rave bikim - ev yek ji şertên girtina qursa naskirî ye ji Yandex li ser platformek perwerdehiya serhêl a wekhev naskirî Coursera, û, wekî ku meriv dikare texmîn bike, materyal li ser vê qursê hate amadekirin.

01. Girêdana rasterast

Pir maqûl e ku meriv pirsê bipirse - girêdana xêzik û paşveçûna lojîstîkî bi wê re çi heye?

Ew hêsan e! Regresyona lojîstîk yek ji wan modelan e ku ji senifandina xêzikî ve girêdayî ye. Bi gotinên hêsan, peywira dabeşkerek xêzkirî ev e ku nirxên armanc pêşbîn bike Li ser regresîyona lojîstîkî dixebitîn ji guherbaran (regresor) Li ser regresîyona lojîstîkî dixebitîn. Tê bawer kirin ku girêdayîbûna di navbera taybetmendiyên Li ser regresîyona lojîstîkî dixebitîn û nirxên armanc Li ser regresîyona lojîstîkî dixebitîn linear. Ji ber vê yekê navê dabeşker - xêzkirî. Bi gelemperî, modela vegerandina lojîstîk li ser bingeha wê yekê ye ku di navbera taybetmendiyan de têkiliyek xêzikî heye. Li ser regresîyona lojîstîkî dixebitîn û nirxên armanc Li ser regresîyona lojîstîkî dixebitîn. Têkilî ev e.

Mînaka yekem li studyoyê heye, û ew, bi rast, li ser girêdayîbûna rêkûpêk a hejmarên ku têne lêkolîn kirin e. Di pêvajoya amadekirina gotarê de, ez rastî mînakek hatim ku jixwe gelek kes li ber çavan girtiye - girêdayîbûna niha bi voltaja ("Analîzasyona regresyonê ya sepandî", N. Draper, G. Smith). Em ê li vir jî lê binêrin.

Li gor Qanûna Ohm:

Li ser regresîyona lojîstîkî dixebitînko Li ser regresîyona lojîstîkî dixebitîn - hêza heyî, Li ser regresîyona lojîstîkî dixebitîn - voltaja, Li ser regresîyona lojîstîkî dixebitîn - berxwedan.

Ger me nizanibûya qanûna Ohm, wê hingê em dikarin bi guherînê ve girêdayîbûnê bi awayekî ezmûnî bibînin Li ser regresîyona lojîstîkî dixebitîn û pîvandin Li ser regresîyona lojîstîkî dixebitîn, dema ku piştgirî dike Li ser regresîyona lojîstîkî dixebitîn sabît kirin. Wê hingê em ê bibînin ku grafika girêdayîbûnê Li ser regresîyona lojîstîkî dixebitîn ji Li ser regresîyona lojîstîkî dixebitîn bi eslê xwe kêm-zêde xêzek rast dide. Em dibêjin "kêm an kêm" ji ber ku, her çend têkilî bi rastî rast e jî, dibe ku pîvandinên me xeletiyên piçûk hebin, û ji ber vê yekê xalên li ser grafîkê tam nekevin ser xetê, lê dê li dora wê bi rengekî bêkêmasî belav bibin.

Grafîk 1 "Pêwendî" Li ser regresîyona lojîstîkî dixebitîn ji Li ser regresîyona lojîstîkî dixebitîn»

Li ser regresîyona lojîstîkî dixebitîn

Koda xêzkirina nexşeyê

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. Pêdiviya veguherîna hevkêşeya veguhestina xêzikê

Ka em li mînakek din binêrin. Ka em bifikirin ku em di bankek de dixebitin û peywira me ew e ku li gorî hin faktoran îhtîmala vegerandina deynê deyndar diyar bikin. Ji bo hêsankirina peywirê, em ê tenê du faktoran bifikirin: meaşê mehane yê deyndar û mîqdara dravdana deynê mehane.

Kar pir bi şert e, lê bi vê nimûneyê em dikarin fêm bikin ka çima ew têrê nake ku bikar bînin fonksiyonên regression linear, û her weha fêr bibin ka çi veguherînên bi fonksiyonê re hewce ne ku bêne kirin.

Em vegerin ser mesela. Tê fêhmkirin ku meaş çiqas zêde be, deyndar dê karibe mehane zêdetir deynê xwe veqetîne. Di heman demê de, ji bo rêjeyek mûçeyek diyarkirî ev têkilî dê pir xêz be. Mînakî, em rêzek meaş ji 60.000 RUR heya 200.000 RUR bigirin û texmîn bikin ku di navbera meaşê diyarkirî de, girêdayîbûna mezinahiya dravdana mehane li ser mezinahiya meaş xêz e. Em bibêjin ku ji bo rêjeya diyarkirî ya mûçeyan hate eşkere kirin ku rêjeya meaş-dravdanê nikare bikeve binê 3-yê û divê deyndêr hîn jî 5.000 RUR di rezervan de hebe. Û tenê di vê rewşê de, em ê bifikirin ku deyndar dê deynê bankê vegerîne. Dûv re, hevkêşeya regresyonê ya xêz dê forma xwe bigire:

Li ser regresîyona lojîstîkî dixebitîn

ko Li ser regresîyona lojîstîkî dixebitîn, Li ser regresîyona lojîstîkî dixebitîn, Li ser regresîyona lojîstîkî dixebitîn, Li ser regresîyona lojîstîkî dixebitîn - meaş Li ser regresîyona lojîstîkî dixebitîn- deyndar, Li ser regresîyona lojîstîkî dixebitîn - dayina deyn Li ser regresîyona lojîstîkî dixebitîn-mîn deyndar.

Dûv re dayîna meaş û krediyê bi pîvanên sabît di hevkêşeyê de cih digirin Li ser regresîyona lojîstîkî dixebitîn Hûn dikarin biryar bidin ka hûn deyn bidin an red bikin.

Li pêş çavan, em bala xwe didin ku, bi pîvanên diyarkirî Li ser regresîyona lojîstîkî dixebitîn fonksiyona regresyonê xêz, tê bikaranîn fonksiyonên bersiva lojîstîk dê nirxên mezin hilberîne ku dê hesaban tevlihev bike da ku îhtîmalên dravdana deyn diyar bike. Ji ber vê yekê, tê pêşniyar kirin ku em 25.000 qatan kêm bikin. Ev veguherîna hevberan dê biryara dayîna deyn neguhere. Ka em vê xalê ji bo pêşerojê bi bîr bînin, lê naha, ji bo ku em hîn zelaltir bikin ka em li ser dipeyivin, werin em rewşa sê deyndêrên potansiyel bifikirin.

Tablo 1 "Deyndarên potansiyel"

Li ser regresîyona lojîstîkî dixebitîn

Koda ji bo çêkirina tabloyê

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

Li gorî daneyên tabloyê, Vasya, bi meaşê 120.000 RUR, dixwaze deynek werbigire da ku mehane bi 3.000 RUR vegerîne. Me destnîşan kir ku ji bo erêkirina krediyê divê meaşê Vasya sê qat ji heqê dravdanê derbas bibe û hîn jî 5.000 RUR maye. Vasya vê hewcedariyê têr dike: Li ser regresîyona lojîstîkî dixebitîn. Heta 106.000 RUR dimîne. Digel vê yekê ku dema ku tê hesibandin Li ser regresîyona lojîstîkî dixebitîn me şans kêm kiriye Li ser regresîyona lojîstîkî dixebitîn 25.000 carî, encam heman bû - deyn dikare were pejirandin. Fedya jî dê deynek werbigire, lê Lesha, digel ku ew herî zêde distîne, dê neçar be ku guhên xwe bişkîne.

Werin em ji bo vê rewşê grafîkekê bikişînin.

Xiflteya 2. "Klaskirina deyndêran"

Li ser regresîyona lojîstîkî dixebitîn

Koda ji bo xêzkirina grafikê

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Ji ber vê yekê, xeta meya rast, li gorî fonksiyonê hatî çêkirin Li ser regresîyona lojîstîkî dixebitîn, deyndêrên "xirab" ji yên "baş" vediqetîne. Ew deyndêrên ku daxwazên wan bi şiyanên wan re ne li hev in, li ser xetê ne (Lesha), lê yên ku li gorî pîvanên modela me, dikarin deynê xwe bidin, di binê xetê de ne (Vasya û Fedya). Bi gotineke din, em dikarin vê bibêjin: xeta me ya rasterast deyndaran dike du çîn. Ka em wan bi vî awayî destnîşan bikin: ji bo polê Li ser regresîyona lojîstîkî dixebitîn Em ê wan deyndêrên ku bi îhtimaleke mezin deynê xwe vegerînin wekî tesnîf bikin Li ser regresîyona lojîstîkî dixebitîn an Li ser regresîyona lojîstîkî dixebitîn Em ê wan deyndêrên ku bi îhtîmaleke mezin dê nikaribin deynê xwe bidin, têxin nav xwe.

Ka em encamên vê mînaka hêsan kurt bikin. Werin em xalekê bigirin Li ser regresîyona lojîstîkî dixebitîn û, veguheztina koordînatên xalê di hevkêşeya têkildar a xêzê de Li ser regresîyona lojîstîkî dixebitîn, sê vebijarkan bifikirin:

  1. Ger xal di bin xêzê de be û em wê bi polê veqetînin Li ser regresîyona lojîstîkî dixebitîn, paşê nirxa fonksiyonê Li ser regresîyona lojîstîkî dixebitîn dê erênî ji Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn. Ev tê vê wateyê ku em dikarin texmîn bikin ku îhtîmala vegerandina krediyê di hundurê de ye Li ser regresîyona lojîstîkî dixebitîn. Nirxa fonksiyonê ya mezin, îhtimal jî ew qas bilindtir dibe.
  2. Ger xalek li jorê xêzekê be û em wê ji polê re destnîşan bikin Li ser regresîyona lojîstîkî dixebitîn an Li ser regresîyona lojîstîkî dixebitîn, wê demê nirxa fonksiyonê dê ji neyînî be Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn. Wê hingê em ê texmîn bikin ku îhtîmala vegerandina deyn di hundurê de ye Li ser regresîyona lojîstîkî dixebitîn û, nirxa bêkêmasî ya fonksiyonê çiqas mezintir be, ew qas pêbaweriya me bilind dibe.
  3. Xal li ser xeteke rast e, li ser sînorê di navbera du çînan de ye. Di vê rewşê de, nirxa fonksiyonê Li ser regresîyona lojîstîkî dixebitîn dê wekhev be Li ser regresîyona lojîstîkî dixebitîn û îhtîmala vegerandina deynê wekhev e Li ser regresîyona lojîstîkî dixebitîn.

Naha, em bifikirin ku ne du faktor, lê bi dehan, û ne sê, lê bi hezaran deyndêrên me hene. Wê demê li şûna xeteke rast em ê hebin m-dimensîyonel balafir û hevseng Li ser regresîyona lojîstîkî dixebitîn Em ê ji hewayê neyên derxistin, lê li gorî hemî rêgezan, û li ser bingeha daneyên berhevkirî yên li ser deyndêrên ku deyn dane an nedane têne derxistin. Bi rastî, bala xwe bidin ku em naha deyndêran bi karanîna hevberên berê yên naskirî hilbijêrin Li ser regresîyona lojîstîkî dixebitîn. Bi rastî, peywira modela regresyona lojîstîkî bi tam destnîşankirina parametreyan e Li ser regresîyona lojîstîkî dixebitîn, Li kîjan nirxa fonksiyonê winda dike Lojîstîkê Loss dê meyla herî kêm bike. Lê di derbarê vektor çawa tê hesibandin Li ser regresîyona lojîstîkî dixebitîn, em ê di beşa 5emîn ya gotarê de bêtir fêr bibin. Di vê navberê de, em vedigerin axa soza xwe - li bankerê me û sê xerîdarên wî.

Bi saya fonksiyonê Li ser regresîyona lojîstîkî dixebitîn em dizanin ji kê re deyn dikare bê dayîn û kê divê bê redkirin. Lê hûn nikarin bi agahiyek weha biçin cem derhêner, ji ber ku wan dixwest îhtîmala vegerandina deynê ji hêla her deyndar ve ji me bistînin. Çi bikim? Bersiv hêsan e - pêdivî ye ku em bi rengek fonksiyonê veguherînin Li ser regresîyona lojîstîkî dixebitîn, ku nirxên wê di rêzê de ne Li ser regresîyona lojîstîkî dixebitîn ji fonksiyonek ku nirxên wê dê di nav rêzê de bin Li ser regresîyona lojîstîkî dixebitîn. Û fonksiyonek wusa heye, jê re tê gotin fonksiyona bersiva lojîstîk an veguherîna berevajî-logit. Lihevrasthatin:

Li ser regresîyona lojîstîkî dixebitîn

Ka em gav bi gav bibînin ka ew çawa dixebite fonksiyona bersiva lojîstîk. Bala xwe bidinê ku em ê berovajî vê yekê bimeşin, yanî. em ê bihesibînin ku em nirxa îhtimalê, ya ku di navberê de ye, dizanin Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn û dûv re em ê vê nirxê li tevahiya rêza jimareyan "veqetînin". Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn.

03. Em fonksiyona bersiva lojîstîk derdixin

Gav 1. Nirxên îhtîmalê di nav rêzekê de veguherînin Li ser regresîyona lojîstîkî dixebitîn

Di dema veguherîna fonksiyonê de Li ser regresîyona lojîstîkî dixebitîn в fonksiyona bersiva lojîstîk Li ser regresîyona lojîstîkî dixebitîn Em ê analîstê xwe yê krediyê bi tenê bihêlin û li şûna wê, gera li pirtûkfiroşan bikin. Na, bê guman, em ê behîs nekin, her tiştê ku me li wir eleqedar dike, wateya gotinê ye, mînakî, şans 4 ber 1 e. Derfetên ku ji hemî behîvan re nas e, rêjeya "serkeftinan" bi " têkçûn”. Di warê îhtîmalê de, şans îhtîmala rûdana bûyerek bi îhtîmala ku bûyerek çênebûbe dabeş dibe. Ka em formula şansê rûdana bûyerê binivîsin Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn

ko Li ser regresîyona lojîstîkî dixebitîn - îhtîmala rûdana bûyerekê, Li ser regresîyona lojîstîkî dixebitîn - îhtîmala ku bûyerek NE rû bide

Bo nimûne, eger îhtîmala ku hespê ciwan, hêzdar û leyîstok bi nasnav "Veterok" wê di bezê de li pîrejineke bi navê "Matilda" ya pîr û qeşeng bixe. Li ser regresîyona lojîstîkî dixebitîn, wê demê şansê serkeftinê ji bo "Veterok" dê bibe Li ser regresîyona lojîstîkî dixebitîn к Li ser regresîyona lojîstîkî dixebitîn Li ser regresîyona lojîstîkî dixebitîn û berevajî vê, bi zanîna şansê, wê ji me re ne dijwar be ku em îhtimalê hesab bikin Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn

Bi vî rengî, em fêr bûne ku "wergerandina" îhtîmalan li şansên ku nirxan jê digirin Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn. Ka em gavek din bavêjin û fêr bibin ku "wergerandina" îhtîmalê ji tevahiya rêza hejmarê re bikin Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn.

Gav 2. Nirxên îhtîmalê di nav rêzekê de veguherînin Li ser regresîyona lojîstîkî dixebitîn

Ev gav pir hêsan e - ka em logarîtmaya şansê li ser bingeha hejmara Euler bigirin. Li ser regresîyona lojîstîkî dixebitîn û em distînin:

Li ser regresîyona lojîstîkî dixebitîn

Niha em dizanin ku eger Li ser regresîyona lojîstîkî dixebitîn, paşê nirxê hesab bike Li ser regresîyona lojîstîkî dixebitîn dê pir hêsan be û, ji bilî vê, divê erênî be: Li ser regresîyona lojîstîkî dixebitîn. Ev rast e.

Ji meraqê, ka em binihêrin ka gelo Li ser regresîyona lojîstîkî dixebitîn, hingê em hêvî dikin ku nirxek neyînî bibînin Li ser regresîyona lojîstîkî dixebitîn. Em kontrol dikin: Li ser regresîyona lojîstîkî dixebitîn. Ew rast e.

Naha em dizanin ka meriv çawa nirxa îhtîmalê ji veguhezîne Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn li ser tevahiya rêza hejmarê ji Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn. Di gava pêş de em ê berevajî vê yekê bikin.

Heya nuha, em bala xwe didin ku li gorî qaîdeyên logarîtmê, nirxa fonksiyonê dizanin Li ser regresîyona lojîstîkî dixebitîn, hûn dikarin şansê hesab bikin:

Li ser regresîyona lojîstîkî dixebitîn

Ev rêbaza diyarkirina astengiyan dê di gava pêş de ji me re bikêr be.

Gav 3. Werin em formulek diyar bikin Li ser regresîyona lojîstîkî dixebitîn

Ji ber vê yekê em fêr bûn, zanîn Li ser regresîyona lojîstîkî dixebitîn, nirxên fonksiyonê bibînin Li ser regresîyona lojîstîkî dixebitîn. Lêbelê, di rastiyê de, pêdivî ye ku em tam berevajî vê yekê - zanibin nirxê Li ser regresîyona lojîstîkî dixebitîn dîtin Li ser regresîyona lojîstîkî dixebitîn. Ji bo vê yekê, em werin ser têgehek wekî fonksiyona şansê berevajî, li gorî ku:

Li ser regresîyona lojîstîkî dixebitîn

Di gotarê de em ê formula jorîn dernexin, lê em ê wê bi karanîna hejmarên ji mînaka li jor kontrol bikin. Em dizanin ku bi şansê 4 ber 1 (Li ser regresîyona lojîstîkî dixebitîn), îhtîmala rûdana bûyerê 0.8 e (Li ser regresîyona lojîstîkî dixebitîn). Ka em cîgiriyekê bikin: Li ser regresîyona lojîstîkî dixebitîn. Ev bi hesabên me yên ku berê hatine kirin re hevaheng e. Werin em herin.

Di gava dawî de me ev yek derxist holê Li ser regresîyona lojîstîkî dixebitîn, ku tê vê wateyê ku hûn dikarin di fonksiyona şansê berevajî de veguhezînin. Em distînin:

Li ser regresîyona lojîstîkî dixebitîn

Herdu jimarker û mewcûd li ser dabeş bikin Li ser regresîyona lojîstîkî dixebitînpaşan:

Li ser regresîyona lojîstîkî dixebitîn

Tenê di rewşê de, ji bo ku em pê ewle bin ku me li deverek xeletiyek nekiriye, em ê kontrolek piçûkek din bikin. Di gava 2 de, em ji bo Li ser regresîyona lojîstîkî dixebitîn diyar kir ku Li ser regresîyona lojîstîkî dixebitîn. Dûv re, şûna nirxê Li ser regresîyona lojîstîkî dixebitîn di fonksiyona bersiva lojîstîk de, em li bendê ne ku bigihîjin Li ser regresîyona lojîstîkî dixebitîn. Em cîgir dikin û distînin: Li ser regresîyona lojîstîkî dixebitîn

Pîroz be, xwendevanê delal, me nû fonksiyona bersiva lojîstîkî derxist û ceriband. Ka em li grafiya fonksiyonê binêrin.

Grafîk 3 "Fonksiyon bersiva lojîstîk"

Li ser regresîyona lojîstîkî dixebitîn

Koda ji bo xêzkirina grafikê

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Di edebiyatê de hûn dikarin navê vê fonksiyonê jî bibînin fonksiyona sigmoîd. Grafîk bi zelalî destnîşan dike ku guherîna sereke di îhtîmala tiştek ku aîdî çînekê ye di nav rêzek piçûk de pêk tê. Li ser regresîyona lojîstîkî dixebitîn, cihekî ji Li ser regresîyona lojîstîkî dixebitîn ber Li ser regresîyona lojîstîkî dixebitîn.

Ez pêşniyar dikim ku vegere analîstê meya krediyê û ji wî re bibe alîkar ku îhtîmala dravdana krediyê hesab bike, wekî din ew xetere dike ku bê bonus bimîne :)

Tablo 2 "Deyndarên potansiyel"

Li ser regresîyona lojîstîkî dixebitîn

Koda ji bo çêkirina tabloyê

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Ji ber vê yekê, me îhtîmala vegerandina deyn destnîşan kir. Bi gelemperî, ev rast xuya dike.

Bi rastî, îhtîmala ku Vasya, bi meaşê 120.000 RUR, bikaribe her meh 3.000 RUR bide bankê, nêzîkî %100 e. Bi awayê, divê em fêm bikin ku bankek dikare ji Lesha re deyn bide heke polîtîkaya bankê, mînakî, ji bo deynkirina xerîdaran bi îhtîmala vegerandina krediyê ji, bêje, 0.3 zêdetir peyda dike. Tenê di vê rewşê de bank dê ji bo windahiyên gengaz rezervek mezintir biafirîne.

Her weha divê were zanîn ku rêjeya mûçe bi mûçeyê herî kêm 3 û bi rêjeyek 5.000 RUR ji tavan hatiye girtin. Ji ber vê yekê, me nikarîbû vektora giranan di forma wê ya bingehîn de bikar bînin Li ser regresîyona lojîstîkî dixebitîn. Diviyabû ku me qasê pir kêm bikin, û di vê rewşê de me her qasê bi 25.000 dabeş kir, ango di eslê xwe de me encam rast kir. Lê ev bi taybetî hate kirin ku di qonaxa destpêkê de têgihîştina materyalê hêsan bike. Di jiyanê de, em ê ne hewce ne ku hevrêzan îcad bikin û sererast bikin, lê wan bibînin. Di beşên din ên gotarê de em ê hevkêşeyên ku bi wan pîvanan têne hilbijartin derxînin Li ser regresîyona lojîstîkî dixebitîn.

04. Rêbaza herî kêm çargoşe ji bo diyarkirina vektora giranan Li ser regresîyona lojîstîkî dixebitîn di fonksiyona bersiva lojîstîk de

Em jixwe vê rêbazê ji bo hilbijartina vektorek giran dizanin Li ser regresîyona lojîstîkî dixebitîn, wekî rêbaza çarçikên herî kêm (LSM) û bi rastî, çima em wê hingê wê di pirsgirêkên dabeşkirina binary de bikar neynin? Bi rastî, tiştek ji we re asteng dike ku hûn bikar bînin MNC, tenê ev rêbaz di pirsgirêkên dabeşkirinê de encamên ku ji wan kêmtir rast in dide Lojîstîkê Loss. Bingeheke vê ya teorîk heye. Ka em pêşî li mînakek hêsan binêrin.

Ka em texmîn bikin ku modelên me (bikaranîna MSE и Lojîstîkê Loss) jixwe dest bi hilbijartina vektora giranan kirine Li ser regresîyona lojîstîkî dixebitîn û me hesap di gavekê de rawestand. Ne girîng e ka di navîn de, di dawiyê de an di destpêkê de, ya sereke ev e ku me jixwe hin nirxên vektora giranan heye û em texmîn bikin ku di vê gavê de vektora giranan. Li ser regresîyona lojîstîkî dixebitîn ji bo her du modelan cudahî tune. Dûv re giraniyên encam hildin û bixin şûna wan fonksiyona bersiva lojîstîk (Li ser regresîyona lojîstîkî dixebitîn) ji bo hin tiştên ku girêdayî polê ne Li ser regresîyona lojîstîkî dixebitîn. Em du rewşan lêkolîn dikin dema ku, li gorî vektora hilbijartî ya giranan, modela me pir xelet e û berevajî - model pir pê bawer e ku tişt ji pola ye. Li ser regresîyona lojîstîkî dixebitîn. Ka em bibînin dema ku bikar bînin dê çi ceza werin dayîn MNC и Lojîstîkê Loss.

Koda ku li gorî fonksiyona windabûnê ya ku hatî bikar anîn cezayan hesab dike

# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1

# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2

Bûyerek xeletiyek - model ji çînekê re tiştekî destnîşan dike Li ser regresîyona lojîstîkî dixebitîn bi îhtimaleke 0,01

Cezayê bikaranîna MNC dê bibe:
Li ser regresîyona lojîstîkî dixebitîn

Cezayê bikaranîna Lojîstîkê Loss dê bibe:
Li ser regresîyona lojîstîkî dixebitîn

Doza pêbaweriyek xurt - model ji çînekê re tiştekî destnîşan dike Li ser regresîyona lojîstîkî dixebitîn bi îhtimaleke 0,99

Cezayê bikaranîna MNC dê bibe:
Li ser regresîyona lojîstîkî dixebitîn

Cezayê bikaranîna Lojîstîkê Loss dê bibe:
Li ser regresîyona lojîstîkî dixebitîn

Ev mînak baş diyar dike ku di rewşek xeletiyek mezin de fonksiyona windabûnê Loss Log bi giranî zêdetir modelê ceza dike MSE. Ka em naha fam bikin ka paşxaneya teorîkî ya karanîna fonksiyona windakirinê çi ye Loss Log di pirsgirêkên dabeşkirinê de.

05. Rêbaza îhtîmala herî zêde û paşveçûna lojîstîk

Wekî ku di destpêkê de soz hat dayîn, gotar bi mînakên hêsan tije ye. Di studyoyê de mînakek din û mêvanên kevn hene - deyndarên bankê: Vasya, Fedya û Lesha.

Tenê di rewşê de, berî ku nimûneyê pêşve bixim, bihêle ez ji we re bi bîr bînim ku di jiyanê de em bi nimûneyek perwerdehiyê ya bi hezaran an bi mîlyonan tiştan bi deh an bi sedan taybetmendiyan re mijûl dibin. Lêbelê, li vir hejmar têne girtin da ku ew bi hêsanî di serê zanyarek daneya nûjen de cih bigirin.

Em vegerin ser mesela. Werin em bifikirin ku rêvebirê bankê biryar da ku ji her kesê hewcedar re deynek bide, tevî vê yekê ku algorîtmê jê re got ku ew ji Lesha re nede. Û niha têra xwe wext derbas bûye û em dizanin ji her sê lehengan kê deyn daye û kê nedaye. Tiştê ku dihat hêvî kirin: Vasya û Fedya deyn dan, lê Lesha nekir. Naha em bifikirin ku ev encam dê ji bo me bibe nimûneyek perwerdehiya nû û, di heman demê de, mîna ku hemî daneyên li ser faktorên ku bandorê li îhtîmala vegerandina krediyê dikin (meaşê deyndêr, mezinahiya dravê mehane) winda bûne. Dûv re, bi têgihîştî, em dikarin texmîn bikin ku her sêyem deyndêr deynê bankê nade, an bi gotinek din, îhtîmala ku deyndêrê din deynê vegerîne. Li ser regresîyona lojîstîkî dixebitîn. Ev texmîna intuitive xwedan pejirandina teorîkî ye û li ser bingehê ye rêbaza îhtîmala herî zêde, gelek caran di edebiyatê de jê re tê gotin prensîba îhtîmala herî zêde.

Pêşî, bila em bi amûra têgînî re nas bikin.

Îhtîmala nimûnekirinê îhtîmala bidestxistina tam nimûneyek weha ye, bi destxistina tam çavdêrî/encamên weha, yanî. hilbera îhtîmalên bidestxistina her yek ji encamên nimûneyê (mînak, ka deynê Vasya, Fedya û Lesha di heman demê de hate vegerandin an na).

Fonksiyona îhtîmalê îhtîmala nimûneyek bi nirxên pîvanên dabeşkirinê re têkildar dike.

Di rewşa me de, nimûneya perwerdehiyê nexşeyek Bernoulli ya gelemperî ye, ku tê de guhêrbar tenê du nirxan digire: Li ser regresîyona lojîstîkî dixebitîn an Li ser regresîyona lojîstîkî dixebitîn. Ji ber vê yekê, îhtîmala nimûneyê dikare wekî fonksiyonek îhtîmala pîvanê were nivîsandin Li ser regresîyona lojîstîkî dixebitîn wiha ye:

Li ser regresîyona lojîstîkî dixebitîn
Li ser regresîyona lojîstîkî dixebitîn

Navnîşa jorîn dikare wekî jêrîn were şîrove kirin. Îhtîmala hevpar a ku Vasya û Fedya dê deynê vegerînin wekhev e Li ser regresîyona lojîstîkî dixebitîn, îhtîmala ku Lesha dê deynê NE vegerîne wekhev e Li ser regresîyona lojîstîkî dixebitîn (ji ber ku ew NE dravdana deyn bû), ji ber vê yekê îhtîmala hevbeş a her sê bûyeran wekhev e Li ser regresîyona lojîstîkî dixebitîn.

Rêbaza îhtîmala herî zêde Rêbazek e ji bo texmînkirina parametreyek nenas ji hêla herî zêde fonksiyonên îhtîmalê. Di rewşa me de, divê em nirxek weha bibînin Li ser regresîyona lojîstîkî dixebitînli kîjan Li ser regresîyona lojîstîkî dixebitîn digihîje herî zêde.

Fikra rastîn ji ku tê - li nirxa pîvanek nenas bigere ku fonksiyona îhtîmalê digihîje herî zêde? Koka ramanê ji ramana ku mînakek yekane çavkaniya zanînê ye ku di derheqê nifûsê de ji me re peyda dibe. Her tiştê ku em di derbarê nifûsê de dizanin di nimûneyê de têne temsîl kirin. Ji ber vê yekê, ya ku em dikarin bibêjin ev e ku nimûneyek refleksa herî rast a nifûsa ku ji me re peyda dibe ye. Ji ber vê yekê, pêdivî ye ku em pîvanek bibînin ku nimûneya berdest tê de herî gengaz dibe.

Eşkere ye, em bi pirsgirêkek xweşbîniyê re mijûl dibin ku tê de pêdivî ye ku em xala herî zêde ya fonksiyonek bibînin. Ji bo dîtina xala extremumê, pêdivî ye ku meriv şerta rêza yekem bihesibîne, ango jêdera fonksiyonê bibe sifir û hevkêşeyê li gorî pîvana xwestinê çareser bike. Lêbelê, lêgerîna hilberek hilberek hejmareke mezin a faktor dikare karekî dirêj be; ji bo ku ji vê yekê dûr nekevin, teknîkek taybetî heye - guheztina logarîtmê fonksiyonên îhtîmalê. Çima veguherînek wisa gengaz e? Ka em bala xwe bidin vê yekê ku em li ekstraya fonksiyonê bixwe ne digerinLi ser regresîyona lojîstîkî dixebitîn, û xala extremum, ango nirxa pîvana nenas Li ser regresîyona lojîstîkî dixebitînli kîjan Li ser regresîyona lojîstîkî dixebitîn digihîje herî zêde. Dema ku ber bi logarîtmê ve diçin, xala extremumê naguhere (her çend extremum bixwe cûda dibe), ji ber ku logarîtm fonksiyonek monotonîk e.

Werin, li gorî jor, em bi deynên Vasya, Fedya û Lesha re mînaka xwe bi pêş bixin. Pêşî em biçin ser logarîtma fonksiyona îhtimalê:

Li ser regresîyona lojîstîkî dixebitîn

Niha em dikarin bi hêsanî îfadeyê ji hev cuda bikin Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn

Û di dawiyê de, şerta rêza yekem binihêrin - em dergûşa fonksiyonê bi sifirê wekhev dikin:

Li ser regresîyona lojîstîkî dixebitîn

Bi vî rengî, texmîna meya intuitive ya îhtîmala vegerandina krediyê Li ser regresîyona lojîstîkî dixebitîn ji aliyê teorîk ve hat pejirandin.

Baş e, lê divê em niha bi vê agahiyê re çi bikin? Ger em texmîn bikin ku her sêyem deyndar drav li bankê venegerîne, wê hingê dê ya paşîn bê guman îflas bike. Rast e, lê tenê dema ku îhtîmala dravdana deynê wekhev binirxînin Li ser regresîyona lojîstîkî dixebitîn Me faktorên ku bandor li ser vegerandina krediyê dikin hesab nekirin: meaşê deyndar û mezinahiya dravdana mehane. Ka em ji bîr mekin ku me berê îhtîmala vegerandina krediyê ji hêla her xerîdar ve hesab kir, li gorî van heman faktoran. Mantiqî ye ku me îhtîmalên ji hevbera domdar cuda bi dest xistin Li ser regresîyona lojîstîkî dixebitîn.

Ka em îhtîmala nimûneyan diyar bikin:

Koda ji bo hesabkirina îhtîmalên nimûneyê

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)

Îhtîmala nimûneyê bi nirxek domdar Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn

Dema ku îhtîmala dravdana deyn tê hesibandin ku faktoran li ber çavan digire, îhtîmala nimûneyê Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn
Li ser regresîyona lojîstîkî dixebitîn

Îhtîmala nimûneyek bi îhtimaleke ku li gorî faktoran tê hesibandin ji îhtîmala bi nirxek îhtîmalek domdar mezintir derket holê. Ev tê çi wateyê? Ev destnîşan dike ku zanîna di derbarê faktoran de gengaz kir ku meriv bi rasttir îhtîmala dravdana krediyê ji bo her xerîdar hilbijêrin. Ji ber vê yekê, dema dayîna deynê din, dê rasttir be ku meriv modela ku di dawiya beşê 3-ê gotarê de hatî pêşniyar kirin ji bo nirxandina îhtîmala dravdana deyn bikar bîne.

Lê paşê, heke em dixwazin herî zêde bikin fonksiyona îhtîmala nimûneyê, wê hingê çima hin algorîtma bikar neynin ku dê ji bo Vasya, Fedya û Lesha îhtîmalan çêbike, wek nimûne, bi rêzê ve 0.99, 0.99 û 0.01 wekhev e. Dibe ku algorîtmayek weha dê li ser nimûneya perwerdehiyê baş bixebite, ji ber ku ew ê nirxa îhtîmala nimûneyê nêzîktir bike. Li ser regresîyona lojîstîkî dixebitîn, lê, yekem, algorîtmayek weha bi îhtîmalek mezin dê bi şiyana giştîkirinê re dijwar be, û ya duyemîn jî, ev algorîtma dê bê guman ne rêzik be. Û heger rêbazên têkoşîna li ser perwerdehiya zêde (qabiliyeta gelemperîkirina wekhevî qels) eşkere di plansaziya vê gotarê de tune ne, wê hingê bila em bi hûrgulî xala duyemîn derbas bikin. Ji bo vê yekê, tenê pirsek hêsan bersiv bikin. Ma îhtîmala ku Vasya û Fedya deynê vegerînin yek be, li gorî faktorên ku ji me re têne zanîn? Ji aliyê mantiqa saxlem ve, helbet na, nikare. Ji ber vê yekê Vasya dê ji bo vegerandina deynê mehê 2.5% ji meaşê xwe bide, û Fedya - hema hema 27,8%. Di heman demê de di grafika 2-an de "Tesnîfkirina xerîdar" em dibînin ku Vasya ji xeta ku çînan vediqetîne ji Fedya pir dûrtir e. Û di dawiyê de, em dizanin ku fonksiyonê Li ser regresîyona lojîstîkî dixebitîn ji bo Vasya û Fedya nirxên cûda digire: 4.24 ji bo Vasya û 1.0 ji bo Fedya. Naha, heke Fedya, bo nimûne, fermanek mezinbûnê zêdetir bi dest xist an jî deynek piçûktir xwest, wê hingê îhtîmala vegerandina deynê ji bo Vasya û Fedya dê mîna hev be. Bi gotineke din, girêdayîbûna xêzikî nayê xapandin. Û heke em bi rastî şansê hesab kirin Li ser regresîyona lojîstîkî dixebitîn, û wan ji hewayê dernexist, em dikarin bi ewlehî bibêjin ku nirxên me Li ser regresîyona lojîstîkî dixebitîn baştirîn rê dide me ku em îhtîmala vegerandina deyn ji hêla her deyndar ve texmîn bikin, lê ji ber ku me li hev kir ku em texmîn bikin ku destnîşankirina hevberan Li ser regresîyona lojîstîkî dixebitîn li gorî hemî qaîdeyan hate kirin, wê hingê em ê wusa bifikirin - hevrêzên me dihêle ku em texmînek çêtir a îhtîmalê bidin :)

Lêbelê, em dûr dikevin. Di vê beşê de divê em fam bikin ka vektora giranan çawa tê destnîşankirin Li ser regresîyona lojîstîkî dixebitîn, ku ji bo nirxandina îhtîmala vegerandina deyn ji hêla her deyndar ve pêdivî ye.

Ka em bi kurtasî kurt bikin ka kîjan arsenal em li şansê digerin Li ser regresîyona lojîstîkî dixebitîn:

1. Em texmîn dikin ku têkiliya di navbera guhêrbar (nirxa pêşbîniyê) û faktora ku bandorê li encamê dike rêzik e. Ji ber vê sedemê tê bikaranîn fonksiyona regresyonê xêz hevalbend Li ser regresîyona lojîstîkî dixebitîn, rêza ku tiştan (mişteriyan) dike çîn Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn an Li ser regresîyona lojîstîkî dixebitîn (mişteriyên ku dikarin deynê xwe bidin û yên ku nikarin deyn bidin). Di rewşa me de, hevkêş forma xwe heye Li ser regresîyona lojîstîkî dixebitîn.

2. Em bikar tînin fonksiyona logit berevajî hevalbend Li ser regresîyona lojîstîkî dixebitîn ji bo diyarkirina îhtîmala tiştekî ku mensûbê çînekê ye Li ser regresîyona lojîstîkî dixebitîn.

3. Em seta perwerdehiya xwe wekî pêkanîna giştpirsiyê dihesibînin Planên Bernoulli, ango ji bo her tiştekî guherbareke tesadufî tê çêkirin, ku bi îhtimaleke mezin Li ser regresîyona lojîstîkî dixebitîn (ji bo her tiştî ya xwe) nirxa 1 û bi îhtimalekê digire Li ser regresîyona lojîstîkî dixebitîn - 0.

4. Em dizanin ku em hewce ne ku herî zêde bikin fonksiyona îhtîmala nimûneyê girtina faktorên pejirandî da ku nimûneya berdest bibe ya herî maqûl. Bi gotinek din, pêdivî ye ku em pîvanên ku nimûne dê herî maqûl be hilbijêrin. Di rewşa me de, pîvana hilbijartî îhtîmala vegerandina krediyê ye Li ser regresîyona lojîstîkî dixebitîn, ku di encamê de bi kêşeyên nenas ve girêdayî ye Li ser regresîyona lojîstîkî dixebitîn. Ji ber vê yekê divê em vektorek wusa ya giranan bibînin Li ser regresîyona lojîstîkî dixebitîn, ku îhtîmala nimûneyê dê herî zêde be.

5. Em dizanin ku çi herî zêde fonksiyonên îhtîmala nimûne bikar bînin rêbaza îhtîmala herî zêde. Û em hemî hîleyên dijwar dizanin ku bi vê rêbazê re bixebitin.

Bi vî rengî ew tevgerek pir-gavekî ye :)

Naha ji bîr mekin ku di destpêka gotarê de me dixwest du celeb fonksiyonên windabûnê derxînin Lojîstîkê Loss li gorî ka çînên tiştan çawa têne destnîşan kirin. Wusa çêbû ku di pirsgirêkên dabeşkirina du çînan de, çîn wekî têne destnîşan kirin Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn an Li ser regresîyona lojîstîkî dixebitîn. Bi nîşankirinê ve girêdayî, hilber dê fonksiyonek windabûnê ya têkildar hebe.

Mesele 1. Tesnîfkirina tiştan nav Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn

Berê, dema ku îhtîmala nimûneyek were destnîşankirin, ku tê de îhtîmala dravdana deyn ji hêla deyndar ve li ser bingeha faktoran û hevkêşan hate hesibandin. Li ser regresîyona lojîstîkî dixebitîn, me formula bikar anî:

Li ser regresîyona lojîstîkî dixebitîn

Bi rastî Li ser regresîyona lojîstîkî dixebitîn wate ye fonksiyonên bersiva lojîstîk Li ser regresîyona lojîstîkî dixebitîn ji bo vektorek diyarkirî ya giranan Li ser regresîyona lojîstîkî dixebitîn

Wê hingê tiştek me nahêle ku em fonksiyona îhtîmala nimûneyê wekî jêrîn binivîsin:

Li ser regresîyona lojîstîkî dixebitîn

Diqewime ku carinan ji bo hin analîstên nûjen dijwar e ku tavilê fêm bikin ka ev fonksiyon çawa dixebite. Ka em li 4 mînakên kurt binêrin ku dê tiştan zelal bikin:

1. ger Li ser regresîyona lojîstîkî dixebitîn (ango, li gorî nimûneya perwerdehiyê, tişt ji pola +1 e), û algorîtmaya me Li ser regresîyona lojîstîkî dixebitîn îhtîmala tesnîfkirina nesneyekê ji bo çînekê diyar dike Li ser regresîyona lojîstîkî dixebitîn 0.9 wekhev e, wê hingê ev perçeya îhtîmala nimûneyê dê wiha were hesibandin:

Li ser regresîyona lojîstîkî dixebitîn

2. ger Li ser regresîyona lojîstîkî dixebitînû Li ser regresîyona lojîstîkî dixebitîn, wê hingê hesab dê bi vî rengî be:

Li ser regresîyona lojîstîkî dixebitîn

3. ger Li ser regresîyona lojîstîkî dixebitînû Li ser regresîyona lojîstîkî dixebitîn, wê hingê hesab dê bi vî rengî be:

Li ser regresîyona lojîstîkî dixebitîn

4. ger Li ser regresîyona lojîstîkî dixebitînû Li ser regresîyona lojîstîkî dixebitîn, wê hingê hesab dê bi vî rengî be:

Li ser regresîyona lojîstîkî dixebitîn

Eşkere ye ku fonksiyona îhtîmalê dê di dozên 1 û 3-an de an di rewşa gelemperî de - bi nirxên rast texmînkirî yên îhtîmalên veqetandina tiştekê li pola herî zêde bibe. Li ser regresîyona lojîstîkî dixebitîn.

Ji ber ku di dema diyarkirina îhtîmala veqetandina objeyekê ji çînekê re Li ser regresîyona lojîstîkî dixebitîn Em tenê hevberan nizanin Li ser regresîyona lojîstîkî dixebitîn, wê demê em ê li wan bigerin. Wekî ku li jor jî hate behs kirin, ev pirsgirêkek xweşbîniyê ye ku tê de pêşî hewce ye ku em li gorî vektora giranan hilbera fonksiyona îhtîmalê bibînin. Li ser regresîyona lojîstîkî dixebitîn. Lêbelê, pêşî ew watedar e ku em peywirê ji xwe re hêsan bikin: em ê li derava logarîtmê bigerin. fonksiyonên îhtîmalê.

Li ser regresîyona lojîstîkî dixebitîn

Çima piştî logarîtmê, li fonksiyonên xeletiya lojîstîk, me nîşana ji guhert Li ser regresîyona lojîstîkî dixebitîn li ser Li ser regresîyona lojîstîkî dixebitîn. Her tişt hêsan e, ji ber ku di pirsgirêkên nirxandina qalîteya modelê de adetî ye ku nirxa fonksiyonê kêm bikin, me aliyê rastê yê vegotinê bi Li ser regresîyona lojîstîkî dixebitîn û li gorî vê yekê, li şûna ku em zêde bikin, naha em fonksiyonê kêm dikin.

Bi rastî, aniha, li ber çavên we, fonksiyona windakirinê bi dilşikestî hate derxistin - Lojîstîkê Loss ji bo komek perwerdehiyê bi du polan: Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn.

Naha, ji bo dîtina hevberan, em tenê hewce ne ku jêderkê bibînin fonksiyonên xeletiya lojîstîk û dûv re, bi karanîna rêbazên optimîzasyona hejmarî, wek daketina gradient an daketina gradientê ya stokastîk, hevberên herî çêtirîn hilbijêrin. Li ser regresîyona lojîstîkî dixebitîn. Lê, ji ber qebareya girîng a gotarê, tê pêşniyar kirin ku cûdahiyê bi tena serê xwe pêk bînin, an jî dibe ku ev bibe mijarek ji bo gotara paşîn bi gelek hejmartî bêyî mînakên weha berfireh.

Mesele 2. Tesnîfkirina tiştan nav Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn

Nêzîkatiya li vir jî dê wekî dersan be Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn, lê riya xwe ji bo encamkirina fonksiyonê winda dike Lojîstîkê Loss, dê bêtir xemilandî be. Werin em dest pê bikin. Ji bo fonksiyona gengaziyê em ê operatorê bikar bînin "heke... wê demê..."... Yanî heke Li ser regresîyona lojîstîkî dixebitînTişta th aîdî polê ye Li ser regresîyona lojîstîkî dixebitîn, paşê ji bo hesabkirina îhtîmala nimûneyê em îhtimalê bikar tînin Li ser regresîyona lojîstîkî dixebitîn, heke tiştê ku ji polê ye Li ser regresîyona lojîstîkî dixebitîn, paşê em di îhtimalê de cîgir dikin Li ser regresîyona lojîstîkî dixebitîn. Ya ku fonksiyona îhtîmalê dixuye ev e:

Li ser regresîyona lojîstîkî dixebitîn

Ka em li ser tiliyên xwe diyar bikin ka ew çawa dixebite. Ka em 4 rewşan binirxînin:

1. ger Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn, wê hingê îhtîmala nimûneyê dê "biçe" Li ser regresîyona lojîstîkî dixebitîn

2. ger Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn, wê hingê îhtîmala nimûneyê dê "biçe" Li ser regresîyona lojîstîkî dixebitîn

3. ger Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn, wê hingê îhtîmala nimûneyê dê "biçe" Li ser regresîyona lojîstîkî dixebitîn

4. ger Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn, wê hingê îhtîmala nimûneyê dê "biçe" Li ser regresîyona lojîstîkî dixebitîn

Eşkere ye ku di rewşên 1 û 3 de, dema ku îhtîmal bi algorîtmayê rast hatine destnîşankirin, fonksiyona îhtimalê dê were zêdekirin, ango, tiştê ku me dixwest bi dest bixin ev e. Lêbelê, ev nêzîkatî pir bikêr e û paşê em ê nîşanek tevlihevtir bifikirin. Lê pêşî, em fonksiyona îhtîmalê bi guheztina nîşanê logarîtmê bikin, ji ber ku naha em ê wê kêm bikin.

Li ser regresîyona lojîstîkî dixebitîn

Werin em şûna xwe bidin Li ser regresîyona lojîstîkî dixebitîn îfade Li ser regresîyona lojîstîkî dixebitîn:

Li ser regresîyona lojîstîkî dixebitîn

Werin em di bin logarîtmê de terma rast bi karanîna teknîkên hejmartî yên hêsan hêsan bikin û bistînin:

Li ser regresîyona lojîstîkî dixebitîn

Niha dem hatiye ku ji operatorê xilas bibin "heke... wê demê...". Bala xwe bidinê ku dema ku object Li ser regresîyona lojîstîkî dixebitîn girêdayî polê ye Li ser regresîyona lojîstîkî dixebitîn, paşê di îfadeya di bin logarîtmê de, di navdêrê de, Li ser regresîyona lojîstîkî dixebitîn bi hêz rakir Li ser regresîyona lojîstîkî dixebitîn, heke tiştê ku ji polê ye Li ser regresîyona lojîstîkî dixebitîn, paşê $e$ bi hêzê tê bilind kirin Li ser regresîyona lojîstîkî dixebitîn. Ji ber vê yekê, nîşana derecê dikare bi berhevkirina her du rewşan di yek de hêsan bibe: Li ser regresîyona lojîstîkî dixebitîn. Wê hingê fonksiyona xeletiya lojîstîk dê formê bigire:

Li ser regresîyona lojîstîkî dixebitîn

Li gorî qaîdeyên logarîtmê, em perçeyê dizivirînin û nîşana "Li ser regresîyona lojîstîkî dixebitîn"(minus) ji bo logarîtmê, em distînin:

Li ser regresîyona lojîstîkî dixebitîn

Li vir fonksiyona winda ye windabûna lojîstîk, ku di berhevoka perwerdehiyê de bi tiştên ku ji polan re hatine veqetandin tê bikar anîn: Li ser regresîyona lojîstîkî dixebitîn и Li ser regresîyona lojîstîkî dixebitîn.

Welê, di vê nuqteyê de ez îzna xwe distînim û em gotarê diqedînin.

Li ser regresîyona lojîstîkî dixebitîn Berhema nivîskar a berê "Berxistina hevkêşana regresyona xêzkirî di forma matrixê de" ye.

Materyalên alîkar

1. Wêje

1) Analîza regresyonê ya sepandî / N. Draper, G. Smith - 2nd ed. – M.: Finance and Statistics, 1986 (wergera ji Îngilîzî)

2) Teoriya îhtîmal û statîstîkên matematîkî / V.E. Gmurman - çapa 9. - M.: Dibistana bilind, 2003

3) Teoriya îhtîmalê / N.I. Chernova - Novosibirsk: Zanîngeha Dewletê ya Novosibirsk, 2007

4) Analîtîkên karsaziyê: ji daneyê berbi zanînê / Paklin N. B., Oreshkov V. I. - 2nd ed. - St. Petersburg: Peter, 2013

5) Zanistiya Daneyên Zanistiya Daneyên ji sifirê / Joel Gras - St. Petersburg: BHV Petersburg, 2017

6) Statîstîkên pratîkî ji bo pisporên Zanistiya Daneyên / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018

2. Ders, kurs (vîdyo)

1) Esasê rêbaza îhtîmala herî zêde, Boris Demeshev

2) Rêbaza îhtîmala herî zêde di doza domdar de, Boris Demeshev

3) Regresyona lojîstîk. Kursa ODS vekin, Yury Kashnitsky

4) Ders 4, Evgeny Sokolov (ji 47 hûrdeman vîdyoyê)

5) Regresyona lojîstîk, Vyacheslav Vorontsov

3. Çavkaniyên Înternetê

1) Modelên dabeşkirina xêz û regresyonê

2) Meriv çawa Regresyona Lojîstîkî bi Hêsan Fêm Dike

3) Fonksiyona xeletiya lojîstîk

4) Testên serbixwe û formula Bernoulli

5) Balada MMP

6) Rêbaza îhtîmala herî zêde

7) Formul û taybetmendiyên logarîtmayan

8) Çima hejmar Li ser regresîyona lojîstîkî dixebitîn?

9) Tesnîfkerê xêzikî

Source: www.habr.com

Add a comment