Ծամում է լոգիստիկ ռեգրեսիան

Ծամում է լոգիստիկ ռեգրեսիան

Այս հոդվածում մենք կվերլուծենք փոխակերպման տեսական հաշվարկները գծային ռեգրեսիայի գործառույթներ в հակադարձ լոգիտի փոխակերպման ֆունկցիա (այլ կերպ կոչվում է լոգիստիկ արձագանքման ֆունկցիա). Այնուհետեւ, օգտագործելով զինանոցը առավելագույն հավանականության մեթոդ, համաձայն լոգիստիկ ռեգրեսիայի մոդելի, մենք բխում ենք կորստի ֆունկցիան Լոգիստիկ կորուստկամ այլ կերպ ասած՝ մենք կսահմանենք ֆունկցիա, որով ընտրվում են քաշի վեկտորի պարամետրերը լոգիստիկ ռեգրեսիայի մոդելում։ Ծամում է լոգիստիկ ռեգրեսիան.

Հոդվածի ուրվագիծ.

  1. Եկեք կրկնենք երկու փոփոխականների գծային հարաբերությունները
  2. Եկեք բացահայտենք վերափոխման անհրաժեշտությունը գծային ռեգրեսիայի գործառույթներ Ծամում է լոգիստիկ ռեգրեսիան в լոգիստիկ արձագանքման գործառույթ Ծամում է լոգիստիկ ռեգրեսիան
  3. Իրականացնենք վերափոխումները և ելքը լոգիստիկ արձագանքման գործառույթ
  4. Փորձենք հասկանալ, թե ինչու է նվազագույն քառակուսիների մեթոդը վատ պարամետրեր ընտրելիս Ծամում է լոգիստիկ ռեգրեսիան գործառույթները Լոգիստիկ կորուստ
  5. Մենք օգտագործում ենք առավելագույն հավանականության մեթոդ որոշելու համար պարամետրերի ընտրության գործառույթները Ծամում է լոգիստիկ ռեգրեսիան:

    5.1. Դեպք 1. գործառույթ Լոգիստիկ կորուստ դասի նշանակումներով օբյեկտների համար 0 и 1:

    Ծամում է լոգիստիկ ռեգրեսիան

    5.2. Դեպք 2. գործառույթ Լոգիստիկ կորուստ դասի նշանակումներով օբյեկտների համար -1 и +1:

    Ծամում է լոգիստիկ ռեգրեսիան


Հոդվածը լի է պարզ օրինակներով, որոնցում բոլոր հաշվարկները հեշտ է կատարել բանավոր կամ թղթի վրա, որոշ դեպքերում կարող է պահանջվել հաշվիչ: Ուրեմն պատրաստվիր :)

Այս հոդվածը հիմնականում նախատեսված է մեքենայական ուսուցման հիմունքների վերաբերյալ նախնական մակարդակի գիտելիքներ ունեցող տվյալների գիտնականների համար:

Հոդվածում կտրամադրվի նաև գրաֆիկներ և հաշվարկներ նկարելու ծածկագիր: Բոլոր ծածկագրերը գրված են լեզվով python 2.7. Թույլ տվեք նախօրոք բացատրել օգտագործված տարբերակի «նորույթը». սա հայտնի դասընթացն անցնելու պայմաններից մեկն է. Յանդեքս նույնքան հայտնի առցանց կրթական հարթակում Coursera, և, ինչպես կարելի է ենթադրել, նյութը պատրաստվել է այս դասընթացի հիման վրա։

01. Ուղիղ գծի կախվածություն

Միանգամայն խելամիտ է հարց տալ՝ ի՞նչ կապ ունի դրա հետ գծային կախվածությունը և լոգիստիկ ռեգրեսիան։

Դա պարզ է! Լոգիստիկ ռեգրեսիան այն մոդելներից է, որը պատկանում է գծային դասակարգչին։ Պարզ բառերով, գծային դասակարգչի խնդիրն է կանխատեսել թիրախային արժեքները Ծամում է լոգիստիկ ռեգրեսիան փոփոխականներից (ռեգեսորներ) Ծամում է լոգիստիկ ռեգրեսիան. Ենթադրվում է, որ կախվածությունը բնութագրերի միջև Ծամում է լոգիստիկ ռեգրեսիան և թիրախային արժեքները Ծամում է լոգիստիկ ռեգրեսիան գծային. Այստեղից էլ դասակարգչի անվանումը՝ գծային։ Շատ կոպիտ ասած, լոգիստիկ ռեգրեսիայի մոդելը հիմնված է այն ենթադրության վրա, որ բնութագրերի միջև գծային հարաբերություն կա. Ծամում է լոգիստիկ ռեգրեսիան և թիրախային արժեքները Ծամում է լոգիստիկ ռեգրեսիան. Սա է կապը:

Առաջին օրինակը կա ստուդիայում, և դա, ճիշտ է, ուսումնասիրվող մեծությունների ուղղագիծ կախվածության մասին է։ Հոդվածի պատրաստման գործընթացում ես հանդիպեցի մի օրինակի, որն արդեն շատերին դրդել է եզրին ՝ հոսանքի կախվածությունը լարումից («Կիրառական ռեգրեսիոն վերլուծություն», Ն. Դրեյփեր, Գ. Սմիթ). Այստեղ նույնպես կանդրադառնանք:

Ըստ Օհմի օրենքը.

Ծամում է լոգիստիկ ռեգրեսիանՈրտեղ Ծամում է լոգիստիկ ռեգրեսիան - ընթացիկ ուժ, Ծամում է լոգիստիկ ռեգրեսիան - Լարման, Ծամում է լոգիստիկ ռեգրեսիան - դիմադրություն.

Եթե ​​մենք չգիտեինք Օհմի օրենքը, ապա մենք կարող էինք էմպիրիկորեն գտնել կախվածությունը՝ փոխելով Ծամում է լոգիստիկ ռեգրեսիան և չափում Ծամում է լոգիստիկ ռեգրեսիան, աջակցելով Ծամում է լոգիստիկ ռեգրեսիան ամրագրված. Այնուհետև մենք կտեսնենք, որ կախվածության գրաֆիկը Ծամում է լոգիստիկ ռեգրեսիան - ից Ծամում է լոգիստիկ ռեգրեսիան սկզբնավորման միջով քիչ թե շատ ուղիղ գիծ է տալիս։ Մենք ասում ենք «քիչ թե շատ», քանի որ, թեև հարաբերությունն իրականում ճշգրիտ է, մեր չափումները կարող են պարունակել փոքր սխալներ, և, հետևաբար, գծապատկերի կետերը կարող են չընկնել ուղիղ գծի վրա, բայց պատահականորեն ցրվել դրա շուրջը:

Գծապատկեր 1 «Կախվածություն» Ծամում է լոգիստիկ ռեգրեսիան - ից Ծամում է լոգիստիկ ռեգրեսիան»

Ծամում է լոգիստիկ ռեգրեսիան

Գծապատկերների գծագրման կոդը

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. Գծային ռեգրեսիայի հավասարման վերափոխման անհրաժեշտությունը

Դիտարկենք մեկ այլ օրինակ։ Պատկերացնենք, որ մենք աշխատում ենք բանկում, և մեր խնդիրն է որոշել վարկառուի կողմից վարկի մարման հավանականությունը՝ կախված որոշակի գործոններից։ Առաջադրանքը պարզեցնելու համար մենք կդիտարկենք միայն երկու գործոն՝ վարկառուի ամսական աշխատավարձը և վարկի ամսական մարման գումարը:

Առաջադրանքը շատ պայմանական է, բայց այս օրինակով կարելի է հասկանալ, թե ինչու դա բավարար չէ օգտագործել գծային ռեգրեսիայի գործառույթներ, ինչպես նաև պարզել, թե ինչ փոխակերպումներ պետք է կատարվեն ֆունկցիայի հետ։

Վերադառնանք օրինակին. Հասկանալի է, որ որքան բարձր լինի աշխատավարձը, այնքան ավելի շատ վարկառուն կկարողանա ամսական հատկացնել վարկը մարելու համար: Միևնույն ժամանակ, որոշակի աշխատավարձի միջակայքի համար այդ հարաբերությունները բավականին գծային կլինեն։ Օրինակ, եկեք վերցնենք աշխատավարձի միջակայքը 60.000 RUR-ից մինչև 200.000 RUR և ենթադրենք, որ նշված աշխատավարձի միջակայքում ամսական վճարման չափի կախվածությունը աշխատավարձի չափից գծային է: Ասենք, որ աշխատավարձի նշված միջակայքի համար պարզվել է, որ աշխատավարձ-վճար հարաբերակցությունը չի կարող իջնել 3-ից, և վարկառուն դեռ պետք է պահուստ ունենա 5.000 ռուբլի: Եվ միայն այս դեպքում կենթադրենք, որ վարկառուն կմարի բանկին վարկը։ Այնուհետև գծային ռեգրեսիայի հավասարումը կունենա հետևյալ ձևը.

Ծամում է լոգիստիկ ռեգրեսիան

որտեղ Ծամում է լոգիստիկ ռեգրեսիան, Ծամում է լոգիստիկ ռեգրեսիան, Ծամում է լոգիստիկ ռեգրեսիան, Ծամում է լոգիստիկ ռեգրեսիան - աշխատավարձը Ծամում է լոգիստիկ ռեգրեսիան-րդ վարկառուն, Ծամում է լոգիստիկ ռեգրեսիան - վարկի վճարում Ծամում է լոգիստիկ ռեգրեսիան-րդ վարկառուն.

Աշխատավարձի և վարկի վճարումը ֆիքսված պարամետրերով փոխարինել հավասարման մեջ Ծամում է լոգիստիկ ռեգրեսիան Դուք կարող եք որոշել՝ վարկ տրամադրել, թե հրաժարվել:

Առաջ նայելով, մենք նշում ենք, որ տրված պարամետրերով Ծամում է լոգիստիկ ռեգրեսիան գծային ռեգրեսիայի ֆունկցիա, օգտագործվում է լոգիստիկ արձագանքման գործառույթներ կստեղծի մեծ արժեքներ, որոնք կբարդացնեն վարկի մարման հավանականությունը որոշելու հաշվարկները։ Ուստի առաջարկվում է մեր գործակիցները կրճատել, ասենք, 25.000 անգամ։ Գործակիցների այս փոխակերպումը չի փոխի վարկ տրամադրելու որոշումը։ Եկեք հիշենք այս կետը ապագայի համար, բայց հիմա, ավելի պարզ դարձնելու համար, թե ինչի մասին է խոսքը, եկեք դիտարկենք երեք պոտենցիալ վարկառուների հետ կապված իրավիճակը:

Աղյուսակ 1 «Հնարավոր փոխառուներ»

Ծամում է լոգիստիկ ռեգրեսիան

Աղյուսակի ստեղծման կոդը

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

Աղյուսակում նշված տվյալների համաձայն՝ Վասյան՝ 120.000 ռուբլի աշխատավարձով, ցանկանում է վարկ ստանալ, որպեսզի այն կարողանա մարել ամսական 3.000 ռուբլի։ Մենք որոշեցինք, որ վարկը հաստատելու համար Վասյայի աշխատավարձը պետք է գերազանցի վճարման եռապատիկը, և դեռ պետք է մնա 5.000 ռուբլի։ Վասյան բավարարում է այս պահանջը. Ծամում է լոգիստիկ ռեգրեսիան. Մնացել է նույնիսկ 106.000 ռուբլի: Չնայած այն հանգամանքին, որ հաշվարկելիս Ծամում է լոգիստիկ ռեգրեսիան մենք նվազեցրել ենք հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան 25.000 անգամ արդյունքը նույնն է՝ վարկը կարող է հաստատվել։ Ֆեդյան նույնպես վարկ կստանա, բայց Լեշան, չնայած ամենաշատը ստանում է, ստիպված կլինի զսպել իր ախորժակները։

Այս դեպքի համար գծենք գրաֆիկ։

Գծապատկեր 2 «Վարկառուների դասակարգում».

Ծամում է լոգիստիկ ռեգրեսիան

Գրաֆիկի գծագրման կոդը

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Այսպիսով, մեր ուղիղ գիծը՝ կառուցված ֆունկցիային համապատասխան Ծամում է լոգիստիկ ռեգրեսիան, առանձնացնում է «վատ» վարկառուներին «լավ» վարկառուներից։ Այն վարկառուները, որոնց ցանկությունները չեն համընկնում իրենց հնարավորությունների հետ, գտնվում են գծից վեր (Լեշա), մինչդեռ նրանք, ովքեր, ըստ մեր մոդելի պարամետրերի, կարողանում են մարել վարկը, գտնվում են գծից ցածր (Վասյա և Ֆեդյա): Այսինքն՝ կարելի է ասել՝ մեր ուղիղ գիծը վարկառուներին բաժանում է երկու դասի։ Նշենք դրանք հետևյալ կերպ՝ դասի Ծամում է լոգիստիկ ռեգրեսիան Մենք կդասակարգենք այն վարկառուներին, ովքեր ամենայն հավանականությամբ կվճարեն վարկը Ծամում է լոգիստիկ ռեգրեսիան կամ Ծամում է լոգիստիկ ռեգրեսիան Մենք ներառելու ենք այն վարկառուներին, ովքեր, ամենայն հավանականությամբ, չեն կարողանա մարել վարկը։

Եկեք ամփոփենք եզրակացությունները այս պարզ օրինակից: Եկեք մի կետ վերցնենք Ծամում է լոգիստիկ ռեգրեսիան և կետի կոորդինատները փոխարինելով ուղիղի համապատասխան հավասարմամբ Ծամում է լոգիստիկ ռեգրեսիան, հաշվի առեք երեք տարբերակ.

  1. Եթե ​​կետը գտնվում է գծի տակ, և այն վերագրում ենք դասարանին Ծամում է լոգիստիկ ռեգրեսիան, ապա ֆունկցիայի արժեքը Ծամում է լոգիստիկ ռեգրեսիան դրական կլինի Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան. Սա նշանակում է, որ կարելի է ենթադրել, որ վարկի մարման հավանականությունը ներսում է Ծամում է լոգիստիկ ռեգրեսիան. Որքան մեծ է ֆունկցիայի արժեքը, այնքան մեծ է հավանականությունը:
  2. Եթե ​​կետը գծից վեր է, և մենք այն վերագրում ենք դասին Ծամում է լոգիստիկ ռեգրեսիան կամ Ծամում է լոգիստիկ ռեգրեսիան, ապա ֆունկցիայի արժեքը բացասական կլինի Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան. Այնուհետև կենթադրենք, որ պարտքի մարման հավանականությունը սահմաններում է Ծամում է լոգիստիկ ռեգրեսիան և որքան մեծ է ֆունկցիայի բացարձակ արժեքը, այնքան բարձր է մեր վստահությունը:
  3. Կետը ուղիղ գծի վրա է, երկու դասերի սահմանի վրա։ Այս դեպքում ֆունկցիայի արժեքը Ծամում է լոգիստիկ ռեգրեսիան հավասար կլինի Ծամում է լոգիստիկ ռեգրեսիան իսկ վարկի մարման հավանականությունը հավասար է Ծամում է լոգիստիկ ռեգրեսիան.

Հիմա պատկերացնենք, որ մենք ունենք ոչ թե երկու գործոն, այլ տասնյակ, և ոչ թե երեք, այլ հազարավոր վարկառուներ։ Այնուհետև ուղիղ գծի փոխարեն կունենանք մ-չափ հարթություն և գործակիցներ Ծամում է լոգիստիկ ռեգրեսիան մեզ ոչ թե օդից կհանեն, այլ բոլոր կանոնների համաձայն, և վարկը մարած կամ չմարած վարկառուների մասին կուտակված տվյալների հիման վրա: Եվ իսկապես, նկատի ունեցեք, որ մենք այժմ ընտրում ենք վարկառուներին՝ օգտագործելով արդեն հայտնի գործակիցները Ծամում է լոգիստիկ ռեգրեսիան. Փաստորեն, լոգիստիկ ռեգրեսիայի մոդելի խնդիրը հենց պարամետրերի որոշումն է Ծամում է լոգիստիկ ռեգրեսիան, որի դեպքում կորստի ֆունկցիայի արժեքը Լոգիստիկ կորուստ ձգտելու է նվազագույնի. Բայց այն մասին, թե ինչպես է հաշվարկվում վեկտորը Ծամում է լոգիստիկ ռեգրեսիան, ավելին կիմանանք հոդվածի 5-րդ բաժնում։ Այդ ընթացքում մենք վերադառնում ենք խոստացված երկիր՝ մեր բանկիրին և նրա երեք հաճախորդներին։

Գործառույթի շնորհիվ Ծամում է լոգիստիկ ռեգրեսիան մենք գիտենք, թե ում կարելի է վարկ տալ և ում պետք է մերժել: Բայց նման տեղեկություններով տնօրենի մոտ չես կարող գնալ, քանի որ մեզանից ցանկացել են յուրաքանչյուր վարկառուի կողմից վարկի մարման հավանականությունը։ Ինչ անել? Պատասխանը պարզ է՝ մենք պետք է ինչ-որ կերպ փոխակերպենք ֆունկցիան Ծամում է լոգիստիկ ռեգրեսիան, որի արժեքները գտնվում են տիրույթում Ծամում է լոգիստիկ ռեգրեսիան ֆունկցիայի, որի արժեքները կլինեն միջակայքում Ծամում է լոգիստիկ ռեգրեսիան. Իսկ այդպիսի ֆունկցիա գոյություն ունի, այն կոչվում է լոգիստիկ արձագանքման ֆունկցիա կամ հակադարձ լոգիտային փոխակերպում. Հանդիպում.

Ծամում է լոգիստիկ ռեգրեսիան

Եկեք քայլ առ քայլ տեսնենք, թե ինչպես է այն աշխատում լոգիստիկ արձագանքման գործառույթ. Նշենք, որ մենք քայլելու ենք հակառակ ուղղությամբ, այսինքն. մենք կենթադրենք, որ գիտենք հավանականության արժեքը, որը գտնվում է սկսած միջակայքում Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան և այնուհետև մենք «կթողարկենք» այս արժեքը դեպի թվերի ամբողջ տիրույթը Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան.

03. Մենք բխում ենք լոգիստիկ արձագանքման գործառույթից

Քայլ 1. Փոխակերպեք հավանականության արժեքները միջակայքի Ծամում է լոգիստիկ ռեգրեսիան

Ֆունկցիայի վերափոխման ժամանակ Ծամում է լոգիստիկ ռեգրեսիան в լոգիստիկ արձագանքման գործառույթ Ծամում է լոգիստիկ ռեգրեսիան Մենք հանգիստ կթողնենք մեր վարկային վերլուծաբանին և դրա փոխարեն շրջագայություն կանենք բուքմեյքերական գրասենյակներով: Ոչ, իհարկե, մենք խաղադրույքներ չենք կատարի, այնտեղ մեզ հետաքրքրում է միայն արտահայտության իմաստը, օրինակ՝ շանսը 4-ը 1-ն է: Բոլոր խաղադրույք կատարողների համար ծանոթ հավանականությունը «հաջողությունների» հարաբերակցությունն է « ձախողումներ». Հավանականության առումով, հավանականությունը իրադարձության տեղի ունենալու հավանականությունն է՝ բաժանված իրադարձության չկայանալու հավանականության վրա: Գրենք իրադարձության հնարավորության բանաձևը Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան

Որտեղ Ծամում է լոգիստիկ ռեգրեսիան - իրադարձության տեղի ունենալու հավանականությունը, Ծամում է լոգիստիկ ռեգրեսիան - իրադարձության ՉԿԱՌԱՎԱՐՄԱՆ հավանականությունը

Օրինակ, եթե հավանականությունը, որ «Վետերոկ» մականունով երիտասարդ, ուժեղ և ժիր ձին մրցարշավում կծեծի «Մաթիլդա» անունով ծեր ու թուլամորթ պառավին, հավասար է. Ծամում է լոգիստիկ ռեգրեսիան, ապա «Վետերոկի» հաջողության շանսերը կլինեն Ծամում է լոգիստիկ ռեգրեսիան к Ծամում է լոգիստիկ ռեգրեսիան Ծամում է լոգիստիկ ռեգրեսիան և հակառակը, իմանալով հավանականությունը, մեզ համար դժվար չի լինի հաշվարկել հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան

Այսպիսով, մենք սովորել ենք «թարգմանել» հավանականությունը շանսերի, որոնք արժեքներ են վերցնում Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան. Եկեք ևս մեկ քայլ անենք և սովորենք «թարգմանել» հավանականությունը ամբողջ թվային տողի վրա Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան.

Քայլ 2. Փոխակերպեք հավանականության արժեքները միջակայքի Ծամում է լոգիստիկ ռեգրեսիան

Այս քայլը շատ պարզ է. եկեք ընդունենք հավանականությունների լոգարիթմը դեպի Էյլերի թվի հիմքը: Ծամում է լոգիստիկ ռեգրեսիան և մենք ստանում ենք.

Ծամում է լոգիստիկ ռեգրեսիան

Այժմ մենք գիտենք, որ եթե Ծամում է լոգիստիկ ռեգրեսիան, ապա հաշվարկեք արժեքը Ծամում է լոգիստիկ ռեգրեսիան կլինի շատ պարզ և, ավելին, պետք է լինի դրական. Ծամում է լոգիստիկ ռեգրեսիան. Սա ճիշտ է։

Հետաքրքրությունից դրդված՝ եկեք ստուգենք, եթե Ծամում է լոգիստիկ ռեգրեսիան, ապա ակնկալում ենք բացասական արժեք տեսնել Ծամում է լոգիստիկ ռեգրեսիան. Մենք ստուգում ենք. Ծամում է լոգիստիկ ռեգրեսիան. Ճիշտ է.

Այժմ մենք գիտենք, թե ինչպես փոխարկել հավանականության արժեքը Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան -ից ամբողջ թվային գծի երկայնքով Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան. Հաջորդ քայլում մենք կանենք հակառակը:

Առայժմ նշում ենք, որ լոգարիթմի կանոններին համապատասխան՝ իմանալով ֆունկցիայի արժեքը Ծամում է լոգիստիկ ռեգրեսիան, կարող եք հաշվարկել հավանականությունը.

Ծամում է լոգիստիկ ռեգրեսիան

Գործակիցների որոշման այս մեթոդը մեզ օգտակար կլինի հաջորդ քայլում:

Քայլ 3. Եկեք որոշենք բանաձևը Ծամում է լոգիստիկ ռեգրեսիան

Այսպիսով, մենք սովորեցինք, իմանալով Ծամում է լոգիստիկ ռեգրեսիան, գտնել ֆունկցիայի արժեքները Ծամում է լոգիստիկ ռեգրեսիան. Սակայն իրականում մեզ ճիշտ հակառակն է պետք՝ արժեքը իմանալը Ծամում է լոգիստիկ ռեգրեսիան գտնել Ծամում է լոգիստիկ ռեգրեսիան. Դա անելու համար դիմենք այնպիսի հասկացության, ինչպիսին է հակադարձ հավանականության ֆունկցիան, ըստ որի.

Ծամում է լոգիստիկ ռեգրեսիան

Հոդվածում մենք չենք դուրս բերի վերը նշված բանաձևը, բայց մենք այն կստուգենք՝ օգտագործելով վերը նշված օրինակի թվերը: Մենք գիտենք, որ 4-ից 1 գործակցով (Ծամում է լոգիստիկ ռեգրեսիան), իրադարձության տեղի ունենալու հավանականությունը 0.8 է (Ծամում է լոգիստիկ ռեգրեսիան) Կատարենք փոխարինում. Ծամում է լոգիստիկ ռեգրեսիան. Սա համընկնում է ավելի վաղ կատարված մեր հաշվարկների հետ: Անցնենք առաջ։

Վերջին քայլում մենք եզրակացրինք, որ Ծամում է լոգիստիկ ռեգրեսիան, ինչը նշանակում է, որ դուք կարող եք փոխարինում կատարել հակադարձ հավանականության ֆունկցիայի մեջ: Մենք ստանում ենք.

Ծամում է լոգիստիկ ռեգրեսիան

Բաժանի՛ր և՛ համարիչը, և՛ հայտարարը Ծամում է լոգիստիկ ռեգրեսիան, Ապա:

Ծամում է լոգիստիկ ռեգրեսիան

Ամեն դեպքում, համոզվելու համար, որ մենք ոչ մի տեղ սխալ չենք թույլ տվել, մենք ևս մեկ փոքր ստուգում կանենք։ Քայլ 2-ում մենք համար Ծամում է լոգիստիկ ռեգրեսիան որոշել է, որ Ծամում է լոգիստիկ ռեգրեսիան. Այնուհետև փոխարինելով արժեքը Ծամում է լոգիստիկ ռեգրեսիան լոգիստիկ արձագանքման գործառույթի մեջ մենք ակնկալում ենք ստանալ Ծամում է լոգիստիկ ռեգրեսիան. Մենք փոխարինում ենք և ստանում. Ծամում է լոգիստիկ ռեգրեսիան

Շնորհավորում եմ, հարգելի ընթերցող, մենք հենց նոր ստացանք և փորձարկեցինք լոգիստիկ արձագանքման գործառույթը: Դիտարկենք ֆունկցիայի գրաֆիկը։

Գծապատկեր 3 «Լոգիստիկ արձագանքման գործառույթ»

Ծամում է լոգիստիկ ռեգրեսիան

Գրաֆիկի գծագրման կոդը

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Գրականության մեջ կարող եք գտնել նաև այս ֆունկցիայի անվանումը որպես սիգմոիդ ֆունկցիան. Գրաֆիկը հստակ ցույց է տալիս, որ դասին պատկանող օբյեկտի հավանականության հիմնական փոփոխությունը տեղի է ունենում համեմատաբար փոքր տիրույթում: Ծամում է լոգիստիկ ռեգրեսիան, ինչ-որ տեղից Ծամում է լոգիստիկ ռեգրեսիան դեպի Ծամում է լոգիստիկ ռեգրեսիան.

Առաջարկում եմ վերադառնալ մեր վարկային վերլուծաբանին և օգնել նրան հաշվարկել վարկի մարման հավանականությունը, հակառակ դեպքում նա ռիսկի է դիմում մնալ առանց բոնուսի :)

Աղյուսակ 2 «Հնարավոր փոխառուներ»

Ծամում է լոգիստիկ ռեգրեսիան

Աղյուսակի ստեղծման կոդը

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Այսպիսով, մենք որոշել ենք վարկի մարման հավանականությունը։ Ընդհանրապես, սա կարծես ճիշտ է:

Իրոք, հավանականությունը, որ Վասյան, 120.000 ռուբլի աշխատավարձով, կկարողանա ամեն ամիս բանկին տալ 3.000 ռուբլի, մոտ 100% է: Ի դեպ, մենք պետք է հասկանանք, որ բանկը կարող է վարկ տրամադրել Լեշային, եթե բանկի քաղաքականությունը նախատեսում է, օրինակ, վարկերի տրամադրում հաճախորդներին, ասենք, 0.3-ից ավելի վարկի մարման հավանականությամբ: Պարզապես այս դեպքում բանկը հնարավոր կորուստների համար ավելի մեծ պահուստ կստեղծի։

Նշենք նաև, որ առաստաղից վերցվել է աշխատավարձ/վճարում նվազագույնը 3 և 5.000 ռուբ մարժայի հարաբերակցությունը։ Հետևաբար, մենք չէինք կարող օգտագործել կշիռների վեկտորն իր սկզբնական տեսքով Ծամում է լոգիստիկ ռեգրեսիան. Մեզ անհրաժեշտ էր շատ նվազեցնել գործակիցները, և այս դեպքում յուրաքանչյուր գործակից բաժանեցինք 25.000-ի, այսինքն՝ ըստ էության, ճշգրտեցինք արդյունքը։ Բայց դա արվել է հատկապես սկզբնական փուլում նյութի ըմբռնումը պարզեցնելու համար: Կյանքում մեզ պետք չի լինի գործակիցներ հորինել և հարմարեցնել, այլ գտնել դրանք։ Հոդվածի հաջորդ բաժիններում մենք կբերենք այն հավասարումները, որոնցով ընտրվում են պարամետրերը Ծամում է լոգիստիկ ռեգրեսիան.

04. Նվազագույն քառակուսիների մեթոդ կշիռների վեկտորի որոշման համար Ծամում է լոգիստիկ ռեգրեսիան լոգիստիկ արձագանքման գործառույթում

Մենք արդեն գիտենք կշիռների վեկտորի ընտրության այս մեթոդը Ծամում է լոգիստիկ ռեգրեսիանԻնչպես նվազագույն քառակուսիների մեթոդ (LSM) և իրականում, ինչու՞ մենք այն չենք օգտագործում երկուական դասակարգման խնդիրներում: Իրոք, ոչինչ չի խանգարում ձեզ օգտագործել MNC, դասակարգման խնդիրներում միայն այս մեթոդն է տալիս արդյունքներ, որոնք ավելի քիչ ճշգրիտ են, քան Լոգիստիկ կորուստ. Դրա համար կա տեսական հիմք։ Եկեք նախ նայենք մեկ պարզ օրինակի.

Ենթադրենք, որ մեր մոդելները (օգտագործելով MSE и Լոգիստիկ կորուստ) արդեն սկսել են ընտրել կշիռների վեկտորը Ծամում է լոգիստիկ ռեգրեսիան և մենք ինչ-որ քայլով դադարեցրինք հաշվարկը։ Կարևոր չէ՝ մեջտեղում, վերջում, թե սկզբում, գլխավորն այն է, որ մենք արդեն ունենք կշիռների վեկտորի որոշ արժեքներ և ենթադրենք, որ այս քայլում կշիռների վեկտորն է. Ծամում է լոգիստիկ ռեգրեսիան երկու մոդելների համար էլ տարբերություններ չկան: Այնուհետև վերցրեք ստացված կշիռները և փոխարինեք դրանք լոգիստիկ արձագանքման գործառույթ (Ծամում է լոգիստիկ ռեգրեսիան) ինչ-որ օբյեկտի համար, որը պատկանում է դասին Ծամում է լոգիստիկ ռեգրեսիան. Մենք ուսումնասիրում ենք երկու դեպք, երբ կշիռների ընտրված վեկտորի համաձայն, մեր մոդելը շատ սխալ է և հակառակը. մոդելը շատ վստահ է, որ օբյեկտը պատկանում է դասին: Ծամում է լոգիստիկ ռեգրեսիան. Տեսնենք, թե ինչ տուգանքներ կկիրառվեն օգտագործելիս MNC и Լոգիստիկ կորուստ.

Կոդ՝ տույժերը հաշվարկելու համար՝ կախված օգտագործված կորստի ֆունկցիայից

# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1

# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2

Կոպիտ սխալի դեպք — մոդելը օբյեկտ է վերագրում դասին Ծամում է լոգիստիկ ռեգրեսիան 0,01 հավանականությամբ

Օգտագործման համար տուգանք MNC կլինի:
Ծամում է լոգիստիկ ռեգրեսիան

Օգտագործման համար տուգանք Լոգիստիկ կորուստ կլինի:
Ծամում է լոգիստիկ ռեգրեսիան

Հզոր վստահության դեպք — մոդելը օբյեկտ է վերագրում դասին Ծամում է լոգիստիկ ռեգրեսիան 0,99 հավանականությամբ

Օգտագործման համար տուգանք MNC կլինի:
Ծամում է լոգիստիկ ռեգրեսիան

Օգտագործման համար տուգանք Լոգիստիկ կորուստ կլինի:
Ծամում է լոգիստիկ ռեգրեսիան

Այս օրինակը լավ ցույց է տալիս, որ կոպիտ սխալի դեպքում կորստի ֆունկցիան Մատյանների կորուստ տուգանում է մոդելը զգալիորեն ավելի, քան MSE. Եկեք հիմա հասկանանք, թե որն է տեսական հիմքը կորստի ֆունկցիան օգտագործելու համար Մատյանների կորուստ դասակարգման խնդիրներում։

05. Առավելագույն հավանականության մեթոդ և լոգիստիկ ռեգրեսիա

Ինչպես սկզբում խոստացվել էր, հոդվածը լի է պարզ օրինակներով։ Ստուդիայում կա ևս մեկ օրինակ և հին հյուրեր՝ բանկային վարկառուներ՝ Վասյա, Ֆեդյա և Լեշա:

Համենայն դեպս, նախքան օրինակը մշակելը, հիշեցնեմ, որ կյանքում մենք գործ ունենք հազարավոր կամ միլիոնավոր օբյեկտների ուսուցման նմուշի հետ՝ տասնյակ կամ հարյուրավոր հատկանիշներով։ Այնուամենայնիվ, այստեղ թվերը վերցված են, որպեսզի դրանք հեշտությամբ տեղավորվեն սկսնակ տվյալների գիտնականի գլխում:

Վերադառնանք օրինակին. Պատկերացնենք, որ բանկի տնօրենը որոշել է վարկ տրամադրել բոլոր կարիքավորներին, չնայած այն հանգամանքին, որ ալգորիթմը նրան ասել է, որ այն չտրամադրի Լեշային: Իսկ հիմա բավական ժամանակ է անցել, ու մենք գիտենք, թե երեք հերոսներից ով է մարել վարկը, որը՝ ոչ։ Ինչ էր սպասվում. Վասյան և Ֆեդյան մարեցին վարկը, իսկ Լեշան՝ ոչ։ Հիմա պատկերացնենք, որ այս արդյունքը մեզ համար կլինի վերապատրաստման նոր նմուշ և, միևնույն ժամանակ, կարծես անհետացել են բոլոր տվյալները վարկի մարման հավանականության վրա ազդող գործոնների մասին (վարկառուի աշխատավարձ, ամսական վճարի չափ): Այնուհետև, ինտուիտիվորեն, կարելի է ենթադրել, որ յուրաքանչյուր երրորդ վարկառուն չի մարում վարկը բանկին, կամ այլ կերպ ասած՝ հաջորդ վարկառուի կողմից վարկը մարելու հավանականությունը. Ծամում է լոգիստիկ ռեգրեսիան. Այս ինտուիտիվ ենթադրությունն ունի տեսական հաստատում և հիմնված է առավելագույն հավանականության մեթոդ, հաճախ գրականության մեջ կոչվում է առավելագույն հավանականության սկզբունքը.

Նախ, եկեք ծանոթանանք հայեցակարգային ապարատին։

Նմուշառման հավանականությունը հենց այդպիսի նմուշ ստանալու, հենց այդպիսի դիտարկումներ/արդյունքներ ստանալու հավանականությունն է, այսինքն. ընտրանքային արդյունքներից յուրաքանչյուրի ստացման հավանականությունների արտադրյալը (օրինակ՝ Վասյայի, Ֆեդյայի և Լեշայի վարկը մարվել է, թե չի մարվել միաժամանակ):

Հավանականության ֆունկցիա կապում է նմուշի հավանականությունը բաշխման պարամետրերի արժեքների հետ:

Մեր դեպքում վերապատրաստման նմուշը Բեռնուլիի ընդհանրացված սխեմա է, որտեղ պատահական փոփոխականը վերցնում է ընդամենը երկու արժեք. Ծամում է լոգիստիկ ռեգրեսիան կամ Ծամում է լոգիստիկ ռեգրեսիան. Հետևաբար, նմուշի հավանականությունը կարող է գրվել որպես պարամետրի հավանականության ֆունկցիա Ծամում է լոգիստիկ ռեգրեսիան հետեւյալ կերպ.

Ծամում է լոգիստիկ ռեգրեսիան
Ծամում է լոգիստիկ ռեգրեսիան

Վերոնշյալ գրառումը կարելի է մեկնաբանել հետևյալ կերպ. Համատեղ հավանականությունը, որ Վասյան և Ֆեդյան կվերադարձնեն վարկը, հավասար է Ծամում է լոգիստիկ ռեգրեսիան, հավանականությունը, որ Լեշան չի մարի վարկը, հավասար է Ծամում է լոգիստիկ ռեգրեսիան (քանի որ վարկի մարումը ՉԻ եղել), հետևաբար բոլոր երեք իրադարձությունների համատեղ հավանականությունը հավասար է. Ծամում է լոգիստիկ ռեգրեսիան.

Առավելագույն հավանականության մեթոդ անհայտ պարամետրը առավելագույնի հասցնելու միջոցով գնահատելու մեթոդ է հավանականության գործառույթները. Մեր դեպքում մենք պետք է նման արժեք գտնենք Ծամում է լոգիստիկ ռեգրեսիան, որը Ծամում է լոգիստիկ ռեգրեսիան հասնում է առավելագույնին.

Որտեղի՞ց է բխում իրական գաղափարը. փնտրել անհայտ պարամետրի արժեքը, որի դեպքում հավանականության ֆունկցիան հասնում է առավելագույնին: Գաղափարի ակունքները բխում են այն գաղափարից, որ ընտրանքը բնակչության մասին մեզ հասանելի գիտելիքների միակ աղբյուրն է: Այն ամենը, ինչ մենք գիտենք բնակչության մասին, ներկայացված է ընտրանքում: Հետևաբար, մենք միայն կարող ենք ասել, որ ընտրանքը մեզ հասանելի բնակչության առավել ճշգրիտ արտացոլումն է: Հետևաբար, մենք պետք է գտնենք մի պարամետր, որի դեպքում առկա նմուշը դառնում է ամենահավանականը:

Ակնհայտ է, որ մենք գործ ունենք օպտիմալացման խնդրի հետ, որտեղ մենք պետք է գտնենք ֆունկցիայի ծայրահեղ կետը: Ծայրահեղ կետը գտնելու համար անհրաժեշտ է դիտարկել առաջին կարգի պայմանը, այսինքն՝ ֆունկցիայի ածանցյալը հավասարեցնել զրոյի և լուծել հավասարումը ցանկալի պարամետրի նկատմամբ։ Այնուամենայնիվ, մեծ թվով գործոնների արտադրյալի ածանցյալի որոնումը կարող է երկար խնդիր լինել, դրանից խուսափելու համար կա հատուկ տեխնիկա՝ անցում լոգարիթմին: հավանականության գործառույթները. Ինչո՞ւ է հնարավոր նման անցում: Եկեք ուշադրություն դարձնենք այն փաստին, որ մենք չենք փնտրում բուն գործառույթի ծայրահեղությունըԾամում է լոգիստիկ ռեգրեսիան, և ծայրահեղ կետը, այսինքն՝ անհայտ պարամետրի արժեքը Ծամում է լոգիստիկ ռեգրեսիան, որը Ծամում է լոգիստիկ ռեգրեսիան հասնում է առավելագույնին. Լոգարիթմի անցնելիս ծայրահեղ կետը չի փոխվում (չնայած ծայրահեղությունն ինքնին կտարբերվի), քանի որ լոգարիթմը միապաղաղ ֆունկցիա է։

Եկեք, վերը նշվածին համապատասխան, շարունակենք զարգացնել մեր օրինակը Վասյա, Ֆեդյա և Լեշա վարկերով։ Նախ անցնենք հավանականության ֆունկցիայի լոգարիթմ:

Ծամում է լոգիստիկ ռեգրեսիան

Այժմ մենք կարող ենք հեշտությամբ տարբերակել արտահայտությունը Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան

Եվ վերջապես, դիտարկենք առաջին կարգի պայմանը. ֆունկցիայի ածանցյալը հավասարեցնում ենք զրոյի.

Ծամում է լոգիստիկ ռեգրեսիան

Այսպիսով, վարկի մարման հավանականության մեր ինտուիտիվ գնահատականը Ծամում է լոգիստիկ ռեգրեսիան տեսականորեն արդարացված էր.

Հիանալի է, բայց հիմա ի՞նչ պետք է անենք այս տեղեկատվության հետ: Եթե ​​ենթադրենք, որ յուրաքանչյուր երրորդ վարկառուն գումարը չի վերադարձնում բանկին, ապա վերջինս անխուսափելիորեն կսնանկանա։ Դա ճիշտ է, բայց միայն այն դեպքում, երբ գնահատվում է վարկի մարման հավանականությունը հավասար Ծամում է լոգիստիկ ռեգրեսիան Մենք հաշվի չենք առել վարկի մարման վրա ազդող գործոնները՝ վարկառուի աշխատավարձը և ամսական վճարման չափը։ Հիշենք, որ մենք նախապես հաշվարկել ենք յուրաքանչյուր հաճախորդի կողմից վարկի մարման հավանականությունը՝ հաշվի առնելով այս նույն գործոնները։ Տրամաբանական է, որ մենք ստացանք հաստատուն հավասարից տարբեր հավանականություններ Ծամում է լոգիստիկ ռեգրեսիան.

Եկեք սահմանենք նմուշների հավանականությունը.

Նմուշի հավանականության հաշվարկման կոդը

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)

Նմուշի հավանականությունը հաստատուն արժեքով Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան

Ընտրանքային հավանականությունը վարկի մարման հավանականությունը հաշվարկելիս՝ հաշվի առնելով գործոնները Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան
Ծամում է լոգիստիկ ռեգրեսիան

Գործոններից կախված հավանականություն ունեցող նմուշի հավանականությունը պարզվեց, որ ավելի բարձր է, քան հաստատուն հավանականության արժեքով հավանականությունը: Ինչ է սա նշանակում? Սա հուշում է, որ գործոնների մասին գիտելիքները հնարավորություն են տվել ավելի ճշգրիտ ընտրել յուրաքանչյուր հաճախորդի համար վարկի մարման հավանականությունը: Ուստի հաջորդ վարկը տրամադրելիս ավելի ճիշտ կլինի օգտագործել պարտքի մարման հավանականությունը գնահատելու հոդվածի 3-րդ բաժնի վերջում առաջարկված մոդելը։

Բայց հետո, եթե մենք ցանկանում ենք առավելագույնի հասցնել նմուշի հավանականության ֆունկցիա, ապա ինչու չօգտագործել ինչ-որ ալգորիթմ, որը կստեղծի հավանականություններ Վասյայի, Ֆեդյայի և Լեշայի համար, օրինակ, համապատասխանաբար 0.99, 0.99 և 0.01: Հնարավոր է, որ նման ալգորիթմը լավ գործի ուսուցման նմուշի վրա, քանի որ այն մոտեցնելու է նմուշի հավանականության արժեքը Ծամում է լոգիստիկ ռեգրեսիան, բայց, նախ, նման ալգորիթմը, ամենայն հավանականությամբ, դժվարություններ կունենա ընդհանրացման ունակության հետ, և երկրորդ՝ այս ալգորիթմը հաստատ գծային չի լինի։ Եվ եթե գերմարզման դեմ պայքարի մեթոդները (նույնքան թույլ ընդհանրացման կարողություն) ակնհայտորեն ներառված չեն այս հոդվածի պլանում, ապա եկեք ավելի մանրամասն անցնենք երկրորդ կետը: Դա անելու համար պարզապես պատասխանեք մի պարզ հարցի. Վասյայի և Ֆեդյայի վարկը մարելու հավանականությունը կարո՞ղ է նույնը լինել՝ հաշվի առնելով մեզ հայտնի գործոնները։ Առողջ տրամաբանության տեսանկյունից, իհարկե, ոչ, չի կարող։ Այսպիսով, Վասյան վարկը մարելու համար ամսական կվճարի իր աշխատավարձի 2.5%-ը, իսկ Ֆեդյան՝ գրեթե 27,8%-ը։ Նաև «Հաճախորդների դասակարգում» 2-րդ գրաֆիկում մենք տեսնում ենք, որ Վասյան շատ ավելի հեռու է դասերը բաժանող գծից, քան Fedya-ն: Եվ վերջապես մենք գիտենք, որ ֆունկցիան Ծամում է լոգիստիկ ռեգրեսիան Vasya-ի և Fedya-ի համար տարբեր արժեքներ են ընդունում՝ 4.24 Վասյայի համար և 1.0 Ֆեդյայի համար: Հիմա, եթե Ֆեդյան, օրինակ, մեծության կարգ ավելի շատ աշխատեր կամ ավելի փոքր վարկ խնդրեր, ապա Վասյայի և Ֆեդյայի համար վարկը մարելու հավանականությունը նման կլիներ։ Այլ կերպ ասած, գծային կախվածությունը չի կարող խաբվել: Իսկ եթե իրականում հաշվարկեինք հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան, և չհեռացրինք դրանք օդից, մենք կարող էինք հանգիստ ասել, որ մեր արժեքները Ծամում է լոգիստիկ ռեգրեսիան լավագույնս թույլ է տալիս մեզ գնահատել յուրաքանչյուր վարկառուի կողմից վարկի մարման հավանականությունը, բայց քանի որ մենք համաձայնել ենք ենթադրել, որ գործակիցների որոշումը Ծամում է լոգիստիկ ռեգրեսիան իրականացվել է բոլոր կանոններով, այնուհետև մենք այդպես կենթադրենք. մեր գործակիցները թույլ են տալիս մեզ ավելի լավ գնահատել հավանականությունը :)

Այնուամենայնիվ, մենք շեղվում ենք. Այս բաժնում մենք պետք է հասկանանք, թե ինչպես է որոշվում կշիռների վեկտորը Ծամում է լոգիստիկ ռեգրեսիան, որն անհրաժեշտ է յուրաքանչյուր վարկառուի կողմից վարկի մարման հավանականությունը գնահատելու համար։

Եկեք համառոտ ամփոփենք, թե ինչ զինանոցով ենք գնում գործակիցներ փնտրելու Ծամում է լոգիստիկ ռեգրեսիան:

1. Մենք ենթադրում ենք, որ նպատակային փոփոխականի (կանխատեսման արժեքի) և արդյունքի վրա ազդող գործոնի միջև կապը գծային է: Այս պատճառով այն օգտագործվում է գծային ռեգրեսիայի ֆունկցիա տեսակը Ծամում է լոգիստիկ ռեգրեսիան, որի գիծը օբյեկտները (հաճախորդները) բաժանում է դասերի Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան կամ Ծամում է լոգիստիկ ռեգրեսիան (հաճախորդներ, ովքեր ի վիճակի են մարել վարկը և նրանք, ովքեր չեն կարողանում): Մեր դեպքում հավասարումն ունի ձև Ծամում է լոգիստիկ ռեգրեսիան.

2. Մենք օգտագործում ենք հակադարձ լոգիտ ֆունկցիա տեսակը Ծամում է լոգիստիկ ռեգրեսիան որոշելու դասին պատկանող օբյեկտի հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան.

3. Մեր թրեյնինգային հավաքածուն մենք դիտարկում ենք որպես ընդհանրացվածի իրականացում Բեռնուլիի սխեմաները, այսինքն՝ յուրաքանչյուր օբյեկտի համար ստեղծվում է պատահական փոփոխական, որը հավանականությամբ Ծամում է լոգիստիկ ռեգրեսիան (յուրաքանչյուր օբյեկտի համար իր սեփականը) վերցնում է 1 արժեքը և հավանականությամբ Ծամում է լոգիստիկ ռեգրեսիան - 0.

4. Մենք գիտենք, թե ինչ պետք է առավելագույնի հասցնենք նմուշի հավանականության ֆունկցիա հաշվի առնելով ընդունված գործոնները, որպեսզի առկա նմուշը դառնա առավել հավանական: Այլ կերպ ասած, մենք պետք է ընտրենք այնպիսի պարամետրեր, որոնց դեպքում նմուշը կլինի առավել հավանական: Մեր դեպքում ընտրված պարամետրը վարկի մարման հավանականությունն է Ծամում է լոգիստիկ ռեգրեսիան, որն իր հերթին կախված է անհայտ գործակիցներից Ծամում է լոգիստիկ ռեգրեսիան. Այսպիսով, մենք պետք է գտնենք կշիռների նման վեկտոր Ծամում է լոգիստիկ ռեգրեսիան, որի դեպքում նմուշի հավանականությունը կլինի առավելագույնը:

5. Մենք գիտենք, թե ինչ պետք է առավելագույնի հասցնենք հավանականության ֆունկցիաների նմուշ Դուք կարող եք օգտագործել առավելագույն հավանականության մեթոդ. Եվ մենք գիտենք այս մեթոդով աշխատելու բոլոր խորամանկ հնարքները:

Ահա թե ինչպես է ստացվում բազմաքայլ քայլ :)

Այժմ հիշեք, որ հոդվածի հենց սկզբում մենք ցանկանում էինք դուրս բերել կորստի ֆունկցիաների երկու տեսակ Լոգիստիկ կորուստ կախված նրանից, թե ինչպես են նշանակվում օբյեկտների դասերը: Այնպես եղավ, որ երկու դասերի դասակարգման խնդիրներում դասերը նշանակվում են որպես Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան կամ Ծամում է լոգիստիկ ռեգրեսիան. Կախված նշումից՝ ելքը կունենա համապատասխան կորստի ֆունկցիա։

Դեպք 1. Օբյեկտների դասակարգում Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան

Ավելի վաղ նմուշի հավանականությունը որոշելիս, որում վարկառուի կողմից պարտքի մարման հավանականությունը հաշվարկվում էր գործոնների և տրված գործակիցների հիման վրա. Ծամում է լոգիստիկ ռեգրեսիան, մենք կիրառեցինք բանաձևը.

Ծամում է լոգիստիկ ռեգրեսիան

Իրականում Ծամում է լոգիստիկ ռեգրեսիան իմաստն է լոգիստիկ արձագանքման գործառույթներ Ծամում է լոգիստիկ ռեգրեսիան կշիռների տրված վեկտորի համար Ծամում է լոգիստիկ ռեգրեսիան

Այնուհետև ոչինչ չի խանգարում մեզ գրել նմուշի հավանականության ֆունկցիան հետևյալ կերպ.

Ծամում է լոգիստիկ ռեգրեսիան

Պատահում է, որ երբեմն որոշ սկսնակ վերլուծաբանների համար դժվար է անմիջապես հասկանալ, թե ինչպես է գործում այս գործառույթը: Եկեք նայենք 4 կարճ օրինակների, որոնք կպարզեն ամեն ինչ.

1. Եթե Ծամում է լոգիստիկ ռեգրեսիան (այսինքն, ըստ ուսումնական նմուշի, օբյեկտը պատկանում է +1 դասին), և մեր ալգորիթմը Ծամում է լոգիստիկ ռեգրեսիան որոշում է օբյեկտը դասակարգելու հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան հավասար է 0.9-ի, ապա ընտրանքի հավանականության այս կտորը կհաշվարկվի հետևյալ կերպ.

Ծամում է լոգիստիկ ռեգրեսիան

2. Եթե Ծամում է լոգիստիկ ռեգրեսիանԻսկ Ծամում է լոգիստիկ ռեգրեսիան, ապա հաշվարկը կլինի հետևյալը.

Ծամում է լոգիստիկ ռեգրեսիան

3. Եթե Ծամում է լոգիստիկ ռեգրեսիանԻսկ Ծամում է լոգիստիկ ռեգրեսիան, ապա հաշվարկը կլինի հետևյալը.

Ծամում է լոգիստիկ ռեգրեսիան

4. Եթե Ծամում է լոգիստիկ ռեգրեսիանԻսկ Ծամում է լոգիստիկ ռեգրեսիան, ապա հաշվարկը կլինի հետևյալը.

Ծամում է լոգիստիկ ռեգրեսիան

Ակնհայտ է, որ հավանականության ֆունկցիան առավելագույնի կհասցվի 1-ին և 3-րդ դեպքերում կամ ընդհանուր դեպքում՝ օբյեկտ դասին վերագրելու հավանականության ճիշտ գուշակված արժեքներով։ Ծամում է լոգիստիկ ռեգրեսիան.

Շնորհիվ այն բանի, որ օբյեկտ դասի վերագրելու հավանականությունը որոշելիս Ծամում է լոգիստիկ ռեգրեսիան Միայն գործակիցները չգիտենք Ծամում է լոգիստիկ ռեգրեսիան, ապա մենք կփնտրենք նրանց։ Ինչպես նշվեց վերևում, սա օպտիմալացման խնդիր է, որտեղ նախ պետք է գտնել հավանականության ֆունկցիայի ածանցյալը կշիռների վեկտորի նկատմամբ: Ծամում է լոգիստիկ ռեգրեսիան. Այնուամենայնիվ, նախ իմաստ ունի պարզեցնել առաջադրանքը մեզ համար. մենք կփնտրենք լոգարիթմի ածանցյալը. հավանականության գործառույթները.

Ծամում է լոգիստիկ ռեգրեսիան

Ինչու՞ լոգարիթմից հետո, in լոգիստիկ սխալի գործառույթներ, մենք փոխել ենք նշանը Ծամում է լոգիստիկ ռեգրեսիան մասին Ծամում է լոգիստիկ ռեգրեսիան. Ամեն ինչ պարզ է, քանի որ մոդելի որակի գնահատման խնդիրներում ընդունված է նվազագույնի հասցնել ֆունկցիայի արժեքը, մենք արտահայտության աջ կողմը բազմապատկել ենք. Ծամում է լոգիստիկ ռեգրեսիան և, համապատասխանաբար, առավելագույնի հասցնելու փոխարեն, այժմ մենք նվազագույնի ենք հասցնում ֆունկցիան։

Իրականում, հենց հիմա, ձեր աչքի առաջ, կորստի ֆունկցիան ջանասիրաբար ստացվեց. Լոգիստիկ կորուստ երկու դասի ուսուցման հավաքածուի համար. Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան.

Այժմ գործակիցները գտնելու համար պարզապես անհրաժեշտ է գտնել ածանցյալը լոգիստիկ սխալի գործառույթներ և այնուհետև, օգտագործելով թվային օպտիմալացման մեթոդներ, ինչպիսիք են գրադիենտ անկումը կամ ստոխաստիկ գրադիենտ վայրէջքը, ընտրեք ամենաօպտիմալ գործակիցները Ծամում է լոգիստիկ ռեգրեսիան. Բայց, հաշվի առնելով հոդվածի զգալի ծավալը, առաջարկվում է տարբերակումն իրականացնել ինքնուրույն, կամ գուցե սա կլինի հաջորդ հոդվածի թեմա՝ շատ թվաբանությամբ՝ առանց նման մանրամասն օրինակների։

Դեպք 2. Օբյեկտների դասակարգում Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան

Մոտեցումն այստեղ կլինի նույնը, ինչ դասերի դեպքում Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան, բայց ինքնին ճանապարհը դեպի կորստի ֆունկցիայի ելք Լոգիստիկ կորուստ, ավելի զարդարուն կլինի։ Եկեք սկսենք. Հավանականության ֆունկցիայի համար մենք կօգտագործենք օպերատորը "Եթե, ապա...". Այսինքն, եթե Ծամում է լոգիստիկ ռեգրեսիանրդ օբյեկտը պատկանում է դասին Ծամում է լոգիստիկ ռեգրեսիան, ապա նմուշի հավանականությունը հաշվարկելու համար օգտագործում ենք հավանականությունը Ծամում է լոգիստիկ ռեգրեսիան, եթե օբյեկտը պատկանում է դասին Ծամում է լոգիստիկ ռեգրեսիան, ապա մենք փոխարինում ենք հավանականության մեջ Ծամում է լոգիստիկ ռեգրեսիան. Հավանականության ֆունկցիան այսպիսի տեսք ունի.

Ծամում է լոգիստիկ ռեգրեսիան

Եկեք նկարագրենք մեր մատների վրա, թե ինչպես է այն աշխատում: Դիտարկենք 4 դեպք.

1. Եթե Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան, ապա նմուշառման հավանականությունը «կգնա» Ծամում է լոգիստիկ ռեգրեսիան

2. Եթե Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան, ապա նմուշառման հավանականությունը «կգնա» Ծամում է լոգիստիկ ռեգրեսիան

3. Եթե Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան, ապա նմուշառման հավանականությունը «կգնա» Ծամում է լոգիստիկ ռեգրեսիան

4. Եթե Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան, ապա նմուշառման հավանականությունը «կգնա» Ծամում է լոգիստիկ ռեգրեսիան

Ակնհայտ է, որ 1-ին և 3-րդ դեպքերում, երբ հավանականությունները ճիշտ են որոշվել ալգորիթմով. հավանականության ֆունկցիա առավելագույնս կհասցվի, այսինքն՝ սա հենց այն է, ինչ մենք ուզում էինք ստանալ։ Այնուամենայնիվ, այս մոտեցումը բավականին ծանր է, և հաջորդիվ մենք կքննարկենք ավելի կոմպակտ նշում: Բայց նախ, եկեք լոգարիթմացնենք հավանականության ֆունկցիան նշանի փոփոխությամբ, քանի որ այժմ մենք այն նվազագույնի կհասցնենք:

Ծամում է լոգիստիկ ռեգրեսիան

Փոխարինենք Ծամում է լոգիստիկ ռեգրեսիան արտահայտություն Ծամում է լոգիստիկ ռեգրեսիան:

Ծամում է լոգիստիկ ռեգրեսիան

Եկեք պարզեցնենք ճիշտ տերմինը լոգարիթմի տակ՝ օգտագործելով պարզ թվաբանական տեխնիկա և ստացենք.

Ծամում է լոգիստիկ ռեգրեսիան

Հիմա ժամանակն է ազատվել օպերատորից "Եթե, ապա...". Նշենք, որ երբ օբյեկտ Ծամում է լոգիստիկ ռեգրեսիան պատկանում է դասին Ծամում է լոգիստիկ ռեգրեսիան, ապա լոգարիթմի տակ արտահայտության մեջ, հայտարարի մեջ, Ծամում է լոգիստիկ ռեգրեսիան բարձրացված իշխանության Ծամում է լոգիստիկ ռեգրեսիան, եթե օբյեկտը պատկանում է դասին Ծամում է լոգիստիկ ռեգրեսիան, ապա $e$-ը բարձրացվում է հզորության Ծամում է լոգիստիկ ռեգրեսիան. Հետևաբար, աստիճանի նշումը կարելի է պարզեցնել՝ համատեղելով երկու դեպքերը մեկում. Ծամում է լոգիստիկ ռեգրեսիան. Հետո լոգիստիկ սխալի գործառույթ կընդունի ձևը՝

Ծամում է լոգիստիկ ռեգրեսիան

Լոգարիթմի կանոնների համաձայն, մենք շրջում ենք կոտորակը և դնում նշանը.Ծամում է լոգիստիկ ռեգրեսիան« (մինուս) լոգարիթմի համար մենք ստանում ենք.

Ծամում է լոգիստիկ ռեգրեսիան

Ահա կորստի ֆունկցիան լոգիստիկ կորուստ, որն օգտագործվում է ուսուցման հավաքածուում՝ դասերին հատկացված առարկաներով. Ծամում է լոգիստիկ ռեգրեսիան и Ծամում է լոգիստիկ ռեգրեսիան.

Դե, այս պահին ես արձակուրդ եմ վերցնում, և մենք ավարտում ենք հոդվածը:

Ծամում է լոգիստիկ ռեգրեսիան Հեղինակի նախորդ աշխատանքն է «Գծային ռեգրեսիայի հավասարումը մատրիցային ձևի բերելը»

Օժանդակ նյութեր

1. Գրականություն

1) Կիրառական ռեգրեսիոն վերլուծություն / N. Draper, G. Smith - 2nd ed. – Մ.: Ֆինանսներ և վիճակագրություն, 1986 (թարգմանություն անգլերենից)

2) հավանականությունների տեսություն և մաթեմատիկական վիճակագրություն / Վ.Ե. Գմուրման - 9-րդ հրատ. - Մ.: Բարձրագույն դպրոց, 2003 թ

3) Հավանականությունների տեսություն / Ն.Ի. Չեռնովա - Նովոսիբիրսկ: Նովոսիբիրսկի պետական ​​համալսարան, 2007 թ

4) Բիզնեսի վերլուծություն. տվյալներից մինչև գիտելիք / Paklin N. B., Oreshkov V. I. - 2nd ed. - Սանկտ Պետերբուրգ: Պետեր, 2013 թ

5) Տվյալների գիտություն Տվյալների գիտությունը զրոյից / Ջոել Գրաս - Սանկտ Պետերբուրգ: BHV Պետերբուրգ, 2017 թ.

6) Գործնական վիճակագրություն տվյալների գիտության մասնագետների համար / P. Bruce, E. Bruce - Սանկտ Պետերբուրգ. BHV Petersburg, 2018 թ.

2. Դասախոսություններ, դասընթացներ (տեսանյութ)

1) Առավելագույն հավանականության մեթոդի էությունը, Բորիս Դեմեշև

2) Առավելագույն հավանականության մեթոդը շարունակական դեպքում, Բորիս Դեմեշև

3) Լոգիստիկ ռեգրեսիա. Բաց ODS դասընթաց, Յուրի Կաշնիցկի

4) Դասախոսություն 4, Եվգենի Սոկոլով (տեսանյութի 47 րոպեից)

5) Լոգիստիկ ռեգրեսիա, Վյաչեսլավ Վորոնցով

3. Ինտերնետ աղբյուրներ

1) Գծային դասակարգման և ռեգրեսիայի մոդելներ

2) Ինչպես հեշտությամբ հասկանալ լոգիստիկ ռեգրեսիան

3) Լոգիստիկ սխալի գործառույթ

4) Անկախ թեստեր և Բեռնուլիի բանաձև

5) MMP-ի բալլադ

6) Առավելագույն հավանականության մեթոդ

7) Լոգարիթմների բանաձևերը և հատկությունները

8) Ինչու համար Ծամում է լոգիստիկ ռեգրեսիան?

9) գծային դասակարգիչ

Source: www.habr.com

Добавить комментарий