A logisztikus regresszión rágódva

A logisztikus regresszión rágódva

Ebben a cikkben a transzformáció elméleti számításait elemezzük lineáris regressziós függvények в inverz logit transzformációs függvény (más néven logisztikus válasz függvény). Aztán az arzenál segítségével maximális valószínűség módszere, a logisztikus regressziós modellnek megfelelően levezetjük a veszteségfüggvényt Logisztikai veszteség, vagyis definiálunk egy függvényt, amellyel a súlyvektor paramétereit kiválasztjuk a logisztikus regressziós modellben A logisztikus regresszión rágódva.

Cikk vázlata:

  1. Ismételjük meg a lineáris kapcsolatot két változó között
  2. Határozzuk meg az átalakítás szükségességét lineáris regressziós függvények A logisztikus regresszión rágódva в logisztikai válasz funkció A logisztikus regresszión rágódva
  3. Végezzük el az átalakításokat és a kimenetet logisztikai válasz funkció
  4. Próbáljuk megérteni, miért rossz a legkisebb négyzetek módszere a paraméterek kiválasztásakor A logisztikus regresszión rágódva funkciók Logisztikai veszteség
  5. Használjuk maximális valószínűség módszere meghatározásához paraméterválasztó funkciók A logisztikus regresszión rágódva:

    5.1. 1. eset: funkció Logisztikai veszteség osztálymegjelölésű objektumokhoz 0 и 1:

    A logisztikus regresszión rágódva

    5.2. 2. eset: funkció Logisztikai veszteség osztálymegjelölésű objektumokhoz -1 и +1:

    A logisztikus regresszión rágódva


A cikk tele van egyszerű példákkal, amelyekben minden számítás könnyen elvégezhető szóban vagy papíron; bizonyos esetekben szükség lehet egy számológépre. Szóval készülj :)

Ez a cikk elsősorban azoknak az adattudósoknak szól, akik kezdeti szintű ismeretekkel rendelkeznek a gépi tanulás alapjaiban.

A cikk kódot is tartalmaz grafikonok rajzolásához és számításokhoz. Minden kód a nyelven van írva Python 2.7. Előre hadd magyarázzam el az alkalmazott verzió „újdonságát” – ez az egyik feltétele a jól ismert tanfolyam elvégzésének. Yandex egy hasonlóan jól ismert online oktatási platformon Coursera, és ahogy feltételezhető, az anyag ennek alapján készült.

01. Egyenes függőség

Teljesen jogos feltenni a kérdést – mi köze ehhez a lineáris függőségnek és a logisztikus regressziónak?

Ez egyszerű! A logisztikus regresszió a lineáris osztályozóhoz tartozó modellek egyike. Egyszerűen fogalmazva, a lineáris osztályozó feladata a célértékek előrejelzése A logisztikus regresszión rágódva változókból (regresszorok) A logisztikus regresszión rágódva. Úgy gondolják, hogy a jellemzők közötti függőség A logisztikus regresszión rágódva és célértékek A logisztikus regresszión rágódva lineáris. Innen származik az osztályozó neve - lineáris. Nagyon durván fogalmazva, a logisztikus regressziós modell azon a feltételezésen alapul, hogy a jellemzők között lineáris kapcsolat van. A logisztikus regresszión rágódva és célértékek A logisztikus regresszión rágódva. Ez a kapcsolat.

Ott van az első példa a stúdióban, és helyesen a vizsgált mennyiségek egyenes irányú függéséről van szó. A cikk elkészítése során egy olyan példával találkoztam, amely már sok embert tönkretett - az áram feszültségtől való függése („Alkalmazott regressziós elemzés”, N. Draper, G. Smith). Itt is megnézzük.

Szerint Ohm törvénye:

A logisztikus regresszión rágódvaAhol A logisztikus regresszión rágódva - áramerősség, A logisztikus regresszión rágódva - feszültség, A logisztikus regresszión rágódva - ellenállás.

Ha nem tudnánk Ohm törvénye, akkor a függőséget empirikusan megváltoztatva találhatnánk meg A logisztikus regresszión rágódva és mérés A logisztikus regresszión rágódva, miközben támogatja A logisztikus regresszión rágódva rögzített. Akkor látnánk, hogy a függőségi gráf A logisztikus regresszión rágódva -tól A logisztikus regresszión rágódva többé-kevésbé egyenes vonalat ad az origón keresztül. Azért mondjuk „többé-kevésbé”, mert bár az összefüggés valójában pontos, méréseink kis hibákat tartalmazhatnak, ezért előfordulhat, hogy a grafikon pontjai nem pontosan esnek az egyenesre, hanem véletlenszerűen szóródnak körülötte.

1. grafikon „Függőség” A logisztikus regresszión rágódva -tól A logisztikus regresszión rágódva»

A logisztikus regresszión rágódva

Diagramrajz kódja

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. A lineáris regressziós egyenlet átalakításának szükségessége

Nézzünk egy másik példát. Képzeljük el, hogy egy bankban dolgozunk, és az a feladatunk, hogy bizonyos tényezők függvényében meghatározzuk, hogy a hitelfelvevő mekkora valószínűséggel fizeti vissza a hitelt. A feladat egyszerűsítése érdekében csak két tényezőt veszünk figyelembe: a hitelfelvevő havi fizetését és a havi hitel törlesztőrészletét.

A feladat nagyon feltételes, de ezzel a példával megérthetjük, miért nem elég a használata lineáris regressziós függvények, és azt is megtudja, milyen átalakításokat kell végrehajtani a függvénnyel.

Térjünk vissza a példához. Magától értetődik, hogy minél magasabb a fizetés, a hitelfelvevő havonta többet tud majd fordítani a kölcsön visszafizetésére. Ugyanakkor egy bizonyos fizetési tartományban ez a kapcsolat meglehetősen lineáris lesz. Vegyünk például egy 60.000 200.000 RUR és 3 5.000 RUR közötti fizetési tartományt, és tegyük fel, hogy a megadott fizetési tartományban a havi kifizetés nagyságának függése a fizetés nagyságától lineáris. Tegyük fel, hogy a megadott bértartománynál kiderült, hogy a fizetés/fizetés aránya nem eshet XNUMX alá, és a hitelfelvevőnek továbbra is XNUMX RUR tartaléknak kell lennie. És csak ebben az esetben feltételezzük, hogy a hitelfelvevő visszafizeti a kölcsönt a banknak. Ekkor a lineáris regressziós egyenlet a következőképpen alakul:

A logisztikus regresszión rágódva

ahol A logisztikus regresszión rágódva, A logisztikus regresszión rágódva, A logisztikus regresszión rágódva, A logisztikus regresszión rágódva - fizetés A logisztikus regresszión rágódva-a hitelfelvevő, A logisztikus regresszión rágódva - hiteltörlesztés A logisztikus regresszión rágódva-a hitelfelvevő.

Fizetés és hitelfizetés fix paraméterekkel helyettesítése az egyenletben A logisztikus regresszión rágódva Eldöntheti, hogy kölcsönt ad ki vagy elutasít.

Előretekintve megjegyezzük, hogy a megadott paraméterekkel A logisztikus regresszión rágódva lineáris regressziós függvény, használt logisztikai válaszfunkciók nagy értékeket produkál, ami megnehezíti a számításokat a hitel visszafizetési valószínűségének meghatározásához. Ezért azt javasolják, hogy csökkentsük együtthatóinkat, mondjuk 25.000 XNUMX-szeresére. Az együtthatók ezen átalakítása nem változtatja meg a kölcsön kiadására vonatkozó döntést. Emlékezzünk erre a pontra a jövőre nézve, de most, hogy még világosabb legyen, miről beszélünk, tekintsük át három lehetséges hitelfelvevő helyzetét.

1. táblázat „Potenciális hitelfelvevők”

A logisztikus regresszión rágódva

Kód a táblázat létrehozásához

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

A táblázat adatai szerint Vasya 120.000 3.000 RUR fizetéssel kölcsönt szeretne kapni, hogy azt havonta 5.000 RUR-on visszafizesse. Megállapítottuk, hogy a kölcsön jóváhagyásához Vasya fizetésének meg kell haladnia a befizetés összegének háromszorosát, és még XNUMX RUR-nak kell maradnia. Vasya eleget tesz ennek a követelménynek: A logisztikus regresszión rágódva. Még 106.000 XNUMX RUR is maradt. Annak ellenére, hogy számításkor A logisztikus regresszión rágódva csökkentettük az esélyeket A logisztikus regresszión rágódva 25.000 XNUMX alkalommal, az eredmény ugyanaz volt - a hitel jóváhagyható. Fedya is kap kölcsönt, de Lesha annak ellenére, hogy ő kapja a legtöbbet, meg kell fékeznie az étvágyát.

Rajzoljunk grafikont erre az esetre.

2. ábra „A hitelfelvevők besorolása”

A logisztikus regresszión rágódva

Kód a grafikon megrajzolásához

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Tehát a függvénynek megfelelően megszerkesztett egyenesünk A logisztikus regresszión rágódva, elválasztja a „rossz” hitelfelvevőket a „jó” hitelfelvevőktől. Azok a hitelfelvevők, akiknek a vágyai nem esnek egybe képességeikkel, a vonal felett vannak (Lesha), míg azok, akik modellünk paraméterei szerint képesek visszafizetni a kölcsönt, a vonal alatt vannak (Vasya és Fedya). Más szóval ezt mondhatjuk: közvetlen vonalunk két osztályra osztja a hitelfelvevőket. Jelöljük őket a következőképpen: osztályba A logisztikus regresszión rágódva Azokat a hitelfelvevőket soroljuk be, akik a legnagyobb valószínűséggel fizetik vissza a kölcsönt A logisztikus regresszión rágódva vagy A logisztikus regresszión rágódva Beleszámítjuk azokat a hitelfelvevőket, akik nagy valószínűséggel nem tudják visszafizetni a kölcsönt.

Foglaljuk össze ebből az egyszerű példából a következtetéseket. Vegyünk egy pontot A logisztikus regresszión rágódva és a pont koordinátáit behelyettesítjük az egyenes megfelelő egyenletébe A logisztikus regresszión rágódva, fontoljon meg három lehetőséget:

  1. Ha a pont a vonal alatt van és az osztályhoz rendeljük A logisztikus regresszión rágódva, akkor a függvény értéke A logisztikus regresszión rágódva pozitív lesz től A logisztikus regresszión rágódva a A logisztikus regresszión rágódva. Ez azt jelenti, hogy feltételezhetjük, hogy a kölcsön visszafizetésének valószínűsége belül van A logisztikus regresszión rágódva. Minél nagyobb a függvény értéke, annál nagyobb a valószínűsége.
  2. Ha egy pont egy egyenes felett van, és az osztályhoz rendeljük A logisztikus regresszión rágódva vagy A logisztikus regresszión rágódva, akkor a függvény értéke negatív lesz től A logisztikus regresszión rágódva a A logisztikus regresszión rágódva. Ekkor feltételezzük, hogy az adósság visszafizetésének valószínűsége belül van A logisztikus regresszión rágódva és minél nagyobb a függvény abszolút értéke, annál nagyobb a bizalom.
  3. A pont egy egyenesen van, két osztály határán. Ebben az esetben a függvény értéke A logisztikus regresszión rágódva egyenlő lesz A logisztikus regresszión rágódva és a kölcsön visszafizetésének valószínűsége egyenlő A logisztikus regresszión rágódva.

Most képzeljük el, hogy nem két tényezőnk van, hanem több tucat, és nem három, hanem több ezer hitelfelvevőnk. Akkor az egyenes helyett lesz m-dimenziós sík és együtthatók A logisztikus regresszión rágódva nem légből kapottak leszünk, hanem minden szabály szerint, és a kölcsönt visszafizetett vagy nem törlesztő hitelfelvevőkről halmozott adatok alapján származtatjuk. És valóban, vegye figyelembe, hogy most már ismert együtthatók segítségével választjuk ki a hitelfelvevőket A logisztikus regresszión rágódva. Valójában a logisztikus regressziós modell feladata éppen a paraméterek meghatározása A logisztikus regresszión rágódva, amelynél a veszteségfüggvény értéke Logisztikai veszteség a minimumra fog törekedni. Hanem arról, hogyan számítják ki a vektort A logisztikus regresszión rágódva, többet megtudunk a cikk 5. részében. Közben visszatérünk az ígéret földjére - bankárunkhoz és három ügyfeléhez.

A funkciónak köszönhetően A logisztikus regresszión rágódva tudjuk, hogy kinek lehet kölcsönt adni és kitől kell megtagadni. De ilyen információval nem lehet az igazgatóhoz fordulni, mert tőlünk akarták megtudni, hogy minden hitelfelvevő milyen valószínűséggel fizeti vissza a kölcsönt. Mit kell tenni? A válasz egyszerű – valahogy át kell alakítanunk a függvényt A logisztikus regresszión rágódva, amelynek értékei a tartományba esnek A logisztikus regresszión rágódva olyan függvényre, amelynek értékei a tartományban lesznek A logisztikus regresszión rágódva. És létezik ilyen függvény, úgy hívják logisztikus válaszfüggvény vagy inverz logit transzformáció. Találkozik:

A logisztikus regresszión rágódva

Lássuk lépésről lépésre, hogyan működik logisztikai válasz funkció. Jegyezzük meg, hogy az ellenkező irányba fogunk járni, pl. Feltételezzük, hogy ismerjük a valószínűségi értéket, amely a tól tartományba esik A logisztikus regresszión rágódva a A logisztikus regresszión rágódva majd ezt az értéket „feltekerjük” a teljes számtartományra A logisztikus regresszión rágódva a A logisztikus regresszión rágódva.

03. Levezetjük a logisztikus válaszfüggvényt

1. lépés: Alakítsa át a valószínűségi értékeket tartományba A logisztikus regresszión rágódva

A függvény átalakítása során A logisztikus regresszión rágódva в logisztikai válasz funkció A logisztikus regresszión rágódva Békén hagyjuk hitelelemzőnket, és inkább körbejárjuk a bukmékereket. Nem, természetesen nem fogunk fogadni, ott csak a kifejezés jelentése érdekel minket, például az esély 4 az 1-hez. A minden fogadó számára ismerős szorzó a „sikerek” és a „sikerek” aránya. kudarcok”. Valószínűségi értelemben az odds egy esemény bekövetkezésének valószínűsége osztva annak valószínűségével, hogy az esemény nem következik be. Írjuk fel egy esemény bekövetkezésének esélyének képletét A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva

Ahol A logisztikus regresszión rágódva - egy esemény bekövetkezésének valószínűsége, A logisztikus regresszión rágódva — annak valószínűsége, hogy egy esemény NEM következik be

Például, ha annak a valószínűsége, hogy egy „Veterok” becenevű fiatal, erős és játékos ló megver egy „Matilda” nevű idős és petyhüdt öregasszonyt, egyenlő A logisztikus regresszión rágódva, akkor a „Veterok” sikerének esélye meglesz A logisztikus regresszión rágódva к A logisztikus regresszión rágódva A logisztikus regresszión rágódva és fordítva, az esélyek ismeretében nem lesz nehéz kiszámítani a valószínűséget A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva

Így megtanultuk „lefordítani” a valószínűséget esélyekre, amelyekből értékeket vesznek A logisztikus regresszión rágódva a A logisztikus regresszión rágódva. Tegyünk még egy lépést, és tanuljuk meg „lefordítani” a valószínűséget a teljes számegyenesre A logisztikus regresszión rágódva a A logisztikus regresszión rágódva.

2. lépés: Alakítsa át a valószínűségi értékeket tartományba A logisztikus regresszión rágódva

Ez a lépés nagyon egyszerű – vegyük az esélyek logaritmusát az Euler-szám alapjához A logisztikus regresszión rágódva és kapjuk:

A logisztikus regresszión rágódva

Most már tudjuk, hogy ha A logisztikus regresszión rágódva, majd számítsa ki az értéket A logisztikus regresszión rágódva nagyon egyszerű lesz, és ráadásul pozitívnak kell lennie: A logisztikus regresszión rágódva. Ez igaz.

Kíváncsiságból nézzük meg, mi van ha A logisztikus regresszión rágódva, akkor negatív értéket várunk A logisztikus regresszión rágódva. Ellenőrizzük: A logisztikus regresszión rágódva. Úgy van.

Most már tudjuk, hogyan lehet a valószínűségi értéket átváltani ebből A logisztikus regresszión rágódva a A logisztikus regresszión rágódva tól a teljes számegyenes mentén A logisztikus regresszión rágódva a A logisztikus regresszión rágódva. A következő lépésben az ellenkezőjét tesszük.

Egyelőre megjegyezzük, hogy a logaritmus szabályai szerint, a függvény értékének ismeretében A logisztikus regresszión rágódva, kiszámolhatja az esélyeket:

A logisztikus regresszión rágódva

Az esélyek meghatározásának ez a módszere hasznos lesz számunkra a következő lépésben.

3. lépés. Levezetjük a meghatározáshoz szükséges képletet A logisztikus regresszión rágódva

Szóval tanultunk, tudtunk A logisztikus regresszión rágódva, függvényértékek keresése A logisztikus regresszión rágódva. Valójában azonban pontosan az ellenkezőjére van szükségünk – az érték ismeretére A logisztikus regresszión rágódva megtalálja A logisztikus regresszión rágódva. Ehhez forduljunk egy olyan fogalomhoz, mint az inverz odds-függvény, amely szerint:

A logisztikus regresszión rágódva

A cikkben nem fogjuk levezetni a fenti képletet, hanem a fenti példában szereplő számok segítségével ellenőrizzük. Tudjuk, hogy 4:1 szorzóval (A logisztikus regresszión rágódva), az esemény bekövetkezésének valószínűsége 0.8 (A logisztikus regresszión rágódva). Csináljunk egy cserét: A logisztikus regresszión rágódva. Ez egybeesik a korábban elvégzett számításainkkal. Menjünk tovább.

Az utolsó lépésben arra következtettünk A logisztikus regresszión rágódva, ami azt jelenti, hogy az inverz odds függvényben helyettesíthet. Kapunk:

A logisztikus regresszión rágódva

Oszd el a számlálót és a nevezőt is ezzel A logisztikus regresszión rágódva, Akkor:

A logisztikus regresszión rágódva

Minden esetre, hogy megbizonyosodjunk arról, hogy sehol sem hibáztunk, még egy apró ellenőrzést végzünk. A 2. lépésben a A logisztikus regresszión rágódva megállapította, hogy A logisztikus regresszión rágódva. Ezután cserélje ki az értéket A logisztikus regresszión rágódva a logisztikai válaszfunkcióba, azt várjuk, hogy megkapjuk A logisztikus regresszión rágódva. Cseréljük és kapjuk: A logisztikus regresszión rágódva

Gratulálunk, kedves olvasó, most levezettük és teszteltük a logisztikai válasz funkciót. Nézzük meg a függvény grafikonját.

3. grafikon „Logisztikai válaszfüggvény”

A logisztikus regresszión rágódva

Kód a grafikon megrajzolásához

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

A szakirodalomban ennek a függvénynek a neve is megtalálható szigmafunkció. A grafikonon jól látható, hogy az osztályhoz tartozó objektumok valószínűségének fő változása viszonylag kis tartományon belül következik be. A logisztikus regresszión rágódva, valahonnan A logisztikus regresszión rágódva a A logisztikus regresszión rágódva.

Azt javaslom, térjen vissza hitelelemzőnkhöz, és segítsen neki kiszámítani a hitel visszafizetésének valószínűségét, különben fennáll a kockázata, hogy bónusz nélkül marad :)

2. táblázat „Potenciális hitelfelvevők”

A logisztikus regresszión rágódva

Kód a táblázat létrehozásához

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Tehát meghatároztuk a hitel visszafizetésének valószínűségét. Általában véve ez igaznak tűnik.

Valójában annak a valószínűsége, hogy Vasya 120.000 3.000 RUR fizetéssel havonta 100 RUR-t tud adni a banknak, közel 0.3%. Mellesleg meg kell értenünk, hogy a bank kölcsönt adhat ki Leshának, ha a bank politikája például olyan ügyfelek hitelezését írja elő, amelyeknél a hitel visszafizetésének valószínűsége meghaladja, mondjuk, XNUMX. Csak arról van szó, hogy ebben az esetben a bank nagyobb tartalékot képez az esetleges veszteségekre.

Azt is meg kell jegyezni, hogy a fizetés/fizetés aránya legalább 3 és 5.000 RUR árrés a plafonból került levonásra. Ezért a súlyvektort nem tudtuk eredeti formájában használni A logisztikus regresszión rágódva. Az együtthatókat nagymértékben csökkenteni kellett, és ebben az esetben minden együtthatót elosztottunk 25.000 XNUMX-rel, vagyis lényegében módosítottuk az eredményt. De ez kifejezetten az anyag megértésének egyszerűsítése érdekében történt a kezdeti szakaszban. Az életben nem ki kell találnunk és módosítanunk kell az együtthatókat, hanem meg kell találnunk őket. A cikk következő részeiben levezetjük azokat az egyenleteket, amelyekkel a paramétereket kiválasztjuk A logisztikus regresszión rágódva.

04. Legkisebb négyzetek módszere a súlyvektor meghatározására A logisztikus regresszión rágódva a logisztikai válasz funkcióban

Már ismerjük ezt a módszert a súlyvektor kiválasztására A logisztikus regresszión rágódvaMint legkisebb négyzetek módszere (LSM) és valójában miért nem használjuk a bináris osztályozási feladatokban? Valójában semmi sem akadályozza meg a használatát MNC, csak ez a módszer az osztályozási problémákban ad kevésbé pontos eredményeket, mint Logisztikai veszteség. Ennek van elméleti alapja. Először nézzünk meg egy egyszerű példát.

Tegyük fel, hogy modelljeink (a MSE и Logisztikai veszteség) már megkezdték a súlyvektor kiválasztását A logisztikus regresszión rágódva és valami lépésnél leállítottuk a számítást. Nem számít, hogy a közepén, a végén vagy az elején, a lényeg az, hogy a súlyvektornak már van néhány értéke, és tegyük fel, hogy ebben a lépésben a súlyvektor A logisztikus regresszión rágódva mindkét modellnél nincs különbség. Ezután vegye ki a kapott súlyokat, és cserélje ki őket logisztikai válasz funkció (A logisztikus regresszión rágódva) az osztályba tartozó valamely objektumra A logisztikus regresszión rágódva. Két olyan esetet vizsgálunk, amikor a kiválasztott súlyvektornak megfelelően a modellünk nagyon téves, és fordítva - a modell nagyon biztos abban, hogy az objektum az osztályba tartozik. A logisztikus regresszión rágódva. Lássuk, milyen bírságokat kell kiszabni a használat során MNC и Logisztikai veszteség.

Kód a büntetések kiszámításához a használt veszteségfüggvénytől függően

# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1

# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2

Egy baklövés esete — a modell objektumot rendel egy osztályhoz A logisztikus regresszión rágódva 0,01 valószínűséggel

Használati büntetés MNC lesz:
A logisztikus regresszión rágódva

Használati büntetés Logisztikai veszteség lesz:
A logisztikus regresszión rágódva

Az erős bizalom esete — a modell objektumot rendel egy osztályhoz A logisztikus regresszión rágódva 0,99 valószínűséggel

Használati büntetés MNC lesz:
A logisztikus regresszión rágódva

Használati büntetés Logisztikai veszteség lesz:
A logisztikus regresszión rágódva

Ez a példa jól szemlélteti, hogy durva hiba esetén a veszteségfüggvény Log Loss lényegesen jobban bünteti a modellt, mint MSE. Most nézzük meg, mi az elméleti háttere a veszteségfüggvény használatának Log Loss osztályozási problémákban.

05. Maximum likelihood módszer és logisztikus regresszió

Ahogy az elején ígértük, a cikk tele van egyszerű példákkal. A stúdióban van egy másik példa és régi vendégek - banki hitelfelvevők: Vasya, Fedya és Lesha.

Minden esetre, a példa kidolgozása előtt hadd emlékeztesselek arra, hogy az életben több ezer vagy millió objektumból álló képzési mintával van dolgunk, tíz vagy száz jellemzővel. Itt azonban úgy veszik a számokat, hogy könnyen beleférjenek egy kezdő adattudós fejébe.

Térjünk vissza a példához. Képzeljük el, hogy a bank igazgatója úgy döntött, hogy kölcsönt ad ki mindenkinek, akinek szüksége van rá, annak ellenére, hogy az algoritmus azt mondta neki, hogy ne adja ki Leshának. És most már elég idő telt el, és tudjuk, hogy a három hős közül melyik fizette vissza a kölcsönt, és melyik nem. Ami várható volt: Vasya és Fedya visszafizették a kölcsönt, de Lesha nem. Most képzeljük el, hogy ez az eredmény egy új képzési minta lesz számunkra, ugyanakkor mintha a hitel visszafizetési valószínűségét befolyásoló tényezőkről (hitelfelvevő fizetése, a havi törlesztőrészlet nagysága) eltűnt volna minden adat. Ekkor intuitív módon feltételezhetjük, hogy minden harmadik hitelfelvevő nem fizeti vissza a kölcsönt a banknak, vagy más szóval, mekkora a valószínűsége annak, hogy a következő hitelfelvevő visszafizeti a kölcsönt. A logisztikus regresszión rágódva. Ennek az intuitív feltevésnek elméleti megerősítése van, és ezen alapul maximális valószínűség módszere, a szakirodalomban gyakran úgy hívják maximális valószínűség elve.

Először is ismerkedjünk meg a fogalmi apparátussal.

Mintavételi valószínűség annak a valószínűsége, hogy pontosan ilyen mintát kapunk, pontosan ilyen megfigyeléseket/eredményeket kapunk, azaz. az egyes mintaeredmények megszerzésének valószínűségének szorzata (például, hogy Vasya, Fedya és Lesha hitelét egyidejűleg visszafizették-e vagy sem).

Valószínűségi függvény a minta valószínűségét az eloszlási paraméterek értékéhez viszonyítja.

Esetünkben a képzési minta egy általánosított Bernoulli-séma, amelyben a valószínűségi változó csak két értéket vesz fel: A logisztikus regresszión rágódva vagy A logisztikus regresszión rágódva. Ezért a minta valószínűsége a paraméter valószínűségi függvényeként írható fel A logisztikus regresszión rágódva az alábbiak szerint:

A logisztikus regresszión rágódva
A logisztikus regresszión rágódva

A fenti bejegyzés a következőképpen értelmezhető. Annak az együttes valószínűsége, hogy Vasya és Fedya visszafizeti a kölcsönt, egyenlő A logisztikus regresszión rágódva, annak a valószínűsége, hogy Lesha NEM fogja visszafizetni a kölcsönt egyenlő A logisztikus regresszión rágódva (mivel NEM a hiteltörlesztés történt), ezért mindhárom esemény együttes valószínűsége egyenlő A logisztikus regresszión rágódva.

Maximális valószínűség módszere egy ismeretlen paraméter maximalizálással történő becslésének módszere valószínűségi függvények. Esetünkben meg kell találnunk egy ilyen értéket A logisztikus regresszión rágódvaamelyen A logisztikus regresszión rágódva eléri a maximumát.

Honnan származik a tényleges ötlet – hogy egy ismeretlen paraméter értékét keressük, amelynél a likelihood függvény eléri a maximumot? Az ötlet eredete abból az elképzelésből ered, hogy a minta az egyetlen rendelkezésünkre álló tudásforrás a populációról. Minden, amit a sokaságról tudunk, megjelenik a mintában. Ezért csak annyit mondhatunk, hogy a minta a rendelkezésünkre álló sokaság legpontosabb tükrözése. Ezért olyan paramétert kell találnunk, amelynél a rendelkezésre álló minta a legvalószínűbb lesz.

Nyilvánvalóan egy optimalizálási problémával van dolgunk, amelyben meg kell találnunk egy függvény szélsőpontját. A szélsőpont megtalálásához figyelembe kell venni az elsőrendű feltételt, azaz a függvény deriváltját nullával egyenlővé kell tenni, és az egyenletet a kívánt paraméterre vonatkozóan megoldani. A nagyszámú tényező szorzatának deriváltjának keresése azonban hosszadalmas feladat lehet, ennek elkerülésére van egy speciális technika - a logaritmusra váltás. valószínűségi függvények. Miért lehetséges egy ilyen átállás? Figyeljünk arra, hogy nem magának a függvénynek a szélsőértékét keressükA logisztikus regresszión rágódva, és a szélsőpont, vagyis az ismeretlen paraméter értéke A logisztikus regresszión rágódvaamelyen A logisztikus regresszión rágódva eléri a maximumát. A logaritmusra való áttéréskor a szélsőpont nem változik (bár maga a szélsőség különbözik), mivel a logaritmus egy monoton függvény.

A fentiekkel összhangban folytassuk példánk fejlesztését Vasya, Fedya és Lesha kölcsöneivel. Először is menjünk tovább a likelihood függvény logaritmusa:

A logisztikus regresszión rágódva

Most már könnyen meg tudjuk különböztetni a kifejezést A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva

És végül vegyük figyelembe az elsőrendű feltételt - a függvény deriváltját nullával egyenlővé tesszük:

A logisztikus regresszión rágódva

Így a hitel visszafizetésének valószínűségére vonatkozó intuitív becslésünk A logisztikus regresszión rágódva elméletileg indokolt volt.

Remek, de most mit tegyünk ezzel az információval? Ha feltételezzük, hogy minden harmadik hitelfelvevő nem adja vissza a pénzt a banknak, akkor az utóbbi elkerülhetetlenül csődbe megy. Ez így van, de csak akkor, ha a hitel visszafizetésének valószínűségét értékeli A logisztikus regresszión rágódva Nem vettük figyelembe a hiteltörlesztést befolyásoló tényezőket: a hitelfelvevő fizetését és a havi törlesztőrészlet nagyságát. Emlékezzünk arra, hogy korábban ugyanezen tényezők figyelembevételével számítottuk ki, hogy az egyes ügyfelek mekkora valószínűséggel fizetik vissza a hitelt. Logikus, hogy az állandó egyenlőtől eltérő valószínűségeket kaptunk A logisztikus regresszión rágódva.

Határozzuk meg a minták valószínűségét:

Kód a minta valószínűségének kiszámításához

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)

Mintavalószínűség állandó értéken A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva

Mintavalószínűség a kölcsön visszafizetési valószínűségének tényezők figyelembe vételével történő kiszámításakor A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva
A logisztikus regresszión rágódva

A tényezők függvényében számított valószínűségű minta valószínűsége nagyobbnak bizonyult, mint az állandó valószínűségi értékű valószínűség. Mit is jelent ez? Ez arra utal, hogy a tényezők ismerete lehetővé tette az egyes ügyfelek hiteltörlesztési valószínűségének pontosabb kiválasztását. Ezért a következő hitel kibocsátásakor helyesebb lenne a cikk 3. pontjának végén javasolt modellt használni az adósság visszafizetési valószínűségének felmérésére.

De akkor, ha maximalizálni akarjuk minta valószínűségi függvény, akkor miért ne használna olyan algoritmust, amely például Vasya, Fedya és Lesha valószínűségét állítja elő, amely 0.99, 0.99 és 0.01. Talán egy ilyen algoritmus jól fog teljesíteni a betanítási mintán, mivel közelebb hozza a minta valószínűségi értékét a A logisztikus regresszión rágódva, de egyrészt egy ilyen algoritmusnak nagy valószínűséggel nehézségei lesznek az általánosítási képességgel, másrészt ez az algoritmus biztosan nem lesz lineáris. És ha a túledzés (az ugyanilyen gyenge általánosító képesség) elleni küzdelem módszerei egyértelműen nem szerepelnek e cikk tervében, akkor nézzük meg részletesebben a második pontot. Ehhez csak válaszoljon egy egyszerű kérdésre. Vajon az általunk ismert tényezőket figyelembe véve azonos valószínűséggel fizeti vissza a kölcsönt Vasya és Fedya? A hanglogika szempontjából persze nem, nem lehet. Tehát Vasya fizetésének 2.5% -át fizeti havonta a kölcsön visszafizetésére, Fedya pedig csaknem 27,8% -át. A 2. „Ügyfélbesorolás” grafikonon is azt látjuk, hogy Vasya sokkal távolabb van az osztályokat elválasztó vonaltól, mint a Fedya. És végül tudjuk, hogy a függvény A logisztikus regresszión rágódva a Vasya és a Fedya különböző értékeket vesz fel: 4.24 Vasya és 1.0 Fedya. Ha például Fedya egy nagyságrenddel többet keresne, vagy kisebb kölcsönt kérne, akkor Vasya és Fedya hitelének visszafizetésének valószínűsége hasonló lenne. Más szóval, a lineáris függést nem lehet becsapni. És ha valóban kiszámoltuk az esélyeket A logisztikus regresszión rágódva, és nem légből kapott, nyugodtan mondhatjuk, hogy értékeink A logisztikus regresszión rágódva legjobban lehetővé teszi számunkra, hogy megbecsüljük a kölcsön minden egyes hitelfelvevő általi visszafizetésének valószínűségét, de mivel megegyeztünk abban, hogy az együtthatók meghatározása A logisztikus regresszión rágódva minden szabály szerint történt, akkor feltételezzük, hogy így van - együtthatóink lehetővé teszik, hogy jobban megbecsüljük a valószínűséget :)

Azonban elkanyarodunk. Ebben a részben meg kell értenünk, hogyan határozzák meg a súlyvektort A logisztikus regresszión rágódva, amely az egyes hitelfelvevők hitelvisszafizetési valószínűségének felméréséhez szükséges.

Foglaljuk össze röviden, milyen arzenált használunk az esélyek keresésére A logisztikus regresszión rágódva:

1. Feltételezzük, hogy a célváltozó (előrejelzési érték) és az eredményt befolyásoló tényező közötti kapcsolat lineáris. Emiatt használják lineáris regressziós függvény a fajta A logisztikus regresszión rágódva, melynek sora az objektumokat (klienseket) osztályokra osztja A logisztikus regresszión rágódva и A logisztikus regresszión rágódva vagy A logisztikus regresszión rágódva (az ügyfelek, akik képesek visszafizetni a kölcsönt, és azok, akik nem). Esetünkben az egyenletnek megvan a formája A logisztikus regresszión rágódva.

2. Mi használjuk inverz logit függvény a fajta A logisztikus regresszión rágódva osztályhoz tartozó objektum valószínűségének meghatározására A logisztikus regresszión rágódva.

3. Képzési készletünket egy általánosított megvalósításának tekintjük Bernoulli-sémák, azaz minden objektumhoz egy valószínűségi változó generálódik, amely valószínűséggel A logisztikus regresszión rágódva (minden objektumnak sajátja) az 1 értéket és valószínűséggel veszi fel A logisztikus regresszión rágódva - 0.

4. Tudjuk, mit kell maximalizálni minta valószínűségi függvény figyelembe véve az elfogadott tényezőket, hogy a rendelkezésre álló minta legyen a legvalószínűbb. Más szavakkal, ki kell választanunk azokat a paramétereket, amelyek mellett a minta a legvalószínűbb lesz. Esetünkben a kiválasztott paraméter a hitel visszafizetésének valószínűsége A logisztikus regresszión rágódva, ami viszont ismeretlen együtthatóktól függ A logisztikus regresszión rágódva. Tehát meg kell találnunk egy ilyen súlyvektort A logisztikus regresszión rágódva, amelynél a minta valószínűsége maximális lesz.

5. Tudjuk, mit kell maximalizálni minta valószínűségi függvények használhatod maximális valószínűség módszere. És ismerjük az összes trükkös trükköt, amellyel ezzel a módszerrel dolgozhatunk.

Így lesz ez egy többlépcsős lépés :)

Most ne feledjük, hogy a cikk legelején kétféle veszteségfüggvényt szerettünk volna származtatni Logisztikai veszteség attól függően, hogy az objektumosztályokat hogyan jelöljük ki. Történt ugyanis, hogy két osztályos osztályozási feladatokban az osztályokat így jelöljük A logisztikus regresszión rágódva и A logisztikus regresszión rágódva vagy A logisztikus regresszión rágódva. A jelöléstől függően a kimenetnek megfelelő veszteségfüggvénye lesz.

1. eset. Az objektumok osztályozása a A logisztikus regresszión rágódva и A logisztikus regresszión rágódva

Korábban egy olyan minta valószínűségének meghatározásakor, amelyben tényezők és adott együtthatók alapján számították ki a hitelfelvevő adósságának visszafizetésének valószínűségét. A logisztikus regresszión rágódva, a következő képletet alkalmaztuk:

A logisztikus regresszión rágódva

Tulajdonképpen A logisztikus regresszión rágódva a jelentése logisztikai válaszfunkciók A logisztikus regresszión rágódva adott súlyvektorra A logisztikus regresszión rágódva

Ekkor semmi sem akadályoz meg bennünket abban, hogy a mintalikelihood függvényt a következőképpen írjuk fel:

A logisztikus regresszión rágódva

Előfordul, hogy néhány kezdő elemzőnek néha nehéz azonnal megérteni, hogyan működik ez a funkció. Nézzünk meg 4 rövid példát, amelyek mindent tisztáznak:

1. Ha A logisztikus regresszión rágódva (azaz a betanítási minta szerint az objektum a +1 osztályba tartozik), és az algoritmusunk A logisztikus regresszión rágódva meghatározza egy objektum osztályba sorolásának valószínűségét A logisztikus regresszión rágódva 0.9, akkor ez a minta valószínűsége a következőképpen kerül kiszámításra:

A logisztikus regresszión rágódva

2. Ha A logisztikus regresszión rágódvaÉs A logisztikus regresszión rágódva, akkor a számítás a következő lesz:

A logisztikus regresszión rágódva

3. Ha A logisztikus regresszión rágódvaÉs A logisztikus regresszión rágódva, akkor a számítás a következő lesz:

A logisztikus regresszión rágódva

4. Ha A logisztikus regresszión rágódvaÉs A logisztikus regresszión rágódva, akkor a számítás a következő lesz:

A logisztikus regresszión rágódva

Nyilvánvaló, hogy a likelihood függvény maximalizálásra kerül az 1. és 3. esetben, vagy általános esetben - egy objektum osztályhoz való hozzárendelésének valószínűségének helyesen kitalált értékeivel A logisztikus regresszión rágódva.

Annak a ténynek köszönhetően, hogy egy objektum osztályhoz való hozzárendelésének valószínűségének meghatározásakor A logisztikus regresszión rágódva Csak az együtthatókat nem ismerjük A logisztikus regresszión rágódva, akkor megkeressük őket. Mint fentebb említettük, ez egy optimalizálási probléma, amelyben először meg kell találnunk a valószínűségi függvény deriváltját a súlyok vektorához képest. A logisztikus regresszión rágódva. Előbb azonban érdemes leegyszerűsíteni magunknak a feladatot: megkeressük a logaritmus deriváltját. valószínűségi függvények.

A logisztikus regresszión rágódva

Miért logaritmus után, in logisztikai hibafunkciók, a jelet megváltoztattuk A logisztikus regresszión rágódva on A logisztikus regresszión rágódva. Minden egyszerű, mivel a modell minőségének felmérésével kapcsolatos problémákban szokás egy függvény értékét minimalizálni, a kifejezés jobb oldalát megszoroztuk A logisztikus regresszión rágódva és ennek megfelelően a maximalizálás helyett most minimalizáljuk a függvényt.

Valójában most, a szemed láttára, a veszteségfüggvényt gondosan levezették - Logisztikai veszteség két osztályt tartalmazó edzéskészlethez: A logisztikus regresszión rágódva и A logisztikus regresszión rágódva.

Most, hogy megtaláljuk az együtthatókat, csak meg kell találnunk a deriváltot logisztikai hibafunkciók majd numerikus optimalizálási módszerekkel, például gradiens süllyedés vagy sztochasztikus gradiens süllyedés, válassza ki a legoptimálisabb együtthatókat A logisztikus regresszión rágódva. De tekintettel a cikk jelentős terjedelmére, javasoljuk, hogy a differenciálást önállóan végezze el, vagy talán ez lesz a következő cikk témája, sok aritmetikával ilyen részletes példák nélkül.

2. eset. Az objektumok osztályozása a A logisztikus regresszión rágódva и A logisztikus regresszión rágódva

A megközelítés itt ugyanaz lesz, mint az osztályoknál A logisztikus regresszión rágódva и A logisztikus regresszión rágódva, hanem maga a veszteségfüggvény kimenetéhez vezető út Logisztikai veszteség, díszesebb lesz. Kezdjük el. A valószínűség függvényhez az operátort fogjuk használni "ha akkor..."... Vagyis ha A logisztikus regresszión rágódvaA th objektum az osztályhoz tartozik A logisztikus regresszión rágódva, akkor a minta valószínűségének kiszámításához a valószínűséget használjuk A logisztikus regresszión rágódva, ha az objektum az osztályhoz tartozik A logisztikus regresszión rágódva, akkor behelyettesítjük a valószínűségbe A logisztikus regresszión rágódva. Így néz ki a valószínűségi függvény:

A logisztikus regresszión rágódva

Ujjunkkal írjuk le, hogyan működik. Nézzünk meg 4 esetet:

1. Ha A logisztikus regresszión rágódva и A logisztikus regresszión rágódva, akkor a mintavételi valószínűség „menni fog” A logisztikus regresszión rágódva

2. Ha A logisztikus regresszión rágódva и A logisztikus regresszión rágódva, akkor a mintavételi valószínűség „menni fog” A logisztikus regresszión rágódva

3. Ha A logisztikus regresszión rágódva и A logisztikus regresszión rágódva, akkor a mintavételi valószínűség „menni fog” A logisztikus regresszión rágódva

4. Ha A logisztikus regresszión rágódva и A logisztikus regresszión rágódva, akkor a mintavételi valószínűség „menni fog” A logisztikus regresszión rágódva

Nyilvánvaló, hogy az 1. és 3. esetben, amikor az algoritmus helyesen határozta meg a valószínűségeket, valószínűségi függvény maximalizálva lesz, vagyis pontosan ezt szerettük volna elérni. Ez a megközelítés azonban meglehetősen körülményes, és a következőkben egy kompaktabb jelölést fogunk megvizsgálni. De először logaritáljuk a likelihood függvényt előjelváltással, mivel most minimalizáljuk.

A logisztikus regresszión rágódva

Cseréljük ki helyette A logisztikus regresszión rágódva kifejezés A logisztikus regresszión rágódva:

A logisztikus regresszión rágódva

Egyszerűsítsük le a megfelelő kifejezést a logaritmus alatt egyszerű számtani technikákkal, és kapjuk meg:

A logisztikus regresszión rágódva

Most itt az ideje, hogy megszabaduljon az operátortól "ha akkor...". Vegye figyelembe, hogy amikor egy objektum A logisztikus regresszión rágódva osztályhoz tartozik A logisztikus regresszión rágódva, majd a logaritmus alatti kifejezésben, a nevezőben, A logisztikus regresszión rágódva hatalomra emelték A logisztikus regresszión rágódva, ha az objektum az osztályhoz tartozik A logisztikus regresszión rágódva, akkor $e$-t a hatványra emeljük A logisztikus regresszión rágódva. Ezért a fokozat jelölése egyszerűsíthető, ha mindkét esetet egybe kombináljuk: A logisztikus regresszión rágódva. majd logisztikai hiba funkció a következő formában lesz:

A logisztikus regresszión rágódva

A logaritmus szabályai szerint megfordítjuk a törtet és kiadjuk a jelet "A logisztikus regresszión rágódva" (mínusz) a logaritmushoz a következőket kapjuk:

A logisztikus regresszión rágódva

Itt van a veszteségfüggvény logisztikai veszteség, amelyet a tanítókészletben használnak az osztályokhoz rendelt objektumokkal: A logisztikus regresszión rágódva и A logisztikus regresszión rágódva.

Nos, ezen a ponton szabadságomat veszem, és befejezzük a cikket.

A logisztikus regresszión rágódva A szerző korábbi munkája: „A lineáris regressziós egyenlet mátrix formába hozása”

Segédanyagok

1. Irodalom

1) Alkalmazott regressziós elemzés / N. Draper, G. Smith - 2. kiadás. – M.: Pénzügy és Statisztika, 1986 (fordítás angolból)

2) Valószínűségszámítás és matematikai statisztika / V.E. Gmurman – 9. kiadás. - M.: Felsőiskola, 2003

3) Valószínűségszámítás / N.I. Csernova - Novoszibirszk: Novoszibirszki Állami Egyetem, 2007

4) Üzleti elemzés: az adatoktól a tudásig / Paklin N. B., Oreshkov V. I. - 2nd ed. — Szentpétervár: Péter, 2013

5) Adattudomány Adattudomány a semmiből / Joel Gras - St. Petersburg: BHV Petersburg, 2017

6) Gyakorlati statisztika adattudományi szakembereknek / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018

2. Előadások, tanfolyamok (videó)

1) A maximum likelihood módszer lényege, Borisz Demesev

2) Maximum likelihood módszer folyamatos esetben, Borisz Demesev

3) Logisztikus regresszió. Nyitott ODS tanfolyam, Yury Kashnitsky

4) 4. előadás, Jevgenyij Szokolov (47 perces videóból)

5) Logisztikai regresszió, Vjacseszlav Voroncov

3. Internetes források

1) Lineáris osztályozási és regressziós modellek

2) Hogyan lehet könnyen megérteni a logisztikai regressziót

3) Logisztikai hiba funkció

4) Független tesztek és Bernoulli-képlet

5) Ballada az MMP-ről

6) Maximális valószínűség módszere

7) A logaritmus képletei és tulajdonságai

8) Miért szám A logisztikus regresszión rágódva?

9) Lineáris osztályozó

Forrás: will.com

Hozzászólás