Lojistik regresyonu çiğnemek

Lojistik regresyonu çiğnemek

Bu yazımızda dönüşümün teorik hesaplamalarını analiz edeceğiz. doğrusal regresyon fonksiyonları в ters logit dönüşüm fonksiyonu (aksi takdirde lojistik tepki fonksiyonu olarak da adlandırılır). Daha sonra cephaneliği kullanarak maksimum olabilirlik yöntemiLojistik regresyon modeline uygun olarak kayıp fonksiyonunu türetiyoruz Lojistik Kayıpyani lojistik regresyon modelinde ağırlık vektörünün parametrelerinin seçildiği bir fonksiyon tanımlayacağız. Lojistik regresyonu çiğnemek.

Makale özeti:

  1. İki değişken arasındaki doğrusal ilişkiyi tekrarlayalım
  2. Dönüşüm ihtiyacını tanımlayalım doğrusal regresyon fonksiyonları Lojistik regresyonu çiğnemek в lojistik yanıt fonksiyonu Lojistik regresyonu çiğnemek
  3. Dönüşümleri gerçekleştirelim ve çıktı alalım lojistik yanıt fonksiyonu
  4. Parametreleri seçerken en küçük kareler yönteminin neden kötü olduğunu anlamaya çalışalım Lojistik regresyonu çiğnemek Özellikler Lojistik Kayıp
  5. Kullanırız maksimum olabilirlik yöntemi belirlemek için parametre seçim fonksiyonları Lojistik regresyonu çiğnemek:

    5.1. Durum 1: işlev Lojistik Kayıp sınıf tanımlarına sahip nesneler için 0 и 1:

    Lojistik regresyonu çiğnemek

    5.2. Durum 2: işlev Lojistik Kayıp sınıf tanımlarına sahip nesneler için -1 и +1:

    Lojistik regresyonu çiğnemek


Makale, tüm hesaplamaların sözlü veya kağıt üzerinde kolayca yapılabileceği basit örneklerle doludur; bazı durumlarda hesap makinesi gerekebilir. O zaman hazırlan :)

Bu makale öncelikle makine öğreniminin temelleri konusunda başlangıç ​​düzeyinde bilgi sahibi olan veri bilimcilere yöneliktir.

Makale ayrıca grafik çizme ve hesaplamalar için kod sağlayacaktır. Tüm kodlar dilde yazılmıştır python 2.7. Kullanılan versiyonun “yeniliğini” önceden açıklamama izin verin - bu, iyi bilinen kursu almanın koşullarından biridir. Yandex aynı derecede iyi bilinen bir çevrimiçi eğitim platformunda Courserave tahmin edilebileceği gibi materyal bu kursa göre hazırlandı.

01. Doğrusal bağımlılık

Şu soruyu sormak oldukça mantıklı: Doğrusal bağımlılık ve lojistik regresyonun bununla ne ilgisi var?

Basit! Lojistik regresyon doğrusal sınıflandırıcıya ait modellerden biridir. Basit bir ifadeyle doğrusal sınıflandırıcının görevi hedef değerleri tahmin etmektir. Lojistik regresyonu çiğnemek değişkenlerden (regresörler) Lojistik regresyonu çiğnemek. Özellikler arasındaki bağımlılığın olduğuna inanılmaktadır. Lojistik regresyonu çiğnemek ve hedef değerler Lojistik regresyonu çiğnemek doğrusal. Dolayısıyla sınıflandırıcının adı doğrusaldır. Çok kabaca ifade etmek gerekirse lojistik regresyon modeli, özellikler arasında doğrusal bir ilişki olduğu varsayımına dayanmaktadır. Lojistik regresyonu çiğnemek ve hedef değerler Lojistik regresyonu çiğnemek. Bağlantı budur.

Stüdyoda ilk örnek var ve bu, doğru bir şekilde, incelenen niceliklerin doğrusal bağımlılığıyla ilgili. Makaleyi hazırlama sürecinde, birçok insanı şimdiden tedirgin eden bir örnekle karşılaştım: akımın gerilime bağımlılığı (“Uygulamalı regresyon analizi”, N. Draper, G. Smith). Burada da ona bakacağız.

Uyarınca Ohm kanunu:

Lojistik regresyonu çiğnemekNerede Lojistik regresyonu çiğnemek - mevcut güç, Lojistik regresyonu çiğnemek - Gerilim, Lojistik regresyonu çiğnemek - rezistans.

Eğer bilmiyor olsaydık Ohm kanunuo zaman bağımlılığı ampirik olarak değiştirerek bulabiliriz Lojistik regresyonu çiğnemek ve ölçüm Lojistik regresyonu çiğnemek, desteklerken Lojistik regresyonu çiğnemek sabit. Daha sonra bağımlılık grafiğinin olduğunu görürüz. Lojistik regresyonu çiğnemek itibaren Lojistik regresyonu çiğnemek orijinden geçen az çok düz bir çizgi verir. “Az çok” diyoruz çünkü ilişki aslında doğru olsa da ölçümlerimiz küçük hatalar içerebilir ve bu nedenle grafikteki noktalar tam olarak doğrunun üzerine düşmeyebilir, rastgele etrafına dağılmış olabilir.

Grafik 1 “Bağımlılık” Lojistik regresyonu çiğnemek itibaren Lojistik regresyonu çiğnemek»

Lojistik regresyonu çiğnemek

Grafik çizim kodu

import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np

import random

R = 13.75

x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
    y_line.append(i/R)
    
y_dot = []
for i in y_line:
    y_dot.append(i+random.uniform(-0.9,0.9))


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

02. Doğrusal regresyon denklemini dönüştürme ihtiyacı

Başka bir örneğe bakalım. Bir bankada çalıştığımızı ve görevimizin belirli faktörlere bağlı olarak borçlunun krediyi geri ödeme olasılığını belirlemek olduğunu düşünelim. Görevi basitleştirmek için yalnızca iki faktörü dikkate alacağız: borçlunun aylık maaşı ve aylık kredi geri ödeme tutarı.

Görev çok şartlı ama bu örnekle neden onu kullanmanın yeterli olmadığını anlayabiliriz. doğrusal regresyon fonksiyonlarıve ayrıca fonksiyonla hangi dönüşümlerin yapılması gerektiğini öğrenin.

Örneğe dönelim. Maaş ne kadar yüksek olursa borçlunun krediyi geri ödemek için o kadar fazla aylık tahsis edebileceği anlaşılmaktadır. Aynı zamanda belirli bir maaş aralığı için bu ilişki oldukça doğrusal olacaktır. Örneğin 60.000 RUR ile 200.000 RUR arasında bir maaş aralığını alalım ve belirtilen maaş aralığında aylık ödeme büyüklüğünün maaş büyüklüğüne bağımlılığının doğrusal olduğunu varsayalım. Diyelim ki, belirtilen ücret aralığı için maaş-ödeme oranının 3'ün altına düşemeyeceği ve borçlunun hâlâ 5.000 RUR rezervine sahip olması gerektiği ortaya çıktı. Ve ancak bu durumda borçlunun krediyi bankaya geri ödeyeceğini varsayacağız. Daha sonra doğrusal regresyon denklemi şu şekli alacaktır:

Lojistik regresyonu çiğnemek

nerede Lojistik regresyonu çiğnemek, Lojistik regresyonu çiğnemek, Lojistik regresyonu çiğnemek, Lojistik regresyonu çiğnemek - maaş Lojistik regresyonu çiğnemek-borçlu, Lojistik regresyonu çiğnemek - borç ödeme Lojistik regresyonu çiğnemek-th borçlu.

Denklemde maaş ve kredi ödemesini sabit parametrelerle değiştirmek Lojistik regresyonu çiğnemek Kredi verip vermemeye veya reddetmeye karar verebilirsiniz.

İleriye baktığımızda, verilen parametrelerle şunu not ediyoruz: Lojistik regresyonu çiğnemek doğrusal regresyon fonksiyonu, kullanılan lojistik yanıt fonksiyonları kredi geri ödeme olasılıklarının belirlenmesine yönelik hesaplamaları zorlaştıracak büyük değerler üretecektir. Dolayısıyla katsayılarımızın diyelim 25.000 kat azaltılması öneriliyor. Katsayılardaki bu dönüşüm kredi verme kararını değiştirmeyecektir. Bu noktayı gelecek için hatırlayalım ama şimdi neden bahsettiğimizi daha da netleştirmek için üç potansiyel borçlunun durumunu ele alalım.

Tablo 1 “Potansiyel borçlular”

Lojistik regresyonu çiğnemek

Tabloyu oluşturmak için kod

import pandas as pd

r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r

data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']), 
        'Salary':np.array([120000,180000,210000]),
       'Payment':np.array([3000,50000,70000])}

df = pd.DataFrame(data)

df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2

decision = []
for i in df['f(w,x)']:
    if i > 0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]

Tablodaki verilere göre maaşı 120.000 RUR olan Vasya, aylık 3.000 RUR tutarında geri ödeyebilmek için kredi almak istiyor. Kredinin onaylanması için Vasya'nın maaşının ödeme tutarının üç katını aşması ve geriye 5.000 RUR kalması gerektiğini belirledik. Vasya bu gereksinimi karşılıyor: Lojistik regresyonu çiğnemek. 106.000 RUR bile kaldı. Hesaplarken olmasına rağmen Lojistik regresyonu çiğnemek ihtimalleri azalttık Lojistik regresyonu çiğnemek 25.000 kez sonuç aynıydı; kredi onaylanabilir. Fedya da kredi alacak ama Lesha en çok almasına rağmen iştahını bastırmak zorunda kalacak.

Bu durum için bir grafik çizelim.

Grafik 2 “Borçluların sınıflandırılması”

Lojistik regresyonu çiğnemek

Grafiği çizmek için kod

salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2


fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'], 
         'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'], 
         's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Yani fonksiyona uygun olarak inşa edilen düz çizgimiz Lojistik regresyonu çiğnemek, "kötü" borçluları "iyi" borçlulardan ayırır. Arzuları yetenekleriyle örtüşmeyen borçlular çizginin üzerinde (Lesha), modelimizin parametrelerine göre krediyi geri ödeyebilenler ise çizginin altında (Vasya ve Fedya). Yani şunu söyleyebiliriz: Direkt hattımız borçluları iki sınıfa ayırıyor. Bunları şu şekilde belirtelim: sınıfa Lojistik regresyonu çiğnemek Krediyi geri ödeme olasılığı en yüksek olan borçluları şu şekilde sınıflandıracağız: Lojistik regresyonu çiğnemek veya Lojistik regresyonu çiğnemek Büyük olasılıkla krediyi geri ödeyemeyecek olan borçluları dahil edeceğiz.

Bu basit örnekten çıkan sonuçları özetleyelim. Bir noktaya değinelim Lojistik regresyonu çiğnemek ve noktanın koordinatlarını doğrunun karşılık gelen denkleminde değiştirerek Lojistik regresyonu çiğnemek, üç seçeneği göz önünde bulundurun:

  1. Eğer nokta çizginin altındaysa ve onu sınıfa atarsak Lojistik regresyonu çiğnemek, ardından fonksiyonun değeri Lojistik regresyonu çiğnemek itibaren olumlu olacak Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek. Bu, kredinin geri ödenme olasılığının belli bir aralıkta olduğunu varsayabileceğimiz anlamına gelir. Lojistik regresyonu çiğnemek. Fonksiyon değeri ne kadar büyük olursa olasılık da o kadar yüksek olur.
  2. Bir nokta bir çizginin üzerindeyse ve onu sınıfa atarsak Lojistik regresyonu çiğnemek veya Lojistik regresyonu çiğnemek, o zaman fonksiyonun değeri negatif olacaktır Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek. O zaman borcun geri ödenme olasılığının içinde olduğunu varsayacağız. Lojistik regresyonu çiğnemek ve fonksiyonun mutlak değeri ne kadar büyük olursa güvenimiz de o kadar yüksek olur.
  3. Nokta, iki sınıf arasındaki sınırda, düz bir çizgi üzerindedir. Bu durumda fonksiyonun değeri Lojistik regresyonu çiğnemek eşit olacak Lojistik regresyonu çiğnemek ve krediyi geri ödeme olasılığı eşittir Lojistik regresyonu çiğnemek.

Şimdi elimizde iki faktör değil onlarca, üç değil binlerce borçlumuzun olduğunu düşünelim. O zaman düz bir çizgi yerine elimizde m boyutlu düzlem ve katsayılar Lojistik regresyonu çiğnemek bir anda ortaya çıkmayacağız, ancak tüm kurallara göre ve krediyi geri ödemiş veya geri ödememiş borçlulara ilişkin birikmiş verilere dayanarak türeteceğiz. Ve aslında, artık borçluları zaten bilinen katsayıları kullanarak seçtiğimizi unutmayın. Lojistik regresyonu çiğnemek. Aslında lojistik regresyon modelinin görevi parametreleri tam olarak belirlemektir. Lojistik regresyonu çiğnemekburada kayıp fonksiyonunun değeri Lojistik Kayıp minimuma doğru yönelecektir. Ancak vektörün nasıl hesaplandığı hakkında Lojistik regresyonu çiğnemekDaha fazlasını makalenin 5. bölümünde öğreneceğiz. Bu arada, vaat edilen topraklara, bankacımıza ve onun üç müşterisine dönüyoruz.

fonksiyon sayesinde Lojistik regresyonu çiğnemek kime kredi verilebileceğini ve kime reddedilmesi gerektiğini biliyoruz. Ancak bu tür bilgilerle müdüre gidemezsiniz çünkü bizden her borçlunun krediyi geri ödeme olasılığını almak istediler. Ne yapalım? Cevap basit; fonksiyonu bir şekilde dönüştürmemiz gerekiyor Lojistik regresyonu çiğnemekdeğerleri aralıkta yer alan Lojistik regresyonu çiğnemek değerleri aralıkta olacak bir fonksiyona Lojistik regresyonu çiğnemek. Ve böyle bir fonksiyon mevcut, buna denir lojistik yanıt fonksiyonu veya ters logit dönüşümü. Tanışmak:

Lojistik regresyonu çiğnemek

Nasıl çalıştığını adım adım görelim lojistik yanıt fonksiyonu. Ters yönde yürüyeceğimizi unutmayın; aralığında yer alan olasılık değerini bildiğimizi varsayacağız. Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek ve sonra bu değeri tüm sayı aralığına "çözeceğiz" Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek.

03. Lojistik yanıt fonksiyonunu türetiyoruz

Adım 1. Olasılık değerlerini bir aralığa dönüştürün Lojistik regresyonu çiğnemek

Fonksiyonun dönüşümü sırasında Lojistik regresyonu çiğnemek в lojistik yanıt fonksiyonu Lojistik regresyonu çiğnemek Kredi analistimizi yalnız bırakacağız ve onun yerine bahisçileri gezeceğiz. Hayır tabi ki bahis koymayacağız, bizi ilgilendiren tek şey ifadenin anlamı var, örneğin şans 4'e 1. Tüm bahisçilerin aşina olduğu oranlar "başarı"nın ""a oranıdır. başarısızlıklar”. Olasılık açısından oranlar, bir olayın meydana gelme olasılığının, olayın gerçekleşmeme olasılığına bölünmesiyle elde edilen orandır. Bir olayın meydana gelme ihtimalinin formülünü yazalım Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek

Nerede Lojistik regresyonu çiğnemek - Bir olayın meydana gelme olasılığı, Lojistik regresyonu çiğnemek — Bir olayın meydana gelmeme olasılığı

Örneğin "Veterok" lakaplı genç, güçlü ve oyuncu bir atın, "Matilda" isimli yaşlı ve zayıf yaşlı bir kadını yarışta yenme olasılığı şuna eşitse: Lojistik regresyonu çiğnemeko zaman “Veterok”un başarı şansı artacak Lojistik regresyonu çiğnemek к Lojistik regresyonu çiğnemek Lojistik regresyonu çiğnemek ve tam tersi, oranları bildiğimiz için olasılığı hesaplamak bizim için zor olmayacaktır. Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek

Böylece olasılığı, değerleri alan şansa "çevirmeyi" öğrendik. Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek. Bir adım daha atalım ve olasılığı tüm sayı doğrusuna "çevirmeyi" öğrenelim. Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek.

Adım 2. Olasılık değerlerini bir aralığa dönüştürün Lojistik regresyonu çiğnemek

Bu adım çok basit; oranların logaritmasını Euler sayısının tabanına alalım Lojistik regresyonu çiğnemek ve şunu elde ederiz:

Lojistik regresyonu çiğnemek

Artık biliyoruz ki eğer Lojistik regresyonu çiğnemek, ardından değeri hesaplayın Lojistik regresyonu çiğnemek çok basit olacak ve dahası olumlu olmalı: Lojistik regresyonu çiğnemek. Bu doğru.

Meraktan soruyorum bakalım ne olacak Lojistik regresyonu çiğnemek, o zaman negatif bir değer görmeyi bekliyoruz Lojistik regresyonu çiğnemek. Kontrol ediyoruz: Lojistik regresyonu çiğnemek. Bu doğru.

Artık olasılık değerini nasıl dönüştüreceğimizi biliyoruz. Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek itibaren tüm sayı doğrusu boyunca Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek. Bir sonraki adımda tam tersini yapacağız.

Şimdilik logaritma kurallarına uygun olarak fonksiyonun değerinin bilinmesi gerektiğini belirtelim. Lojistik regresyonu çiğnemek, oranları hesaplayabilirsiniz:

Lojistik regresyonu çiğnemek

Oranları belirlemeye yönelik bu yöntem bir sonraki adımda bizim için faydalı olacaktır.

Adım 3. Belirlemek için bir formül türetelim Lojistik regresyonu çiğnemek

Böylece öğrendik, bilerek Lojistik regresyonu çiğnemek, fonksiyon değerlerini bulun Lojistik regresyonu çiğnemek. Ancak aslında tam tersine ihtiyacımız var; değerini bilmek Lojistik regresyonu çiğnemek bulmak Lojistik regresyonu çiğnemek. Bunu yapmak için ters oran fonksiyonu gibi bir kavrama bakalım:

Lojistik regresyonu çiğnemek

Makalede yukarıdaki formülü türetmeyeceğiz ancak yukarıdaki örnekteki sayıları kullanarak kontrol edeceğiz. Bunu 4'e 1 oranla biliyoruz (Lojistik regresyonu çiğnemek), olayın gerçekleşme olasılığı 0.8'dir (Lojistik regresyonu çiğnemek). Bir değişiklik yapalım: Lojistik regresyonu çiğnemek. Bu daha önce yaptığımız hesaplamalarla örtüşüyor. Hadi devam edelim.

Son adımda şunu çıkardık Lojistik regresyonu çiğnemekBu, ters oranlar fonksiyonunda bir değişiklik yapabileceğiniz anlamına gelir. Şunu elde ederiz:

Lojistik regresyonu çiğnemek

Hem pay hem de paydayı şuna bölün: Lojistik regresyonu çiğnemek, sonra:

Lojistik regresyonu çiğnemek

Her ihtimale karşı, hiçbir yerde hata yapmadığımızdan emin olmak için küçük bir kontrol daha yapacağız. 2. adımda, Lojistik regresyonu çiğnemek şunu belirledim Lojistik regresyonu çiğnemek. Daha sonra değeri yerine koyarak Lojistik regresyonu çiğnemek lojistik yanıt fonksiyonuna dahil ederek, şunu elde etmeyi umuyoruz: Lojistik regresyonu çiğnemek. Değiştiririz ve şunu elde ederiz: Lojistik regresyonu çiğnemek

Tebrikler sevgili okuyucu, lojistik yanıt fonksiyonunu yeni türettik ve test ettik. Fonksiyonun grafiğine bakalım.

Grafik 3 “Lojistik yanıt fonksiyonu”

Lojistik regresyonu çiğnemek

Grafiği çizmek için kod

import math

def logit (f):
    return 1/(1+math.exp(-f))

f = np.arange(-7,7,0.05)
p = []

for i in f:
    p.append(logit(i))

fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()

Literatürde bu fonksiyonun adını şu şekilde de bulabilirsiniz: sigmoid fonksiyonu. Grafik, bir nesnenin bir sınıfa ait olma olasılığındaki ana değişimin nispeten küçük bir aralıkta meydana geldiğini açıkça göstermektedir. Lojistik regresyonu çiğnemek, bir yerlerden Lojistik regresyonu çiğnemek karşı Lojistik regresyonu çiğnemek.

Kredi analistimize dönmenizi ve kredinin geri ödeme olasılığını hesaplamasına yardım etmenizi öneririm, aksi takdirde ikramiyesiz kalma riskiyle karşı karşıya kalır :)

Tablo 2 “Potansiyel borçlular”

Lojistik regresyonu çiğnemek

Tabloyu oluşturmak için kod

proba = []
for i in df['f(w,x)']:
    proba.append(round(logit(i),2))
    
df['Probability'] = proba

df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]

Böylece kredinin geri ödenme olasılığını belirledik. Genel olarak bu doğru gibi görünüyor.

Nitekim maaşı 120.000 RUR olan Vasya'nın her ay bankaya 3.000 RUR verebilmesi ihtimali %100'e yakındır. Bu arada, eğer bankanın politikası örneğin 0.3'ten daha fazla kredi geri ödeme olasılığı olan müşterilere borç vermeyi sağlıyorsa, bir bankanın Lesha'ya kredi verebileceğini anlamalıyız. Sadece bu durumda banka olası zararlar için daha büyük bir rezerv yaratacaktır.

Maaş-ödeme oranının en az 3 ve 5.000 RUR marj ile tavandan alındığını da belirtmek gerekir. Bu nedenle ağırlık vektörünü orijinal formunda kullanamadık. Lojistik regresyonu çiğnemek. Katsayıları büyük ölçüde azaltmamız gerekiyordu ve bu durumda her katsayıyı 25.000'e böldük, yani özünde sonucu ayarladık. Ancak bu, özellikle ilk aşamada materyalin anlaşılmasını kolaylaştırmak için yapıldı. Hayatta katsayıları icat etmemize ve ayarlamamıza gerek kalmayacak, onları bulmamız gerekecek. Makalenin sonraki bölümlerinde parametrelerin seçildiği denklemleri türeteceğiz Lojistik regresyonu çiğnemek.

04. Ağırlıkların vektörünü belirlemek için en küçük kareler yöntemi Lojistik regresyonu çiğnemek lojistik yanıt fonksiyonunda

Bir ağırlık vektörü seçmek için bu yöntemi zaten biliyoruz. Lojistik regresyonu çiğnemekolarak en küçük kareler yöntemi (LSM) ve aslında neden bunu ikili sınıflandırma problemlerinde kullanmıyoruz? Aslında hiçbir şey kullanmanızı engellemez Çokuluslu şirketsınıflandırma problemlerinde yalnızca bu yöntem, daha az doğru sonuçlar verir. Lojistik Kayıp. Bunun teorik bir temeli var. Önce basit bir örneğe bakalım.

Modellerimizin (kullanarak) olduğunu varsayalım. MSE и Lojistik Kayıp) ağırlıkların vektörünü seçmeye zaten başladık Lojistik regresyonu çiğnemek ve hesaplamayı bir aşamada durdurduk. Ortada, sonunda veya başında olması önemli değil, asıl önemli olan ağırlık vektörünün bazı değerlerine zaten sahip olmamız ve bu adımda ağırlık vektörünün olduğunu varsayalım. Lojistik regresyonu çiğnemek her iki modelde de hiçbir fark yoktur. Daha sonra elde edilen ağırlıkları alın ve yerine koyun. lojistik yanıt fonksiyonu (Lojistik regresyonu çiğnemek) sınıfa ait bazı nesneler için Lojistik regresyonu çiğnemek. Seçilen ağırlık vektörüne göre modelimizin çok hatalı olduğu ve bunun tersinin olduğu iki durumu inceliyoruz - model, nesnenin sınıfa ait olduğundan çok emin Lojistik regresyonu çiğnemek. Kullanırken hangi cezaların verileceğini görelim Çokuluslu şirket и Lojistik Kayıp.

Kullanılan kayıp fonksiyonuna bağlı olarak cezaları hesaplamak için kod

# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01

MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1

# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
    return math.log(proba/(1-proba)) 

LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1

proba_2 = 0.99

MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))

print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2

Bir gaf vakası — model bir nesneyi bir sınıfa atar Lojistik regresyonu çiğnemek 0,01 olasılıkla

Kullanım cezası Çokuluslu şirket olacak:
Lojistik regresyonu çiğnemek

Kullanım cezası Lojistik Kayıp olacak:
Lojistik regresyonu çiğnemek

Güçlü bir güven vakası — model bir nesneyi bir sınıfa atar Lojistik regresyonu çiğnemek 0,99 olasılıkla

Kullanım cezası Çokuluslu şirket olacak:
Lojistik regresyonu çiğnemek

Kullanım cezası Lojistik Kayıp olacak:
Lojistik regresyonu çiğnemek

Bu örnek, büyük bir hata durumunda kayıp fonksiyonunun Günlük Kaybı modeli önemli ölçüde daha fazla cezalandırır MSE. Şimdi kayıp fonksiyonunu kullanmanın teorik arka planının ne olduğunu anlayalım Günlük Kaybı sınıflandırma problemlerinde

05. Maksimum olabilirlik yöntemi ve lojistik regresyon

Başlangıçta söz verildiği gibi makale basit örneklerle doludur. Stüdyoda başka bir örnek ve eski konuklar var - bankadan borçlular: Vasya, Fedya ve Lesha.

Her ihtimale karşı, örneği geliştirmeden önce, hayatta onlarca veya yüzlerce özelliğe sahip binlerce veya milyonlarca nesneden oluşan bir eğitim örneğiyle uğraştığımızı hatırlatmama izin verin. Ancak burada sayılar acemi bir veri bilimcinin kafasına kolayca sığabilecek şekilde alınmıştır.

Örneğe dönelim. Algoritmanın Lesha'ya vermemesini söylemesine rağmen banka müdürünün ihtiyacı olan herkese kredi vermeye karar verdiğini düşünelim. Artık yeterince zaman geçti ve üç kahramandan hangisinin krediyi ödediğini, hangisinin ödemediğini biliyoruz. Beklenen şey buydu: Vasya ve Fedya krediyi geri ödediler ama Lesha ödemedi. Şimdi bu sonucun bizim için yeni bir eğitim örneği olacağını ve aynı zamanda kredinin geri ödenme olasılığını etkileyen faktörlere (borçlunun maaşı, aylık ödeme tutarı) ilişkin tüm verilerin kaybolduğunu düşünelim. Daha sonra, sezgisel olarak, her üç borçludan birinin krediyi bankaya geri ödemediğini veya başka bir deyişle bir sonraki borçlunun krediyi geri ödeme olasılığını varsayabiliriz. Lojistik regresyonu çiğnemek. Bu sezgisel varsayımın teorik doğrulaması vardır ve maksimum olabilirlik yöntemiliteratürde sıklıkla buna denir maksimum olabilirlik ilkesi.

Öncelikle kavramsal aparatı tanıyalım.

Örnekleme olasılığı tam olarak böyle bir numune elde etme, tam olarak böyle gözlemler/sonuçlar elde etme olasılığıdır, yani; örnek sonuçların her birinin elde edilme olasılıklarının çarpımı (örneğin, Vasya, Fedya ve Lesha'nın kredisinin aynı anda geri ödenip ödenmediği).

Olasılık fonksiyonu bir numunenin olasılığını dağılım parametrelerinin değerleriyle ilişkilendirir.

Bizim durumumuzda eğitim örneği, rastgele değişkenin yalnızca iki değer aldığı genelleştirilmiş bir Bernoulli şemasıdır: Lojistik regresyonu çiğnemek veya Lojistik regresyonu çiğnemek. Bu nedenle örnek olabilirlik, parametrenin olabilirlik fonksiyonu olarak yazılabilir. Lojistik regresyonu çiğnemek следующим обрахом:

Lojistik regresyonu çiğnemek
Lojistik regresyonu çiğnemek

Yukarıdaki girdi şu şekilde yorumlanabilir. Vasya ve Fedya'nın krediyi geri ödemesinin ortak olasılığı şuna eşittir: Lojistik regresyonu çiğnemekLesha'nın krediyi geri ödememe olasılığı şuna eşittir: Lojistik regresyonu çiğnemek (gerçekleşen kredi geri ödemesi OLMADIĞI için), bu nedenle üç olayın ortak olasılığı eşittir Lojistik regresyonu çiğnemek.

Maksimum olabilirlik yöntemi bilinmeyen bir parametreyi maksimize ederek tahmin etmek için bir yöntemdir olasılık fonksiyonları. Bizim durumumuzda böyle bir değer bulmamız gerekiyor Lojistik regresyonu çiğnemek, hangi Lojistik regresyonu çiğnemek maksimuma ulaşır.

Olabilirlik fonksiyonunun maksimuma ulaştığı bilinmeyen bir parametrenin değerini aramak asıl fikir nereden geliyor? Bu fikrin kökenleri, bir örneklemin popülasyon hakkında elimizdeki tek bilgi kaynağı olduğu fikrinden kaynaklanmaktadır. Popülasyon hakkında bildiğimiz her şey örnekte temsil edilmektedir. Bu nedenle söyleyebileceğimiz tek şey, bir örneğin elimizdeki popülasyonun en doğru yansıması olduğudur. Bu nedenle mevcut örneğin en olası olduğu parametreyi bulmamız gerekiyor.

Açıkçası, bir fonksiyonun uç noktasını bulmamız gereken bir optimizasyon problemiyle karşı karşıyayız. Ekstrem noktayı bulmak için birinci dereceden koşulu dikkate almak, yani fonksiyonun türevini sıfıra eşitlemek ve denklemi istenen parametreye göre çözmek gerekir. Bununla birlikte, çok sayıda faktörün çarpımının türevini aramak uzun bir iş olabilir; bunu önlemek için özel bir teknik vardır - logaritmaya geçiş olasılık fonksiyonları. Böyle bir geçiş neden mümkün? Fonksiyonun ekstremumunu aramadığımıza dikkat edelim.Lojistik regresyonu çiğnemekve ekstrem nokta, yani bilinmeyen parametrenin değeri Lojistik regresyonu çiğnemek, hangi Lojistik regresyonu çiğnemek maksimuma ulaşır. Bir logaritmaya geçerken, logaritma monotonik bir fonksiyon olduğundan uç nokta değişmez (ekstremun kendisi farklı olsa da).

Yukarıdakilere uygun olarak Vasya, Fedya ve Lesha'dan alınan kredilerle örneğimizi geliştirmeye devam edelim. Öncelikle şuraya geçelim olabilirlik fonksiyonunun logaritması:

Lojistik regresyonu çiğnemek

Artık ifadeyi kolaylıkla ayırt edebiliriz. Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek

Ve son olarak birinci dereceden koşulu göz önünde bulundurun; fonksiyonun türevini sıfıra eşitliyoruz:

Lojistik regresyonu çiğnemek

Böylece, kredi geri ödeme olasılığına ilişkin sezgisel tahminimiz Lojistik regresyonu çiğnemek teorik olarak haklıydı.

Harika ama şimdi bu bilgiyle ne yapmalıyız? Her üç borçludan birinin parayı bankaya iade etmediğini varsayarsak, banka kaçınılmaz olarak iflas edecektir. Bu doğru, ancak yalnızca kredinin geri ödenmesi olasılığını değerlendirirken Lojistik regresyonu çiğnemek Kredi geri ödemesini etkileyen faktörleri dikkate almadık: borçlunun maaşı ve aylık ödemenin büyüklüğü. Daha önce aynı faktörleri dikkate alarak her müşterinin krediyi geri ödeme olasılığını hesapladığımızı hatırlayalım. Sabit eşitten farklı olasılıklar elde etmemiz mantıklıdır. Lojistik regresyonu çiğnemek.

Örneklerin olasılığını tanımlayalım:

Örnek olasılıklarını hesaplamak için kod

from functools import reduce

def likelihood(y,p):
    line_true_proba = []
    for i in range(len(y)):
        ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
        line_true_proba.append(ltp_i)
    likelihood = []
    return reduce(lambda a, b: a*b, line_true_proba)
        
    
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]


print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)

print '****************************************************************************************************'

print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)

Sabit bir değerde örnek olasılığı Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek

Faktörleri dikkate alarak kredi geri ödeme olasılığını hesaplarken örnek olasılık Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek
Lojistik regresyonu çiğnemek

Faktörlere bağlı olarak hesaplanan olasılığa sahip bir numunenin olasılığı, sabit olasılık değerine sahip olandan daha yüksek olduğu ortaya çıkmıştır. Bu ne anlama gelir? Bu, faktörler hakkındaki bilginin, her müşteri için kredi geri ödeme olasılığının daha doğru bir şekilde seçilmesini mümkün kıldığını göstermektedir. Bu nedenle bir sonraki krediyi verirken borcun geri ödenme olasılığını değerlendirmek için yazının 3. bölümünün sonunda önerilen modeli kullanmak daha doğru olacaktır.

Ama sonra, eğer maksimize etmek istiyorsak örnek olabilirlik fonksiyonuÖyleyse neden Vasya, Fedya ve Lesha için sırasıyla 0.99, 0.99 ve 0.01'e eşit olasılıklar üretecek bir algoritma kullanmıyorsunuz? Belki de böyle bir algoritma, örnek olabilirlik değerini yakınlaştıracağından eğitim örneğinde iyi performans gösterecektir. Lojistik regresyonu çiğnemekancak öncelikle böyle bir algoritmanın genelleme yeteneği konusunda zorluk yaşaması muhtemeldir ve ikincisi, bu algoritma kesinlikle doğrusal olmayacaktır. Ve aşırı antrenmanla mücadele yöntemleri (aynı derecede zayıf genelleme yeteneği) bu makalenin planında açıkça yer almıyorsa, o zaman ikinci noktayı daha ayrıntılı olarak ele alalım. Bunu yapmak için basit bir soruyu yanıtlamanız yeterlidir. Bildiğimiz faktörler dikkate alındığında Vasya ve Fedya'nın krediyi geri ödeme olasılığı aynı olabilir mi? Sağlam mantık açısından elbette hayır, olamaz. Yani Vasya krediyi geri ödemek için aylık maaşının %2.5'ini, Fedya ise neredeyse %27,8'ini ödeyecek. Ayrıca Grafik 2 “Müşteri sınıflandırması”nda Vasya'nın sınıfları ayıran çizgiden Fedya'ya göre çok daha uzakta olduğunu görüyoruz. Ve son olarak, fonksiyonun olduğunu biliyoruz. Lojistik regresyonu çiğnemek Vasya ve Fedya için farklı değerler alır: Vasya için 4.24 ve Fedya için 1.0. Şimdi, örneğin Fedya daha fazla kazanırsa veya daha küçük bir kredi isterse, o zaman Vasya ve Fedya için krediyi geri ödeme olasılıkları benzer olacaktır. Başka bir deyişle doğrusal bağımlılık kandırılamaz. Ve eğer olasılıkları gerçekten hesaplasaydık Lojistik regresyonu çiğnemekve onları yoktan var etmedik, rahatlıkla söyleyebiliriz ki değerlerimiz Lojistik regresyonu çiğnemek En iyisi, kredinin her bir borçlu tarafından geri ödenme olasılığını tahmin etmemizi sağlar, ancak katsayıların belirlenmesinde anlaştığımız için Lojistik regresyonu çiğnemek tüm kurallara göre gerçekleştirildiyse öyle olduğunu varsayacağız - katsayılarımız olasılık hakkında daha iyi bir tahmin yapmamıza olanak tanıyor :)

Ancak konuyu saptırıyoruz. Bu bölümde ağırlıkların vektörünün nasıl belirlendiğini anlamamız gerekiyor. Lojistik regresyonu çiğnemekBu, her borçlu tarafından kredinin geri ödenme olasılığını değerlendirmek için gereklidir.

Oranları aramaya gittiğimiz cephaneliği kısaca özetleyelim Lojistik regresyonu çiğnemek:

1. Hedef değişken (tahmin değeri) ile sonucu etkileyen faktör arasındaki ilişkinin doğrusal olduğunu varsayıyoruz. Bu sebeple kullanılır doğrusal regresyon fonksiyonu tür Lojistik regresyonu çiğnemeknesneleri (istemcileri) sınıflara ayıran çizgi Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek veya Lojistik regresyonu çiğnemek (krediyi geri ödeyebilen ve ödeyemeyen müşteriler). Bizim durumumuzda denklem şu şekildedir: Lojistik regresyonu çiğnemek.

2. Kullanıyoruz ters logit işlevi tür Lojistik regresyonu çiğnemek Bir nesnenin bir sınıfa ait olma olasılığını belirlemek için Lojistik regresyonu çiğnemek.

3. Eğitim setimizi genelleştirilmiş bir uygulamanın uygulaması olarak görüyoruz. Bernoulli şemalarıyani her nesne için olasılık dahilinde bir rastgele değişken üretilir. Lojistik regresyonu çiğnemek (her nesnenin kendine ait) 1 değerini alır ve olasılıkla Lojistik regresyonu çiğnemek - 0.

4. En üst düzeye çıkarmak için neye ihtiyacımız olduğunu biliyoruz örnek olabilirlik fonksiyonu Mevcut numunenin en makul hale gelmesi için kabul edilen faktörlerin dikkate alınması. Başka bir deyişle, numunenin en makul olacağı parametreleri seçmemiz gerekiyor. Bizim durumumuzda seçilen parametre kredinin geri ödenme olasılığıdır. Lojistik regresyonu çiğnemek, bu da bilinmeyen katsayılara bağlıdır Lojistik regresyonu çiğnemek. O halde böyle bir ağırlık vektörü bulmamız gerekiyor Lojistik regresyonu çiğnemekNumunenin olasılığı maksimum olacaktır.

5. Neyi en üst düzeye çıkaracağımızı biliyoruz örnek olabilirlik fonksiyonları kullanabilirsiniz maksimum olabilirlik yöntemi. Ve bu yöntemle çalışmanın tüm zor püf noktalarını biliyoruz.

Çok adımlı bir hareket bu şekilde ortaya çıkıyor :)

Şimdi, makalenin en başında iki tür kayıp fonksiyonunu türetmek istediğimizi hatırlayın. Lojistik Kayıp nesne sınıflarının nasıl belirlendiğine bağlı olarak. Öyle oldu ki, iki sınıflı sınıflandırma problemlerinde sınıflar şu şekilde gösterilir: Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek veya Lojistik regresyonu çiğnemek. Gösterime bağlı olarak çıktı, karşılık gelen bir kayıp fonksiyonuna sahip olacaktır.

Durum 1. Nesnelerin sınıflandırılması Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek

Daha önce, borçlunun borcunu geri ödeme olasılığının faktörlere ve verilen katsayılara göre hesaplandığı bir örneklemin olasılığını belirlerken Lojistik regresyonu çiğnemekformülü uyguladık:

Lojistik regresyonu çiğnemek

Aslında Lojistik regresyonu çiğnemek anlamı lojistik yanıt fonksiyonları Lojistik regresyonu çiğnemek belirli bir ağırlık vektörü için Lojistik regresyonu çiğnemek

O halde hiçbir şey bizi örnek olabilirlik fonksiyonunu şu şekilde yazmaktan alıkoyamaz:

Lojistik regresyonu çiğnemek

Bazı acemi analistlerin bu işlevin nasıl çalıştığını hemen anlamaları bazen zor olabiliyor. Durumu açıklığa kavuşturacak 4 kısa örneğe bakalım:

1. Eğer Lojistik regresyonu çiğnemek (yani eğitim örneğine göre nesne +1 sınıfına aittir) ve algoritmamız Lojistik regresyonu çiğnemek bir nesnenin bir sınıfa sınıflandırılma olasılığını belirler Lojistik regresyonu çiğnemek 0.9'a eşitse, bu örnek olasılığı şu şekilde hesaplanacaktır:

Lojistik regresyonu çiğnemek

2. Eğer Lojistik regresyonu çiğnemekVe Lojistik regresyonu çiğnemeko zaman hesaplama şu şekilde olacaktır:

Lojistik regresyonu çiğnemek

3. Eğer Lojistik regresyonu çiğnemekVe Lojistik regresyonu çiğnemeko zaman hesaplama şu şekilde olacaktır:

Lojistik regresyonu çiğnemek

4. Eğer Lojistik regresyonu çiğnemekVe Lojistik regresyonu çiğnemeko zaman hesaplama şu şekilde olacaktır:

Lojistik regresyonu çiğnemek

Olabilirlik fonksiyonunun 1. ve 3. durumlarda veya genel durumda - bir nesneyi bir sınıfa atama olasılıklarının doğru tahmin edilen değerleriyle - maksimuma çıkarılacağı açıktır. Lojistik regresyonu çiğnemek.

Çünkü bir nesnenin bir sınıfa atanma olasılığını belirlerken Lojistik regresyonu çiğnemek Sadece katsayıları bilmiyoruz Lojistik regresyonu çiğnemek, sonra onları arayacağız. Yukarıda bahsedildiği gibi bu, ilk olarak olabilirlik fonksiyonunun ağırlıklar vektörüne göre türevini bulmamız gereken bir optimizasyon problemidir. Lojistik regresyonu çiğnemek. Ancak öncelikle görevi kendimiz için basitleştirmek mantıklı olacaktır: logaritmanın türevini arayacağız olasılık fonksiyonları.

Lojistik regresyonu çiğnemek

Neden logaritmadan sonra lojistik hata fonksiyonlarıişaretini değiştirdik Lojistik regresyonu çiğnemek üzerinde Lojistik regresyonu çiğnemek. Her şey basit, çünkü bir modelin kalitesini değerlendirme problemlerinde bir fonksiyonun değerini en aza indirmek gelenekseldir, ifadenin sağ tarafını şu şekilde çarptık: Lojistik regresyonu çiğnemek ve buna göre, fonksiyonu maksimize etmek yerine şimdi minimize ediyoruz.

Aslında şu anda gözlerinizin önünde kayıp fonksiyonu titizlikle türetildi - Lojistik Kayıp iki sınıflı bir eğitim seti için: Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek.

Şimdi katsayıları bulmak için türevi bulmamız gerekiyor. lojistik hata fonksiyonları ve ardından, gradyan inişi veya stokastik gradyan inişi gibi sayısal optimizasyon yöntemlerini kullanarak en uygun katsayıları seçin Lojistik regresyonu çiğnemek. Ancak makalenin hatırı sayılır hacmi göz önüne alındığında, farklılaştırmayı kendi başınıza yapmanız öneriliyor, ya da belki bu, bu kadar ayrıntılı örnekler olmadan, çok sayıda aritmetiğin olduğu bir sonraki makalenin konusu olacak.

Durum 2. Nesnelerin sınıflandırılması Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek

Buradaki yaklaşım sınıflardaki yaklaşımla aynı olacaktır. Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek, ancak kayıp fonksiyonunun çıktısına giden yolun kendisi Lojistik Kayıp, daha süslü olacak. Başlayalım. Olabilirlik fonksiyonu için operatör kullanacağız “eğer... o zaman...”. Yani eğer Lojistik regresyonu çiğnemekinci nesne sınıfa aittir Lojistik regresyonu çiğnemek, daha sonra numunenin olasılığını hesaplamak için olasılığı kullanırız Lojistik regresyonu çiğnemekeğer nesne sınıfa aitse Lojistik regresyonu çiğnemeksonra olasılığı yerine koyarız Lojistik regresyonu çiğnemek. Olasılık fonksiyonu şu şekilde görünür:

Lojistik regresyonu çiğnemek

Nasıl çalıştığını parmaklarımızla anlatalım. 4 durumu ele alalım:

1. Eğer Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek, o zaman örnekleme olasılığı "gitecek" Lojistik regresyonu çiğnemek

2. Eğer Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek, o zaman örnekleme olasılığı "gitecek" Lojistik regresyonu çiğnemek

3. Eğer Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek, o zaman örnekleme olasılığı "gitecek" Lojistik regresyonu çiğnemek

4. Eğer Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek, o zaman örnekleme olasılığı "gitecek" Lojistik regresyonu çiğnemek

Olasılıkların algoritma tarafından doğru bir şekilde belirlendiği 1. ve 3. durumlarda, olasılık fonksiyonu maksimize edilecek, yani tam olarak elde etmek istediğimiz şey buydu. Ancak bu yaklaşım oldukça hantaldır ve bundan sonra daha derli toplu bir gösterim ele alacağız. Ama önce olabilirlik fonksiyonunu işaret değişikliği ile logaritmaya alalım, çünkü şimdi onu en aza indireceğiz.

Lojistik regresyonu çiğnemek

Onun yerine ikame edelim Lojistik regresyonu çiğnemek выражение Lojistik regresyonu çiğnemek:

Lojistik regresyonu çiğnemek

Basit aritmetik teknikleri kullanarak doğru terimi logaritma altında basitleştirelim ve şunu elde edelim:

Lojistik regresyonu çiğnemek

Artık operatörden kurtulmanın zamanı geldi “eğer... o zaman...”. Bir nesne olduğunda şunu unutmayın Lojistik regresyonu çiğnemek sınıfa ait Lojistik regresyonu çiğnemek, daha sonra logaritmanın altındaki ifadede, paydada, Lojistik regresyonu çiğnemek güce yükseltildi Lojistik regresyonu çiğnemekeğer nesne sınıfa aitse Lojistik regresyonu çiğnemek, sonra $e$'nin üssü yükseltilir Lojistik regresyonu çiğnemek. Bu nedenle, derecenin gösterimi her iki durumun birleştirilmesiyle basitleştirilebilir: Lojistik regresyonu çiğnemek. sonra lojistik hata fonksiyonu şu şekli alacaktır:

Lojistik regresyonu çiğnemek

Logaritma kurallarına uygun olarak kesri ters çevirip işaretini koyuyoruz "Lojistik regresyonu çiğnemek" (eksi) logaritma için şunu elde ederiz:

Lojistik regresyonu çiğnemek

İşte kayıp fonksiyonu lojistik kayıpsınıflara atanan nesnelerle eğitim setinde kullanılan: Lojistik regresyonu çiğnemek и Lojistik regresyonu çiğnemek.

Peki, bu noktada ayrılıyorum ve makaleyi sonlandırıyoruz.

Lojistik regresyonu çiğnemek Yazarın önceki çalışması “Doğrusal regresyon denklemini matris formuna getirmek”

Destekleyici materyaller

1. literatür

1) Uygulamalı regresyon analizi / N. Draper, G. Smith - 2. baskı. – M.: Finans ve İstatistik, 1986 (İngilizceden tercümesi)

2) Olasılık teorisi ve matematiksel istatistik / V.E. Gmurman - 9. baskı. - M.: Yüksekokul, 2003

3) Olasılık teorisi / N.I. Çernova - Novosibirsk: Novosibirsk Devlet Üniversitesi, 2007

4) İş analitiği: veriden bilgiye / Paklin N. B., Oreshkov V. I. - 2. baskı. - St.Petersburg: Peter, 2013

5) Veri Bilimi Sıfırdan veri bilimi / Joel Gras - St. Petersburg: BHV Petersburg, 2017

6) Veri Bilimi uzmanları için pratik istatistikler / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018

2. Dersler, kurslar (video)

1) Maksimum olabilirlik yönteminin özü, Boris Demeshev

2) Sürekli durumda maksimum olabilirlik yöntemi, Boris Demeshev

3) Lojistik regresyon. Açık ODS kursu, Yuri Kashnitsky

4) Ders 4, Evgeny Sokolov (47 dakikalık videodan)

5) Lojistik regresyon, Vyacheslav Vorontsov

3. İnternet kaynakları

1) Doğrusal sınıflandırma ve regresyon modelleri

2) Lojistik Regresyon Kolayca Nasıl Anlaşılır?

3) Lojistik hata fonksiyonu

4) Bağımsız testler ve Bernoulli formülü

5) MMP Baladı

6) Maksimum olabilirlik yöntemi

7) Logaritmanın formülleri ve özellikleri

8) Neden numara Lojistik regresyonu çiğnemek?

9) Doğrusal sınıflandırıcı

Kaynak: habr.com

Yorum ekle