پدې مقاله کې به موږ د بدلون نظریاتي محاسبې تحلیل کړو د خطي ریګریشن دندې в د معکوس لوګیټ بدلون فنکشن (بل ډول د لوژستیک غبرګون فنکشن ویل کیږي). بیا، د ارسنال په کارولو سره د اعظمي احتمال میتودد لوژستیک ریګریشن ماډل سره سم، موږ د ضایع فعالیت ترلاسه کوو لوژستیک زیان، یا په بل عبارت، موږ به یو فنکشن تعریف کړو چې ورسره د وزن ویکتور پیرامیټونه د لوژستیک ریګریشن ماډل کې غوره شوي. .
د مقالې لنډیز:
- راځئ چې د دوه متغیرونو تر مینځ خطي اړیکه تکرار کړو
- راځئ چې د بدلون اړتیا په ګوته کړو د خطي ریګریشن دندې в د لوژستیک غبرګون فعالیت
- راځئ چې بدلونونه او محصول ترسره کړو د لوژستیک غبرګون فعالیت
- راځئ هڅه وکړو چې پوه شو چې ولې د پیرامیټونو غوره کولو په وخت کې د لږترلږه مربع میتود خراب دی دندې لوژستیک زیان
- مونږ تری ګټه پورته کوو د اعظمي احتمال میتود د ټاکلو لپاره د پیرامیټر انتخاب دندې :
5.1. قضیه 1: فعالیت لوژستیک زیان د ټولګیو نومونو سره د توکو لپاره 0 и 1:
5.2. قضیه 2: فعالیت لوژستیک زیان د ټولګیو نومونو سره د توکو لپاره -1 и +1:
مقاله د ساده مثالونو سره ډکه ده په کوم کې چې ټول حسابونه په شفاهي یا کاغذ کې کول اسانه دي؛ په ځینو مواردو کې، یو کیلکولیټر ته اړتیا لیدل کیدی شي. نو چمتو اوسئ :)
دا مقاله اساسا د ډیټا ساینس پوهانو لپاره ده چې د ماشین زده کړې اساساتو کې د پوهې لومړنۍ کچې سره.
مقاله به د ګرافونو او حسابونو د انځورولو لپاره کوډ هم چمتو کړي. ټول کوډ په ژبه لیکل شوی اتل 2.7. اجازه راکړئ چې د کارول شوي نسخې "نوښت" په اړه دمخه تشریح کړم - دا د پیژندل شوي کورس اخیستلو لپاره یو له شرایطو څخه دی. Yandex په مساوي ډول پیژندل شوي آنلاین تعلیم پلیټ فارم کې Coursera، او، لکه څنګه چې یو څوک فکر کولی شي، مواد د دې کورس پر بنسټ چمتو شوي.
01. د مستقیم کرښې انحصار
دا خورا معقوله ده چې پوښتنه وپوښتل شي - خطي انحصار او لوژستیک راجستریشن له دې سره څه تړاو لري؟
دا ساده ده! لوژستیک ریګریشن یو له هغه ماډلونو څخه دی چې د خطي کټګورۍ پورې اړه لري. په ساده کلمو کې، د خطي ډلبندۍ دنده د هدف ارزښتونو اټکل کول دي له متغیرونو څخه (ریګریسرز) . داسې انګیرل کیږي چې د ځانګړتیاوو ترمنځ انحصار او هدف ارزښتونه خطي له همدې امله د طبقه بندي نوم - خطي. د دې لپاره چې په عمدي توګه ووایاست، د لوژیستیکي ریګریشن ماډل د دې انګیرنې پر بنسټ والړ دی چې د ځانګړتیاوو ترمنځ یو خطي اړیکه شتون لري. او هدف ارزښتونه . دا اړیکه ده.
په سټوډیو کې لومړی مثال شتون لري ، او دا په سمه توګه د مطالعې شوي مقدارونو مستطیل انحصار په اړه دی. د مقالې چمتو کولو په پروسه کې، ما د یوې بیلګې سره مخ شو چې دمخه یې ډیری خلک په څنډه کې ټاکلي دي - په ولتاژ باندې د اوسني انحصار ("تطبیق شوي ریګریشن تحلیل"، این ډراپر، جی سمیټ). موږ به یې دلته هم وګورو.
سره سم د اووم قانون:
چیرته - اوسنی ځواک، - ولټيج، - مقاومت.
که موږ نه پوهیږو د اووم قانون، بیا موږ کولی شو د بدلون په واسطه انحصار په تجربه سره ومومئ او اندازه کول په داسې حال کې چې ملاتړ کوي ثابت بیا به موږ وګورو چې د انحصار ګراف от د اصل له لارې لږ یا لږ مستقیم کرښه ورکوي. موږ "زیات یا لږ" وایو ځکه چې که څه هم اړیکه واقعیا سمه ده، زموږ اندازه کول ممکن کوچنۍ تېروتنې ولري، او له همدې امله په ګراف کې ټکي ممکن په سمه توګه په لیکه کې نه راځي، مګر په تصادفي توګه د هغې شاوخوا ویشل کیږي.
ګراف 1 "تکیه" от »
د چارټ انځور کولو کوډ
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import random
R = 13.75
x_line = np.arange(0,220,1)
y_line = []
for i in x_line:
y_line.append(i/R)
y_dot = []
for i in y_line:
y_dot.append(i+random.uniform(-0.9,0.9))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(x_line,y_line,color = 'purple',lw = 3, label = 'I = U/R')
plt.scatter(x_line,y_dot,color = 'red', label = 'Actual results')
plt.xlabel('I', size = 16)
plt.ylabel('U', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
02. د خطي ریګریشن معادلې بدلولو اړتیا
راځئ چې یو بل مثال وګورو. راځئ تصور وکړو چې موږ په یوه بانک کې کار کوو او زموږ دنده دا ده چې د پور اخیستونکي د پور بیرته ورکولو احتمال د ځینې عواملو پراساس مشخص کړو. د کار د ساده کولو لپاره، موږ به یوازې دوه فکتورونه په پام کې ونیسو: د پور اخیستونکي میاشتنی معاش او د میاشتني پور بیرته تادیه اندازه.
دا کار خورا مشروط دی، مګر د دې مثال سره موږ پوهیږو چې ولې د کارولو لپاره کافي ندي د خطي ریګریشن دندې، او دا هم ومومئ چې کوم بدلونونه باید د فعالیت سره ترسره شي.
راځئ چې مثال ته راستون شو. دا معلومه ده چې معاش څومره لوړ وي، پور اخیستونکی به د پور بیرته ورکولو لپاره میاشتني لګښت تخصیص کړي. په ورته وخت کې، د یو ټاکلي معاش حد لپاره دا اړیکه به خورا خطي وي. د مثال په توګه، راځئ چې د معاش حد له 60.000 RUR څخه تر 200.000 RUR پورې واخلو او فرض کړو چې د معاش په ټاکل شوي حد کې، د معاش په اندازې باندې د میاشتني تادیاتو د اندازې انحصار خطي دی. راځئ چې ووایو چې د معاشونو د ټاکل شوي حد لپاره دا څرګنده شوې چې د معاش څخه تادیه نسبت 3 څخه ښکته نشي کیدی او پور اخیستونکی باید لاهم 5.000 RUR په زیرمه کې ولري. او یوازې په دې حالت کې، موږ به فرض کړو چې پور اخیستونکی به بانک ته پور بیرته ورکړي. بیا، د خطي راجستر مساوات به دا بڼه واخلي:
چې , , , - معاش - پور اخیستونکی، - د پور تادیه - پور اخیستونکی.
په مساوات کې د ثابت پیرامیټرو سره د معاش او پور تادیه بدلول تاسو کولی شئ پریکړه وکړئ چې ایا پور صادر کړئ یا رد کړئ.
مخکې په لټه کې ، موږ یادونه کوو چې د ورکړل شوي پیرامیټونو سره د خطي ریګریشن فعالیت، په کې کارول کیږي لوژستیک غبرګون دندې لوی ارزښتونه به تولید کړي چې د پور بیرته ورکولو احتمالاتو ټاکلو لپاره محاسبې پیچلې کړي. له همدې امله، دا وړاندیز کیږي چې زموږ کوفیفینس کم کړي، راځئ چې ووایو، 25.000 ځله. په کوفیفینټ کې دا بدلون به د پور صادرولو پریکړه بدله نکړي. راځئ چې دا ټکی د راتلونکي لپاره په یاد ولرو، مګر اوس، د دې لپاره چې دا نور هم روښانه کړي چې موږ یې په اړه خبرې کوو، راځئ چې د دریو احتمالي پور اخیستونکو وضعیت په پام کې ونیسو.
جدول 1 "احتمالي پور اخیستونکي"
د میز د جوړولو لپاره کوډ
import pandas as pd
r = 25000.0
w_0 = -5000.0/r
w_1 = 1.0/r
w_2 = -3.0/r
data = {'The borrower':np.array(['Vasya', 'Fedya', 'Lesha']),
'Salary':np.array([120000,180000,210000]),
'Payment':np.array([3000,50000,70000])}
df = pd.DataFrame(data)
df['f(w,x)'] = w_0 + df['Salary']*w_1 + df['Payment']*w_2
decision = []
for i in df['f(w,x)']:
if i > 0:
dec = 'Approved'
decision.append(dec)
else:
dec = 'Refusal'
decision.append(dec)
df['Decision'] = decision
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision']]
په جدول کې د معلوماتو سره سم، Vasya، د 120.000 RUR معاش سره، غواړي پور ترلاسه کړي ترڅو هغه په میاشت کې په 3.000 RUR کې بیرته ورکړي. موږ پریکړه وکړه چې د پور تصویب کولو لپاره، د واسیا معاش باید د تادیې مقدار درې چنده ډیر وي، او لاهم باید 5.000 RUR پاتې وي. Vasya دا اړتیا پوره کوي: . حتی 106.000 RUR پاتې دي. د دې حقیقت سره سره چې کله حساب کول موږ امکانات کم کړي دي 25.000 ځله، پایله ورته وه - پور تصویب کیدی شي. فیدیا به هم پور ترلاسه کړي، مګر لیشا، سره له دې چې هغه خورا ډیر ترلاسه کوي، باید د هغه اشتها کمه کړي.
راځئ چې د دې قضیې لپاره ګراف رسم کړو.
چارټ 2 "د پور اخیستونکو طبقه بندي"
د ګراف رسم کولو لپاره کوډ
salary = np.arange(60000,240000,20000)
payment = (-w_0-w_1*salary)/w_2
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(salary, payment, color = 'grey', lw = 2, label = '$f(w,x_i)=w_0 + w_1x_{i1} + w_2x_{i2}$')
plt.plot(df[df['Decision'] == 'Approved']['Salary'], df[df['Decision'] == 'Approved']['Payment'],
'o', color ='green', markersize = 12, label = 'Decision - Loan approved')
plt.plot(df[df['Decision'] == 'Refusal']['Salary'], df[df['Decision'] == 'Refusal']['Payment'],
's', color = 'red', markersize = 12, label = 'Decision - Loan refusal')
plt.xlabel('Salary', size = 16)
plt.ylabel('Payment', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
نو، زموږ مستقیم کرښه، د فعالیت سره سم جوړه شوې ، "خراب" پور اخیستونکي له "ښه" څخه جلا کوي. هغه پور اخیستونکي چې غوښتنې یې د دوی له وړتیاو سره سمون نه لري د کرښې (لیشا) څخه پورته دي ، پداسې حال کې چې هغه څوک چې زموږ د ماډل پیرامیټرو سره سم پور بیرته ورکولو توان لري د کرښې لاندې دي (واسیا او فیدیا). په بل عبارت، موږ کولی شو دا ووایو: زموږ مستقیم کرښه پور اخیستونکي په دوو ټولګیو ویشي. راځئ چې دوی په لاندې ډول تشریح کړو: ټولګي ته موږ به هغه پور اخیستونکي طبقه بندي کړو چې د پور بیرته تادیه کولو احتمال لري په توګه او یا موږ به هغه پور اخیستونکي شامل کړو چې ډیری احتمال به د پور بیرته ورکولو توان ونلري.
راځئ چې د دې ساده مثال څخه پایلې لنډیز کړو. راځئ چې یو ټکی واخلو او، د نقطې همغږي د کرښې په اړونده مساواتو کې ځای په ځای کول درې اختیارونه په پام کې ونیسئ:
- که ټکی د کرښې لاندې وي او موږ یې ټولګي ته سپارو ، بیا د فعالیت ارزښت څخه به مثبت وي پورې . دا پدې مانا ده چې موږ فرض کولی شو چې د پور بیرته ورکولو احتمال دننه دی . څومره چې د فعالیت ارزښت لوی وي، احتمال یې لوړ وي.
- که یوه نقطه د یوې کرښې څخه پورته وي او موږ یې ټولګي ته وړاندې کوو او یا ، نو د فنکشن ارزښت به له منفي وي پورې . بیا به موږ فرض کړو چې د پور بیرته ورکولو احتمال دننه دی او، څومره چې د فعالیت مطلق ارزښت لوړ وي، هومره زموږ باور لوړ وي.
- نقطه په مستقیمه کرښه کې ده، د دوو ټولګیو ترمنځ په سرحد کې. په دې حالت کې، د فعالیت ارزښت مساوي به وي او د پور د بیرته ورکولو احتمال سره برابر دی .
اوس، راځئ چې تصور وکړو چې موږ دوه فاکتورونه نه لرو، مګر لسګونه، او درې نه، بلکې په زرګونو پور اخیستونکي. بیا به د مستقیم کرښې پرځای موږ ولرو m-dimensional طیارې او ضمیمې موږ به د هوا څخه نه ایستل کیږو ، مګر د ټولو مقرراتو سره سم ، او د پور اخیستونکو راټول شوي معلوماتو پراساس چې پور یې تادیه کړی یا نه دی اخیستی. او په حقیقت کې، په یاد ولرئ چې موږ اوس پور اخیستونکي غوره کوو چې دمخه پیژندل شوي ضمیمه کاروي . په حقیقت کې، د لوژستیک ریګریشن ماډل دنده په سمه توګه د پیرامیټونو ټاکل دي په کوم کې چې د ضایع فعالیت ارزښت لوژستیک زیان لږ تر لږه تمایل به ولري. مګر پدې اړه چې ویکتور څنګه محاسبه کیږي ، موږ به د مقالې په پنځمه برخه کې نور معلومات ترلاسه کړو. په ورته وخت کې، موږ ژمنه شوې ځمکې ته راستون شو - زموږ بانکدار او د هغه درې مشتریانو ته.
د فعالیت څخه مننه موږ پوهیږو چې چا ته پور ورکول کیدی شي او څوک باید رد شي. مګر تاسو نشئ کولی د داسې معلوماتو سره رییس ته لاړ شئ، ځکه چې دوی غوښتل له موږ څخه د هر پور اخیستونکي لخوا د پور بیرته ورکولو احتمال ترلاسه کړي. چې څه کول پکار دي؟ ځواب ساده دی - موږ اړتیا لرو په یو ډول فعالیت بدل کړو ، چې ارزښتونه یې په حد کې دي یو فنکشن ته چې ارزښتونه به یې په رینج کې وي . او دا ډول فعالیت شتون لري، ورته ویل کیږي د لوژستیک غبرګون فعالیت یا برعکس-لوګیټ بدلون. ملاقات:
راځئ چې ګام په ګام وګورو چې دا څنګه کار کوي د لوژستیک غبرګون فعالیت. په یاد ولرئ چې موږ به په مخالف لوري روان شو، د بیلګې په توګه. موږ به فرض کړو چې موږ د احتمال ارزښت پوهیږو، کوم چې د رینج څخه دی پورې او بیا به موږ دا ارزښت د شمیرو ټول سلسله ته "خلاص" کړو پورې .
03. موږ د لوژیستیکي غبرګون فعالیت ترلاسه کوو
مرحله 1. د احتمال ارزښتونه په حد کې بدل کړئ
د فعالیت د بدلون په جریان کې в د لوژستیک غبرګون فعالیت موږ به خپل کریډیټ شنونکی یوازې پریږدو او پرځای به یې د بک جوړونکو څخه لیدنه وکړو. نه، البته، موږ به شرط ونه لګوو، ټول هغه څه چې زموږ سره علاقه لري د بیان معنی ده، د بیلګې په توګه، چانس له 4 څخه تر 1 پورې دی. هغه توپیرونه، چې د ټولو شرطونو سره اشنا دي، د "بریالیتوب" سره د "بریالیتوب" تناسب دی. ناکامۍ ". د احتمالي شرایطو کې، odds د پیښې احتمالي پیښې دي چې د پیښې د نه واقع کیدو احتمال سره ویشل کیږي. راځئ چې د پیښې د رامنځته کیدو چانس لپاره فورمول ولیکئ :
چیرته - د پیښې احتمال - د پیښې احتمال شتون نلري
د مثال په توګه، که چیرې احتمال د "ویټروک" په نوم یو ځوان، پیاوړی او لوبیدونکی آس به په سیالۍ کې د "ماتیلډا" په نوم یوه زاړه او سپکه بوډا ته ماتې ورکړي. ، بیا به د "ویټروک" لپاره د بریا چانس وي к او برعکس، د امکاناتو په پوهیدو سره، دا به زموږ لپاره ستونزمن نه وي چې احتمال محاسبه کړو :
په دې توګه، موږ زده کړل چې احتمال "ژباړه" په امکاناتو کې، کوم چې ارزښتونه اخلي پورې . راځئ چې یو بل ګام واخلو او د ټولې شمیرې کرښې ته احتمال "ژباړنه" زده کړو پورې .
مرحله 2. د احتمال ارزښتونه په حد کې بدل کړئ
دا ګام خورا ساده دی - راځئ چې د یولر شمیرې اساس ته د توپیرونو لوګاریتم واخلو او موږ ترلاسه کوو:
اوس موږ پوهیږو چې که بیا ارزښت محاسبه کړئ به خورا ساده وي او سربیره پردې ، دا باید مثبت وي: . دا رشتېا ده.
د تجسس څخه بهر، راځئ چې وګورو که څه ، بیا موږ تمه لرو چې منفي ارزښت وګورو . موږ ګورو: . هغه صحیح ده.
اوس موږ پوهیږو چې څنګه د احتمال ارزښت له دې څخه بدل کړو پورې د ټولې شمیرې کرښې په اوږدو کې له څخه پورې . په بل ګام کې به موږ برعکس کار وکړو.
د اوس لپاره، موږ یادونه کوو چې د لوګاریتم د قواعدو سره سم، د فعالیت ارزښت پوهیږو تاسو کولی شئ توپیرونه محاسبه کړئ:
د توپیرونو د ټاکلو دا طریقه به په راتلونکی ګام کې زموږ لپاره ګټوره وي.
3 ګام. راځئ چې د ټاکلو لپاره یو فورمول ترلاسه کړو
نو موږ پوه شو، پوه شو ، د فعالیت ارزښتونه ومومئ . په هرصورت، په حقیقت کې، موږ واقعیا برعکس ته اړتیا لرو - د ارزښت پوهه موندل . د دې کولو لپاره، راځئ چې داسې مفهوم ته وګرځو لکه د برعکس odds فعالیت، چې له مخې یې:
په مقاله کې به موږ پورته فورمول نه اخلو، مګر موږ به یې د پورته مثال څخه د شمیرو په کارولو سره وګورو. موږ پوهیږو چې د 4 څخه تر 1 پورې توپیر سره (د پیښې احتمال 0.8 دی (). راځئ چې یو بدیل جوړ کړو: . دا زموږ د محاسبې سره سمون لري چې مخکې ترسره شوي. راځئ چې حرکت وکړو.
په وروستي ګام کې موږ دا محاسبه کړه ، دا پدې مانا ده چې تاسو کولی شئ د برعکس توپیر فعالیت کې بدیل رامینځته کړئ. موږ ترلاسه کوو:
د عدد او نفر دواړه په واسطه تقسیم کړئ بیا:
یوازې په دې حالت کې، د دې لپاره چې ډاډ ترلاسه کړئ چې موږ چیرته غلطه نه ده کړې، موږ به یو بل کوچنی چک وکړو. په 2 مرحله کې، موږ د دې لپاره دا معلومه کړه . بیا، د ارزښت بدلول د لوژستیک غبرګون فعالیت کې، موږ تمه لرو چې ترلاسه کړو . موږ بدیل او ترلاسه کوو:
مبارک، ګرانه لوستونکی، موږ یوازې د لوژیستیکي غبرګون فعالیت اخیستی او ازموینه کړې. راځئ چې د فعالیت ګراف وګورو.
ګراف 3 "لوژستیک غبرګون فعالیت"
د ګراف رسم کولو لپاره کوډ
import math
def logit (f):
return 1/(1+math.exp(-f))
f = np.arange(-7,7,0.05)
p = []
for i in f:
p.append(logit(i))
fig, axes = plt.subplots(figsize = (14,6), dpi = 80)
plt.plot(f, p, color = 'grey', label = '$ 1 / (1+e^{-w^Tx_i})$')
plt.xlabel('$f(w,x_i) = w^Tx_i$', size = 16)
plt.ylabel('$p_{i+}$', size = 16)
plt.legend(prop = {'size': 14})
plt.show()
په ادبياتو کې تاسو د دې فنکشن نوم هم موندلی شئ sigmoid فعالیت. ګراف په واضح ډول ښیي چې د یوې ټولګي پورې اړوند د څیز احتمال کې اصلي بدلون په نسبتا کوچنۍ حد کې واقع کیږي. له کوم ځای څخه پورې .
زه وړاندیز کوم چې زموږ د کریډیټ شنونکي ته بیرته راشئ او د هغه سره د پور بیرته ورکولو احتمال محاسبه کولو کې مرسته وکړئ ، که نه نو هغه د بونس پرته د پاتې کیدو خطر لري :)
جدول 2 "احتمالي پور اخیستونکي"
د میز د جوړولو لپاره کوډ
proba = []
for i in df['f(w,x)']:
proba.append(round(logit(i),2))
df['Probability'] = proba
df[['The borrower', 'Salary', 'Payment', 'f(w,x)', 'Decision', 'Probability']]
نو، موږ د پور بیرته ورکولو احتمال ټاکلی دی. په عموم کې، دا ریښتیا ښکاري.
په حقیقت کې، احتمال چې واسیا، د 120.000 RUR معاش سره به وکوالی شي په هره میاشت کې 3.000 RUR بانک ته ورکړي نږدې 100٪. په هرصورت، موږ باید پوه شو چې یو بانک کولی شي لیشا ته پور ورکړي که چیرې د بانک پالیسي چمتو کړي، د بیلګې په توګه، پیرودونکو ته د پور ورکولو لپاره چې د 0.3 څخه ډیر د پور بیرته ورکولو احتمال لري. دا یوازې دا دی چې پدې حالت کې بانک به د احتمالي زیانونو لپاره لوی زیرمه رامینځته کړي.
دا هم باید په پام کې ونیول شي چې د معاش څخه تادیه تناسب لږترلږه 3 او د 5.000 RUR په حاشیه سره له حد څخه اخیستل شوی. له همدې امله، موږ نشو کولی د وزن ویکتور په خپل اصلي بڼه کې وکاروو . موږ اړتیا لرو چې ضمیمه خورا کمه کړو، او پدې حالت کې موږ هر یو ضخامت په 25.000 ویشلی، دا په اصل کې، موږ پایله تنظیم کړه. مګر دا په ځانګړي ډول په لومړي مرحله کې د موادو د پوهیدو ساده کولو لپاره ترسره شوی. په ژوند کې، موږ اړتیا نلرو چې کوفیفینس ایجاد او تنظیم کړو، مګر دوی پیدا کړو. د مقالې په راتلونکو برخو کې به موږ هغه معادلې ترلاسه کړو چې ورسره پیرامیټرونه غوره شوي .
04. د وزن د ویکتور ټاکلو لپاره د ټیټ مربع میتود د لوژستیک غبرګون فعالیت کې
موږ دمخه د وزن ویکتور غوره کولو لپاره دا طریقه پیژنو لکه د لږترلږه مربع طریقه (LSM) او په حقیقت کې، ولې موږ بیا دا د بائنری طبقه بندي ستونزو کې نه کاروو؟ په حقیقت کې، هیڅ شی تاسو د کارولو مخه نه نیسي MNCیوازې دا طریقه د طبقه بندی په ستونزو کې هغه پایلې ورکوي چې په پرتله لږ دقیقې وي لوژستیک زیان. د دې لپاره یو نظري اساس شتون لري. راځئ چې لومړی یو ساده مثال وګورو.
راځئ فرض کړو چې زموږ ماډلونه (په کارولو سره MSE и لوژستیک زیان) لا دمخه د وزن ویکتور غوره کول پیل کړي او موږ په یو ګام کې محاسبه بنده کړه. دا مهمه نده چې په مینځ کې، په پای کې یا په پیل کې، اصلي خبره دا ده چې موږ دمخه د وزن ویکتور ځینې ارزښتونه لرو او فرض کړئ چې پدې مرحله کې، د وزن ویکتور د دواړو ماډلونو لپاره هیڅ توپیر شتون نلري. بیا نتیجه شوي وزنونه واخلئ او په بدل کې یې بدل کړئ د لوژستیک غبرګون فعالیت () د ځینې شیانو لپاره چې په ټولګي پورې اړه لري . موږ دوه قضیې معاینه کوو کله چې د وزن ټاکل شوي ویکتور سره سم، زموږ ماډل خورا غلط وي او برعکس - ماډل خورا ډاډمن دی چې اعتراض په ټولګي پورې اړه لري. . راځئ وګورو چې د کارولو پرمهال به کومې جریمې صادر شي MNC и لوژستیک زیان.
د جریمې د محاسبې لپاره کوډ د کارول شوي زیان فعالیت پورې اړه لري
# класс объекта
y = 1
# вероятность отнесения объекта к классу в соответствии с параметрами w
proba_1 = 0.01
MSE_1 = (y - proba_1)**2
print 'Штраф MSE при грубой ошибке =', MSE_1
# напишем функцию для вычисления f(w,x) при известной вероятности отнесения объекта к классу +1 (f(w,x)=ln(odds+))
def f_w_x(proba):
return math.log(proba/(1-proba))
LogLoss_1 = math.log(1+math.exp(-y*f_w_x(proba_1)))
print 'Штраф Log Loss при грубой ошибке =', LogLoss_1
proba_2 = 0.99
MSE_2 = (y - proba_2)**2
LogLoss_2 = math.log(1+math.exp(-y*f_w_x(proba_2)))
print '**************************************************************'
print 'Штраф MSE при сильной уверенности =', MSE_2
print 'Штраф Log Loss при сильной уверенности =', LogLoss_2
د یوې غلطۍ قضیه - ماډل ټولګي ته یو څیز ګماري د 0,01 احتمال سره
د کارولو جریمه MNC اوسي به:
د کارولو جریمه لوژستیک زیان اوسي به:
د قوي باور قضیه - ماډل ټولګي ته یو څیز ګماري د 0,99 احتمال سره
د کارولو جریمه MNC اوسي به:
د کارولو جریمه لوژستیک زیان اوسي به:
دا بیلګه ښه روښانه کوي چې د یوې ناخالصې غلطۍ په صورت کې د ضایع فعالیت د ننوتلو ضایع ماډل ته د پام وړ ډیر جزا ورکوي MSE. راځئ چې اوس پوه شو چې د ضایع فعالیت کارولو نظري پس منظر څه دی د ننوتلو ضایع د طبقه بندي ستونزې.
05. د اعظمي احتمال میتود او لوژیستیکي راجسټریشن
لکه څنګه چې په پیل کې ژمنه شوې، مقاله د ساده مثالونو سره ډکه ده. په سټوډیو کې یو بل مثال او زاړه میلمانه شتون لري - د بانک پور اخیستونکي: واسیا، فیدیا او لیشا.
یوازې په هغه حالت کې ، مخکې لدې چې د مثال رامینځته کړئ ، اجازه راکړئ تاسو ته یادونه وکړم چې په ژوند کې موږ د لسګونو یا سلګونو ځانګړتیاو سره د زرګونو یا ملیونونو شیانو روزنې نمونې سره معامله کوو. په هرصورت، دلته شمیرې اخیستل شوي ترڅو دوی په اسانۍ سره د نوي ډیټا ساینس پوه په سر کې فټ شي.
راځئ چې مثال ته راستون شو. راځئ چې تصور وکړو چې د بانک رییس پریکړه وکړه چې هر چا ته پور ورکړي، سره له دې چې الګوریتم ورته ویلي چې لیشا ته یې نه ورکوي. او اوس کافي وخت تیر شوی او موږ پوهیږو چې د دریو اتلانو څخه کوم یو پور بیرته ورکړ او کوم نه. هغه څه چې تمه کیده: واسیا او فیدیا پور بیرته ورکړ، مګر لیشا یې نه و. اوس راځئ چې تصور وکړو چې دا پایله به زموږ لپاره د روزنې یوه نوې نمونه وي او په ورته وخت کې، دا د هغه عواملو ټول معلومات چې د پور بیرته ورکولو احتمال اغیزه کوي (د پور اخیستونکي معاش، د میاشتنۍ تادیې اندازه) ورک شوي. بیا، په عمدي توګه، موږ کولی شو ګومان وکړو چې هر دریم پور اخیستونکی بانک ته پور نه ورکوي، یا په بل عبارت، د راتلونکي پور اخیستونکي احتمال د پور بیرته تادیه کوي. . دا مبهم انګیرنه نظریاتي تایید لري او پر بنسټ والړ دی د اعظمي احتمال میتوداکثرا په ادبیاتو کې ورته ویل کیږي د اعظمي احتمال اصول.
لومړی، راځئ چې د مفهوم وسایلو سره آشنا شو.
د نمونې اخیستلو احتمال د دقیقا داسې نمونې ترلاسه کولو احتمال دی ، دقیقا ورته مشاهدې/پایلې ترلاسه کول ، د مثال په توګه د هرې نمونې پایلې ترلاسه کولو احتمالاتو محصول (د مثال په توګه ، ایا د واسیا ، فیدیا او لیشا پور بیرته تادیه شوی یا په ورته وخت کې نه تادیه شوی).
د احتمالي فعالیت د نمونې احتمال د توزیع پیرامیټرو ارزښتونو سره تړاو لري.
زموږ په قضیه کې، د روزنې نمونه یو عمومي شوی برنولی سکیم دی، په کوم کې چې تصادفي تغیر یوازې دوه ارزښتونه اخلي: او یا . نو ځکه، د نمونې احتمال د پیرامیټر د احتمالي فعالیت په توګه لیکل کیدی شي په لاندې ډول:
پورتنۍ لیکنه په لاندې ډول تشریح کیدی شي. ګډ احتمال چې واسیا او فیدیا به پور بیرته تادیه کړي مساوي دی هغه احتمال چې لیشا به پور بیرته ادا نه کړي مساوي دی (ځکه چې دا د پور تادیه نه وه چې ترسره شوې وه) نو له همدې امله د ټولو دریو پیښو ګډ احتمال مساوي دی .
د اعظمي احتمال میتود د اعظمي کولو له لارې د نامعلوم پیرامیټر اټکل کولو میتود دی احتمالي دندې. زموږ په قضیه کې، موږ باید دا ډول ارزښت پیدا کړو ، په کوم خپل اعظمي حد ته رسیږي.
اصلي نظر له کوم ځای څخه راځي - د نامعلوم پیرامیټر ارزښت په لټه کې کول په کوم کې چې د احتمال فعالیت اعظمي حد ته رسي؟ د مفکورې اصل د دې نظر څخه سرچینه اخلي چې نمونه د خلکو په اړه موږ ته د پوهې یوازینۍ سرچینه ده. هرڅه چې موږ د نفوس په اړه پوهیږو په نمونه کې استازیتوب کیږي. له همدې امله، ټول هغه څه چې موږ کولی شو ووایو چې نمونه زموږ لپاره د موجود نفوس ترټولو دقیق انعکاس دی. له همدې امله، موږ اړتیا لرو یو پیرامیټر ومومئ په کوم کې چې موجود نمونه خورا احتمالي کیږي.
په ښکاره ډول، موږ د اصلاح کولو ستونزې سره معامله کوو په کوم کې چې موږ اړتیا لرو د فعالیت افراطي نقطه ومومئ. د افراطي نقطې موندلو لپاره، اړینه ده چې د لومړي ترتیب حالت په پام کې ونیسئ، دا د فعالیت مشتق صفر ته مساوي کړئ او د مطلوب پیرامیټر په پام کې نیولو سره مساوي حل کړئ. په هرصورت، د ډیری فاکتورونو څخه د محصول مشتق لټون کول یو اوږد کار کیدی شي؛ د دې مخنیوي لپاره ، یو ځانګړی تخنیک شتون لري - لوګاریتم ته بدلول احتمالي دندې. ولې داسې انتقال ممکن دی؟ راځئ چې دې حقیقت ته پام وکړو چې موږ پخپله د فعالیت افراط په لټه کې نه یو، او د پای ټکی، دا دی، د نامعلوم پیرامیټر ارزښت ، په کوم خپل اعظمي حد ته رسیږي. کله چې لوګاریتم ته حرکت وکړئ ، د افراط نقطه نه بدلیږي (که څه هم افراط به پخپله توپیر ولري) ، ځکه چې لوګاریتم یو مونوټونک فعالیت دی.
راځئ چې د پورته سره سم، د واسیا، فیدیا او لیشا څخه پورونو سره زموږ مثال ته دوام ورکړو. لومړی راځئ چې حرکت وکړو د احتمالي فعالیت لوګاریتم:
اوس موږ کولی شو په اسانۍ سره بیان توپیر وکړو :
او په نهایت کې ، د لومړي ترتیب حالت په پام کې ونیسئ - موږ د فنکشن مشتق صفر ته مساوي کوو:
په دې توګه، د پور بیرته تادیه کولو احتمال زموږ دقیق اټکل له نظري پلوه توجیه کیده.
ښه، مګر موږ باید اوس د دې معلوماتو سره څه وکړو؟ که فرض کړو چې هر دریم پور اخیستونکی بانک ته پیسې نه ورکوي، نو وروستنی به په حتمي ډول افلاس شي. دا سمه ده، مګر یوازې هغه وخت چې د پور بیرته تادیه احتمال ارزول مساوي وي موږ هغه عوامل په پام کې نه دي نیولي چې د پور بیرته تادیه اغیزه کوي: د پور اخیستونکي معاش او د میاشتنۍ تادیې اندازه. راځئ چې په یاد ولرو چې موږ دمخه د هر پیرودونکي لخوا د پور بیرته ورکولو احتمال محاسبه کړی ، د ورته فکتورونو په پام کې نیولو سره. دا منطقي ده چې موږ احتمالات د ثابت مساوي څخه توپیر ترلاسه کړ .
راځئ چې د نمونو احتمال تعریف کړو:
د نمونې احتمال محاسبه کولو لپاره کوډ
from functools import reduce
def likelihood(y,p):
line_true_proba = []
for i in range(len(y)):
ltp_i = p[i]**y[i]*(1-p[i])**(1-y[i])
line_true_proba.append(ltp_i)
likelihood = []
return reduce(lambda a, b: a*b, line_true_proba)
y = [1.0,1.0,0.0]
p_log_response = df['Probability']
const = 2.0/3.0
p_const = [const, const, const]
print 'Правдоподобие выборки при константном значении p=2/3:', round(likelihood(y,p_const),3)
print '****************************************************************************************************'
print 'Правдоподобие выборки при расчетном значении p:', round(likelihood(y,p_log_response),3)
په ثابت ارزښت کې د نمونې احتمال :
د نمونې احتمال کله چې د پور بیرته تادیه احتمال محاسبه کول د فاکتورونو په پام کې نیولو سره :
د احتمال سره د نمونې احتمال د فکتورونو په اساس محاسبه شوی د ثابت احتمال ارزښت سره د احتمال څخه لوړ و. دا څه مانا لري؟ دا وړاندیز کوي چې د فکتورونو په اړه پوهه دا ممکنه کړې چې د هر پیرودونکي لپاره د پور بیرته تادیه کولو احتمال په سمه توګه وټاکي. نو ځکه، کله چې راتلونکی پور صادر کړئ، نو دا به ډیره سمه وي چې د پور بیرته ورکولو احتمال ارزولو لپاره د مادې د 3 برخې په پای کې وړاندیز شوی ماډل وکاروئ.
مګر بیا، که موږ غواړو اعظمي کړو د نمونې احتمالي فعالیتنو بیا ولې ځینې الګوریتم نه کاروئ چې د واسیا، فیدیا او لیشا لپاره احتمالات تولید کړي، د بیلګې په توګه، په ترتیب سره د 0.99، 0.99 او 0.01 سره مساوي. شاید دا ډول الګوریتم به د روزنې نمونې کې ښه ترسره کړي، ځکه چې دا به د نمونې احتمال ارزښت ته نږدې کړي. ، مګر، لومړی، دا ډول الګوریتم به ډیری احتمال د عمومي کولو وړتیا سره ستونزې ولري، او دویم، دا الګوریتم به یقینا خطي نه وي. او که چیرې د اضافي روزنې سره د مبارزې میتودونه (په مساوي ډول ضعیف عمومي کولو وړتیا) په واضح ډول د دې مقالې په پلان کې شامل نه وي ، نو راځئ چې دوهم ټکي ته په ډیر تفصیل سره لاړ شو. د دې کولو لپاره، یوازې ساده پوښتنې ځواب کړئ. ایا د واسیا او فدیا د پور بیرته ورکولو احتمال یو شان کیدی شي ، د هغه عواملو په پام کې نیولو سره چې موږ ته پیژندل شوي؟ د سم منطق له نظره، البته نه، دا نشي کیدی. نو واسیا به په میاشت کې د خپل معاش 2.5٪ د پور بیرته تادیه کړي، او فیډیا - نږدې 27,8٪. همدارنګه په 2 ګراف کې "د پیرودونکي طبقه بندي" موږ ګورو چې واسیا د فیډیا په پرتله د ټولګیو جلا کولو کرښې څخه خورا ډیر دی. او بالاخره، موږ پوهیږو چې فعالیت د Vasya او Fedya لپاره مختلف ارزښتونه اخلي: 4.24 د Vasya لپاره او 1.0 د Fedya لپاره. اوس که د بېلګې په توګه فديه د زياتې اندازې حکم تر لاسه کړ او يا يې د لږ پور غوښتنه وکړه، نو د واسع او فديا د پور د بېرته ورکولو احتمال به ورته وي. په بل عبارت، خطي انحصار نشي غولول کیدی. او که موږ واقعا د توپیرونو حساب وکړو ، او دوی یې له پتلی هوا څخه ندي ایستل ، موږ کولی شو په خوندي ډول ووایو چې زموږ ارزښتونه تر ټولو ښه اجازه راکړئ چې د هر پور اخیستونکي لخوا د پور د بیرته ورکولو احتمال اټکل کړو، مګر وروسته له دې چې موږ موافقه وکړه چې فرض کړو چې د ضمیمه ټاکل د ټولو مقرراتو سره سم ترسره شوي، بیا به موږ داسې فرض کړو - زموږ کوفیفینس موږ ته اجازه راکوي چې د احتمال ښه اټکل وکړو :)
په هرصورت، موږ انحراف کوو. پدې برخه کې موږ باید پوه شو چې د وزن ویکتور څنګه ټاکل کیږي ، کوم چې د هر پور اخیستونکي لخوا د پور بیرته ورکولو احتمال ارزولو لپاره اړین دی.
راځئ چې په لنډه توګه د کومې وسلې سره لنډیز وکړو چې موږ د ستونزو په لټه کې یو :
1. موږ فرض کوو چې د هدف متغیر (د وړاندوینې ارزښت) او هغه فکتور ترمنځ اړیکه چې پایله اغیزه کوي خطي ده. د دې دلیل لپاره کارول کیږي د خطي ریګریشن فعالیت مهربان ، هغه کرښه چې توکي (پیرودونکي) په ټولګیو ویشي и او یا (هغه مراجعین چې د پور بیرته ورکولو توان لري او هغه څوک چې ندي). زموږ په قضیه کې، مساوات بڼه لري .
2. موږ کاروو inverse logit فعالیت مهربان د ټولګي پورې اړوند د څیز احتمال معلومولو لپاره .
3. موږ زموږ د روزنې ترتیب د عمومي شوي پلي کولو په توګه ګورو د برنولي سکیمونه، يعنې د هر څيز لپاره يو تصادفي متغير پيدا کيږي، کوم چې د احتمال سره (د هر څیز لپاره خپل) ارزښت 1 اخلي او د احتمال سره - 0.
4. موږ پوهیږو چې موږ د اعظمي کولو لپاره څه ته اړتیا لرو د نمونې احتمالي فعالیت د منلو وړ فکتورونو په پام کې نیولو سره چې شتون لري نمونه خورا د منلو وړ وي. په بل عبارت، موږ اړتیا لرو هغه پیرامیټونه غوره کړو چې نمونه به یې خورا د منلو وړ وي. زموږ په قضیه کې، ټاکل شوی پیرامیټر د پور بیرته ورکولو احتمال دی ، کوم چې په پایله کې په نامعلوم کوفیفینس پورې اړه لري . نو موږ باید د وزن داسې ویکتور پیدا کړو ، په کوم کې چې د نمونې احتمال به اعظمي وي.
5. موږ پوهیږو چې څه باید اعظمي شي د نمونې احتمالي دندې تاسو کولی شئ استعمال کړئ د اعظمي احتمال میتود. او موږ د دې میتود سره کار کولو لپاره ټول پیچلي چلونه پوهیږو.
دا څنګه د څو ګامونو حرکت دی :)
اوس په یاد ولرئ چې د مقالې په پیل کې موږ غوښتل دوه ډوله د ضایع افعال ترلاسه کړو لوژستیک زیان د دې پورې اړه لري چې څنګه د اعتراض ټولګي ټاکل شوي. دا داسې پیښ شوي چې د دوه ټولګیو سره د طبقه بندي ستونزې کې، ټولګي په توګه پیژندل شوي и او یا . د یادښت پورې اړه لري، محصول به د ورته تاوان فعالیت ولري.
قضیه 1. د شیانو طبقه بندي په کې и
مخکې، کله چې د نمونې احتمال ټاکل کیږي، په کوم کې چې د پور اخیستونکي لخوا د پور بیرته تادیه احتمال د فکتورونو او ورکړل شوي ضمیمو پراساس محاسبه کیږي ، موږ فورمول پلي کړ:
په حقیقت کې معنی ده لوژستیک غبرګون دندې د ورکړل شوي وزن ویکتور لپاره
بیا هیڅ شی موږ ته د نمونې احتمالي فعالیت لیکلو مخه نه نیسي لکه څنګه چې:
دا پیښیږي چې ځینې وختونه د ځینې نوي شنونکو لپاره ستونزمن وي چې سمدلاسه پوه شي چې دا فعالیت څنګه کار کوي. راځئ چې 4 لنډ مثالونه وګورو چې هرڅه به روښانه کړي:
1. که (د بیلګې په توګه، د روزنې نمونې سره سم، اعتراض د +1 ټولګي پورې اړه لري)، او زموږ الګوریتم په ټولګي کې د یو څیز د طبقه بندي کولو احتمال ټاکي د 0.9 سره مساوي، نو د نمونې احتمال دا ټوټه به په لاندې ډول محاسبه شي:
2. که او نو بیا به محاسبه داسې وي:
3. که او نو بیا به محاسبه داسې وي:
4. که او نو بیا به محاسبه داسې وي:
دا څرګنده ده چې د احتمال فعالیت به په 1 او 3 قضیو کې یا په عمومي قضیه کې اعظمي شي - ټولګي ته د یو څیز د ټاکلو احتمالاتو په سمه توګه اټکل شوي ارزښتونو سره .
د دې حقیقت له امله چې کله ټولګي ته د څیز ټاکلو احتمال ټاکل کیږي موږ یوازې کوفیفینس نه پوهیږو ، بیا به موږ د دوی په لټه کې شو. لکه څنګه چې پورته یادونه وشوه، دا د اصلاح کولو ستونزه ده چې لومړی موږ باید د وزن ویکتور په اړه د احتمالي فعالیت مشتق پیدا کړو. . په هرصورت، لومړی دا معنی لري چې د ځان لپاره کار ساده کړئ: موږ به د لوګاریتم مشتق وګورو احتمالي دندې.
ولې د لوګاریتم وروسته، په لوژستیک خطا دندې، موږ له څخه نښه بدله کړه په . هرڅه ساده دي، ځکه چې د ماډل کیفیت ارزولو په ستونزو کې دا رواج دی چې د فعالیت ارزښت کم کړي، موږ د بیان ښي اړخ ته ضرب کړ. او په دې اساس، د زیاتوالي پرځای، اوس موږ فعالیت کم کوو.
په حقیقت کې، همدا اوس، ستاسو د سترګو په وړاندې، د ضایع فعالیت په سختۍ سره اخیستل شوی و - لوژستیک زیان د دوه ټولګیو سره د روزنې سیټ لپاره: и .
اوس، د کوفیفینټ موندلو لپاره، موږ یوازې د مشتق موندلو ته اړتیا لرو لوژستیک خطا دندې او بیا، د عددي اصلاح کولو میتودونو په کارولو سره، لکه د تدریجي نزول یا سټوچیسټیک تدریجي نزول، تر ټولو غوره کوفیفینټونه غوره کړئ . مګر، د مقالې د پام وړ حجم په پام کې نیولو سره، دا وړاندیز کیږي چې توپیر پخپله ترسره کړئ، یا شاید دا به د راتلونکي مقالې لپاره د داسې مفصل مثالونو پرته د ډیری ریاضیاتو سره موضوع وي.
قضیه 2. د شیانو طبقه بندي په کې и
دلته چلند به د ټولګیو سره ورته وي и ، مګر لاره پخپله د ضایع فعالیت محصول ته لوژستیک زیان، ډیر زیور به وي. راځه چي پیل یی کړو. د احتمالي فعالیت لپاره موږ به آپریټر وکاروو "که... نو...". یعنی که څيز د ټولګي پورې اړه لري ، بیا د نمونې احتمال محاسبه کولو لپاره موږ احتمال کاروو ، که چیرې اعتراض په ټولګي پورې اړه ولري ، بیا موږ په احتمال کې ځای په ځای کوو . دا هغه څه دي چې د احتمالي فعالیت په څیر ښکاري:
راځئ چې زموږ په ګوتو کې تشریح کړو چې دا څنګه کار کوي. راځئ چې څلور قضیې په پام کې ونیسو:
1. که и ، بیا د نمونې اخیستلو احتمال به "لاړ شي"
2. که и ، بیا د نمونې اخیستلو احتمال به "لاړ شي"
3. که и ، بیا د نمونې اخیستلو احتمال به "لاړ شي"
4. که и ، بیا د نمونې اخیستلو احتمال به "لاړ شي"
دا څرګنده ده چې په 1 او 3 قضیو کې، کله چې احتمالات په سمه توګه د الګوریتم لخوا ټاکل شوي، د امکان فعالیت به اعظمي شي، دا دی، دا هغه څه دي چې موږ یې غوښتل ترلاسه کړو. په هرصورت، دا طریقه خورا پیچلې ده او وروسته به موږ یو ډیر کمپیکٹ یادښت په پام کې ونیسو. مګر لومړی، راځئ چې د احتمالي فعالیت د نښه بدلولو سره لوګاریتم وکړو، ځکه چې اوس به یې کم کړو.
راځئ چې پرځای یې بدیل کړو څرګندنه :
راځئ چې د ساده ریاضي تخنیکونو په کارولو سره د لوګاریتم لاندې سمه اصطلاح ساده کړو او ترلاسه یې کړو:
اوس دا وخت دی چې د آپریټر څخه ځان خلاص کړئ "که... نو...". په یاد ولرئ کله چې یو اعتراض په ټولګي پورې اړه لري ، بیا د لوګاریتم لاندې بیان کې ، په ډینومینټر کې ، واک ته پورته شو ، که چیرې اعتراض په ټولګي پورې اړه ولري ، بیا $e$ بریښنا ته پورته کیږي . له همدې امله، د درجې یادښت د دواړو قضیو په یوځای کولو سره ساده کیدی شي: . بیا لوژستیک خطا فعالیت فورمه به واخلي:
د لوګاریتم د قواعدو سره سم، موږ برخه بدلوو او نښه یې ایښودل "" (منفی) د لوګاریتم لپاره، موږ ترلاسه کوو:
دلته د ضایع فعالیت دی لوژستیک زیان، کوم چې ټولګیو ته ټاکل شوي شیانو سره د روزنې په سیټ کې کارول کیږي: и .
ښه، پدې وخت کې زه خپله رخصتي اخلم او موږ مقاله پای ته ورسوو.
مرستندویه توکي
1. ادبیات
1) اپلایډ ریګریشن تحلیل / N. Draper, G. Smith - 2nd Ed. – M.: مالي او احصایې، 1986 (له انګلیسي څخه ژباړه)
2) د احتمالي تیوري او ریاضياتي احصایې / V.E. Gmurman - 9th Ed. - م.: عالي لېسه، ۲۰۰۳
3) د احتمال تیوري / N.I. چیرنوا - نووسیبیرسک: د نووسیبیرسک دولتي پوهنتون، 2007
4) د سوداګرۍ تحلیلونه: له ډیټا څخه پوهې ته / Paklin N. B. Oreshkov V. I. - 2nd Ed. — سینټ پیټرزبورګ: پیټر، ۲۰۱۳
5) د ډیټا ساینس ډیټا ساینس د سکریچ څخه / جویل ګراس - سینټ پیټرزبورګ: BHV پیټرزبورګ، 2017
6) د ډیټا ساینس متخصصینو لپاره عملي احصایې / P. Bruce, E. Bruce - St. Petersburg: BHV Petersburg, 2018
2. لیکچرونه، کورسونه (ویډیو)
1)
2)
3)
4)
5)
3. د انټرنیټ سرچینې
1)
2)
4)
5)
7)
8)
سرچینه: www.habr.com