áááá«ááºážá áá¬ážá¡ááá¯áá±ážáá«á
áá¯ááºááá·áºáá¯ááºááá¯ááºáá¬ááᯠááŒá±á¬ááŒááá·áº á¡ááá·áºááá·áº ááœáŸááºááŒá¬ážáá»ááºááœá± áá±ážáááºááá¯ááẠááá¯ááŒá®ážáá±á¬á· áá¯ááºáá±á¬ááºááá¯ááºáááºááá¯á· áá¯á¶ááŒááºáá«áááºá áááºááŸá¬á
áááºááááºááá¯áᬠááá¯ážááŸááºážá
áœá¬áá¬ážáááºááááºáá¬ááŒá±á¬áá·áº áá
áºáá¯áá¯áá
áááºááá¯ááºáá±á¬á·áá²á· áááá²á·á¡ááá¯ááºá¡ááá·áºááœá±ááᯠááŸááºáááá±áá²á·áá«áááºá áá
áºáá»áááºá á¡ááºáá¬áááºááŸá¬ "Data Science" ááá¯áá²á· á
áá¬ážáá¯á¶ážááᯠáááºááœá±á·ááŒá®áž áá®ááá± áá±ážáá±ážáá±ááá¯á· áá¯á¶ážááŒááºáá²á·ááŒá®ážá áá®ááá¯áá¯ááºáá²á·áá°ááœá±áᬠáááŒá¬ážááá¹áá¬ááŸá¬ ááŸááá±ááŒáááºááá¯á· ááá¯áá«áááºá ááá¯ááºáá°ážá áá°ááá¯á·á áá®ááŸá¬ááŸááááºá ááá¯á·á¡ááŒááºá á€áááºáááºááŸáá°áá»á¬ážááá»á±ážáá°ážááŒá±á¬áá·áº ááá·áº feed ááœáẠáá±á¬ááºážáá«ážáá
áºáá¯ááºáá±á«áºáá¬áá«áááºá áá®áááºááŸá¯ááá¬ááᯠáááºá¡áá¯á¶ážááá·áºá¡á±á¬áẠáá°áá®áá±ážááá·áº áááºáááºážááœá± á¡áá»á¬ážááŒá®ážááŸááá±ááá·áº áá®ááŸá¬áá±á¬á· áááºážááᯠáááááŒá±ááŸááºážááᯠááŸááºážááá¯ááºá¡á±á¬áẠáá°áá®áá±ážááŸá¬áá«á
á¡áááºááá·áºááŒá
áºááŒá®áá¬ážá Python 3 ááᯠáááá¬ážááá¯á· ááá¯á¡ááºáᬠáá
áºáá»ááºáá»ááºáž ááŒá±á¬ááŒáá«áá
á±á áá«á áá®ááŸá¬ áá¯á¶ážááá·áº á¡áá¬áá«á áááºážááᯠJupyter Notebook ááœáẠááŒáá¯áááºááá·áºááœááºážááẠááá¯á·ááá¯áẠgoogle colab á¡áá¯á¶ážááŒá¯áááºážááᯠááŒáá·áºááŸá¯áááºáááºáž á¡ááŒá¶ááŒá¯á¡ááºáá«áááºá
ááŒá±ááŸááºážáá áºáá¯ááŸá¬
Kaggle ááẠá€ááá
á¹á
á¡ááœáẠááá·áºá¡ááœáẠá¡áá±ážáá«áá±á¬ áááºáá±á¬ááºááŒá
áºáááºá áá°á¡áá áááºá¡á²áá«ááá«áá²áá¯ááºááá¯ááºáááºá áá«áá±ááá·áºáá±á¬ááºáááºáá±á¬ááºážáá«ážááŸá¬áá®á¡ááŒá±á¬ááºážááŒá±á¬áááºá á€áááºááŸá¬ áá±áá¬áááá¹áá¶ááŒáá¯ááºááœá²áá»á¬ážááᯠáááºáá¶áá»ááºážáááá·áº ááááºáá±á¬ááºážáá
áºáá¯ááŒá
áºáááºá ááá¯ááá¯á·áá±á¬ ááŒáá¯ááºááá¯ááºááŸá¯ááá¯ááºážááœááºá á¡á
á±á¬ááá¯ááºážá¡ááá·áºáá»á¬ážááœáẠá¡áá»áá¯ážáá»áá¯ážáá±á¬ ááŒá¿áá¬áá»á¬ážááᯠááŒá±ááŸááºážáá¬ááœáẠáááºááœá±á·ááá»áá±á¬ á¡ááœá±á·á¡ááŒá¯á¶á ááœá¶á·ááŒáá¯ážááá¯ážáááºááŸá¯á¡ááœá±á·á¡ááŒá¯á¶ááŸáá·áº á¡ááœá²á·áá
áºááœá²á·ááœáẠá¡áá¯ááºáá¯ááºááá·áº á¡ááœá±á·á¡ááŒá¯á¶á áá»áœááºá¯ááºááá¯á·áá±ááºááœáẠá¡áá±ážááŒá®ážáá±á¬ á¡áá¬áá
áºáá¯ááŒá
áºáááºá
á¡á²áá®ááá± áá«ááá¯á·áá¬áááºáá°áááºá "Titanic" ááá¯á·áá±á«áºáá«áááºá á¡ááŒá±á¡áá±ááŸá¬ á€ááá¯á·ááŒá áºáááº- áá°áá áºáŠážá á®ááẠá¡áááºááŸááºáá±áááºáá¬áž áááá·áºááŸááºážááá¯ááºáá«á áá±áá¯áá»á¡á¬ážááŒáá·áºááŒá±á¬ááá»áŸáẠDS ááœááºáá«áááºáá°ááá¬áááºááŸá¬ áá±áá¬á á¯áá±á¬ááºážááŒááºážá áááºážááá¯áá¯ááºáá±á¬ááºááŒááºážá áá±á¬áºáááºáá±á·áá»áá·áºááŒááºážá ááŒáá¯áááºááá·áºááŸááºážááŒááºážá áááºááŒáá·áº áá¯ááºáá±á¬ááºááŒááºážááŒá áºáááºá kaggle ááœááºá áá»áœááºá¯ááºááá¯á·ááẠáá±áá¬á á¯áá±á¬ááºážááŒááºážá¡ááá·áºááᯠáá»á±á¬áºáááºááœáá·áºááŒá¯áá¬ážááẠ- áááºážááá¯á·ááᯠááááºáá±á¬ááºážáá±á«áºááœáẠáááºááŒáá¬ážáááºá áááºážááá¯á·ááᯠáá±á«ááºážáá¯ááºáá¯ááºááẠááá¯á¡ááºááŒá®áž á áááºááá¯ááºáá«ááŒá®á
áááºá€ááá¯á·áá¯ááºááá¯ááºááẠ-
áá±áá¬áááºááºááœáẠáá±áá¬áá«ááŸááá±á¬ ááá¯ááºáá»á¬ážáá«ááŸááááºá
áá±áá¬ááᯠáá±á«ááºážáá¯ááºááœá²ááŒá®áž Jupyter ááŸááºá
á¯á
á¬á¡á¯ááºáá»á¬ážááᯠááŒááºáááºááŒá®áž...
ááŒá±ááŸááºážááŸá áºáá¯
ááᯠá€áá±áá¬ááᯠáá»áœááºá¯ááºááá¯á· áááºááá¯á·áááºááá¯ááºáááºáááºážá
áŠážá áœá¬ ááá¯á¡ááºáá±á¬ á á¬ááŒáá·áºááá¯ááºáá»á¬ážááᯠáááºááœááºážááŒáá«á áá¯á·á
import pandas as pd
import numpy as np
Pandas ááẠáá»áœááºá¯ááºááá¯á·á¡á¬áž áááºáááºáá¯ááºáá±á¬ááºáááºá¡ááœáẠ.csv ááá¯ááºáá»á¬ážááᯠáá±á«ááºážáá¯ááºáá¯ááºááœáá·áºááŒá¯áá«áááºá
áá»áœááºá¯ááºááá¯á·ááá±áá¬ááá¬ážááᯠááááºážáá»á¬ážááŒáá·áº matrix á¡ááŒá
áºááá¯ááºá
á¬ážááŒá¯ááẠNumpy ááá¯á¡ááºáá«áááºá
áááºáá¯ááºáááºá train.csv ááá¯ááºááᯠáá°á áá»áœááºá¯ááºááá¯á·áᶠá¡ááºáá¯ááºáá¯ááºááŒáá«á
áá¯á·á
dataset = pd.read_csv('train.csv')
dataset variable ááŸáááá·áº áá»áœááºá¯ááºááá¯á·á train.csv áá±áá¬ááœá±ážáá»ááºááŸá¯ááᯠááá¯ážáá¬ážáá«áááºá á¡á²áá®ááŸá¬ áá¬ááŸááá² ááŒáá·áºáá¡á±á¬ááºá
dataset.head()
head() function ááẠdataframe áá
áºáá¯áááááááºážá¡áááºážáááºááá¯ááŒáá·áºááŸá¯áááºááœáá·áºááŒá¯áááºá
Survived áá±á¬áºáá¶áá»á¬ážááẠá€áá±áá¬áá±á¬ááºááœáẠáááá¬ážááá·áº áá»áœááºá¯ááºááá¯á·áááááºáá»á¬ážááᯠá¡ááá¡áá»áá±á¬áºááŒáá«áááºá á¡áá¯ááºáá±ážááœááºážá¡ááœááºá test.csv áá±áá¬á¡ááœáẠSurvived áá±á¬áºáá¶ááᯠááá·áºááŸááºážááẠááá¯á¡ááºáá«áááºá á€áá±áá¬ááẠááá¯ááºáááºážáá áºá á¡ááŒá¬ážááá®ážáááºáá»á¬ážá¡ááŒá±á¬ááºáž á¡áá»ááºá¡áááºáá»á¬ážááᯠááááºážáááºážáá¬ážááŒá®áž ááŒá¿áá¬ááᯠááŒá±ááŸááºážáá¬ááœáẠááááºááᯠáá»áœááºá¯ááºááá¯á· áááááá¯ááºáá«á
áá®áá±á¬á· áá»áœááºáá±á¬áºááá¯á·áá²á· ááá¬ážááᯠááŸá®ááá¯ááŒá®áž á¡ááŸá®á¡ááá¯áááºážáá²á· á¡áá»ááºá¡áááºá¡ááŒá Ạááœá²ááŒáá·áºáá¡á±á¬ááºá á¡áá¬á¡á¬ážáá¯á¶ážááá®ááŸá¬ááá¯ážááŸááºážáá«áááºá Dependent data ááẠááááºáá»á¬ážááœááºááŸááá±á¬ áá®ážááŒá¬áž data áá»á¬ážáá±á«áºááœááºáá°áááºáá±á¬ data áá»á¬ážááŒá áºáááºá á¡ááŸá®á¡ááá¯áááºážáá±á¬ á¡áá»ááºá¡áááºáá»á¬ážááẠááááºááᯠááœáŸááºážááá¯ážáá±á¬ áá±áá¬áá»á¬ážááŒá áºáááºá
á¥ááá¬á¡á¬ážááŒáá·áºá áá»áœááºá¯ááºááá¯á·ááœáẠá¡á±á¬ááºáá«áá±áá¬á¡á á¯á¶ááŸááááºá
âVova á ááœááºáá»á°áá¬áááá¹áá¶ááᯠáááºáá±ážáááºá
Vova áᬠááœááºáá»á°áá¬áááá¹áá¶áá¬áá¬áááºááŸá¬ 2 áᯠáááŸááá²á·áá«áááºá
ááœááºááŒá°áá¬áááá¹áá¶á¡ááá·áºááẠáá±ážááœááºážáá¡ááŒá±áá±á«áºááœááºáá°áááºáááº- Vova ááẠááœááºáá»á°áá¬áááá¹áá¶ááᯠáá±á·áá¬áá²á·áá«ááá¬ážá ááŸááºážááá¬ážá áááºááœá¬ážááŒáá¡á±á¬ááºá áá«ááá¯á· áááºážááá¯ááºáá²á· ááá¯áá®ážáá±ááŒá®á
á¡ááŸá®á¡ááá¯áááºážáá±á¬áá±áá¬á¡ááœáẠá¡á ááºá¡áá¬ááááºážááŸááºááẠX ááŒá áºáááºá ááŸá®ááá¯áá±áá¬á¡ááœáẠyá
á¡á±á¬ááºáá«ááá¬áž:
X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]
áá«áá¬áá²? áá¯ááºáá±á¬ááºáá»áẠiloc[:, 2:] ááŒáá·áºáá»áœááºá¯ááºááá¯á· Python ááá¯ááŒá±á¬ááŒáááº- áá¯ááááá±á¬áºáá¶ááŸá áááºááá·áºáá±áá¬ááᯠvariable X ááœááºááŒááºááá¯ááẠ(áá«áááºááŒá®áž áááºážááẠáá¯áááŸá áááºáááº)á áá¯áááá á¬ááŒá±á¬ááºážááœáẠááááá±á¬áºáá¶ááœáẠáá±áá¬ááᯠááŒááºááá¯áááºáᯠááŒá±á¬áá«áááºá
[a:b,c:d] ááẠááœááºážá¡ááœááºáž áá»áœááºá¯ááºááá¯á·á¡áá¯á¶ážááŒá¯ááá·áº áááºáá±á¬ááºááŸá¯ááŒá áºáááºá áááºááẠáááºááá·áº ááááºážááŸááºáá»á¬ážááá¯áá»áŸ ááááºááŸááºáá«áá áááºážááá¯á·ááᯠáá¯á¶áá±á¡ááŒá ẠááááºážáááºážáááºááŒá áºáááºá ááá¯ááá¯áááºááŸá¬á áá»áœááºá¯ááºááá¯á·ááẠ[:, : d] ááᯠáááºááŸááºááá¯ááºááŒá®ážá ááá¯á·áá±á¬áẠáá¶áá«áẠd á០á áááºáá±á¬ áá±á¬áºáá¶áá»á¬ážááŸááœá²á dataframe á¡ááœááºážááŸá áá±á¬áºáá¶áá»á¬ážá¡á¬ážáá¯á¶ážááᯠáááŸááááºááŒá áºáááºá variables a ááŸáá·áº b ááẠstrings áá»á¬ážááᯠáááºááŸááºáááºá ááá¯á·áá±á¬áº áááºážááá¯á·á¡á¬ážáá¯á¶ážááᯠááá¯á¡ááºáá±á¬ááŒá±á¬áá·áº áááºážááᯠáá°áááºážá¡ááá¯ááºáž áá¬ážáá²á·áááºááá¬ááœá±ááá² ááŒáá·áºáá¡á±á¬ááºá
X.head()
y.head()
á€áááºáááºážá
á¬áá±ážááᯠááá¯ážááŸááºážá
á±áááºá¡ááœááºá áá»áœááºá¯ááºááá¯á·ááẠá¡áá°ážááá¯á
áá¯ááºááẠááá¯á¡ááºáá±á¬ ááá¯á·ááá¯áẠááŸááºáááºááá¯ááºááŸá¯ááᯠáá¯á¶ážááááááá¯ááºá
á±áá±á¬ áá±á¬áºáá¶áá»á¬ážááᯠáááºááŸá¬ážáá«áááºá áááºážááá¯á·ááœáẠstr á¡áá»áá¯ážá¡á
á¬ážááá±áá¬áá»á¬ážáá«ááŸááááºá
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)
á á°áá«! áá±á¬ááºáá áºááá·áºááᯠáááºááŒáá¡á±á¬ááºá
ááŒá±ááŸááºážáá¯á¶áž
á€áá±áá¬ááẠááááºá¡áá±á«áº áááºááá¯á·á¡áá»áá¯ážáááºáá±á¬ááºáááºááᯠá ááºá ááá¯áá¬ážáááºááá¯ááºá á±áááºá¡ááœáẠáá»áœááºá¯ááºááá¯á·ááá±áá¬ááᯠáá¯ááºáá¶áá«ááºáááºááẠááá¯á¡ááºáá«áááºá ááá¯á·áá±á¬áº áá»áœááºá¯ááºááá¯á·ááẠá¡áá¬á¡á¬ážáá¯á¶ážááᯠáá¯ááºáá¯ááºáááºááá¯ááºáá±á¬áºáááºáž áá»áœááºá¯ááºááá¯á·áá¬ážáá²á·áá±á¬ str áá±áá¬áá»á¬ážáá¬ááŒá áºáááºá áá±á¬áºáᶠ"ááááº" á áááºááá¯áá¯ááºáá±ážáá»ááºáá²á áá°áá áºáŠážá ááááºááŸáá·áºáááºáááºáá±á¬ á¡áá»ááºá¡áááºááᯠááœááºááœááºáá áºáá¯á¡ááŒá Ạááá¯ááºá á¬ážááŒá¯ááŒáá«á áá¯á·- 10 - á¡áá»áá¯ážáá¬ážá 01 - á¡áá»áá¯ážááá®ážá
áŠážá áœá¬á áá»áœááºá¯ááºááá¯á·áááá¬ážáá»á¬ážááᯠNumPy matrix á¡ááŒá áºááá¯á· ááŒá±á¬ááºážááŒáá«á áá¯á·á
X = np.array(X)
y = np.array(y)
á¡áá¯áá² ááŒáá·áºáá¡á±á¬ááºá
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
sklearn á á¬ááŒáá·áºááá¯ááºááẠáá»áœááºá¯ááºááá¯á·á¡á¬áž Data Science ááœáẠááŒá®ážááŒáá·áºá á¯á¶áá±á¬ á¡áá¯ááºáá»á¬ážááᯠáá¯ááºáá±á¬ááºááá¯ááºá á±áá±á¬ á¡ááœááºáá±á¬ááºážááœááºáá±á¬ á á¬ááŒáá·áºááá¯ááºáá áºáá¯ááŒá áºáááºá áááºážááœáẠá áááºáááºá á¬ážá áá¬áá±á¬ááºážáá±á¬ á ááºáááºáá°ááŸá¯áá¯á¶á á¶áá»á¬ážá áœá¬áá«áááºááŒá®áž áá±áá¬ááŒááºáááºááŸá¯ááá¯áááºáž áá¯ááºáá±á¬ááºááá¯ááºá á±áá«áááºá
OneHotEncoder ááẠáá»áœááºá¯ááºááá¯á·áá±á¬áºááŒáá²á·ááá·áºá¡ááá¯ááºáž ááá¯ááá¯ááºá á¬ážááŒá¯ááŸá¯ááœáẠáá°áá áºáŠážá ááááºááá¯áá¯ááºáá¯ááºááẠáá»áœááºá¯ááºááá¯á·á¡á¬áž ááœáá·áºááŒá¯áá«áááºá á¡áá»áá¯ážáá¬ážá á¡áá»áá¯ážááá®áž áá°á á¡áááºáž á áááºáž áááºáá®ážáááºááŒá áºáááºá á¡áááºá áá°ááẠáá±á¬ááºá»á¬ážááŒá áºáá«á 2 ááᯠ"á¡áá®áž" áá±á¬áºáá¶ááœáẠáááºážáá±á¬ááºážá "á¡áá»áá¯ážááá®áž" áá±á¬áºáá¶ááœáẠ1 á¡áá®ážáá®áž áá±ážáá±ážáá«áááºá
OneHotEncoder() ááŒá®ážáá±á¬áẠ[1] ááŸáááẠ- ááá¯ááá¯áááºááŸá¬ áá»áœááºá¯ááºááá¯á·ááẠáá±á¬áºáá¶áá¶áá«áẠ1 (áá¯áááŸáá±ááœááºááŒááºáž) ááᯠáá¯ááºáá¯ááºááá¯ááŒááºážááŒá áºáááºá
á á°áá« áá®áááºááá¯ááŒá®áž ááœáŸá±á·ááá¯ááºááŒáá¡á±á¬ááºá
á ááºážáááºážá¡áá á¡áá»áá¯á·áá±á¬áá±áá¬ááᯠááœááºáááºáá»ááºáá¬ážáá²á·ááẠ(ááá¯ááá¯áááºááŸá¬ NaN - áá¶áá«ááºááá¯ááº)á á¥ááá¬á¡á¬ážááŒáá·áºá áá°áá áºáŠážáá¡áááºá áá»á¬ážááá áá«áá±ááá·áº áá°á·á¡áááºáá²á·áááºáááºáá²á· á¡áá»ááºá¡áááºáá±á¬á· áááŸááá«áá°ážá á€ááá á¹á ááœááºá áá»áœááºá¯ááºááá¯á·ááẠá¡á±á¬ááºáá«áááºážáááºážááᯠá¡áá¯á¶ážááŒá¯áá«áááº- áá±á¬áºáá¶á¡á¬ážáá¯á¶ážááœáẠááááºážáááºá¹áá»á¬ááá¯ááá¯áá»ááºááᯠáá»áœááºá¯ááºááá¯á·ááœá±á·ááŸááááºááŒá áºááŒá®ážá áá±á¬áºáá¶ááœáẠáá±áá¬á¡áá»áá¯á·áá»á±á¬ááºáá¯á¶ážáá«áá ááœááºáááºááᯠááááºážáááºá¹áá»á¬ááá¯ááá¯áá»ááºááŒáá·áº ááŒáá·áºáá«áááºá
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)
ááᯠáá±áá¬á¡ááœááºááŒá®ážáá±á¬á¡áá«ááœáẠááŒá áºáá±á«áºáá¬ááá·áº á¡ááŒá±á¡áá±áá»á¬ážááᯠááá·áºááœááºážá ááºážá á¬ážááŒáá·áºááŒáá«á áá¯á·á áá±áá¬á¡áá»áá¯á·ááẠááŒá¬ážáá¬á [0:1] ááœááºááŸáááŒá®áž á¡áá»áá¯á·ááẠáá¬ááŸáá·áºáá±á¬ááºáá»á®áá»á±á¬áºááœá¬ážááá¯ááºáááºá ááá¯ááá¯á·áá±á¬ ááŒáá·áºáá»á²ááŸá¯ááᯠáááºááŸá¬ážáááºááŸáá·áº áááºážá ááœááºáá»ááºááŸá¯áá»á¬ážááœáẠááœááºáá»á°áá¬ááᯠááá¯ááá¯áááá»á á±áááºá¡ááœááºá áá»áœááºá¯ááºááá¯á·ááẠáá±áá¬ááᯠá áááºááºáááºááŒá®áž áááºážááᯠá¡ááá¯ááºážá¡áá¬ááŒáá·áº áá¯ááºáá±á¬ááºáá«áááºá áá¶áá«ááºá¡á¬ážáá¯á¶áž áá¯á¶ážáá¯áááºáááá¯á á±ááá«á áá«ááá¯áá¯ááºááá¯á· StandardScaler áá¯ááºáá±á¬ááºáá»ááºááᯠá¡áá¯á¶ážááŒá¯áá«áááºá
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])
ááᯠáá»áœááºá¯ááºááá¯á·ááá±áá¬ááẠá€áá²á·ááá¯á·ááŒá áºáá¯á¶ááááº-
á¡áááºážá áá»áœááºá¯ááºááá¯á·ááẠáá»áœááºá¯ááºááá¯á·ááááºážááá¯ááºááŸáá·áº áá®ážáááºáá±ááŒá®ááŒá
áºáááºá
á¡ááá·áºáá±áž
áá»áœááºáá±á¬áºááá¯á·áá²á· ááááá¯á¶áž áá±á¬áºáááºááᯠáá±á·áá»áá·áºááŒáá¡á±á¬ááºá sklearn á á¬ááŒáá·áºááá¯ááºá០áá»áœááºá¯ááºááá¯á·ááẠáá»á¬ážá áœá¬áá±á¬ á áááºáááºá á¬ážá áá¬áá±á¬ááºážáá±á¬á¡áá¬áá»á¬ážááᯠááŸá¬ááœá±ááá¯ááºáááºá á€ááŒá¿áá¬á¡ááœáẠáá»áœááºá¯ááºááẠGradient Boosting Classifier ááᯠá¡áá¯á¶ážááŒá¯áá¬ážáááºá áá»áœááºá¯ááºááá¯á·ááá¬áááºááẠá¡áá»áá¯ážá¡á á¬ážááœá²ááŒá¬ážááŒááºážá¡áá¯ááºááŒá áºáá±á¬ááŒá±á¬áá·áº áá»áœááºá¯ááºááá¯á·ááẠA á¡áá»áá¯ážá¡á á¬ážááœá²ááŒá¬ážááŸá¯ááᯠá¡áá¯á¶ážááŒá¯áá«áááºá áá±á¬áá«ááŒáá¯áááºááá·áºááŸááºážáá»ááºááᯠ1 ( á¡áááºááŸááºáá²á·áááº) ááá¯á·ááá¯áẠ0 (áááŸááºáááºáá²á·áá«) ááœáẠáááºááŸááºáá±ážááá·áºáááºá
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)
á¡á¶áááºááœááºáá»áá¯ááºáá±á¬ááºáá»ááºááẠPython ááá¯ááŒá±á¬ááŒáááº- áá±á¬áºáááºááẠX ááŸáá·áº y á¡ááŒá¬áž ááŸá®ááá¯ááŸá¯ááᯠááŸá¬ááœá±áá«á á±á
áá áºá áá¹ááá·áºá¡á±á¬ááºááŸáá·áº áá±á¬áºáááºá¡áááºááá·áºááŒá áºáá±áá«ááŒá®á
áááºááá¯á¡áá¯á¶ážáá»áááá²á á¡áá¯ááœá±á·áááºá
á¡ááá·áºáá«ážá áááá¯á¶áž
ááᯠáá»áœááºá¯ááºááá¯á·ááẠááŒáá¯áááºááá·áºááŸááºážááŸá¯ááŒá¯áá¯ááºááẠááá¯á¡ááºááá·áº áá»áœááºá¯ááºááá¯á·áá ááºážáááºáá±áá¬ááŸáá·áºá¡áá° ááá¬ážáá áºáá¯ááᯠáááºáááºááá¯á¡ááºáá«áááºá á€ááá¬ážááŒáá·áº áá»áœááºá¯ááºááá¯á· X á¡ááœáẠáá»áœááºá¯ááºááá¯á·ááŒá¯áá¯ááºáá²á·ááá·áº á¡áá¬ážáá°áá¯ááºáá±á¬ááºáá»ááºá¡á¬ážáá¯á¶ážááᯠáá¯ááºáá±á¬ááºáá«áááºá
X_test = pd.read_csv('test.csv', index_col=0)
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)
X_test = np.array(X_test)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])
áá»áœááºáá±á¬áºááá¯á·áá²á· áá±á¬áºáááºááᯠá¡áá¯áá² á¡áá¯á¶ážááŒá¯ááá¯ááºáá¡á±á¬ááºá
gbc_predict = gbc.predict(X_test)
á¡á¬ážáá¯á¶ážá áá»áœááºá¯ááºááá¯á·ááẠááŒáá¯áááºááá·áºááŸááºážáá»ááºáá áºáᯠááŒá¯áá¯ááºáá²á·áááºá ááᯠáááºážááᯠcsv ááŒáá·áº ááŸááºáááºážáááºááŒá®áž ááá¯ááºááá¯á· áá±ážááá¯á·ááẠááá¯á¡ááºáá«áááºá
np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')
á¡áááºááá·áºá ááá®ážáááºáá
áºáŠážá
á®á¡ááœáẠááá·áºááŸááºážáá»ááºáá»á¬ážáá«ááŸááá±á¬ ááá¯ááºáá
áºáá¯ááᯠáá»áœááºá¯ááºááá¯á· áááºáá¶áááŸááá²á·áá«áááºá áá»ááºááŸááá±áá±ážáááºááŸá¬ á€ááŒá±ááŸááºážáá»ááºáá»á¬ážááᯠáááºááá¯ááºááá¯á· á¡ááºáá¯ááºáá¯ááºááŒá®áž ááá·áºááŸááºážáá»ááºá á¡áá²ááŒááºáá»ááºááᯠááá°áááºááŒá
áºáááºá ááá¯áá²á·ááá¯á·áá±á¬ áá°áá¡ááŒá±ááẠá¡áá»á¬ážáá°ááŸá¬á¡ááœáẠá¡ááŒá±ááŸááºá 74% ááá¯áá¬áá áá±áá¬áááá¹áá¶á¡ááœáẠááœááºážá¡á¬ážá¡áá»áá¯á·ááá¯áááºáž áá±ážáá«áááºá áááá»ááºáá¯á¶ážáá°ááẠá¡áá»áááºáááœá±áž áá»áœááºá¯ááºáᶠáá®ážááá·áºá
á¬ááá¯áá»á¬áž áá±ážááŒá®áž áá±ážááœááºážáá±ážááá¯ááºáá«áááºá á¡á¬ážáá¯á¶ážááá¯áá»á±ážáá°ážáááºáá«áááº!
source: www.habr.com