แแแแแ แจแแกแแแแแ แกแแขแงแแ
แแ แแฏแแ แ, แ แแ แฉแแแ แจแแแแแซแแ แแแขแ แ แแแแก แแแแแแแแ, แแฃ แแแแแฆแแแ แแแแแฏ-แแแแแฏ แแแกแขแ แฃแฅแชแแแแก, แ แแแแแแแช แแแแฃแแแแแแแ, แ แ แแ แ แแแแ แแแแแแแแแ. แแ แแแแแแ แแแฎแกแแแก แแแแแแขแแแ แฉแแแก แชแฎแแแ แแแแจแ, แ แแแแกแแช แ แแฆแแชแแก แแแฌแงแแแ แแ แจแแแแซแแ, แ แแแแแ แฃแแ แแแแ แ แแฃแแ แแงแ แแแแก แแแแแแ, แแฃ แกแแ แฃแแแ แแแแแฌแงแ. แจแแกแแซแแแ, แแ แแฎแแ แแแขแแ แแแขแจแ แแแแแแฎแแ แกแแขแงแแแแ "แแแแแชแแแแ แแแชแแแแ แแแ" แแ แแแแแฌแงแแแขแแ, แ แแ แแฅแแแ แจแแ แก แแงแแแแ แแแแกแแแ แแ แแแแแแแแแแ, แ แแแแแแแช แแแแก แแแแแแแแ, แกแแแฆแแช แแฅ, แกแฎแแ แกแแแงแแ แแจแ แแงแแแแ. แแ แ, แแกแแแ แแฅ แแ แแแ. แแ, แแแแแ, แแ แกแคแแ แแก แฎแแแฎแแก แฌแงแแแแแแ, แแฅแแแแก แแ แฎแแ แแแแแฉแแแ แกแขแแขแแ. แแ แกแแแแแก แฃแแแ แแแ แแฃแ แกแ, แ แแแแแแช แแแแแฎแแแ แแแแ แจแแแแฃแแ แแ แฎแแแแแแก, แแแแ แแ แแฅ แแ แแแแแฎแแแ แแแแ แแแ แแแแ แแแแแฏแแก แแแแแแแแแจแ.
แแแ, แแแแ แฎแแ ? แแแแ แแแแแชแแ แแแฃแงแแแแแแแแ แแแแฎแ แแ, แ แแ แแฅแแแ แฃแแแ แแชแแแแ Python 3, แ แแแแแ แกแฌแแ แแ แแแแก แแแแแแแงแแแแ แแฅ. แแกแแแ แแแ แฉแแแ แฌแแแแกแฌแแ แแแแแแกแขแแแแ แแ Jupyter Notebook-แแ แแ แแแฎแแ แ แแแแ แแแแแแงแแแแ google colab.
แแแแแฏแ แแ แแ
แแแแแ แแฅแแแแ แแแแจแแแแแแแแแ แแแแแจแแแฌแแ แแ แกแแแแแฎแจแ. แแ แแแชแแแจแ, แแแแก แแแ แแจแ แจแแแแซแแแแ, แแแแ แแ แแแแแ แกแฎแแ แกแขแแขแแแจแ แแแกแแฃแแ แแ. แแก แแ แแก แแแแขแคแแ แแ, แ แแแแแแช แแแกแแแแซแแแแก แแแแแชแแแแ แแแชแแแแ แแแแก แแแแแฃแ แกแแแก. แแแแแแฃแ แแกแแ แแแแแฃแ แกแจแ, แแแ แแฃแ แแขแแแแ แแฅแแแ แแแแฆแแแ แแ แแ แแแแฃแ แแแแแชแแแแแแแก แกแฎแแแแแกแฎแแ แกแแฎแแก แแ แแแแแแแแแก แแแแแญแ แแก, แแแแแแแแ แแแแก แแแแแชแแแแแแแก แแ แแฃแแแจแ แแฃแจแแแแแก แแแแแชแแแแแแแก, แ แแช แแแแจแแแแแแแแแแ แฉแแแแก แแ แแจแ.
แฉแแแ แแฅแแแแ แแแแฆแแแ แฉแแแแก แแแแแแแแแก. แแแก "แขแแขแแแแแ" แฐแฅแแแ. แแแ แแแ แแกแแแแ: แแฌแแแแกแฌแแ แแแขแงแแแแ แแแแแ แฉแแแ แแฃ แแ แ แแแแแแฃแแ แแแแแแแแ. แแแแแแแ แ แแ แแแฅแแแ, DS-แจแ แฉแแ แแฃแแ แแแ แแก แแแแชแแแแ แแแแแชแแแแแแก แจแแแ แแแแแ, แแแแฃแจแแแแแ, แแแแแแแก แแแแแแแแแ, แแ แแแแแแแ แแแ แแ แ.แจ. Kaggle-แจแ แฉแแแ แแแแฅแแก แฃแคแแแแ แแแแแแขแแแแ แแแแแชแแแแ แจแแแ แแแแแแก แแขแแแ - แแกแแแ แฌแแ แแแแแแแแแแ แแแแขแคแแ แแแแ. แฉแแแ แฃแแแ แแแแแแแฌแแ แแ แแกแแแ แแ แจแแแแแซแแแ แแแแแฌแงแแ!
แแแแก แแแแแแแแ แจแแแแซแแแแ แจแแแแแแแแแ แแ:
แแแแแชแแแแ แฉแแแแ แแ แจแแแชแแแก แคแแแแแแก, แ แแแแแแแช แจแแแชแแแก แแแแแชแแแแแก
แแแแแแแฌแแ แแ แแแแแชแแแแแ, แแแแแแแแแแ แฉแแแแ Jupyter-แแก แแแฃแแแฃแฅแแแ แแ...
แแแแแฏแ แแแแ แ
แ แแแแ แฉแแแขแแแ แแแ แแฎแแ แแก แแแแแชแแแแแ?
แแแ แแแ แ แแแจแ, แแแแแ แจแแแแแแขแแแแ แกแแญแแ แ แแแแแแแแแแแแ:
import pandas as pd
import numpy as np
Pandas แแแแแชแแแก แกแแจแฃแแแแแแก แแแแแแแฌแแ แแ .csv แคแแแแแแ แจแแแแแแแ แแแแฃแจแแแแแแกแแแแก.
Numpy แกแแญแแ แแ แฉแแแแ แแแแแชแแแแ แชแฎแ แแแแก แฌแแ แแแกแแฉแแแแ, แ แแแแ แช แแแขแ แแชแ แ แแชแฎแแแแแ.
แฒแแแแแ แซแ. แแแแฆแแ แคแแแแ train.csv แแ แแแขแแแ แแแ แฉแแแแแแ:
dataset = pd.read_csv('train.csv')
แฉแแแ แแแแแแ แแแแ แฉแแแแก train.csv แแแแแชแแแแ แจแแ แฉแแแแก แแแแแชแแแแ แแแแ แแแแก แชแแแแแแก แแแจแแแแแแ. แแแแฎแแ แ แ แแ แแก แแฅ:
dataset.head()
head() แคแฃแแฅแชแแ แกแแจแฃแแแแแแก แแแแซแแแแก แแแแแแฎแแแแ แแแแแชแแแแ แฉแแ แฉแแก แแแ แแแ แ แแแแแแแแ แกแขแ แแฅแแแก.
Survived แกแแแขแแแ แแ แแก แแฃแกแขแแ แฉแแแแ แจแแแแแแแ, แ แแแแแแแช แชแแแแแแแ แแ แแแแแชแแแแ แฉแแ แฉแแจแ. แแแแแแแแแก แแแแฎแแแกแแแแก, แฉแแแ แฃแแแ แแแฌแแแแกแฌแแ แแแขแงแแแแแ Survived แกแแแขแ test.csv แแแแแชแแแแแแกแแแแก. แแก แแแแแชแแแแแ แแแแฎแแแก แแแคแแ แแแชแแแก แขแแขแแแแแแก แกแฎแแ แแแแแแ แแแแก แจแแกแแฎแแ, แ แแกแแแแกแแช แฉแแแ, แแ แแแแแแแก แแแแแกแแญแ แแแแ, แแ แแแชแแ แจแแแแแ.
แแแจ แแกแ, แแแแงแแ แฉแแแแ แชแฎแ แแแ แแแแแแแแแแฃแ แแ แแแแแฃแแแแแแแ แแแแแชแแแแแแ. แแฅ แงแแแแแคแแ แ แแแ แขแแแแ. แแแแแแแแแแฃแแ แแแแแชแแแแแ แแ แแก แแก แแแแแชแแแแแ, แ แแแแแแแช แแแแแแแแแแฃแแแ แแแแแฃแแแแแแแ แแแแแชแแแแแแ, แ แแแแแแช แแ แแก แจแแแแแแแจแ. แแแแแฃแแแแแแแแ แแแแแชแแแแแ แแ แแก แแก แแแแแชแแแแแ, แ แแแแแแแช แแแแแแแแก แแฎแแแแแ แจแแแแแแ.
แแแแแแแแแ, แฉแแแ แแแแฅแแก แจแแแแแแ แแแแแชแแแแ แแแแ แแแ:
โแแแแ แแกแฌแแแแแแ แแแแแแฃแขแแ แฃแ แแแชแแแแ แแแแก - แแ แ.
แแแแแ แแแแฆแ 2 แแแแแแฃแขแแ แฃแ แแแชแแแแ แแแแจแ.
แแแแแแฃแขแแ แฃแ แแแชแแแแ แแแแจแ แจแแคแแกแแแ แแแแแแแแแแฃแแแ แแแแฎแแแแ: แกแฌแแแแแแแ แแฃ แแ แ แแแแ แแแแแแฃแขแแ แฃแ แแแชแแแแ แแแแก? แแแกแแแแแแ? แแแแแแ แซแแแแ, แฃแแแ แฃแคแ แ แแฎแแแก แแแ แ แแแแแแแแ!
แแแแแฃแแแแแแแแ แแแแแชแแแแแแก แขแ แแแแชแแฃแแ แชแแแแแ แแ แแก X. แแแแแแแแแแฃแแ แแแแแชแแแแแแกแแแแก, y.
แฉแแแ แแแแแแแแ แจแแแแแแก:
X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]
แ แ แแ แแก แแก? แคแฃแแฅแชแแแ iloc[:, 2: ] แแแฃแแแแแแ Python-แก: แแแแแ X แชแแแแแจแ แแแแฎแ แแแแ แ แกแแแขแแแแ แแแฌแงแแแฃแแ แแแแแชแแแแแ (แแแ แจแแ แแก แแ แแ แแแ แแแแ, แ แแ แแแแแแ แแฌแงแแแ แแฃแแแแแ). แแแแ แ แกแขแ แแฅแแแจแ แฉแแแ แแแแแแแ, แ แแ แแแแแแ แแแฎแแแแ แแแแแชแแแแแ แแแ แแแ แกแแแขแจแ.
[a:b, c:d] แแ แแก แแแแกแขแ แฃแฅแชแแ แแแแกแ, แ แแกแแช แแแงแแแแแ แคแ แฉแฎแแแแแจแ. แแฃ แแ แแแฃแแแแแแ แ แแแแ แชแแแแแก, แแกแแแ แจแแแแแฎแแแ แแแแฃแแแกแฎแแแแแ. แแแฃ, แฉแแแ แจแแแแแซแแแ แแแแฃแแแแแ [:,: d] แแ แจแแแแแ แแแแแฆแแ แงแแแแ แกแแแขแ แแแแแชแแแแ แฉแแ แฉแแจแ, แแแ แแ แแ แกแแแขแแแแกแ, แ แแแแแแแช แแแแแแแแ d แแแแ แแแแ แจแแแแแแจแ. แชแแแแแแแ a แแ b แแแแกแแแฆแแ แแแแ แกแขแ แแฅแแแแแก, แแแแ แแ แฉแแแ แงแแแแ แแแญแแ แแแแ, แแแแขแแ แแแแก แแขแแแแแ แแแแฃแแแกแฎแแแแแ.แแแแฎแแ แ แ แแแแแฆแแ:
X.head()
y.head()
แแ แแแขแแ แ แแแแแแแแแแก แแแกแแแแ แขแแแแแแแ, แฉแแแ แแแแแแฆแแแ แกแแแขแแแก, แ แแแแแแแช แแแแกแแแฃแแ แแแฃแ แแ แฃแแแแก แแแแแฎแแแก แแ แกแแแ แแแ แแ แแแฅแแแแแแก แแแแแ แฉแแแแแ. แแกแแแ แจแแแชแแแก str. แขแแแแก แแแแแชแแแแแก.
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)
แกแฃแแแ ! แแแแแ แแแแแแแแแ แจแแแแแ แแขแแแแ.
แแแแแฏแ แกแแแ
แแฅ แฉแแแ แฃแแแ แแแแแจแแคแ แแ แฉแแแแ แแแแแชแแแแแ แแกแ, แ แแ แแแแฅแแแแ แฃแแแ แแแแแแก, แแฃ แ แแแแ แแแฅแแแแแแก แแก แแแแแชแแแแแ แจแแแแแแ. แแแแ แแ แฉแแแ แแ แแแแจแแคแ แแแ แงแแแแแคแแ แก, แแ แแแแ แแฎแแแแ str แแแแแชแแแแแก, แ แแแแแแแช แแแแขแแแแ. แกแแแขแ "แกแแฅแกแ". แ แแแแ แแแแแแ แแแแแ แแแ? แแแฅแขแแ แแ แฌแแ แแแแแแแแแแ แแแแแชแแแแแ แแแแแแแแแก แกแฅแแกแแก แจแแกแแฎแแ: 10 - แแแแ แแแแแ, 01 - แฅแแแ.
แแแ แแแแ, แแแแแ แแแแแแแงแแแแแ แฉแแแแ แชแฎแ แแแแแ NumPy แแแขแ แแชแแ:
X = np.array(X)
y = np.array(y)
แแฎแแ แแ แแแแฎแแ:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
Sklearn แแแแแแแแแแ แแกแแแ แแแแแ แ แแแแแแแแแแแ, แ แแแแแแช แกแแจแฃแแแแแแก แแแแซแแแแก แแแแแแแแแ แกแ แฃแแ แกแแแฃแจแแ แแแแแชแแแแ แแแชแแแแ แแแแจแ. แแก แจแแแชแแแก แฃแแแ แแ แกแแแแขแแ แแกแ แแแแฅแแแแแแชแแแแแแแแก แแแแแแก แแ แแกแแแ แแแแซแแแแก แแแแแชแแแแ แแแแแแแแแแก แกแแจแฃแแแแแแก.
OneHotEncoder แกแแจแฃแแแแแแก แแแแแชแแแก แแแแแจแแคแ แแ แแแ แแก แกแฅแแกแ แแ แฌแแ แแแแแแแแจแ, แ แแแแ แช แแก แแฆแแฌแแ แแ. แจแแแฅแแแแแ 2 แแแแกแ: แแแแ แแแแแ, แฅแแแ. แแฃ แแแแแแแแ แแแแแแแชแแ, แแแจแแ แกแแแขแจแ โแแแแแแแชแโ แแแแฌแแ แแแ 1, แฎแแแ โแฅแแแโ แกแแแขแจแ 0.
OneHotEncoder()-แแก แจแแแแแ แแ แแก [1] - แแก แแแจแแแแก, แ แแ แฉแแแ แแแแแแ แแแแแจแแคแ แแ แกแแแขแ แแแแแ แ 1 (แแแแแแก แแฃแแแแแ).
แกแฃแแแ . แแแแ, แแแแแ แฃแคแ แ แจแแ แก แฌแแแแแแ!
แ แแแแ แช แฌแแกแ, แแก แฎแแแแ, แ แแ แแแแแแ แแ แแแแแชแแแ แชแแ แแแแ แ แฉแแแ (แแแฃ NaN - แแ แ แ แแชแฎแแ). แแแแแแแแแ, แแ แแก แแแคแแ แแแชแแ แแแแแแแแแก แจแแกแแฎแแ: แแแกแ แกแแฎแแแ, แกแฅแแกแ. แแแแ แแ แแแกแ แแกแแแแก แจแแกแแฎแแ แแแคแแ แแแชแแ แแ แแ แกแแแแแก. แแ แจแแแแฎแแแแแจแ แฉแแแ แแแแแแแงแแแแแ แจแแแแแ แแแแแแก: แฉแแแ แแแแแแแ แกแแจแฃแแแ แแ แแแแแขแแแแก แงแแแแ แกแแแขแแ แแ, แแฃ แกแแแขแก แแแแแ แแแ แแแแฃแแ แแแแแชแแแแแ, แแแจแแ แกแแชแแ แแแแแก แจแแแแแกแแแ แกแแจแฃแแแ แแ แแแแแขแแแแ.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)
แแฎแแ แแแแแแแแแแกแฌแแแแ, แ แแ แกแแขแฃแแชแแแแ แฎแแแแ, แ แแแแกแแช แแแแแชแแแแแ แซแแแแแ แแแแแ. แแแแแแ แแ แแแแแชแแแ แแ แแก [0:1] แแแขแแ แแแแจแ, แแแแ แแ แจแแกแแซแแแ แแกแแแแ แแ แแแแกแแแแแก แกแชแแแแ. แแกแแแ แแแคแแแขแแแก แแฆแแแกแแคแฎแแ แแแแ แแ แแแแแแฃแขแแ แแก แแแแแแแแแแจแ แฃแคแ แ แแฃแกแขแ แ แแ แแแแฎแแแแ, แฉแแแ แแแแแฎแแแแ แแแแแชแแแแแแก แกแแแแแ แแแแก แแ แแแกแจแขแแแแ แแแแก. แแแ, แงแแแแ แ แแชแฎแแ แแ แแฆแแแแขแแแแแแก แกแแแก. แแแแกแแแแแก แฉแแแ แแแแแแแงแแแแแ StandardScaler แคแฃแแฅแชแแแก.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])
แแฎแแ แฉแแแแ แแแแแชแแแแแ แแกแ แแแแแแงแฃแ แแแ:
แฒแแแกแ. แฉแแแ แฃแแแ แแฎแแแก แแแ แ แแแแแแแแ!
แแแแแฏแ แแแแแฎแ
แแแแแ แฏแแจแแ แฉแแแแ แแแ แแแแ แแแแแแ! Sklearn แแแแแแแแแแแแแ แฉแแแ แจแแแแแซแแแ แแแแแแแ แฃแแแ แแแ แกแแแแขแแ แแกแ แ แแ. แแ แแแแแแแงแแแ Gradient Boosting Classifier แแแแแแ แแ แแ แแแแแแแแ. แฉแแแ แแแงแแแแแ แแแแกแแคแแแแขแแ แก, แ แแแแแ แฉแแแแ แแแแชแแแ แแ แแก แแแแกแแคแแแแชแแแก แแแแชแแแ. แแ แแแแแแ แฃแแแ แแแแแแจแแแก 1 (แแแแแ แฉแแแแแ) แแ 0 (แแ แแแแแ แฉแ).
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)
fit แคแฃแแฅแชแแ แแฃแแแแแ Python-แก: แแแแแ, แแแแแแแ แแแซแแแแแก แแแแแแแแแแฃแแแแแแ X แแ y-แก แจแแ แแก.
แฌแแแแ แแแแแแแ แแ แแแแแแ แแแแแแ.
แ แแแแ แแแแแแแงแแแแ แแแ? แแฎแแ แแแแฎแแ!
แแแแแฏแ แแแฎแฃแแ. แแแกแแแแ
แแฎแแ แฉแแแ แฃแแแ แฉแแแขแแแ แแแ แชแฎแ แแแ แฉแแแแ แขแแกแขแแก แแแแแชแแแแแแ, แ แแกแแแแกแแช แฃแแแ แแแแแแแแแ แแ แแแแแแ. แแ แชแฎแ แแแแ แฉแแแ แแแแแแแแแแ แงแแแแ แแแแแ แแแฅแแแแแแแก, แ แแช แแแแแแแแแ X-แแกแแแแก.
X_test = pd.read_csv('test.csv', index_col=0)
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)
X_test = np.array(X_test)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])
แแแแแ แแแแแแแงแแแแ แฉแแแแ แแแแแแ แแฎแแแแ!
gbc_predict = gbc.predict(X_test)
แงแแแแ. แฉแแแ แแแแแแแแแ แแ แแแแแแ. แแฎแแ แแก แฃแแแ แฉแแแฌแแ แแก csv-แจแ แแ แแแแแแแแแแก แกแแแขแแ.
np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')
แแแแแแ. แฉแแแ แแแแแฆแแ แคแแแแ, แ แแแแแแช แจแแแชแแแก แแ แแแแแแแแก แแแแแแฃแแ แแแแแแ แแกแแแแก. แ แฉแแแ แแฎแแแแ แแ แแแแแฌแงแแแขแแแแแแแแก แแขแแแ แแแ แแแแกแแแขแแ แแ แแ แแแแแแแก แจแแคแแกแแแ. แแกแแแ แแ แแแแขแแฃแแ แแแแแฌแงแแแขแ แแซแแแแ แแ แ แแฎแแแแ แกแฌแแ แ แแแกแฃแฎแแแแก 74%-แก แกแแแแแแแแแแแจแ, แแ แแแแ แแแ แแแแฃแ แแแแฃแแกแกแแช แแแแแชแแแแ แแแชแแแแ แแแแจแ. แงแแแแแแ แชแแแแแกแแแงแแแ แแแแก แจแแฃแซแแแแ แแแแแกแแแแ แแ แแก แแแแฌแแ แแ แแแ แแ แจแแขแงแแแแแแแแแจแ แแ แแแฃแกแแแ แจแแแแแฎแแ. แฒแแแแแแ แงแแแแแก!
แฌแงแแ แ: www.habr.com