ื ืงืืจืฅ ืืงืืื ืืืืจื
ืืื ืืืืืื ืึทื ืืืจ ืงืขื ืืึธื ืืขืจ ืืื ืื ืืืื ืืืจ ืืขื ืขื ืฆืืืขืฉืืขืื ืืื ืฉืจืื-ืืืจื-ืฉืจืื ืื ืกืืจืึทืงืฉืึทื ื ืืืึธืก ืืืึธืื ืืึธืื ืืื ืื ืืืึธืก ืฆื ืืึธื ืืื ืืื ืฆื ืืึธื ืืึธืก. ืืื ืืื ืืขืืขื ืงืขื ืืึธืืืึทื ืฅ ืืื ืืืื ืืขืื ืืืขื ืืื ืงืขื ื ืืฉื ืึธื ืืืืื ืขืคึผืขืก ืืืืึทื ืขืก ืืื ืคืฉืื ืฉืืืขืจ ืฆื ืคึฟืึทืจืฉืืืื ืืื ืฆื ืึธื ืืืืื. ืืึธืืขืจ, ืึทืืึธื ืืืืฃ ืืขืจ ืืื ืืขืจื ืขืฅ, ืืืจ ืืึธื ืืขืืขื ืื ืืืขืจืืขืจ "ืืึทืืึท ืืืืกื ืฉืึทืคึฟื" ืืื ืืึทืฉืืึธืกื ืึทื ืืืจ ืืขื ื ืืืืึทื ืคืื ืืขื, ืืื ืื ืืขื ืืฉื ืืืึธืก ืืึธื ืืึธืก ืืขื ืขื ืขืจืืขืฅ ืืึธืจื, ืืื ืื ืื ืืขืจ ืืืขืื. ื ืืื, ืืื ืืขื ืขื ืจืขืื ืืึธ. ืืื, ืืึธืืขืจ, ืืึทื ืง ืฆื ืืขื ืืฉื ืคืื ืืขื ืคืขืื, ืึทื ืึทืจืืืงื ืืื ืืจืืืก ืืืืฃ ืืืื ืคืืืขืจ. ืขืก ืืขื ืขื ืคืืืข ืงืึธืจืกืึทื ืืืึธืก ืืืขื ืืขืืคึฟื ืืืจ ืืึทืงืืืขื ืืขืืืืื ื ืฆื ืืขื ืืขืืึธืืข, ืึธืืขืจ ืืึธ ืืื ืืืขื ืืขืืคึฟื ืืืจ ื ืขืืขื ืื ืขืจืฉืืขืจ ืฉืจืื.
ื ื, ืืขื ื ืืืจ ืืจืืื? ืืึธืื ืืืจ ืืึธืื ืืืจ ืืืืื ืึทื ืืืจ ืืืขื ืืึทืจืคึฟื ืฆื ืืืืกื Python 3, ืืืืึทื ืืึธืก ืืื ืืืึธืก ืืื ืืืขื ื ืืฆื ืืึธ. ืืื ืืืื ืจืขืงืึธืืขื ืืืจื ืืืจ ืฆื ืื ืกืืึทืืืจื ืขืก ืืืืฃ Jupyter Notebook ืืื ืฉืืืึทืื ืึธืืขืจ ืืขื ืืื ืฆื ื ืืฆื Google ืงืึธืืึทื.
ืขืจืฉืืขืจ ืฉืจืื
Kaggle ืืื ืืืื ืืืืืืืง ืึทืกืืกืืึทื ื ืืื ืืขื ืขื ืื. ืืื ืคึผืจืื ืฆืืคึผ, ืืืจ ืงืขื ืขื ืืึธื ืึธื ืขืก, ืึธืืขืจ ืืื ืืืขื ืจืขืื ืืืขืื ืืขื ืืื ืื ืื ืืขืจ ืึทืจืืืงื. ืืึธืก ืืื ืึท ืคึผืืึทืืคืึธืจืืข ืืืึธืก ืืึธืกืฅ ืืึทืืึท ืืืืกื ืฉืึทืคึฟื ืงืึทืืคึผืึทืืืฉืึทื ื. ืืื ืืขืืขืจ ืึทืืึท ืคืึทืจืืขืกื, ืืื ืื ืคืจื ืกืืึทืืขืก ืืืจ ืืืขื ืืึทืงืืืขื ืึท ืึทื ืจืืืืกืืืง ืืขืจืคืึทืจืื ื ืืื ืกืึทืืืืื ื ืคึผืจืึธืืืขืืก ืคืื ืคืึทืจืฉืืื ืืื ืื, ืึทื ืืืืืงืืื ื ืืขืจืคืึทืจืื ื ืืื ืืขืจืคืึทืจืื ื ืืื ืึท ืงืึธืืขืงืืืื, ืืืึธืก ืืื ืืืืืืืง ืืื ืืื ืืืขืจ ืฆืืื.
ืืืจ ืืืขืื ื ืขืืขื ืืื ืืืขืจ ืึทืจืืขื ืคืื ืืึธืจื. ืขืก ืืื ืืขืจืืคื "ืืืืึทื ืืง". ืืขืจ ืฆืืฉืืึทื ื ืืื ืืึธืก: ืคืึธืจืืืกืืึธืื ืฆื ืืขืืขืจ ืืืื ืืขื ืืฉ ืืืขื ืืืืึทืื ืืขืื. ืืื ืึทืืืขืืืื, ืื ืึทืจืืขื ืคืื ืึท ืืขื ืืฉ ืื ืืืึทืืืื ืืื DS ืืื ืงืึทืืขืงืืื ื ืืึทืื, ืคึผืจืึทืกืขืกืื ื ืขืก, ืืจืืื ืื ื ืึท ืืึธืืขื, ืคืึธืจืงืึทืกืืื ื, ืืื ืึทืืื ืืืืฃ. ืืื ืงืึทืืืืข, ืืืจ ืืขื ืขื ืขืจืืืืื ืฆื ืืึธืคึผืงืขื ืื ืืึทืื ืืึทืืืื ื ืืื ืข - ืืื ืืขื ืขื ืืขืจืืื ืื ืืืืฃ ืืขืจ ืคึผืืึทืืคืึธืจืืข. ืืืจ ืืึทืจืคึฟื ืฆื ืึธืคึผืืึธืืืจื ืืื ืืื ืืืจ ืงืขื ืขื ืึธื ืืืืื!
ืืืจ ืงืขื ืขื ืืึธื ืืึธืก ืืื ืืืื:
ืื ืืึทืืึท ืงืืืืื ืึผืืื ืืขืงืขืก ืืืึธืก ืึทื ืืืึทืืื ืืึทืื
ืืืจ ืืึทืื ืืึธืืืื ืื ืืึทืื, ืฆืืืขืืจืืื ืืื ืืืขืจ ืืืฉืืคึผืืืขืจ ื ืึธืืืืืงืก ืืื ...
ืจืืข ืฉืจืื
ืืื ืืึธื ืืืจ ืืืฆื ืืึธืื ืื ืืึทืื?
ืขืจืฉืืขืจ, ืืึธืืืจ ืึทืจืืึทื ืคืืจ ืื ื ืืืืืง ืืืืืจืขืจืื:
import pandas as pd
import numpy as np
ืคึผืึทื ืืึทืก ืืืขื ืืึธืื ืืื ืื ืฆื ืึธืคึผืืึธืืืจื .ืงืกืื ืืขืงืขืก ืคึฟืึทืจ ืืืืึทืืขืจ ืคึผืจืึทืกืขืกืื ื.
ื ืึทืืคึผื ืืื ืืืจืฃ ืฆื ืคืึธืจืฉืืขืื ืืื ืืืขืจ ืืึทืื ืืืฉ ืืื ืึท ืืึทืืจืืฅ ืืื ื ืืืขืจื.
ืืื ืืืืืืขืจ. ืืึธืืืจ ื ืขืืขื ืื ืืขืงืข train.csv ืืื ืฆืืคึฟืขืืืงืขืจ ืขืก ืฆื ืืื ืื:
dataset = pd.read_csv('train.csv')
ืืืจ ืืืขืื ืึธืคึผืฉืืงื ืฆื ืืื ืืืขืจ train.csv ืืึทืื ืกืขืืขืงืฆืืข ืืืจื ืื ืืึทืืึทืกืขื ืืืึทืืขืืืืืง. ืืื ืก ืืขื ืืืึธืก ืืื ืืึธืจื:
dataset.head()
ืื ืงืึธืคึผ () ืคืื ืงืฆืืข ืึทืืึทืื ืืื ืื ืฆื ืงืืงื ืืื ืื ืขืจืฉืืขืจ ืืืกื ืจืึธืื ืคืื ืึท ืืึทืืึทืคืจืึทืืข.
ืื ืกืขืจืืืืืืื ืฉืคืืืื ืืขื ืขื ืคึผืื ืงื ืืื ืืืขืจ ืจืขืืืืืึทืื, ืืืึธืก ืืขื ืขื ืืืงืื ื ืืื ืืขื ืืึทืืึทืคืจืึทืืข. ืคึฟืึทืจ ืื ืึทืจืืขื ืงืฉืื, ืืืจ ืืึทืจืคึฟื ืฆื ืคืึธืจืืืกืืึธืื ืื ืกืขืจืืืืืืื ืืืึทื ืคึฟืึทืจ test.csv ืืึทืื. ืื ืืึทืื ืกืืึธืจื ืืื ืคึฟืึธืจืืึทืฆืืข ืืืขืื ืื ืืขืจืข ืคึผืึทืกืึทื ืืืฉืขืจื ืคืื ืื ืืืืึทื ืืง, ืคึฟืึทืจ ืืืึธืก ืืืจ, ืกืึทืืืืื ื ืื ืคึผืจืึธืืืขื, ืืึธื ื ืื ืืืืกื ืื ืจืขืืืืืึทื.
ืึทืืื, ืืึธืื ืืื ืื ืืืืื ืืื ืืืขืจ ืืืฉ ืืื ืึธืคืขื ืืืง ืืื ืคืจืืึท ืืึทืื. ืึทืืฅ ืืื ืคึผืฉืื ืืึธ. ืึธืคืขื ืืืง ืืึทืื ืืขื ืขื ืื ืืึทืื ืืืึธืก ืึธืคืขื ืืขื ืืืืฃ ืื ืคืจืืึท ืืึทืื ืืืึธืก ืืขื ืขื ืืื ืื ืจืขืืืืืึทืื. ืืืืึธืคึผืืขื ืืืง ืืึทืื ืืขื ืขื ืื ืืึทืื ืืืึธืก ืืืืจืงื ืื ืจืขืืืืืึทื.
ืคึฟืึทืจ ืืืึทืฉืคึผืื, ืืืจ ืืึธืื ืื ืคืืืืขื ืืข ืืึทืื ืฉืืขืื:
"ืืืึธืืืึท ืืขืืขืจื ื ืงืึธืืคึผืืืืขืจ ืืืืกื ืฉืึทืคึฟื - ื ืืื.
ืืืึธืืืึท ืืืงืืืขื ืึท 2 ืืื ืงืึธืืคึผืืืืขืจ ืืืืกื ืฉืึทืคึฟื.
ืืขืจ ืืจืึทื ืืื ืงืึธืืคึผืืืืขืจ ืืืืกื ืฉืึทืคึฟื ืืขืคึผืขื ืืก ืืืืฃ ืื ืขื ืืคืขืจ ืฆื ืื ืงืฉืื: ืืื ืืืึธืืืึท ืืขืืขืจื ื ืงืึธืืคึผืืืืขืจ ืืืืกื ืฉืึทืคึฟื? ืืื ืขืก ืงืืึธืจ? ืืืืืจ ืืืืืืขืจ ืืืื, ืืืจ ืืขื ืขื ืฉืืื ื ืขื ืืขืจ ืฆืื ืฆืื!
ืื ืืขืงืึทืืึธืืขืืืง ืืืึทืืขืืืืืง ืคึฟืึทืจ ืคืจืืึท ืืึทืื ืืื X. ืคึฟืึทืจ ืึธืคืขื ืืืง ืืึทืื, ื.
ืืืจ ืืึธื ืื ืคืืืืขื ืืข:
X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]
ืืืืก ืืื ืืืก? ืืื ืื ืคึฟืื ืงืฆืืข iloc [:, 2: ] ืืืจ ืืึธืื Python: ืืื ืืืืื ืฆื ืืขื ืืื ืื ืืืึทืืขืืืืืง X ืื ืืึทืื ืกืืึทืจืืื ื ืคืื ืื ืจืืข ืืืึทื (ืื ืงืืืกืืื ืืื ืฆืืืขืฉืืขืื ืึทื ืงืึทืื ืืื ื ืกืืึทืจืฅ ืคืื ื ืื). ืืื ืื ืจืืข ืฉืืจื ืืืจ ืืึธืื ืึทื ืืืจ ืืืืื ืฆื ืืขื ืื ืืึทืื ืืื ืืขืจ ืขืจืฉืืขืจ ืืืึทื.
[ ืึท: ื, ื: ื] ืืื ืื ืงืึทื ืกืืจืึทืงืฉืึทื ืคืื ืืืึธืก ืืืจ ื ืืฆื ืืื ืงืืึทืืขืจื. ืืืื ืืืจ ืืึธื ื ืื ืกืคึผืขืฆืืคืืฆืืจื ืงืืื ืืืขืจืืึทืืึทืื, ืืื ืืืขืื ืืืื ืืขืจืืืขืืืขื ืืื ืคืขืืืงืืึทื. ืืึธืก ืืื, ืืืจ ืงืขื ืขื ืกืคึผืขืฆืืคืืฆืืจื [:,: ื] ืืื ืืขืืึธืื ืืืจ ืืืขืื ืืึทืงืืืขื ืึทืืข ืื ืฉืคืืืื ืืื ืื ืืึทืืึทืคืจืึทืืข, ืึทืืืฅ ืื ืืืึธืก ืืืื ืคึฟืื ื ืืืขืจ ื ืืื ืืืืืืขืจ. ืื ืืืขืจืืึทืืึทืื ืึท ืืื ื ืืขืคืื ืืจื ืกืืจืื ืืก, ืึธืืขืจ ืืืจ ืืึทืจืคึฟื ืืื ืึทืืข, ืึทืืื ืืืจ ืืึธืื ืืขื ืืื ืคืขืืืงืืึทื.ืืึธืืืจ ืืขื ืืืึธืก ืืืจ ืืึธืื:
X.head()
y.head()
ืืื ืกืืจ ืฆื ืคืึทืจืคึผืึธืฉืขืืขืจื ืืขื ืืืกื ืืขืงืฆืืข, ืืืจ ืืืขืื ืืึทืืืึทืืืงื ืฉืคืืืื ืืืึธืก ืืึทืจืคื ืกืคึผืขืฆืืขื ืืึธืจื ืึธืืขืจ ืืึธื ื ืื ืืืืจืงื ืื ื ืืฆื. ืืื ืึทื ืืืึทืืื ืืึทืื ืคืื ืืืคึผ str.
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)
ืกืืคึผืขืจ! ืืื ืก ืืึทื ืืืืฃ ืฆื ืืขืจ ืืืืึทืืขืจ ืฉืจืื.
ืืจืื ืฉืจืื
ืืึธ ืืืจ ืืึทืจืคึฟื ืฆื ืขื ืงืึธืื ืืื ืืืขืจ ืืึทืื ืึทืืื ืึทื ืื ืืึทืฉืื ืืขืกืขืจ ืคึฟืึทืจืฉืืืื ืืื ืื ืืึทืื ืึทืคืขืงืฅ ืื ืจืขืืืืืึทื. ืึธืืขืจ ืืืจ ืืืขืื ื ืืฉื ืขื ืงืึธืื ืึทืืฅ, ืึธืืขืจ ืืืืื ืื ืกืืจ ืืึทืื ืืืึธืก ืืืจ ืืื ืงืก. ืืืึทื "ืกืขืงืก". ืืื ืืึธื ืืืจ ืืืืื ืฆื ืงืึธื? ืืึธืืืจ ืคืึธืจืฉืืขืื ืืึทืื ืืืขืื ืึท ืืขื ืืฉ 'ืก ืืืฉืขื ืืขืจ ืืื ืึท ืืืขืงืืึธืจ: 10 - ืืืจ, 01 - ืืืืึทืืืขื.
ืขืจืฉืืขืจ, ืืึธืืืจ ืืขืจ ืืื ืืืขืจ ืืืฉื ืืื ืึท NumPy ืืึทืืจืืฅ:
X = np.array(X)
y = np.array(y)
ืืื ืืืฆื ืืึธืืืจ ืงืืงื:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
ืื ืกืงืืขืึทืจื ืืืืืืึธืืขืง ืืื ืึทืืึท ืึท ืงืื ืืืืืืึธืืขืง ืืืึธืก ืึทืืึทืื ืืื ืื ืฆื ืืึธื ืืึทื ืฅ ืึทืจืืขื ืืื ืืึทืืึท ืืืืกื ืฉืึทืคึฟื. ืขืก ืึผืืื ืึท ืืจืืืก ื ืืืขืจ ืคืื ืืฉืืงืึทืืืข ืืึทืฉืื ืืขืจื ืขื ืืึธืืขืืก ืืื ืืืื ืึทืืึทืื ืืื ืื ืฆื ืฆืืืจืืืื ืืึทืื.
OneHotEncoder ืืืขื ืืึธืื ืืื ืื ืฆื ืขื ืงืึธืื ืื ืืืฉืขื ืืขืจ ืคืื ืึท ืืขื ืืฉ ืืื ืืขืจ ืคืึทืจืืจืขืืื ื, ืืื ืืืจ ืืืกืงืจืืืื. 2 ืงืืืกื ืืืขื ืืืื ืืืฉืืคื: ืืืจ, ืืืืึทืืืขื. ืืืื ืืขืจ ืืขื ืืฉ ืืื ืึท ืืขื ืืฉ, 1 ืืืขื ืืืื ืืขืฉืจืืื ืืื ืื "ืืืจ" ืืืึทื, ืืื 0 ืืื ืื "ืืืืึทืืืขื" ืืืึทื, ืจืืกืคึผืขืงืืืืืื.
ื ืึธื OneHotEncoder () ืขืก ืืื [1] - ืืึธืก ืืืื ืึทื ืืืจ ืืืืื ืฆื ืขื ืงืึธืื ืืืึทื ื ืืืขืจ 1 (ืงืึทืื ืืื ื ืคึฟืื ื ืื).
ืืืขืจ. ืืื ืก ืืึทื ืึทืคึฟืืื ืืืืึทืืขืจ!
ืืื ืึท ืืขืจืฉื, ืืึธืก ืืึทืคึผืึทื ื ืึทื ืขืืืขืืข ืืึทืื ืืขื ืขื ืืืืืืง (ืืึธืก ืืื, NaN - ื ืื ืึท ื ืืืขืจ). ืคึฟืึทืจ ืืืึทืฉืคึผืื, ืขืก ืืื ืืื ืคึฟืึธืจืืึทืฆืืข ืืืขืื ืึท ืืขื ืืฉ: ืืืื ื ืึธืืขื, ืืืฉืขื ืืขืจ. ืืืขืจ ืขืก ืืื ืงืืื ืืื ืคึฟืึธืจืืึทืฆืืข ืืืขืื ืืืื ืขืืืขืจ. ืืื ืืขื ืคืึทื, ืืืจ ืืืขืื ืฆืืืืืื ืื ืคืืืืขื ืืข ืืืคึฟื: ืืืจ ืืืขืื ืืขืคึฟืื ืขื ืื ืึทืจืืืืขืืืง ืืืื ืืืืขืจ ืึทืืข ืฉืคืืืื ืืื ืืืื ืขืืืขืืข ืืึทืื ืคืขืื ืืืง ืืื ืื ืืืึทื, ืืืจ ืืืขืื ืคึผืืึธืืืืจื ืื ืคึผืึธืกื ืืื ืื ืึทืจืืืืขืืืง ืืืื.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)
ืืืฆื ืืึธืื ืืื ืื ื ืขืืขื ืืื ืืฉืืื ืึทื ืกืืืืึทืืืึธื ืก ืคึผืึทืกืืจื ืืืขื ืื ืืึทืื ืืขื ืขื ืืืืขืจ ืืจืืืก. ืขืืืขืืข ืืึทืื ืืขื ืขื ืืื ืื ืืขืืึทืืขื [0:1], ืืฉืขืช ืขืืืขืืข ืงืขื ืืืื ืืืืึทืืขืจ ืคืื ืืื ืืขืจืืขืจ ืืื ืืืืื ืืขืจ. ืฆื ืขืืืืื ืืจื ืึทืืึท ืฆืขืืืึธืจืคื ืืื ืฆื ืืึทืื ืื ืงืึธืืคึผืืืืขืจ ืืขืจ ืคึผืื ืืืขื ืืื ืืืึทื ืืฉืืื ืืช, ืืืจ ืืืขืจืงืืงื ืื ืืึทืื ืืื ืืืึธื ืขืก. ืืื ืึทืืข ื ืืืขืจื ื ืื ืืงืกืื ืืจืืึท. ืฆื ืืึธื ืืึธืก, ืืืจ ืืืขืื ื ืืฆื ืื StandardScaler ืคืื ืงืฆืืข.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])
ืืืฆื ืืื ืืืขืจ ืืึทืื ืงืืงื ืืื ืืึธืก:
ืงืืึทืก. ืืืจ ืืขื ืขื ืฉืืื ื ืึธืขื ื ืฆื ืืื ืืืขืจ ืฆืื!
ืฉืจืื ืคืืจ
ืืื ืก ืืึทื ืืื ืืืขืจ ืขืจืฉืืขืจ ืืึธืืขื! ืคึฟืื ืืขืจ ืกืงืืขืึทืจื ืืืืืืึธืืขืง ืงืขื ืขื ืืืจ ืืขืคึฟืื ืขื ืึท ืจืืืืง ื ืืืขืจ ืคืื ืืฉืืงืึทืืืข ืืืื. ืืื ืืขืืืขื ืื ืื ืืจืึทืืืขื ื ืืึธืึธืกืืื ื ืงืืึทืกืกืืคืืขืจ ืืึธืืขื ืฆื ืืขื ืคึผืจืึธืืืขื. ืืืจ ื ืืฆื ื ืงืืึทืกืึทืคืืืขืจ ืืืืึทื ืืื ืืืขืจ ืึทืจืืขื ืืื ืึท ืงืืึทืกืึทืคืึทืงืืืฉืึทื ืึทืจืืขื. ืื ืคึผืจืึธืื ืึธืกืืก ืืึธื ืืืื ืึทืกืืื ื ืฆื 1 (ืกืขืจืืืืืืื) ืึธืืขืจ 0 (ื ืืฉื ืืืืึทืื ืืขืื).
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)
ืื ืคึผืึทืกืืง ืคืื ืงืฆืืข ืืขืจืฆืืืื Python: ืืึธืื ืื ืืึธืืขื ืงืืงื ืคึฟืึทืจ ืืืคึผืขื ืืึทื ืกืื ืฆืืืืฉื X ืืื y.
ืืืืื ืืงืขืจ ืืื ืึท ืจืืข ืืื ืื ืืึธืืขื ืืื ืืจืืื.
ืืื ืฆื ืฆืืืืืื ืขืก? ืืืจ ืืืขืื ืืืฆื ืืขื!
ืฉืจืื ืคืื ืฃ. ืืกืงื ื
ืืืฆื ืืืจ ืืึทืจืคึฟื ืฆื ืืึทืกืข ืึท ืืืฉ ืืื ืืื ืืืขืจ ืคึผืจืึธืืข ืืึทืื ืคึฟืึทืจ ืืืึธืก ืืืจ ืืึทืจืคึฟื ืฆื ืืึทืื ืึท ืคืึธืจืืืกืืึธืื. ืืื ืืขื ืืืฉ ืืืจ ืืืขืื ืืึธื ืึทืืข ืื ืืขืืืข ืึทืงืฉืึทื ื ืืืึธืก ืืืจ ืืึธืื ืืขืืื ืคึฟืึทืจ X.
X_test = pd.read_csv('test.csv', index_col=0)
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)
X_test = np.array(X_test)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])
ืืึธืืืจ ืฆืืืืืื ืืื ืืืขืจ ืืึธืืขื ืืืฆื!
gbc_predict = gbc.predict(X_test)
ืึทืืข. ืืืจ ืืขืืืื ืึท ืคืึธืจืืืกืืึธืื. ืืืฆื ืขืก ืืึทืจืฃ ืืืื ืจืขืงืึธืจืืขื ืืื ืงืกืื ืืื ืืขืฉืืงื ืฆื ืื ืืืขืืืืืื.
np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')
ืืจืืื. ืืืจ ืืึธืื ืืึทืงืืืขื ืึท ืืขืงืข ืืื ืคึฟืึธืจืืืกืืึธืื ืคึฟืึทืจ ืืขืืขืจ ืคึผืึทืกืึทืืฉืืจ. ืึทืืข ืืืึธืก ืืืืืื ืืื ืฆื ืฆืืคึฟืขืืืงืขืจ ืื ืกืึทืืืฉืึทื ื ืฆื ืืขื ืืืขืืืืืื ืืื ืืึทืงืืืขื ืึทื ืึทืกืขืกืืึทื ื ืคืื ืื ืคืึธืจืืืกืืึธืื. ืึทืืึท ืึท ืคึผืจืืืืืืื ืืืืืื ื ืืื ื ืื ืืืืื 74% ืคืื ืจืืืืืง ืขื ืืคึฟืขืจืก ืืืืฃ ืืขื ืฆืืืืจ, ืึธืืขืจ ืืืื ืขืืืขืืข ืืืคึผืึทืืึทืก ืืื ืืึทืืึท ืืืืกื ืฉืึทืคึฟื. ืื ืืขืจืกื ืืฉืืงืึทืืืข ืงืขื ืขื ืฉืจืืึทืื ืฆื ืืืจ ืืื ืคึผืจืืืืึทื ืึทืจืืืงืืขื ืืื ืงืืื ืฆืืื ืืื ืคืจืขืื ืึท ืงืฉืื. ืืึทื ืง ืฆื ืึทืืข!
ืืงืืจ: www.habr.com