เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบ„เปเบฒโ€‹เปเบ™เบฐโ€‹เบ™เปเบฒโ€‹เบชเบฑเป‰เบ™โ€‹

เบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเป€เบŠเบทเปˆเบญเบงเปˆเบฒเบžเบงเบเป€เบฎเบปเบฒเบชเบฒเบกเบฒเบ”เป€เบฎเบฑเบ”เบชเบดเปˆเบ‡เบ•เปˆเบฒเบ‡เป†เป„เบ”เป‰เบซเบผเบฒเบเบ‚เบถเป‰เบ™เบ–เป‰เบฒเบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบฎเบฑเบšเบเบฒเบ™เปƒเบซเป‰เบ„เปเบฒเปเบ™เบฐเบ™เปเบฒเป€เบ—เบทเปˆเบญเบฅเบฐเบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเปˆเบˆเบฐเบšเบญเบเบžเบงเบเป€เบฎเบปเบฒเบงเปˆเบฒเบˆเบฐเป€เบฎเบฑเบ”เปเบ™เบงเปƒเบ”เปเบฅเบฐเป€เบฎเบฑเบ”เปเบ™เบงเปƒเบ”เบกเบฑเบ™. เบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเป€เบญเบ‡เบˆเบทเปˆเบˆเปเบฒเบŠเปˆเบงเบ‡เป€เบงเบฅเบฒเปƒเบ™เบŠเบตเบงเบดเบ”เบ‚เบญเบ‡เบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเปƒเบ™เป€เบงเบฅเบฒเบ—เบตเปˆเบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเบšเปเปˆเบชเบฒเบกเบฒเบ”เป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™เบšเบฒเบ‡เบชเบดเปˆเบ‡เบšเบฒเบ‡เบขเปˆเบฒเบ‡เป€เบ™เบทเปˆเบญเบ‡เบˆเบฒเบเบงเปˆเบฒเบกเบฑเบ™เป€เบ›เบฑเบ™เบžเบฝเบ‡เปเบ•เปˆเบเบฒเบเบ—เบตเปˆเบˆเบฐเป€เบ‚เบปเป‰เบฒเปƒเบˆเบšเปˆเบญเบ™เบ—เบตเปˆเบˆเบฐเป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™. เบšเบฒเบ‡เบ—เบต, เบ„เบฑเป‰เบ‡เบซเบ™เบถเปˆเบ‡เปƒเบ™เบญเบดเบ™เป€เบ•เบตเป€เบ™เบฑเบ”เป€เบˆเบปเป‰เบฒเป„เบ”เป‰เป€เบซเบฑเบ™เบ„เปเบฒเบงเปˆเบฒ "เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ‚เปเป‰เบกเบนเบ™" เปเบฅเบฐเบ•เบฑเบ”เบชเบดเบ™เปƒเบˆเบงเปˆเบฒเป€เบˆเบปเป‰เบฒเบขเบนเปˆเป„เบเบˆเบฒเบเบ™เบตเป‰, เปเบฅเบฐเบ„เบปเบ™เบ—เบตเปˆเป€เบฎเบฑเบ”เบชเบดเปˆเบ‡เบ™เบตเป‰เบขเบนเปˆเบšเปˆเบญเบ™เบ™เบฑเป‰เบ™, เปƒเบ™เป‚เบฅเบเบญเบทเปˆเบ™. เบšเปเปˆ, เป€เบ‚เบปเบฒเป€เบˆเบปเป‰เบฒเบขเบนเปˆเบšเปˆเบญเบ™เบ™เบตเป‰. เปเบฅเบฐ, เบšเบฒเบ‡เบ—เบต, เบ‚เปเบ‚เบญเบšเปƒเบˆเบเบฑเบšเบ„เบปเบ™เบˆเบฒเบเบžเบฒเบเบชเบฐเบซเบ™เบฒเบกเบ™เบตเป‰, เบšเบปเบ”เบ„เบงเบฒเบกเบ›เบฒเบเบปเบ”เบขเบนเปˆเปƒเบ™เบญเบฒเบซเบฒเบ™เบ‚เบญเบ‡เบ—เปˆเบฒเบ™. เบกเบตเบซเบผเบฒเบเบซเบผเบฑเบเบชเบนเบ”เบ—เบตเปˆเบˆเบฐเบŠเปˆเบงเบเปƒเบซเป‰เบ—เปˆเบฒเบ™เป„เบ”เป‰เบฎเบฑเบšเปƒเบŠเป‰เบเบฑเบšเป€เบ„เบทเปˆเบญเบ‡เบซเบฑเบ”เบ–เบฐเบเปเบฒเบ™เบตเป‰, เปเบ•เปˆเปƒเบ™เบ—เบตเปˆเบ™เบตเป‰เบ‚เป‰เบญเบเบˆเบฐเบŠเปˆเบงเบเปƒเบซเป‰เบ—เปˆเบฒเบ™เป€เบฎเบฑเบ”เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”.

เปเบฅเป‰เบง, เป€เบˆเบปเป‰เบฒเบžเป‰เบญเบกเปเบฅเป‰เบงเบšเป? เปƒเบซเป‰เบ‚เป‰เบญเบเบšเบญเบเป€เบˆเบปเป‰เบฒเบ—เบฑเบ™เบ—เบตเบงเปˆเบฒเป€เบˆเบปเป‰เบฒเบˆเบฐเบ•เป‰เบญเบ‡เบฎเบนเป‰เบˆเบฑเบ Python 3, เป€เบžเบฒเบฐเบงเปˆเบฒเบ™เบฑเป‰เบ™เปเบกเปˆเบ™เบชเบดเปˆเบ‡เบ—เบตเปˆเบ‚เป‰เบญเบเบˆเบฐเปƒเบŠเป‰เบขเบนเปˆเบ—เบตเปˆเบ™เบตเป‰. เบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเบเบฑเบ‡เปเบ™เบฐเบ™เปเบฒเปƒเบซเป‰เบ—เปˆเบฒเบ™เบ•เบดเบ”เบ•เบฑเป‰เบ‡เบกเบฑเบ™เบขเบนเปˆเปƒเบ™ Jupyter Notebook เบฅเปˆเบงเบ‡เบซเบ™เป‰เบฒเบซเบผเบทเป€เบšเบดเปˆเบ‡เบงเบดเบ—เบตเบเบฒเบ™เปƒเบŠเป‰ google colab.

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเบซเบ™เบถเปˆเบ‡

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

Kaggle เปเบกเปˆเบ™เบœเบนเป‰เบŠเปˆเบงเบเบ—เบตเปˆเบชเปเบฒเบ„เบฑเบ™เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™เป€เบฅเบทเปˆเบญเบ‡เบ™เบตเป‰. เปƒเบ™เบซเบผเบฑเบเบเบฒเบ™, เป€เบˆเบปเป‰เบฒเบชเบฒเบกเบฒเบ”เป€เบฎเบฑเบ”เป„เบ”เป‰เป‚เบ”เบเบšเปเปˆเบกเบตเบกเบฑเบ™, เปเบ•เปˆเบ‚เป‰เบญเบเบˆเบฐเป€เบงเบปเป‰เบฒเบเปˆเบฝเบงเบเบฑเบšเป€เบฅเบทเปˆเบญเบ‡เบ™เบตเป‰เปƒเบ™เบšเบปเบ”เบ„เบงเบฒเบกเบญเบทเปˆเบ™. เบ™เบตเป‰เปเบกเปˆเบ™เป€เบงเบ—เบตเบ—เบตเปˆเป€เบ›เบฑเบ™เป€เบˆเบปเป‰เบฒเบžเบฒเบšเบเบฒเบ™เปเบ‚เปˆเบ‡เบ‚เบฑเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ‚เปเป‰เบกเบนเบ™. เปƒเบ™เปเบ•เปˆเบฅเบฐเบเบฒเบ™เปเบ‚เปˆเบ‡เบ‚เบฑเบ™เบ”เบฑเปˆเบ‡เบเปˆเบฒเบง, เปƒเบ™เป„เบฅเบเบฐเป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™, เบ—เปˆเบฒเบ™เบˆเบฐเป„เบ”เป‰เบฎเบฑเบšเบ›เบฐเบชเบปเบšเบเบฒเบ™เบ—เบตเปˆเบšเปเปˆเบชเบปเบกเป€เบซเบ”เบชเบปเบกเบœเบปเบ™เปƒเบ™เบเบฒเบ™เปเบเป‰เป„เบ‚เบšเบฑเบ™เบซเบฒเบ›เบฐเป€เบžเบ”เบ•เปˆเบฒเบ‡เป†, เบ›เบฐเบชเบปเบšเบเบฒเบ™เบเบฒเบ™เบžเบฑเบ”เบ—เบฐเบ™เบฒเปเบฅเบฐเบ›เบฐเบชเบปเบšเบเบฒเบ™เบเบฒเบ™เป€เบฎเบฑเบ”เบงเบฝเบเปƒเบ™เบ—เบตเบก, เป€เบŠเบดเปˆเบ‡เป€เบ›เบฑเบ™เบชเบดเปˆเบ‡เบชเปเบฒเบ„เบฑเบ™เปƒเบ™เบเบธเบเบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒ.

เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเป€เบญเบปเบฒเบงเบฝเบเบ‡เบฒเบ™เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเบˆเบฒเบเบšเปˆเบญเบ™เบ™เบฑเป‰เบ™. เบกเบฑเบ™เบ–เบทเบเป€เบญเบตเป‰เบ™เบงเปˆเบฒ "Titanic". เป€เบ‡เบทเปˆเบญเบ™เป„เบ‚เปเบกเปˆเบ™เบ™เบตเป‰: เบ„เบฒเบ”เบ„เบฐเป€เบ™เบงเปˆเบฒเปเบ•เปˆเบฅเบฐเบ„เบปเบ™เบˆเบฐเบขเบนเปˆเบฅเบญเบ”. เป‚เบ”เบเบ—เบปเปˆเบงเป„เบ›เปเบฅเป‰เบง, เบงเบฝเบเบ‡เบฒเบ™เบ‚เบญเบ‡เบšเบธเบเบ„เบปเบ™เบ—เบตเปˆเบเปˆเบฝเบงเบ‚เป‰เบญเบ‡เบเบฑเบš DS เปเบกเปˆเบ™เบเบฒเบ™เบฅเบงเบšเบฅเบงเบกเบ‚เปเป‰เบกเบนเบ™, เบเบฒเบ™เบ›เบธเบ‡เปเบ•เปˆเบ‡เบกเบฑเบ™, เบเบฒเบ™เบเบถเบเบญเบปเบšเบฎเบปเบกเปเบšเบšเบˆเปเบฒเบฅเบญเบ‡, เบเบฒเบ™เบ„เบฒเบ”เบ„เบฐเป€เบ™, เปเบฅเบฐเบญเบทเปˆเบ™เป†. เปƒเบ™ kaggle, เบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบ–เบทเบเบญเบฐเบ™เบธเบเบฒเบ”เปƒเบซเป‰เบ‚เป‰เบฒเบกเบ‚เบฑเป‰เบ™เบ•เบญเบ™เบเบฒเบ™เบฅเบงเบšเบฅเบงเบกเบ‚เปเป‰เบกเบนเบ™ - เบžเบงเบเบกเบฑเบ™เบ–เบทเบเบ™เปเบฒเบชเบฐเป€เบซเบ™เบตเปƒเบ™เป€เบงเบ—เบต. เบžเบงเบเป€เบฎเบปเบฒเบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เป„เบ”เป‰เบ”เบฒเบงเบ™เปŒเป‚เบซเบฅเบ”เปƒเบซเป‰เป€เบ‚เบปเบฒเป€เบˆเบปเป‰เบฒเปเบฅเบฐเบžเบงเบเป€เบฎเบปเบฒเบชเบฒเบกเบฒเบ”เป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™เป„เบ”เป‰!

เบ—เปˆเบฒเบ™เบชเบฒเบกเบฒเบ”เป€เบฎเบฑเบ”เป„เบ”เป‰เบ”เบฑเปˆเบ‡เบ™เบตเป‰:

เปเบ–เบšเบ‚เปเป‰เบกเบนเบ™เบ›เบฐเบเบญเบšเบ”เป‰เบงเบเป„เบŸเบฅเปŒเบ—เบตเปˆเบกเบตเบ‚เปเป‰เบกเบนเบ™

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบ”เบฒเบงเป‚เบซเบฅเบ”เบ‚เปเป‰เบกเบนเบ™, เบเบฐเบเบฝเบกเบ›เบทเป‰เบกเบšเบฑเบ™เบ—เบถเบ Jupyter เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเปเบฅเบฐ ...

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเบชเบญเบ‡

เบ•เบญเบ™เบ™เบตเป‰เป€เบฎเบปเบฒเป‚เบซเบผเบ”เบ‚เปเป‰เบกเบนเบ™เบ™เบตเป‰เปเบ™เบงเปƒเบ”?

เบ—เปเบฒเบญเบดเบ”, เปƒเบซเป‰เบ™เปเบฒเป€เบ‚เบปเป‰เบฒเบซเป‰เบญเบ‡เบชเบฐเบซเบกเบธเบ”เบ—เบตเปˆเบˆเปเบฒเป€เบ›เบฑเบ™:

import pandas as pd
import numpy as np

Pandas เบˆเบฐเบญเบฐเบ™เบธเบเบฒเบ”เปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเบ”เบฒเบงเป‚เบซเบฅเบ”เป„เบŸเบฅเปŒ .csv เป€เบžเบทเปˆเบญเบ”เปเบฒเป€เบ™เบตเบ™เบเบฒเบ™เบ•เปเปˆเป„เบ›.

Numpy เปเบกเปˆเบ™เบˆเปเบฒเป€เบ›เบฑเบ™เป€เบžเบทเปˆเบญเบชเบฐเปเบ”เบ‡เบ•เบฒเบ•เบฐเบฅเบฒเบ‡เบ‚เปเป‰เบกเบนเบ™เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบ›เบฑเบ™ matrix เบ—เบตเปˆเบกเบตเบ•เบปเบงเป€เบฅเบ.
เบชเบทเบšเบ•เปเปˆเป€เบ”เบตเบ™เบซเบ™เป‰เบฒ. เบฅเบญเบ‡เป€เบญเบปเบฒเป„เบŸเบฅเปŒ train.csv เปเบฅเบฐเบญเบฑเบšเป‚เบซเบฅเบ”เปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒ:

dataset = pd.read_csv('train.csv')

เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบญเป‰เบฒเบ‡เบญเบตเบ‡เป€เบ–เบดเบ‡เบเบฒเบ™เป€เบฅเบทเบญเบเบ‚เปเป‰เบกเบนเบ™ train.csv เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเบœเปˆเบฒเบ™เบ•เบปเบงเปเบ›เบŠเบธเบ”เบ‚เปเป‰เบกเบนเบ™. เบกเบฒเป€เบšเบดเปˆเบ‡เบเบฑเบ™เบงเปˆเบฒเบกเบตเบซเบเบฑเบ‡เปเบ”เปˆ:

dataset.head()

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบŸเบฑเบ‡เบŠเบฑเบ™ head() เบŠเปˆเบงเบเปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเป€เบšเบดเปˆเบ‡เบชเบญเบ‡เบชเบฒเบกเปเบ–เบงเบ—เบณเบญเบดเบ”เบ‚เบญเบ‡เบเบญเบšเบ‚เปเป‰เบกเบนเบ™.

เบ–เบฑเบ™เบ—เบตเปˆเบฅเบญเบ”เบŠเบตเบงเบดเบ”เปเบกเปˆเบ™เปเบ™เปˆเบ™เบญเบ™เบœเบปเบ™เป„เบ”เป‰เบฎเบฑเบšเบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒ, เป€เบŠเบดเปˆเบ‡เป€เบ›เบฑเบ™เบ—เบตเปˆเบฎเบนเป‰เบˆเบฑเบเปƒเบ™เบเบญเบšเบ‚เปเป‰เบกเบนเบ™เบ™เบตเป‰. เบชเปเบฒเบฅเบฑเบšเบ„เปเบฒเบ–เบฒเบกเบเปˆเบฝเบงเบเบฑเบšเบงเบฝเบเบ‡เบฒเบ™, เบžเบงเบเป€เบฎเบปเบฒเบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เป„เบ”เป‰เบ„เบฒเบ”เบ„เบฐเป€เบ™เบ„เปเบฅเปเบฒ Survived เบชเปเบฒเบฅเบฑเบšเบ‚เปเป‰เบกเบนเบ™ test.csv. เบ‚เปเป‰เบกเบนเบ™เบ™เบตเป‰เป€เบเบฑเบšเบฎเบฑเบเบชเบฒเบ‚เปเป‰เบกเบนเบ™เบเปˆเบฝเบงเบเบฑเบšเบœเบนเป‰เป‚เบ”เบเบชเบฒเบ™เบญเบทเปˆเบ™เป†เบ‚เบญเบ‡ Titanic, เป€เบŠเบดเปˆเบ‡เบžเบงเบเป€เบฎเบปเบฒ, เปเบเป‰เป„เบ‚เบšเบฑเบ™เบซเบฒ, เบšเปเปˆเบฎเบนเป‰เบœเบปเบ™เป„เบ”เป‰เบฎเบฑเบš.

เบ”เบฑเปˆเบ‡เบ™เบฑเป‰เบ™, เปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเปเบšเปˆเบ‡เบ•เบฒเบ•เบฐเบฅเบฒเบ‡เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบ›เบฑเบ™เบ‚เปเป‰เบกเบนเบ™เบ—เบตเปˆเบ‚เบถเป‰เบ™เบเบฑเบšเปเบฅเบฐเป€เบญเบเบฐเบฅเบฒเบ”. เบ—เบธเบเบชเบดเปˆเบ‡เบ—เบธเบเบขเปˆเบฒเบ‡เปเบกเปˆเบ™เบ‡เปˆเบฒเบเบ”เบฒเบเบขเบนเปˆเบ—เบตเปˆเบ™เบตเป‰. เบ‚เปเป‰เบกเบนเบ™เบ—เบตเปˆเบ‚เบถเป‰เบ™เบเบฑเบšเปเบกเปˆเบ™เบ‚เปเป‰เบกเบนเบ™เป€เบซเบผเบปเปˆเบฒเบ™เบฑเป‰เบ™เบ—เบตเปˆเบ‚เบถเป‰เบ™เบเบฑเบšเบ‚เปเป‰เบกเบนเบ™เป€เบญเบเบฐเบฅเบฒเบ”เบ—เบตเปˆเบขเบนเปˆเปƒเบ™เบœเบปเบ™เป„เบ”เป‰เบฎเบฑเบš. เบ‚เปเป‰เบกเบนเบ™เป€เบญเบเบฐเบฅเบฒเบ”เปเบกเปˆเบ™เบ‚เปเป‰เบกเบนเบ™เป€เบซเบผเบปเปˆเบฒเบ™เบฑเป‰เบ™เบ—เบตเปˆเบกเบตเบญเบดเบ”เบ—เบดเบžเบปเบ™เบ•เปเปˆเบœเบปเบ™เป„เบ”เป‰เบฎเบฑเบš.

เบ•เบปเบงเบขเปˆเบฒเบ‡, เบžเบงเบเป€เบฎเบปเบฒเบกเบตเบŠเบธเบ”เบ‚เปเป‰เบกเบนเบ™เบ•เปเปˆเป„เบ›เบ™เบตเป‰:

โ€œVova เบชเบญเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ„เบญเบกเบžเบดเบงเป€เบ•เบต - เบšเปเปˆ.
Vova เป„เบ”เป‰เบฎเบฑเบš 2 เปƒเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ„เบญเบกเบžเบดเบงเป€เบ•เบต."

เบŠเบฑเป‰เบ™เบฎเบฝเบ™เปƒเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ„เบญเบกเบžเบดเบงเป€เบ•เบตเปเบกเปˆเบ™เบ‚เบถเป‰เบ™เบเบฑเบšเบ„เปเบฒเบ•เบญเบšเบ‚เบญเบ‡เบ„เปเบฒเบ–เบฒเบก: Vova เป„เบ”เป‰เบฎเบฝเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ„เบญเบกเบžเบดเบงเป€เบ•เบตเบšเป? เบกเบฑเบ™เบˆเบฐเปเบˆเป‰เบ‡เบšเป? เบเป‰เบฒเบงเบ•เปเปˆเป„เบ›, เบžเบงเบเป€เบฎเบปเบฒเปƒเบเป‰เบเบฑเบšเป€เบ›เบปเป‰เบฒเบซเบกเบฒเบเปเบฅเป‰เบง!

เบ•เบปเบงเปเบ›เปเบšเบšเบ”เบฑเป‰เบ‡เป€เบ”เบตเบกเบชเปเบฒเบฅเบฑเบšเบ‚เปเป‰เบกเบนเบ™เป€เบญเบเบฐเบฅเบฒเบ”เปเบกเปˆเบ™ X. เบชเปเบฒเบฅเบฑเบšเบ‚เปเป‰เบกเบนเบ™เบ—เบตเปˆเบ‚เบถเป‰เบ™เบเบฑเบš, y.

เบžเบงเบเป€เบฎเบปเบฒเป€เบฎเบฑเบ”เบชเบดเปˆเบ‡เบ•เปเปˆเป„เบ›เบ™เบตเป‰:

X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]

เบกเบฑเบ™โ€‹เปเบกเปˆเบ™โ€‹เบซเบเบฑเบ‡? เบ”เป‰เบงเบเบŸเบฑเบ‡เบŠเบฑเบ™ iloc[:, 2:] เบžเบงเบเป€เบฎเบปเบฒเบšเบญเบ Python: เบ‚เป‰เบญเบเบ•เป‰เบญเบ‡เบเบฒเบ™เป€เบšเบดเปˆเบ‡เบ•เบปเบงเปเบ› X เบ‚เปเป‰เบกเบนเบ™เป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™เบˆเบฒเบเบ„เปเบฅเปเบฒเบ—เบตเบชเบญเบ‡ (เบฅเบงเบกเปเบฅเบฐเบชเบฐเบซเบ™เบญเบ‡เปƒเบซเป‰เบงเปˆเบฒเบเบฒเบ™เบ™เบฑเบšเป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™เบˆเบฒเบเบชเบนเบ™). เปƒเบ™เปเบ–เบงเบ—เบตเบชเบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบงเบปเป‰เบฒเบงเปˆเบฒเบžเบงเบเป€เบฎเบปเบฒเบ•เป‰เบญเบ‡เบเบฒเบ™เป€เบšเบดเปˆเบ‡เบ‚เปเป‰เบกเบนเบ™เปƒเบ™เบ–เบฑเบ™เบ—เปเบฒเบญเบดเบ”.

[ a:b, c:d ] เปเบกเปˆเบ™เบเบฒเบ™เบชเป‰เบฒเบ‡เบชเบดเปˆเบ‡เบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเปƒเบŠเป‰เปƒเบ™เบงเบปเบ‡เป€เบฅเบฑเบš. เบ–เป‰เบฒเบ—เปˆเบฒเบ™เบšเปเปˆเบฅเบฐเบšเบธเบ•เบปเบงเปเบ›เปƒเบ”เป†, เบžเบงเบเบกเบฑเบ™เบˆเบฐเบ–เบทเบเบšเบฑเบ™เบ—เบถเบเป€เบ›เบฑเบ™เบ„เปˆเบฒเป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™. เบ™เบฑเป‰เบ™เปเบกเปˆเบ™, เบžเบงเบเป€เบฎเบปเบฒเบชเบฒเบกเบฒเบ”เบฅเบฐเบšเบธ [:, : d] เปเบฅเบฐเบซเบผเบฑเบ‡เบˆเบฒเบเบ™เบฑเป‰เบ™เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเป„เบ”เป‰เบฎเบฑเบšเบ„เปเบฅเปเบฒเบ—เบฑเบ‡เบซเบกเบปเบ”เปƒเบ™เบเบญเบšเบ‚เปเป‰เบกเบนเบ™, เบเบปเบเป€เบงเบฑเป‰เบ™เบ—เบตเปˆเบกเบฒเบˆเบฒเบเบˆเปเบฒเบ™เบงเบ™ d เป€เบ›เบฑเบ™เบ•เบปเป‰เบ™เป„เบ›. เบ•เบปเบงเปเบ› a เปเบฅเบฐ b เบเปเบฒเบ™เบปเบ”เบชเบฐเบ•เบฃเบดเบ‡, เปเบ•เปˆเบžเบงเบเป€เบฎเบปเบฒเบ•เป‰เบญเบ‡เบเบฒเบ™เบžเบงเบเบกเบฑเบ™เบ—เบฑเบ‡เบซเบกเบปเบ”, เบ”เบฑเปˆเบ‡เบ™เบฑเป‰เบ™เบžเบงเบเป€เบฎเบปเบฒเบˆเบถเปˆเบ‡เบ›เปˆเบญเบเปƒเบซเป‰เบกเบฑเบ™เป€เบ›เบฑเบ™เบ„เปˆเบฒเป€เบฅเบตเปˆเบกเบ•เบปเป‰เบ™.

เบกเบฒเป€เบšเบดเปˆเบ‡เบชเบดเปˆเบ‡เบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบฎเบฑเบš:

X.head()

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

y.head()

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เป€เบžเบทเปˆเบญเป€เบฎเบฑเบ”เปƒเบซเป‰เบšเบปเบ”เบฎเบฝเบ™เป€เบฅเบฑเบเบ™เป‰เบญเบเบ™เบตเป‰เบ‡เปˆเบฒเบเบ”เบฒเบ, เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเป€เบญเบปเบฒเบ„เปเบฅเปเบฒเบ—เบตเปˆเบ•เป‰เบญเบ‡เบเบฒเบ™เบเบฒเบ™เบ”เบนเปเบฅเบžเบดเป€เบชเบ”เบซเบผเบทเบšเปเปˆเบกเบตเบœเบปเบ™เบเบฐเบ—เบปเบšเบ•เปเปˆเบเบฒเบ™เบขเบนเปˆเบฅเบญเบ”เบ—เบฑเบ‡เบซเบกเบปเบ”. เบžเบงเบเบกเบฑเบ™เบกเบตเบ‚เปเป‰เบกเบนเบ™เบ›เบฐเป€เบžเบ” str.

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)

เบชเบธเบ”เบเบญเบ”! เบ‚เปเปƒเบซเป‰เบเป‰เบฒเบงเป„เบ›เบชเบนเปˆเบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ•เปเปˆเป„เบ›.

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเบชเบฒเบก

เปƒเบ™เบ—เบตเปˆเบ™เบตเป‰เบžเบงเบเป€เบฎเบปเบฒเบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เป„เบ”เป‰เป€เบ‚เบปเป‰เบฒเบฅเบฐเบซเบฑเบ”เบ‚เปเป‰เบกเบนเบ™เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบžเบทเปˆเบญเปƒเบซเป‰เป€เบ„เบทเปˆเบญเบ‡เบˆเบฑเบเป€เบ‚เบปเป‰เบฒเปƒเบˆเบ”เบตเบ‚เบถเป‰เบ™เบงเปˆเบฒเบ‚เปเป‰เบกเบนเบ™เบ™เบตเป‰เบกเบตเบœเบปเบ™เบเบฐเบ—เบปเบšเบ•เปเปˆเบœเบปเบ™เป„เบ”เป‰เบฎเบฑเบšเปเบ™เบงเปƒเบ”. เปเบ•เปˆเบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบšเปเปˆเป€เบ‚เบปเป‰เบฒเบฅเบฐเบซเบฑเบ”เบ—เบธเบเบขเปˆเบฒเบ‡, เปเบ•เปˆเบงเปˆเบฒเบžเบฝเบ‡เปเบ•เปˆเบ‚เปเป‰เบกเบนเบ™ str เบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเบ›เบฐเป„เบงเป‰. เบ–เบฑเบ™ "เป€เบžเบ”". เบžเบงเบเป€เบฎเบปเบฒเบ•เป‰เบญเบ‡เบเบฒเบ™เบฅเบฐเบซเบฑเบ”เปเบ™เบงเปƒเบ”? เปƒเบซเป‰เบชเบฐเปเบ”เบ‡เบ‚เปเป‰เบกเบนเบ™เบเปˆเบฝเบงเบเบฑเบšเป€เบžเบ”เบ‚เบญเบ‡เบšเบธเบเบ„เบปเบ™เป€เบ›เบฑเบ™ vector: 10 - เป€เบžเบ”เบŠเบฒเบ, 01 - เป€เบžเบ”เบเบดเบ‡.

เบเปˆเบญเบ™เบญเบทเปˆเบ™, เปƒเบซเป‰เบ›เปˆเบฝเบ™เบ•เบฒเบ•เบฐเบฅเบฒเบ‡เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบ›เบฑเบ™ NumPy matrix:

X = np.array(X)
y = np.array(y)

เปเบฅเบฐเบ•เบญเบ™เบ™เบตเป‰เปƒเบซเป‰เป€เบšเบดเปˆเบ‡:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X = np.array(ct.fit_transform(X))

เบซเปเบชเบฐเบซเบกเบธเบ” sklearn เป€เบ›เบฑเบ™เบซเป‰เบญเบ‡เบชเบฐเบซเบกเบธเบ”เป€เบขเบฑเบ™เบ—เบตเปˆเบญเบฐเบ™เบธเบเบฒเบ”เปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเป€เบฎเบฑเบ”เบงเบฝเบเบชเปเบฒเป€เบฅเบฑเบ”เปƒเบ™ Data Science. เบกเบฑเบ™เบกเบตเบˆเปเบฒเบ™เบงเบ™เบ‚เบฐเบซเบ™เบฒเบ”เปƒเบซเบเปˆเบ‚เบญเบ‡เบฎเบนเบšเปเบšเบšเบเบฒเบ™เบฎเบฝเบ™เบฎเบนเป‰เป€เบ„เบทเปˆเบญเบ‡เบˆเบฑเบเบ—เบตเปˆเบซเบ™เป‰เบฒเบชเบปเบ™เปƒเบˆเปเบฅเบฐเบเบฑเบ‡เบŠเปˆเบงเบเปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเบเบฐเบเบฝเบกเบ‚เปเป‰เบกเบนเบ™.

OneHotEncoder เบˆเบฐเบญเบฐเบ™เบธเบเบฒเบ”เปƒเบซเป‰เบžเบงเบเป€เบฎเบปเบฒเป€เบ‚เบปเป‰เบฒเบฅเบฐเบซเบฑเบ”เป€เบžเบ”เบ‚เบญเบ‡เบšเบธเบเบ„เบปเบ™เปƒเบ™เบเบฒเบ™เป€เบ›เบฑเบ™เบ•เบปเบงเปเบ—เบ™เบ™เบฑเป‰เบ™, เบ”เบฑเปˆเบ‡เบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบญเบฐเบ—เบดเบšเบฒเบ. เบˆเบฐเบชเป‰เบฒเบ‡ 2 เบซเป‰เบญเบ‡เบฎเบฝเบ™เบ„เบท: เบŠเบฒเบ, เบเบดเบ‡. เบ–เป‰เบฒเบ„เบปเบ™เบ™เบฑเป‰เบ™เป€เบ›เบฑเบ™เบœเบนเป‰เบŠเบฒเบ, เบซเบผเบฑเบ‡เบˆเบฒเบเบ™เบฑเป‰เบ™ 1 เบˆเบฐเบ–เบทเบเบ‚เบฝเบ™เป„เบงเป‰เปƒเบ™เบ–เบฑเบ™ "เบœเบนเป‰เบŠเบฒเบ", เปเบฅเบฐ 0 เปƒเบ™เบ–เบฑเบ™ "เปเบกเปˆเบเบดเบ‡", เบ•เบฒเบกเบฅเปเบฒเบ”เบฑเบš.

เบซเบผเบฑเบ‡เบˆเบฒเบ OneHotEncoder() เบกเบต [1] - เบ™เบตเป‰เบซเบกเบฒเบเบ„เบงเบฒเบกเบงเปˆเบฒเบžเบงเบเป€เบฎเบปเบฒเบ•เป‰เบญเบ‡เบเบฒเบ™เป€เบ‚เบปเป‰เบฒเบฅเบฐเบซเบฑเบ”เบ–เบฑเบ™เป€เบฅเบ 1 (เบ™เบฑเบšเบˆเบฒเบเบชเบนเบ™).

เบชเบธเบ”เบเบญเบ”. เบ‚เปเปƒเบซเป‰เบเป‰เบฒเบงเบ•เปเปˆเป„เบ›!

เบ•เบฒเบกเบเบปเบ”เบฅเบฐเบšเบฝเบš, เบ™เบตเป‰เป€เบเบตเบ”เบ‚เบทเป‰เบ™เบงเปˆเบฒเบšเบฒเบ‡เบ‚เปเป‰เบกเบนเบ™เบ–เบทเบเบ›เบฐเป„เบงเป‰เบซเบงเปˆเบฒเบ‡เป€เบ›เบปเปˆเบฒ (เบ™เบฑเป‰เบ™เปเบกเปˆเบ™, NaN - เบšเปเปˆเปเบกเปˆเบ™เบ•เบปเบงเป€เบฅเบ). เบ•เบปเบงเบขเปˆเบฒเบ‡, เบกเบตเบ‚เปเป‰เบกเบนเบ™เบเปˆเบฝเบงเบเบฑเบšเบšเบธเบเบ„เบปเบ™: เบŠเบทเปˆ, เป€เบžเบ”. เปเบ•เปˆเบšเปเปˆเบกเบตเบ‚เปเป‰เบกเบนเบ™เบเปˆเบฝเบงเบเบฑเบšเบญเบฒเบเบธเบ‚เบญเบ‡เบฅเบฒเบง. เปƒเบ™เบเปเบฅเบฐเบ™เบตเบ™เบตเป‰, เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบ™เปเบฒเปƒเบŠเป‰เบงเบดเบ—เบตเบเบฒเบ™เบ”เบฑเปˆเบ‡เบ•เปเปˆเป„เบ›เบ™เบตเป‰: เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบŠเบญเบเบซเบฒเบ„เปˆเบฒเบชเบฐเป€เบฅเปˆเบเป€เบฅเบเป€เบฅเบเปƒเบ™เบ–เบฑเบ™เบ—เบฑเบ‡เบซเบกเบปเบ”เปเบฅเบฐ, เบ–เป‰เบฒเบ‚เปเป‰เบกเบนเบ™เบšเบฒเบ‡เบขเปˆเบฒเบ‡เบซเบฒเบเป„เบ›เปƒเบ™เบ–เบฑเบ™, เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบ•เบทเปˆเบกเบŠเปˆเบญเบ‡เบซเบงเปˆเบฒเบ‡เบ”เป‰เบงเบเบ„เปˆเบฒเป€เบฅเบเบ„เบฐเบ™เบดเบ”เบชเบฒเบ”.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)

เบ•เบญเบ™เบ™เบตเป‰เปƒเบซเป‰เบ„เปเบฒเบ™เบถเบ‡เป€เบ–เบดเบ‡เบชเบฐเบ–เบฒเบ™เบฐเบเบฒเบ™เบ—เบตเปˆเป€เบเบตเบ”เบ‚เบทเป‰เบ™เป€เบกเบทเปˆเบญเบ‚เปเป‰เบกเบนเบ™เบกเบตเบ‚เบฐเบซเบ™เบฒเบ”เปƒเบซเบเปˆเบซเบผเบฒเบ. เบšเบฒเบ‡เบ‚เปเป‰เบกเบนเบ™เปเบกเปˆเบ™เบขเบนเปˆเปƒเบ™เป„เบฅเบเบฐ [0:1], เปƒเบ™เบ‚เบฐเบ™เบฐเบ—เบตเปˆเบšเบฒเบ‡เบ‚เปเป‰เบกเบนเบ™เบญเบฒเบ”เบˆเบฐเป„เบ›เบซเบผเบฒเบเบเบงเปˆเบฒเบซเบผเบฒเบเบฎเป‰เบญเบเบžเบฑเบ™เบ„เบปเบ™. เป€เบžเบทเปˆเบญเบฅเบปเบšเบฅเป‰เบฒเบ‡เบเบฒเบ™เบเบฐเปเบˆเบเบเบฐเบˆเบฒเบเบ”เบฑเปˆเบ‡เบเปˆเบฒเบงเปเบฅเบฐเป€เบฎเบฑเบ”เปƒเบซเป‰เบ„เบญเบกเบžเบดเบงเป€เบ•เบตเบกเบตเบ„เบงเบฒเบกเบ–เบทเบเบ•เป‰เบญเบ‡เบซเบผเบฒเบเบ‚เบถเป‰เบ™เปƒเบ™เบเบฒเบ™เบ„เบดเบ”เป„เบฅเปˆเบ‚เบญเบ‡เบกเบฑเบ™, เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบชเบฐเปเบเบ™เบ‚เปเป‰เบกเบนเบ™เปเบฅเบฐเบ‚เบฐเบซเบ™เบฒเบ”เบกเบฑเบ™. เปƒเบซเป‰เบ•เบปเบงเป€เบฅเบเบ—เบฑเบ‡เบซเบกเบปเบ”เบšเปเปˆเป€เบเบตเบ™เบชเบฒเบก. เป€เบžเบทเปˆเบญเป€เบฎเบฑเบ”เบชเบดเปˆเบ‡เบ™เบตเป‰, เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเบ™เปเบฒเปƒเบŠเป‰เบŸเบฑเบ‡เบŠเบฑเบ™ StandardScaler.

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])

เปƒเบ™เบ›เบฑเบ”เบˆเบธเบšเบฑเบ™เบ‚เปเป‰เบกเบนเบ™เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเป€เบšเบดเปˆเบ‡เบ„เบทเบงเปˆเบฒเบ™เบตเป‰:

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบซเป‰เบญเบ‡เบฎเบฝเบ™. เบžเบงเบเป€เบฎเบปเบฒเปƒเบเป‰เบˆเบฐเบฎเบญเบ”เป€เบ›เบปเป‰เบฒเปเบฒเบเปเบฅเป‰เบง!

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเบชเบตเปˆ

เบกเบฒเบเบถเบเบเบปเบ™เปเบšเบšเบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒ! เบˆเบฒเบเบซเป‰เบญเบ‡เบชเบฐเบซเบกเบธเบ” sklearn เบžเบงเบเป€เบฎเบปเบฒเบชเบฒเบกเบฒเบ”เบŠเบญเบเบซเบฒเบˆเปเบฒเบ™เบงเบ™เบซเบฅเบฒเบเบ‚เบญเบ‡เบชเบดเปˆเบ‡เบ—เบตเปˆเบซเบ™เป‰เบฒเบชเบปเบ™เปƒเบˆ. เบ‚เป‰เบฒเบžเบฐเป€เบˆเบปเป‰เบฒเป„เบ”เป‰เบ™เปเบฒเปƒเบŠเป‰เบ•เบปเบงเปเบšเบš Gradient Boosting Classifier เบเบฑเบšเบšเบฑเบ™เบซเบฒเบ™เบตเป‰. เบžเบงเบเป€เบฎเบปเบฒเปƒเบŠเป‰เบ•เบปเบงเบˆเบฑเบ”เบ›เบฐเป€เบžเบ” A เป€เบžเบฒเบฐเบงเปˆเบฒเบงเบฝเบเบ‡เบฒเบ™เบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเปเบกเปˆเบ™เบงเบฝเบเบ‡เบฒเบ™เบเบฒเบ™เบˆเบฑเบ”เบ›เบฐเป€เบžเบ”. เบเบฒเบ™เบ„เบฒเบ”เบ„เบฐเป€เบ™เบ„เบงเบ™เบˆเบฐเบ–เบทเบเบกเบญเบšเบซเบกเบฒเบเปƒเบซเป‰ 1 (เบฅเบญเบ”) เบซเบผเบท 0 (เบšเปเปˆเบฅเบญเบ”).

from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)

เบŸเบฑเบ‡เบŠเบฑเบ™เบ—เบตเปˆเบžเปเบ”เบตเบšเบญเบ Python: เปƒเบซเป‰เบ•เบปเบงเปเบšเบšเบŠเบญเบเบซเบฒเบ„เบงเบฒเบกเป€เบžเบดเปˆเบ‡เบžเบฒเบญเบฒเป„เบชเบฅเบฐเบซเบงเปˆเบฒเบ‡ X เปเบฅเบฐ y.

เบซเบ™เป‰เบญเบเบเบงเปˆเบฒเบซเบ™เบถเปˆเบ‡เบงเบดเบ™เบฒเบ—เบตเปเบฅเบฐเบฎเบนเบšเปเบšเบšเปเบกเปˆเบ™เบเบฝเบกเบžเป‰เบญเบก.

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เปเบฒเบญเบดเบ”เบ‚เบญเบ‡เบ—เปˆเบฒเบ™เปƒเบ™ Data Science. Titanic

เบงเบดเบ—เบตเบเบฒเบ™เบชเบฐเบซเบกเบฑเบ? เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเป€เบซเบฑเบ™เบ”เบฝเบงเบ™เบตเป‰!

เบ‚เบฑเป‰เบ™เบ•เบญเบ™เบ—เบตเบซเป‰เบฒ. เบชเบฐเบซเบผเบธเบš

เปƒเบ™เบ›เบฑเบ”เบˆเบธเบšเบฑเบ™เบžเบงเบเป€เบฎเบปเบฒเบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เป„เบ”เป‰เป‚เบซเบฅเบ”เบ•เบฒเบ•เบฐเบฅเบฒเบ‡เบ—เบตเปˆเบกเบตเบ‚เปเป‰เบกเบนเบ™เบเบฒเบ™เบ—เบปเบ”เบชเบญเบšเบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เป„เบ”เป‰เป€เบฎเบฑเบ”เบเบฒเบ™เบ„เบฒเบ”เบ„เบฐเป€เบ™. เบ”เป‰เบงเบเบ•เบฒเบ•เบฐเบฅเบฒเบ‡เบ™เบตเป‰เบžเบงเบเป€เบฎเบปเบฒเบˆเบฐเป€เบฎเบฑเบ”เบ—เบธเบเบเบฒเบ™เบ›เบฐเบ•เบดเบšเบฑเบ”เบ”เบฝเบงเบเบฑเบ™เบ—เบตเปˆเบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เป€เบฎเบฑเบ”เบชเปเบฒเบฅเบฑเบš X.

X_test = pd.read_csv('test.csv', index_col=0)

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)

X_test = np.array(X_test)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])

เปƒเบซเป‰เปƒเบŠเป‰เบ•เบปเบงเปเบšเบšเบ‚เบญเบ‡เบžเบงเบเป€เบฎเบปเบฒเบ”เบฝเบงเบ™เบตเป‰!

gbc_predict = gbc.predict(X_test)

เบ—เบฑเบ‡เปเบปเบ”. เบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบ„เบฒเบ”เบ„เบฐเป€เบ™. เปƒเบ™เบ›เบฑเบ”เบˆเบธเบšเบฑเบ™เบกเบฑเบ™เบˆเปเบฒเป€เบ›เบฑเบ™เบ•เป‰เบญเบ‡เบ–เบทเบเบšเบฑเบ™เบ—เบถเบเป„เบงเป‰เปƒเบ™ csv เปเบฅเบฐเบ–เบทเบเบชเบปเปˆเบ‡เป„เบ›เบซเบฒเป€เบงเบฑเบšเป„เบŠเบ—เปŒ.

np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')

เบžเป‰เบญเบก. เบžเบงเบเป€เบฎเบปเบฒเป„เบ”เป‰เบฎเบฑเบšเป„เบŸเบฅเปŒเบ—เบตเปˆเบกเบตเบเบฒเบ™เบ„เบฒเบ”เบ„เบฐเป€เบ™เบชเปเบฒเบฅเบฑเบšเบœเบนเป‰เป‚เบ”เบเบชเบฒเบ™เปเบ•เปˆเบฅเบฐเบ„เบปเบ™. เบ—เบฑเบ‡เบซเบกเบปเบ”เบ—เบตเปˆเบเบฑเบ‡เป€เบซเบผเบทเบญเปเบกเปˆเบ™เป€เบžเบทเปˆเบญเบญเบฑเบšเป‚เบซเบฅเบ”เบเบฒเบ™เปเบเป‰เป„เบ‚เป€เบซเบผเบปเปˆเบฒเบ™เบตเป‰เป„เบ›เบซเบฒเป€เบงเบฑเบšเป„เบŠเบ—เปŒเปเบฅเบฐเป„เบ”เป‰เบฎเบฑเบšเบเบฒเบ™เบ›เบฐเป€เบกเบตเบ™เบเบฒเบ™เบ„เบฒเบ”เบ„เบฐเป€เบ™. เบเบฒเบ™เปเบเป‰เป„เบ‚เป€เบšเบทเป‰เบญเบ‡เบ•เบปเป‰เบ™เบ”เบฑเปˆเบ‡เบเปˆเบฒเบงเบšเปเปˆเบžเบฝเบ‡เปเบ•เปˆเปƒเบซเป‰ 74% เบ‚เบญเบ‡เบ„เปเบฒเบ•เบญเบšเบ—เบตเปˆเบ–เบทเบเบ•เป‰เบญเบ‡เบขเบนเปˆเปƒเบ™เบชเบฒเบ—เบฒเบฅเบฐเบ™เบฐ, เปเบ•เปˆเบเบฑเบ‡เป€เบ›เบฑเบ™เปเบฎเบ‡เบเบฐเบ•เบธเป‰เบ™เบšเบฒเบ‡เบขเปˆเบฒเบ‡เปƒเบ™เบงเบดเบ—เบฐเบเบฒเบชเบฒเบ”เบ‚เปเป‰เบกเบนเบ™. เบ„เบปเบ™เบ—เบตเปˆเบขเบฒเบเบฎเบนเป‰เบขเบฒเบเป€เบซเบฑเบ™เบ—เบตเปˆเบชเบธเบ”เบชเบฒเบกเบฒเบ”เบ‚เบฝเบ™เบซเบฒเบ‚เป‰เบญเบเปƒเบ™เบ‚เปเป‰เบ„เบงเบฒเบกเบชเปˆเบงเบ™เบ•เบปเบงเป„เบ”เป‰เบ—เบธเบเป€เบงเบฅเบฒเปเบฅเบฐเบ–เบฒเบกเบ„เปเบฒเบ–เบฒเบก. เบ‚เบญเบšเปƒเบˆเบ—เบธเบเบ„เบปเบ™!

เปเบซเบผเปˆเบ‡เบ‚เปเป‰เบกเบนเบ™: www.habr.com

เป€เบžเบตเปˆเบกเบ„เบงเบฒเบกเบ„เบดเบ”เป€เบซเบฑเบ™