ΠΡΠ°ΡΠΎΠΊ Π²ΠΎΠ²Π΅Π΄Π΅Π½ Π·Π±ΠΎΡ
ΠΠ΅ΡΡΠ²Π°ΠΌ Π΄Π΅ΠΊΠ° Π±ΠΈ ΠΌΠΎΠΆΠ΅Π»Π΅ Π΄Π° Π½Π°ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΠΏΠΎΠ²Π΅ΡΠ΅ ΡΠ°Π±ΠΎΡΠΈ Π΄ΠΎΠΊΠΎΠ»ΠΊΡ Π½ΠΈ Π±ΠΈΠ΄Π°Ρ Π΄Π°Π΄Π΅Π½ΠΈ ΡΠ΅ΠΊΠΎΡ-ΠΏΠΎ-ΡΠ΅ΠΊΠΎΡ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΈ ΠΊΠΎΠΈ ΡΠ΅ Π½ΠΈ ΠΊΠ°ΠΆΠ°Ρ ΡΡΠΎ Π΄Π° ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΠΈ ΠΊΠ°ΠΊΠΎ Π΄Π° Π³ΠΎ ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΡΠΎΠ°. Π‘Π΅ ΡΠ΅ΡΠ°Π²Π°ΠΌ Π½Π° ΠΌΠΎΠΌΠ΅Π½ΡΠΈ ΠΎΠ΄ ΠΌΠΎΡΠΎΡ ΠΆΠΈΠ²ΠΎΡ ΠΊΠΎΠ³Π° Π½Π΅ ΠΌΠΎΠΆΠ΅Π² Π΄Π° Π·Π°ΠΏΠΎΡΠ½Π°ΠΌ Π½Π΅ΡΡΠΎ Π·Π°ΡΠΎΠ° ΡΡΠΎ Π±Π΅ΡΠ΅ Π΅Π΄Π½ΠΎΡΡΠ°Π²Π½ΠΎ ΡΠ΅ΡΠΊΠΎ Π΄Π° ΡΠ΅ ΡΠ°Π·Π±Π΅ΡΠ΅ ΠΎΠ΄ ΠΊΠ°Π΄Π΅ Π΄Π° ΠΏΠΎΡΠ½Π°ΠΌ. ΠΠΎΠΆΠ΅Π±ΠΈ Π½Π΅ΠΊΠΎΠ³Π°Ρ Π½Π° ΠΠ½ΡΠ΅ΡΠ½Π΅Ρ ΡΡΠ΅ Π³ΠΈ Π²ΠΈΠ΄Π΅Π»Π΅ Π·Π±ΠΎΡΠΎΠ²ΠΈΡΠ΅ βΠΠ°ΡΠΊΠ° Π·Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈβ ΠΈ ΡΠ΅ΡΠΈΠ²ΡΠ΅ Π΄Π΅ΠΊΠ° ΡΡΠ΅ Π΄Π°Π»Π΅ΠΊΡ ΠΎΠ΄ ΠΎΠ²Π°, Π° Π»ΡΡΠ΅ΡΠΎ ΡΡΠΎ Π³ΠΎ ΠΏΡΠ°Π²Π°Ρ ΡΠΎΠ° Π±ΠΈΠ»Π΅ Π½Π΅ΠΊΠ°Π΄Π΅ ΡΠ°ΠΌΡ, Π²ΠΎ Π΄ΡΡΠ³ ΡΠ²Π΅Ρ. ΠΠ΅, ΡΠΈΠ΅ ΡΠ΅ ΡΡΠΊΠ°. Π, ΠΌΠΎΠΆΠ΅Π±ΠΈ, Π±Π»Π°Π³ΠΎΠ΄Π°ΡΠ΅Π½ΠΈΠ΅ Π½Π° Π»ΡΡΠ΅ΡΠΎ ΠΎΠ΄ ΠΎΠ²Π°Π° ΠΎΠ±Π»Π°ΡΡ, ΡΠ΅ ΠΏΠΎΡΠ°Π²ΠΈ ΡΡΠ°ΡΠΈΡΠ° Π½Π° Π²Π°ΡΠ°ΡΠ° Ρ
ΡΠ°Π½Π°. ΠΠΌΠ° ΠΌΠ½ΠΎΠ³Ρ ΠΊΡΡΡΠ΅Π²ΠΈ ΠΊΠΎΠΈ ΡΠ΅ Π²ΠΈ ΠΏΠΎΠΌΠΎΠ³Π½Π°Ρ Π΄Π° ΡΠ΅ Π½Π°Π²ΠΈΠΊΠ½Π΅ΡΠ΅ Π½Π° ΠΎΠ²ΠΎΡ Π·Π°Π½Π°Π΅Ρ, Π½ΠΎ ΡΡΠΊΠ° ΡΠ΅ Π²ΠΈ ΠΏΠΎΠΌΠΎΠ³Π½Π°ΠΌ Π΄Π° Π³ΠΎ Π½Π°ΠΏΡΠ°Π²ΠΈΡΠ΅ ΠΏΡΠ²ΠΈΠΎΡ ΡΠ΅ΠΊΠΎΡ.
ΠΠ°, Π΄Π°Π»ΠΈ ΡΡΠ΅ ΠΏΠΎΠ΄Π³ΠΎΡΠ²Π΅Π½ΠΈ? ΠΠ΅Π΄Π½Π°Ρ Π΄Π° Π²ΠΈ ΠΊΠ°ΠΆΠ°ΠΌ Π΄Π΅ΠΊΠ° ΡΠ΅ ΡΡΠ΅Π±Π° Π΄Π° Π³ΠΎ Π·Π½Π°Π΅ΡΠ΅ Python 3, Π±ΠΈΠ΄Π΅ΡΡΠΈ ΡΠΎΠ° Π΅ ΠΎΠ½Π° ΡΡΠΎ ΡΠ΅ Π³ΠΎ ΠΊΠΎΡΠΈΡΡΠ°ΠΌ ΠΎΠ²Π΄Π΅. ΠΡΡΠΎ ΡΠ°ΠΊΠ°, Π²Π΅ ΡΠΎΠ²Π΅ΡΡΠ²Π°ΠΌ ΠΎΠ΄Π½Π°ΠΏΡΠ΅Π΄ Π΄Π° Π³ΠΎ ΠΈΠ½ΡΡΠ°Π»ΠΈΡΠ°ΡΠ΅ Π½Π° Jupyter Notebook ΠΈΠ»ΠΈ Π΄Π° Π²ΠΈΠ΄ΠΈΡΠ΅ ΠΊΠ°ΠΊΠΎ Π΄Π° ΠΊΠΎΡΠΈΡΡΠΈΡΠ΅ google colab.
Π§Π΅ΠΊΠΎΡ Π΅Π΄Π΅Π½
Kaggle Π΅ Π²Π°ΡΠΈΠΎΡ Π·Π½Π°ΡΠ°Π΅Π½ Π°ΡΠΈΡΡΠ΅Π½Ρ Π²ΠΎ ΠΎΠ²Π° ΠΏΡΠ°ΡΠ°ΡΠ΅. ΠΠΎ ΠΏΡΠΈΠ½ΡΠΈΠΏ, ΠΌΠΎΠΆΠ΅ΡΠ΅ Π΄Π° Π½Π°ΠΏΡΠ°Π²ΠΈΡΠ΅ Π±Π΅Π· Π½Π΅Π³ΠΎ, Π½ΠΎ ΡΠ°Ρ ΡΠ΅ Π·Π±ΠΎΡΡΠ²Π°ΠΌ Π·Π° ΠΎΠ²Π° Π²ΠΎ Π΄ΡΡΠ³Π° ΡΡΠ°ΡΠΈΡΠ°. ΠΠ²Π° Π΅ ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ° ΠΊΠΎΡΠ° Π΅ Π΄ΠΎΠΌΠ°ΡΠΈΠ½ Π½Π° Π½Π°ΡΠΏΡΠ΅Π²Π°ΡΠΈ Π·Π° Data Science. ΠΠΎ ΡΠ΅ΠΊΠΎΡ ΡΠ°ΠΊΠΎΠ² Π½Π°ΡΠΏΡΠ΅Π²Π°Ρ, Π²ΠΎ ΡΠ°Π½ΠΈΡΠ΅ ΡΠ°Π·ΠΈ ΡΠ΅ ΡΡΠ΅ΠΊΠ½Π΅ΡΠ΅ Π½Π΅ΡΠ΅Π°Π»Π½ΠΎ ΠΈΡΠΊΡΡΡΠ²ΠΎ Π²ΠΎ ΡΠ΅ΡΠ°Π²Π°ΡΠ΅ Π½Π° ΠΏΡΠΎΠ±Π»Π΅ΠΌΠΈ ΠΎΠ΄ ΡΠ°Π·Π»ΠΈΡΠ½ΠΈ Π²ΠΈΠ΄ΠΎΠ²ΠΈ, ΡΠ°Π·Π²ΠΎΡΠ½ΠΎ ΠΈΡΠΊΡΡΡΠ²ΠΎ ΠΈ ΠΈΡΠΊΡΡΡΠ²ΠΎ Π²ΠΎ ΡΠΈΠΌΡΠΊΠ° ΡΠ°Π±ΠΎΡΠ°, ΡΡΠΎ Π΅ Π²Π°ΠΆΠ½ΠΎ Π²ΠΎ Π½Π°ΡΠ΅ Π²ΡΠ΅ΠΌΠ΅.
ΠΠ΄ ΡΠ°ΠΌΡ ΡΠ΅ ΡΠΈ ΡΠ° ΠΏΡΠ΅Π·Π΅ΠΌΠ΅ΠΌΠ΅ Π·Π°Π΄Π°ΡΠ°ΡΠ°. Π‘Π΅ Π²ΠΈΠΊΠ° βΠ’ΠΈΡΠ°Π½ΠΈΠΊβ. Π£ΡΠ»ΠΎΠ²ΠΎΡ Π΅ ΠΎΠ²ΠΎΡ: ΠΏΡΠ΅Π΄Π²ΠΈΠ΄Π΅ΡΠ΅ Π΄Π°Π»ΠΈ ΡΠ΅ΠΊΠΎΡ ΠΏΠΎΠ΅Π΄ΠΈΠ½Π΅Ρ ΡΠ΅ ΠΏΡΠ΅ΠΆΠΈΠ²Π΅Π΅. ΠΠΏΡΡΠΎ Π·Π΅ΠΌΠ΅Π½ΠΎ, Π·Π°Π΄Π°ΡΠ°ΡΠ° Π½Π° Π»ΠΈΡΠ΅ΡΠΎ Π²ΠΊΠ»ΡΡΠ΅Π½ΠΎ Π²ΠΎ ΠΠ‘ Π΅ ΡΠΎΠ±ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ, Π½ΠΈΠ²Π½Π° ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ°, ΠΎΠ±ΡΠΊΠ° Π½Π° ΠΌΠΎΠ΄Π΅Π», ΠΏΡΠΎΠ³Π½ΠΎΠ·ΠΈΡΠ°ΡΠ΅ ΠΈΡΠ½. ΠΠΎ kaggle, Π½ΠΈ Π΅ Π΄ΠΎΠ·Π²ΠΎΠ»Π΅Π½ΠΎ Π΄Π° ΡΠ° ΠΏΡΠ΅ΡΠΊΠΎΠΊΠ½Π΅ΠΌΠ΅ ΡΠ°Π·Π°ΡΠ° Π½Π° ΡΠΎΠ±ΠΈΡΠ°ΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ - ΡΠΈΠ΅ ΡΠ΅ ΠΏΡΠ΅ΡΡΡΠ°Π²Π΅Π½ΠΈ Π½Π° ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ°ΡΠ°. Π’ΡΠ΅Π±Π° Π΄Π° Π³ΠΈ ΠΏΡΠ΅Π·Π΅ΠΌΠ΅ΠΌΠ΅ ΠΈ ΠΌΠΎΠΆΠ΅ΠΌΠ΅ Π΄Π° Π·Π°ΠΏΠΎΡΠ½Π΅ΠΌΠ΅!
ΠΠΎΠΆΠ΅ΡΠ΅ Π΄Π° Π³ΠΎ Π½Π°ΠΏΡΠ°Π²ΠΈΡΠ΅ ΠΎΠ²Π° Π½Π° ΡΠ»Π΅Π΄Π½ΠΈΠΎΠ² Π½Π°ΡΠΈΠ½:
ΡΠ°Π±ΠΎΡ ΠΠΎΠ΄Π°ΡΠΎΡΠΈ ΡΠΎΠ΄ΡΠΆΠΈ Π΄Π°ΡΠΎΡΠ΅ΠΊΠΈ ΡΡΠΎ ΡΠΎΠ΄ΡΠΆΠ°Ρ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ
ΠΠΈ ΠΏΡΠ΅Π·Π΅ΠΌΠ°Π²ΠΌΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅, Π³ΠΈ ΠΏΠΎΠ΄Π³ΠΎΡΠ²ΠΈΠ²ΠΌΠ΅ Π½Π°ΡΠΈΡΠ΅ Jupyter ΡΠ΅ΡΡΠ°ΡΠΊΠΈ ΠΈ ...
Π§Π΅ΠΊΠΎΡ Π΄Π²Π°
ΠΠ°ΠΊΠΎ ΡΠ΅Π³Π° Π΄Π° Π³ΠΈ Π²ΡΠΈΡΠ°ΠΌΠ΅ ΠΎΠ²ΠΈΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ?
ΠΡΠ²ΠΎ, Π΄Π° Π³ΠΈ ΡΠ²Π΅Π·Π΅ΠΌΠ΅ ΠΏΠΎΡΡΠ΅Π±Π½ΠΈΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ:
import pandas as pd
import numpy as np
Pandas ΡΠ΅ Π½ΠΈ ΠΎΠ²ΠΎΠ·ΠΌΠΎΠΆΠ°Ρ Π΄Π° ΠΏΡΠ΅Π·Π΅ΠΌΠ°ΠΌΠ΅ .csv Π΄Π°ΡΠΎΡΠ΅ΠΊΠΈ Π·Π° ΠΏΠΎΠ½Π°ΡΠ°ΠΌΠΎΡΠ½Π° ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ°.
Numpy Π΅ ΠΏΠΎΡΡΠ΅Π±Π΅Π½ Π·Π° Π΄Π° ΡΠ° ΠΏΡΠ΅ΡΡΡΠ°Π²ΠΈ Π½Π°ΡΠ°ΡΠ° ΡΠ°Π±Π΅Π»Π° ΡΠΎ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΊΠ°ΠΊΠΎ ΠΌΠ°ΡΡΠΈΡΠ° ΡΠΎ Π±ΡΠΎΠ΅Π²ΠΈ.
Π‘Π°ΠΌΠΎ Π½Π°ΠΏΡΠ΅Π΄. ΠΠ° ΡΠ° Π·Π΅ΠΌΠ΅ΠΌΠ΅ Π΄Π°ΡΠΎΡΠ΅ΠΊΠ°ΡΠ° train.csv ΠΈ Π΄Π° ΡΠ° ΠΏΠΎΠ΄ΠΈΠ³Π½Π΅ΠΌΠ΅ ΠΊΠ°Ρ Π½Π°Ρ:
dataset = pd.read_csv('train.csv')
ΠΠ΅ ΡΠ΅ ΠΏΠΎΠ²ΠΈΠΊΠ°ΠΌΠ΅ Π½Π° Π½Π°ΡΠΈΠΎΡ ΠΈΠ·Π±ΠΎΡ Π½Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ train.csv ΠΏΡΠ΅ΠΊΡ ΠΏΡΠΎΠΌΠ΅Π½Π»ΠΈΠ²Π°ΡΠ° Π½Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ. ΠΡΠ΄Π΅ Π΄Π° Π²ΠΈΠ΄ΠΈΠΌΠ΅ ΡΡΠΎ ΠΈΠΌΠ° ΡΠ°ΠΌΡ:
dataset.head()
Π€ΡΠ½ΠΊΡΠΈΡΠ°ΡΠ° head() Π½ΠΈ ΠΎΠ²ΠΎΠ·ΠΌΠΎΠΆΡΠ²Π° Π΄Π° Π³ΠΈ ΠΏΠΎΠ³Π»Π΅Π΄Π½Π΅ΠΌΠ΅ ΠΏΡΠ²ΠΈΡΠ΅ Π½Π΅ΠΊΠΎΠ»ΠΊΡ ΡΠ΅Π΄ΠΎΠ²ΠΈ ΠΎΠ΄ ΠΏΠΎΠ΄Π°ΡΠΎΡΠ½Π°ΡΠ° ΡΠ°ΠΌΠΊΠ°.
ΠΠΎΠ»ΠΎΠ½ΠΈΡΠ΅ Survived ΡΠ΅ ΡΠΎΠΊΠΌΡ Π½Π°ΡΠΈΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΠ°ΡΠΈ, ΠΊΠΎΠΈ ΡΠ΅ ΠΏΠΎΠ·Π½Π°ΡΠΈ Π²ΠΎ ΠΎΠ²Π°Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠ½Π° ΡΠ°ΠΌΠΊΠ°. ΠΠ° ΠΏΡΠ°ΡΠ°ΡΠ΅ΡΠΎ Π·Π° Π·Π°Π΄Π°ΡΠ°ΡΠ°, ΡΡΠ΅Π±Π° Π΄Π° ΡΠ° ΠΏΡΠ΅Π΄Π²ΠΈΠ΄ΠΈΠΌΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π°ΡΠ° Survived Π·Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ test.csv. ΠΠ²ΠΈΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΡΡΠ²Π°Π°Ρ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Π·Π° Π΄ΡΡΠ³ΠΈ ΠΏΠ°ΡΠ½ΠΈΡΠΈ Π½Π° Π’ΠΈΡΠ°Π½ΠΈΠΊ, Π·Π° ΠΊΠΎΠΈ Π½ΠΈΠ΅, ΡΠ΅ΡΠ°Π²Π°ΡΡΠΈ Π³ΠΎ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠΎΡ, Π½Π΅ Π³ΠΎ Π·Π½Π°Π΅ΠΌΠ΅ ΠΈΡΡ ΠΎΠ΄ΠΎΡ.
ΠΠ½Π°ΡΠΈ, Π°ΡΠ΄Π΅ Π΄Π° ΡΠ° ΠΏΠΎΠ΄Π΅Π»ΠΈΠΌΠ΅ Π½Π°ΡΠ°ΡΠ° ΡΠ°Π±Π΅Π»Π° Π½Π° Π·Π°Π²ΠΈΡΠ½ΠΈ ΠΈ Π½Π΅Π·Π°Π²ΠΈΡΠ½ΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ. Π‘Γ¨ Π΅ Π΅Π΄Π½ΠΎΡΡΠ°Π²Π½ΠΎ ΠΎΠ²Π΄Π΅. ΠΠ°Π²ΠΈΡΠ½ΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΡΠ΅ ΠΎΠ½ΠΈΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΊΠΎΠΈ Π·Π°Π²ΠΈΡΠ°Ρ ΠΎΠ΄ Π½Π΅Π·Π°Π²ΠΈΡΠ½ΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΊΠΎΠΈ ΡΠ΅ Π²ΠΎ ΠΈΡΡ ΠΎΠ΄ΠΈΡΠ΅. ΠΠ΅Π·Π°Π²ΠΈΡΠ½ΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΡΠ΅ ΠΎΠ½ΠΈΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΊΠΎΠΈ Π²Π»ΠΈΡΠ°Π°Ρ Π½Π° ΠΈΡΡ ΠΎΠ΄ΠΎΡ.
ΠΠ° ΠΏΡΠΈΠΌΠ΅Ρ, Π³ΠΎ ΠΈΠΌΠ°ΠΌΠ΅ ΡΠ»Π΅Π΄Π½ΠΎΡΠΎ Π·Π±ΠΈΡ Π½Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ:
βΠΠΎΠ²Π° ΠΏΡΠ΅Π΄Π°Π²Π°ΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΊΠ° - Π±Ρ.
ΠΠΎΠ²Π° Π΄ΠΎΠ±ΠΈ 2 ΠΏΠΎ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΡΠΊΠΈ Π½Π°ΡΠΊΠΈβ.
ΠΡΠ΅Π½ΠΊΠ°ΡΠ° ΠΏΠΎ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΊΠ° Π·Π°Π²ΠΈΡΠΈ ΠΎΠ΄ ΠΎΠ΄Π³ΠΎΠ²ΠΎΡΠΎΡ Π½Π° ΠΏΡΠ°ΡΠ°ΡΠ΅ΡΠΎ: Π΄Π°Π»ΠΈ ΠΠΎΠ²Π° ΡΡΡΠ΄ΠΈΡΠ°Π» ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΊΠ°? ΠΠ°Π»ΠΈ Π΅ ΡΠ°ΡΠ½ΠΎ? ΠΠ΄ΠΈΠΌΠ΅ ΠΏΠΎΠ½Π°ΡΠ°ΠΌΡ, Π²Π΅ΡΠ΅ ΡΠΌΠ΅ ΠΏΠΎΠ±Π»ΠΈΡΠΊΡ Π΄ΠΎ ΡΠ΅Π»ΡΠ°!
Π’ΡΠ°Π΄ΠΈΡΠΈΠΎΠ½Π°Π»Π½Π°ΡΠ° ΠΏΡΠΎΠΌΠ΅Π½Π»ΠΈΠ²Π° Π·Π° Π½Π΅Π·Π°Π²ΠΈΡΠ½ΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π΅ X. ΠΠ° Π·Π°Π²ΠΈΡΠ½ΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ, y.
ΠΠΎ ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΡΠ»Π΅Π΄Π½ΠΎΠ²ΠΎ:
X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]
Π¨ΡΠΎ Π΅ ΡΠΎΠ°? Π‘ΠΎ ΡΡΠ½ΠΊΡΠΈΡΠ°ΡΠ° iloc[:, 2: ] ΠΌΡ ΠΊΠ°ΠΆΡΠ²Π°ΠΌΠ΅ Π½Π° Python: Π‘Π°ΠΊΠ°ΠΌ Π΄Π° Π³ΠΈ Π²ΠΈΠ΄Π°ΠΌ Π²ΠΎ ΠΏΡΠΎΠΌΠ΅Π½Π»ΠΈΠ²Π°ΡΠ° X ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ ΠΏΠΎΡΠ½ΡΠ²Π°ΡΡΠΈ ΠΎΠ΄ Π²ΡΠΎΡΠ°ΡΠ° ΠΊΠΎΠ»ΠΎΠ½Π° (Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»Π½ΠΎ ΠΈ ΠΏΠΎΠ΄ ΡΡΠ»ΠΎΠ² Π±ΡΠΎΠ΅ΡΠ΅ΡΠΎ Π΄Π° Π·Π°ΠΏΠΎΡΠ½Π΅ ΠΎΠ΄ Π½ΡΠ»Π°). ΠΠΎ Π²ΡΠΎΡΠΈΠΎΡ ΡΠ΅Π΄ Π²Π΅Π»ΠΈΠΌΠ΅ Π΄Π΅ΠΊΠ° ΡΠ°ΠΊΠ°ΠΌΠ΅ Π΄Π° Π³ΠΈ Π²ΠΈΠ΄ΠΈΠΌΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ Π²ΠΎ ΠΏΡΠ²Π°ΡΠ° ΠΊΠΎΠ»ΠΎΠ½Π°.
[ a:b, c:d ] Π΅ ΠΊΠΎΠ½ΡΡΡΡΠΊΡΠΈΡΠ° Π½Π° ΠΎΠ½Π° ΡΡΠΎ Π³ΠΎ ΠΊΠΎΡΠΈΡΡΠΈΠΌΠ΅ Π²ΠΎ Π·Π°Π³ΡΠ°Π΄ΠΈ. ΠΠΊΠΎ Π½Π΅ Π½Π°Π²Π΅Π΄Π΅ΡΠ΅ Π½ΠΈΠΊΠ°ΠΊΠ²ΠΈ ΠΏΡΠΎΠΌΠ΅Π½Π»ΠΈΠ²ΠΈ, ΡΠΈΠ΅ ΡΠ΅ Π±ΠΈΠ΄Π°Ρ Π·Π°ΡΡΠ²Π°Π½ΠΈ ΠΊΠ°ΠΊΠΎ ΡΡΠ°Π½Π΄Π°ΡΠ΄Π½ΠΈ. ΠΠ΄Π½ΠΎΡΠ½ΠΎ, ΠΌΠΎΠΆΠ΅ΠΌΠ΅ Π΄Π° ΠΎΠ΄ΡΠ΅Π΄ΠΈΠΌΠ΅ [:,: d] ΠΈ ΠΏΠΎΡΠΎΠ° ΡΠ΅ Π³ΠΈ Π΄ΠΎΠ±ΠΈΠ΅ΠΌΠ΅ ΡΠΈΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½ΠΈ Π²ΠΎ ΠΏΠΎΠ΄Π°ΡΠΎΡΠ½Π°ΡΠ° ΡΠ°ΠΌΠΊΠ°, ΠΎΡΠ²Π΅Π½ ΠΎΠ½ΠΈΠ΅ ΡΡΠΎ ΠΎΠ΄Π°Ρ ΠΎΠ΄ Π±ΡΠΎΡΠΎΡ d Π½Π°Π²Π°ΠΌΡ. ΠΡΠΎΠΌΠ΅Π½Π»ΠΈΠ²ΠΈΡΠ΅ a ΠΈ b Π΄Π΅ΡΠΈΠ½ΠΈΡΠ°Π°Ρ Π½ΠΈΠ·ΠΈ, Π½ΠΎ Π½ΠΈ ΡΡΠ΅Π±Π°Π°Ρ ΡΠΈΡΠ΅, ΠΏΠ° Π³ΠΎ ΠΎΡΡΠ°Π²Π°ΠΌΠ΅ ΠΎΠ²Π° ΠΊΠ°ΠΊΠΎ ΡΡΠ°Π½Π΄Π°ΡΠ΄Π½ΠΎ.ΠΡΠ΄Π΅ Π΄Π° Π²ΠΈΠ΄ΠΈΠΌΠ΅ ΡΡΠΎ Π΄ΠΎΠ±ΠΈΠ²ΠΌΠ΅:
X.head()
y.head()
Π‘ΠΎ ΡΠ΅Π» Π΄Π° ΡΠ° ΠΏΠΎΠ΅Π΄Π½ΠΎΡΡΠ°Π²ΠΈΠΌΠ΅ ΠΎΠ²Π°Π° ΠΌΠ°Π»Π° Π»Π΅ΠΊΡΠΈΡΠ°, ΡΠ΅ Π³ΠΈ ΠΎΡΡΡΡΠ°Π½ΠΈΠΌΠ΅ ΠΊΠΎΠ»ΠΎΠ½ΠΈΡΠ΅ ΠΊΠΎΠΈ Π±Π°ΡΠ°Π°Ρ ΠΏΠΎΡΠ΅Π±Π½Π° Π³ΡΠΈΠΆΠ° ΠΈΠ»ΠΈ Π²ΠΎΠΎΠΏΡΡΠΎ Π½Π΅ Π²Π»ΠΈΡΠ°Π°Ρ Π½Π° ΠΎΠΏΡΡΠ°Π½ΠΎΠΊΠΎΡ. Π‘ΠΎΠ΄ΡΠΆΠ°Ρ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΎΠ΄ ΡΠΈΠΏΠΎΡ str.
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)
Π‘ΡΠΏΠ΅Ρ! ΠΡΠ΄Π΅ Π΄Π° ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠΈΠΌΠ΅ Π½Π° ΡΠ»Π΅Π΄Π½ΠΈΠΎΡ ΡΠ΅ΠΊΠΎΡ.
Π§Π΅ΠΊΠΎΡ ΡΡΠΈ
Π’ΡΠΊΠ° ΡΡΠ΅Π±Π° Π΄Π° Π³ΠΈ ΡΠΈΡΡΠΈΡΠ°ΠΌΠ΅ Π½Π°ΡΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π·Π° ΠΌΠ°ΡΠΈΠ½Π°ΡΠ° ΠΏΠΎΠ΄ΠΎΠ±ΡΠΎ Π΄Π° ΡΠ°Π·Π±Π΅ΡΠ΅ ΠΊΠ°ΠΊΠΎ ΠΎΠ²ΠΈΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π²Π»ΠΈΡΠ°Π°Ρ Π½Π° ΡΠ΅Π·ΡΠ»ΡΠ°ΡΠΎΡ. ΠΠΎ, Π½ΠΈΠ΅ Π½Π΅ΠΌΠ° Π΄Π° ΡΠΈΡΡΠΈΡΠ°ΠΌΠ΅ ΡΓ¨, ΡΡΠΊΡ ΡΠ°ΠΌΠΎ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ Π·Π° str ΡΡΠΎ Π³ΠΈ ΠΎΡΡΠ°Π²ΠΈΠ²ΠΌΠ΅. ΠΠΎΠ»ΠΎΠ½Π° βΠ‘Π΅ΠΊΡβ. ΠΠ°ΠΊΠΎ ΡΠ°ΠΊΠ°ΠΌΠ΅ Π΄Π° ΠΊΠΎΠ΄ΠΈΡΠ°ΠΌΠ΅? ΠΠ° Π³ΠΈ ΠΏΡΠ΅ΡΡΡΠ°Π²ΠΈΠΌΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ Π·Π° ΠΏΠΎΠ»ΠΎΡ Π½Π° Π΅Π΄Π½Π° Π»ΠΈΡΠ½ΠΎΡΡ ΠΊΠ°ΠΊΠΎ Π²Π΅ΠΊΡΠΎΡ: 10 - ΠΌΠ°ΡΠΊΠΈ, 01 - ΠΆΠ΅Π½ΡΠΊΠΈ.
ΠΡΠ²ΠΎ, Π°ΡΠ΄Π΅ Π΄Π° Π³ΠΈ ΠΊΠΎΠ½Π²Π΅ΡΡΠΈΡΠ°ΠΌΠ΅ Π½Π°ΡΠΈΡΠ΅ ΡΠ°Π±Π΅Π»ΠΈ Π²ΠΎ NumPy ΠΌΠ°ΡΡΠΈΡΠ°:
X = np.array(X)
y = np.array(y)
Π ΡΠ΅Π³Π° Π΄Π° ΠΏΠΎΠ³Π»Π΅Π΄Π½Π΅ΠΌΠ΅:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
Sklearn Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ°ΡΠ° Π΅ ΡΠΎΠ»ΠΊΡ ΠΊΡΠ» Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° ΡΡΠΎ Π½ΠΈ ΠΎΠ²ΠΎΠ·ΠΌΠΎΠΆΡΠ²Π° Π΄Π° Π½Π°ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΡΠ΅Π»ΠΎΡΠ½Π° ΡΠ°Π±ΠΎΡΠ° Π²ΠΎ Data Science. Π‘ΠΎΠ΄ΡΠΆΠΈ Π³ΠΎΠ»Π΅ΠΌ Π±ΡΠΎΡ Π½Π° ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π° ΠΌΠ°ΡΠΈΠ½ΡΠΊΠΎ ΡΡΠ΅ΡΠ΅ ΠΈ ΠΈΡΡΠΎ ΡΠ°ΠΊΠ° Π½ΠΈ ΠΎΠ²ΠΎΠ·ΠΌΠΎΠΆΡΠ²Π° Π΄Π° ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΊΠ° Π½Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ.
OneHotEncoder ΡΠ΅ Π½ΠΈ ΠΎΠ²ΠΎΠ·ΠΌΠΎΠΆΠΈ Π΄Π° Π³ΠΎ ΡΠΈΡΡΠΈΡΠ°ΠΌΠ΅ ΠΏΠΎΠ»ΠΎΡ Π½Π° Π»ΠΈΡΠ½ΠΎΡΡΠ° Π²ΠΎ ΡΠ°Π° ΡΠ΅ΠΏΡΠ΅Π·Π΅Π½ΡΠ°ΡΠΈΡΠ°, ΠΊΠ°ΠΊΠΎ ΡΡΠΎ ΠΎΠΏΠΈΡΠ°Π²ΠΌΠ΅. ΠΠ΅ ΡΠ΅ ΡΠΎΠ·Π΄Π°Π΄Π°Ρ 2 ΠΏΠ°ΡΠ°Π»Π΅Π»ΠΊΠΈ: ΠΌΠ°ΡΠΊΠΈ, ΠΆΠ΅Π½ΡΠΊΠΈ. ΠΠΊΠΎ Π»ΠΈΡΠ΅ΡΠΎ Π΅ ΠΌΠ°ΠΆ, ΡΠΎΠ³Π°Ρ Π²ΠΎ ΠΊΠΎΠ»ΠΎΠ½Π°ΡΠ° βΠΌΠ°ΡΠΊΠΈβ ΡΠ΅ Π±ΠΈΠ΄Π΅ Π½Π°ΠΏΠΈΡΠ°Π½ΠΎ 1, Π° Π²ΠΎ ΠΊΠΎΠ»ΠΎΠ½Π°ΡΠ° βΠΆΠ΅Π½ΡΠΊΠΎβ 0, ΡΠΎΠΎΠ΄Π²Π΅ΡΠ½ΠΎ.
ΠΠΎ OneHotEncoder() ΠΏΠΎΡΡΠΎΠΈ [1] - ΡΠΎΠ° Π·Π½Π°ΡΠΈ Π΄Π΅ΠΊΠ° ΡΠ°ΠΊΠ°ΠΌΠ΅ Π΄Π° ΡΠ° ΠΊΠΎΠ΄ΠΈΡΠ°ΠΌΠ΅ ΠΊΠΎΠ»ΠΎΠ½Π°ΡΠ° Π±ΡΠΎΡ 1 (Π±ΡΠΎΠ΅ΡΡΠΈ ΠΎΠ΄ Π½ΡΠ»Π°).
Π‘ΡΠΏΠ΅Ρ. ΠΠ° ΠΎΠ΄ΠΈΠΌΠ΅ ΡΡΡΠ΅ ΠΏΠΎΠ΄Π°Π»Π΅ΠΊΡ!
ΠΠ°ΠΊΠΎ ΠΏΠΎ ΠΏΡΠ°Π²ΠΈΠ»ΠΎ, ΠΎΠ²Π° ΡΠ΅ ΡΠ»ΡΡΡΠ²Π° Π½Π΅ΠΊΠΎΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π΄Π° ΠΎΡΡΠ°Π½Π°Ρ ΠΏΡΠ°Π·Π½ΠΈ (Ρ.Π΅. NaN - Π½Π΅ Π±ΡΠΎΡΠΊΠ°). ΠΠ° ΠΏΡΠΈΠΌΠ΅Ρ, ΠΈΠΌΠ° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Π·Π° Π½Π΅ΠΊΠΎΡΠ° Π»ΠΈΡΠ½ΠΎΡΡ: Π½Π΅Π³ΠΎΠ²ΠΎΡΠΎ ΠΈΠΌΠ΅, ΠΏΠΎΠ». ΠΠΎ, Π½Π΅ΠΌΠ° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Π·Π° Π½Π΅Π³ΠΎΠ²Π°ΡΠ° Π²ΠΎΠ·ΡΠ°ΡΡ. ΠΠΎ ΠΎΠ²ΠΎΡ ΡΠ»ΡΡΠ°Ρ, ΡΠ΅ Π³ΠΎ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠΌΠ΅ ΡΠ»Π΅Π΄Π½ΠΈΠΎΠ² ΠΌΠ΅ΡΠΎΠ΄: ΡΠ΅ ΡΠ° Π½Π°ΡΠ΄Π΅ΠΌΠ΅ Π°ΡΠΈΡΠΌΠ΅ΡΠΈΡΠΊΠ°ΡΠ° ΡΡΠ΅Π΄ΠΈΠ½Π° Π½Π°Π΄ ΡΠΈΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½ΠΈ ΠΈ, Π°ΠΊΠΎ Π½Π΅Π΄ΠΎΡΡΠ°ΡΡΠ²Π°Π°Ρ Π½Π΅ΠΊΠΎΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π²ΠΎ ΠΊΠΎΠ»ΠΎΠ½Π°ΡΠ°, ΡΠΎΠ³Π°Ρ ΠΏΡΠ°Π·Π½ΠΈΠ½Π°ΡΠ° ΡΠ΅ ΡΠ° ΠΏΠΎΠΏΠΎΠ»Π½ΠΈΠΌΠ΅ ΡΠΎ Π°ΡΠΈΡΠΌΠ΅ΡΠΈΡΠΊΠ°ΡΠ° ΡΡΠ΅Π΄ΠΈΠ½Π°.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)
Π‘Π΅Π³Π° Π΄Π° Π·Π΅ΠΌΠ΅ΠΌΠ΅ ΠΏΡΠ΅Π΄Π²ΠΈΠ΄ Π΄Π΅ΠΊΠ° ΡΠ΅ ΡΠ»ΡΡΡΠ²Π°Π°Ρ ΡΠΈΡΡΠ°ΡΠΈΠΈ ΠΊΠΎΠ³Π° ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ ΡΠ΅ ΠΌΠ½ΠΎΠ³Ρ Π³ΠΎΠ»Π΅ΠΌΠΈ. ΠΠ΅ΠΊΠΎΠΈ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΡΠ΅ Π²ΠΎ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»ΠΎΡ [0:1], Π΄ΠΎΠ΄Π΅ΠΊΠ° Π½Π΅ΠΊΠΎΠΈ ΠΌΠΎΠΆΠ΅ Π΄Π° Π½Π°Π΄ΠΌΠΈΠ½Π°Ρ ΡΡΠΎΡΠΈΡΠΈ ΠΈ ΠΈΠ»ΡΠ°Π΄Π½ΠΈΡΠΈ. ΠΠ° Π΄Π° ΡΠ΅ Π΅Π»ΠΈΠΌΠΈΠ½ΠΈΡΠ° ΡΠ°ΠΊΠ²ΠΎΡΠΎ ΡΠ°ΡΠ΅ΡΡΠ²Π°ΡΠ΅ ΠΈ Π΄Π° ΡΠ΅ Π½Π°ΠΏΡΠ°Π²ΠΈ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΠΎΡ ΠΏΠΎΠΏΡΠ΅ΡΠΈΠ·Π΅Π½ Π²ΠΎ Π½Π΅Π³ΠΎΠ²ΠΈΡΠ΅ ΠΏΡΠ΅ΡΠΌΠ΅ΡΠΊΠΈ, ΡΠ΅ Π³ΠΈ ΡΠΊΠ΅Π½ΠΈΡΠ°ΠΌΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈΡΠ΅ ΠΈ ΡΠ΅ Π³ΠΈ ΡΠΊΠ°Π»ΠΈΡΠ°ΠΌΠ΅. ΠΠ΅ΠΊΠ° ΡΠΈΡΠ΅ Π±ΡΠΎΠ΅Π²ΠΈ Π½Π΅ Π½Π°Π΄ΠΌΠΈΠ½ΡΠ²Π°Π°Ρ ΡΡΠΈ. ΠΠ° Π΄Π° Π³ΠΎ Π½Π°ΠΏΡΠ°Π²ΠΈΡΠ΅ ΠΎΠ²Π°, ΡΠ΅ ΡΠ° ΠΊΠΎΡΠΈΡΡΠΈΠΌΠ΅ ΡΡΠ½ΠΊΡΠΈΡΠ°ΡΠ° StandardScaler.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])
Π‘Π΅Π³Π° Π½Π°ΡΠΈΡΠ΅ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ ΠΈΠ·Π³Π»Π΅Π΄Π°Π°Ρ Π²Π°ΠΊΠ°:
ΠΠ»Π°ΡΠ°. ΠΠ΅ΡΠ΅ ΡΠΌΠ΅ Π±Π»ΠΈΡΠΊΡ Π΄ΠΎ Π½Π°ΡΠ°ΡΠ° ΡΠ΅Π»!
Π§Π΅ΠΊΠΎΡ ΡΠ΅ΡΠΈΡΠΈ
ΠΡΠ΄Π΅ Π΄Π° Π³ΠΎ ΡΡΠ΅Π½ΠΈΡΠ°ΠΌΠ΅ Π½Π°ΡΠΈΠΎΡ ΠΏΡΠ² ΠΌΠΎΠ΄Π΅Π»! ΠΠ΄ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ°ΡΠ° Sklearn ΠΌΠΎΠΆΠ΅ΠΌΠ΅ Π΄Π° Π½Π°ΡΠ΄Π΅ΠΌΠ΅ ΠΎΠ³ΡΠΎΠΌΠ΅Π½ Π±ΡΠΎΡ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΈ ΡΠ°Π±ΠΎΡΠΈ. ΠΠ° ΠΎΠ²ΠΎΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌ Π³ΠΎ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠ² ΠΌΠΎΠ΄Π΅Π»ΠΎΡ Π½Π° ΠΠ»Π°ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π·Π° Π·Π°ΡΠ°ΠΊΠ½ΡΠ²Π°ΡΠ΅ Π½Π° Π³ΡΠ°Π΄ΠΈΠ΅Π½Ρ. ΠΠΈΠ΅ ΠΊΠΎΡΠΈΡΡΠΈΠΌΠ΅ ΠΊΠ»Π°ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π±ΠΈΠ΄Π΅ΡΡΠΈ Π½Π°ΡΠ°ΡΠ° Π·Π°Π΄Π°ΡΠ° Π΅ Π·Π°Π΄Π°ΡΠ° Π·Π° ΠΊΠ»Π°ΡΠΈΡΠΈΠΊΠ°ΡΠΈΡΠ°. ΠΡΠΎΠ³Π½ΠΎΠ·Π°ΡΠ° ΡΡΠ΅Π±Π° Π΄Π° ΡΠ΅ Π΄ΠΎΠ΄Π΅Π»ΠΈ Π½Π° 1 (ΠΏΡΠ΅ΠΆΠΈΠ²Π΅Π°Π½) ΠΈΠ»ΠΈ 0 (Π½Π΅ ΠΏΡΠ΅ΠΆΠΈΠ²Π΅Π°).
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)
Π€ΡΠ½ΠΊΡΠΈΡΠ°ΡΠ° Π·Π° Π²ΠΊΠ»ΠΎΠΏΡΠ²Π°ΡΠ΅ ΠΌΡ ΠΊΠ°ΠΆΡΠ²Π° Π½Π° ΠΠ°ΡΡΠΎΠ½: ΠΠ΅ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΎΡ Π±Π°ΡΠ° Π·Π°Π²ΠΈΡΠ½ΠΎΡΡ ΠΏΠΎΠΌΠ΅ΡΡ X ΠΈ y.
ΠΠΎΠΌΠ°Π»ΠΊΡ ΠΎΠ΄ ΡΠ΅ΠΊΡΠ½Π΄Π° ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΎΡ Π΅ Π³ΠΎΡΠΎΠ².
ΠΠ°ΠΊΠΎ Π΄Π° ΡΠ΅ ΠΏΡΠΈΠΌΠ΅Π½ΠΈ? Π‘Π΅Π³Π° ΡΠ΅ Π²ΠΈΠ΄ΠΈΠΌΠ΅!
Π§Π΅ΠΊΠΎΡ ΠΏΠ΅Ρ. ΠΠ°ΠΊΠ»ΡΡΠΎΠΊ
Π‘Π΅Π³Π° ΡΡΠ΅Π±Π° Π΄Π° Π²ΡΠΈΡΠ°ΠΌΠ΅ ΡΠ°Π±Π΅Π»Π° ΡΠΎ Π½Π°ΡΠΈΡΠ΅ ΡΠ΅ΡΡ ΠΏΠΎΠ΄Π°ΡΠΎΡΠΈ Π·Π° ΠΊΠΎΠΈ ΡΡΠ΅Π±Π° Π΄Π° Π½Π°ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΠΏΡΠΎΠ³Π½ΠΎΠ·Π°. Π‘ΠΎ ΠΎΠ²Π°Π° ΡΠ°Π±Π΅Π»Π° ΡΠ΅ Π³ΠΈ Π½Π°ΠΏΡΠ°Π²ΠΈΠΌΠ΅ ΡΠΈΡΠ΅ ΠΈΡΡΠΈ Π΄Π΅ΡΡΡΠ²Π° ΡΡΠΎ Π³ΠΈ Π½Π°ΠΏΡΠ°Π²ΠΈΠ²ΠΌΠ΅ Π·Π° X.
X_test = pd.read_csv('test.csv', index_col=0)
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)
X_test = np.array(X_test)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])
ΠΡΠ΄Π΅ Π΄Π° Π³ΠΎ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠΌΠ΅ Π½Π°ΡΠΈΠΎΡ ΠΌΠΎΠ΄Π΅Π» ΡΠ΅Π³Π°!
gbc_predict = gbc.predict(X_test)
Π‘ΠΈΡΠ΅. ΠΠ°ΠΏΡΠ°Π²ΠΈΠ²ΠΌΠ΅ ΠΏΡΠΎΠ³Π½ΠΎΠ·Π°. Π‘Π΅Π³Π° ΡΡΠ΅Π±Π° Π΄Π° ΡΠ΅ ΡΠ½ΠΈΠΌΠΈ Π²ΠΎ csv ΠΈ Π΄Π° ΡΠ΅ ΠΈΡΠΏΡΠ°ΡΠΈ Π½Π° Π²Π΅Π±-ΡΡΡΠ°Π½ΠΈΡΠ°ΡΠ°.
np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')
ΠΠΎΠ΄Π³ΠΎΡΠ²Π΅Π½ΠΈ. ΠΠΎΠ±ΠΈΠ²ΠΌΠ΅ Π΄ΠΎΡΠΈΠ΅ ΡΠΎ ΠΏΡΠ΅Π΄Π²ΠΈΠ΄ΡΠ²Π°ΡΠ° Π·Π° ΡΠ΅ΠΊΠΎΡ ΠΏΠ°ΡΠ½ΠΈΠΊ. ΠΡΡΠ°Π½ΡΠ²Π° ΡΠ°ΠΌΠΎ Π΄Π° ΡΠ΅ ΠΏΡΠΈΠΊΠ°ΡΠ°Ρ ΠΎΠ²ΠΈΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΡΠ° Π½Π° Π²Π΅Π±-ΡΡΡΠ°Π½ΠΈΡΠ°ΡΠ° ΠΈ Π΄Π° ΡΠ΅ Π΄ΠΎΠ±ΠΈΠ΅ ΠΏΡΠΎΡΠ΅Π½ΠΊΠ° Π½Π° ΠΏΡΠΎΠ³Π½ΠΎΠ·Π°ΡΠ°. ΠΠ°ΠΊΠ²ΠΎΡΠΎ ΠΏΡΠΈΠΌΠΈΡΠΈΠ²Π½ΠΎ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π΄Π°Π²Π° Π½Π΅ ΡΠ°ΠΌΠΎ 74% ΡΠΎΡΠ½ΠΈ ΠΎΠ΄Π³ΠΎΠ²ΠΎΡΠΈ Π²ΠΎ ΡΠ°Π²Π½ΠΎΡΡΠ°, ΡΡΠΊΡ ΠΈ ΠΎΠ΄ΡΠ΅Π΄Π΅Π½ ΠΈΠΌΠΏΡΠ»Ρ Π²ΠΎ Data Science. ΠΠ°ΡΡΡΠ±ΠΎΠΏΠΈΡΠ½ΠΈΡΠ΅ ΠΌΠΎΠΆΠ°Ρ Π²ΠΎ ΡΠ΅ΠΊΠΎΠ΅ Π²ΡΠ΅ΠΌΠ΅ Π΄Π° ΠΌΠΈ ΠΏΠΈΡΠ°Ρ Π²ΠΎ ΠΏΡΠΈΠ²Π°ΡΠ½ΠΈ ΠΏΠΎΡΠ°ΠΊΠΈ ΠΈ Π΄Π° ΠΏΠΎΡΡΠ°Π²Π°Ρ ΠΏΡΠ°ΡΠ°ΡΠ΅. ΠΠΈ Π±Π»Π°Π³ΠΎΠ΄Π°ΡΠ°ΠΌ Π½Π° ΡΠΈΡΠ΅!
ΠΠ·Π²ΠΎΡ: www.habr.com