рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рдЫреЛрдЯреЛ рдкрд░рд┐рдЪрдпрд╛рддреНрдордХ рд╢рдмреНрдж

рдорд▓рд╛рдИ рд╡рд┐рд╢реНрд╡рд╛рд╕ рдЫ рдХрд┐ рдпрджрд┐ рд╣рд╛рдореАрд▓рд╛рдИ рдХреЗ рдЧрд░реНрдиреЗ рд░ рдХрд╕рд░реА рдЧрд░реНрдиреЗ рднрдиреЗрд░ рдмрддрд╛рдЙрдиреЗ рдЪрд░рдг-рджрд░-рдЪрд░рдг рдирд┐рд░реНрджреЗрд╢рдирд╣рд░реВ рдЙрдкрд▓рдмреНрдз рдЧрд░рд╛рдЗрдпреЛ рднрдиреЗ рд╣рд╛рдореАрд▓реЗ рдзреЗрд░реИ рдЪреАрдЬрд╣рд░реВ рдЧрд░реНрди рд╕рдХреНрдЫреМрдВред рдо рдЖрдлреИрдВрд▓рд╛рдИ рдореЗрд░реЛ рдЬреАрд╡рдирдХрд╛ рдкрд▓рд╣рд░реВ рд╕рдореНрдЭрдиреНрдЫреБ рдЬрдм рдореИрд▓реЗ рдХреЗрд╣рд┐ рд╕реБрд░реБ рдЧрд░реНрди рд╕рдХрд┐рди рдХрд┐рдирднрдиреЗ рдХрд╣рд╛рдБрдмрд╛рдЯ рд╕реБрд░реБ рдЧрд░реНрдиреЗ рдмреБрдЭреНрди рдЧрд╛рд╣реНрд░реЛ рдерд┐рдпреЛред рд╕рд╛рдпрдж, рдПрдХ рдкрдЯрдХ рдЗрдиреНрдЯрд░рдиреЗрдЯрдорд╛ рддрдкрд╛рдИрдВрд▓реЗ "рдбреЗрдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди" рд╢рдмреНрджрд╣рд░реВ рджреЗрдЦреНрдиреБрднрдпреЛ рд░ рдирд┐рд░реНрдгрдп рдЧрд░реНрдиреБрднрдпреЛ рдХрд┐ рддрдкрд╛рдИрдВ рдпрд╕рдмрд╛рдЯ рдЯрд╛рдврд╛ рд╣реБрдиреБрд╣реБрдиреНрдЫ, рд░ рдпреЛ рдЧрд░реНрдиреЗ рд╡реНрдпрдХреНрддрд┐рд╣рд░реВ рдХрддреИ рдмрд╛рд╣рд┐рд░, рдЕрд░реНрдХреЛ рд╕рдВрд╕рд╛рд░рдорд╛ рдерд┐рдПред рд╣реЛрдЗрди, рддрд┐рдиреАрд╣рд░реВ рдпрд╣рд╛рдБ рдЫрдиреНред рд░ рд╕рд╛рдпрдж, рдпрд╕ рдХреНрд╖реЗрддреНрд░рдХрд╛ рдорд╛рдирд┐рд╕рд╣рд░реВрд▓рд╛рдИ рдзрдиреНрдпрд╡рд╛рдж, рддрдкрд╛рдИрдВрдХреЛ рдлрд┐рдбрдорд╛ рдПрдЙрдЯрд╛ рд▓реЗрдЦ рджреЗрдЦрд╛ рдкрд░реНтАНрдпреЛред рддреНрдпрд╣рд╛рдБ рдзреЗрд░реИ рдкрд╛рдареНрдпрдХреНрд░рдорд╣рд░реВ рдЫрдиреН рдЬрд╕рд▓реЗ рддрдкрд╛рдИрдВрд▓рд╛рдИ рдпрд╕ рд╢рд┐рд▓реНрдкрд╕рдБрдЧ рд╕рд╣рдЬ рд╣реБрди рдорджреНрджрдд рдЧрд░реНрдиреЗрдЫ, рддрд░ рдпрд╣рд╛рдБ рдо рддрдкрд╛рдИрдВрд▓рд╛рдИ рдкрд╣рд┐рд▓реЛ рдХрджрдо рдЪрд╛рд▓реНрди рдорджреНрджрдд рдЧрд░реНрдиреЗрдЫреБред

рдЦреИрд░, рддрдкрд╛рдИрдВ рддрдпрд╛рд░ рд╣реБрдиреБрд╣реБрдиреНрдЫ? рдо рддрдкрд╛рдИрд▓рд╛рдИ рддреБрд░реБрдиреНрддреИ рдмрддрд╛рдЙрди рдЪрд╛рд╣рдиреНрдЫреБ рдХрд┐ рддрдкрд╛рдИрд▓рд╛рдИ рдкрд╛рдЗрдерди 3 рдерд╛рд╣рд╛ рд╣реБрдиреБ рдЖрд╡рд╢реНрдпрдХ рдЫ, рдХрд┐рдирдХрд┐ рдо рдпрд╣рд╛рдБ рдкреНрд░рдпреЛрдЧ рдЧрд░реНрджреИрдЫреБред рдо рддрдкрд╛рдЗрдБрд▓рд╛рдИ рдпреЛ рдЕрдЧреНрд░рд┐рдо Jupyter Notebook рдорд╛ рд╕реНрдерд╛рдкрдирд╛ рдЧрд░реНрди рд╡рд╛ рдЧреБрдЧрд▓ рдХреЛрд▓рд╛рдм рдХрд╕рд░реА рдкреНрд░рдпреЛрдЧ рдЧрд░реНрдиреЗ рднрдиреЗрд░ рд╣реЗрд░реНрди рд╕рд▓реНрд▓рд╛рд╣ рджрд┐рдиреНрдЫреБред

рдкрд╣рд┐рд▓реЛ рдЪрд░рдг

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

Kaggle рдпрд╕ рдорд╛рдорд┐рд▓рд╛рдорд╛ рддрдкрд╛рдИрдВрдХреЛ рдорд╣рддреНрддреНрд╡рдкреВрд░реНрдг рд╕рд╣рд╛рдпрдХ рд╣реЛред рд╕рд┐рджреНрдзрд╛рдиреНрддрдорд╛, рддрдкрд╛рдИрдВ рдпрд╕рд▓рд╛рдИ рдмрд┐рдирд╛ рдЧрд░реНрди рд╕рдХреНрдиреБрд╣реБрдиреНрдЫ, рддрд░ рдо рдЕрд░реНрдХреЛ рд▓реЗрдЦрдорд╛ рдпрд╕рдХреЛ рдмрд╛рд░реЗрдорд╛ рдХреБрд░рд╛ рдЧрд░реНрдиреЗрдЫреБред рдпреЛ рдПрдХ рдкреНрд▓реЗрдЯрдлрд░реНрдо рд╣реЛ рдЬрд╕рд▓реЗ рдбреЗрдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдкреНрд░рддрд┐рдпреЛрдЧрд┐рддрд╛рд╣рд░реВ рд╣реЛрд╕реНрдЯ рдЧрд░реНрджрдЫред рдпрд╕реНрддреЛ рдкреНрд░рддреНрдпреЗрдХ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛рдорд╛, рдкреНрд░рд╛рд░рдореНрднрд┐рдХ рдЪрд░рдгрд╣рд░реВрдорд╛ рддрдкрд╛рдИрд▓реЗ рд╡рд┐рднрд┐рдиреНрди рдкреНрд░рдХрд╛рд░рдХрд╛ рд╕рдорд╕реНрдпрд╛рд╣рд░реВ рд╕рдорд╛рдзрд╛рди рдЧрд░реНрди, рд╡рд┐рдХрд╛рд╕ рдЕрдиреБрднрд╡ рд░ рдЯреЛрд▓реАрдорд╛ рдХрд╛рдо рдЧрд░реНрдиреЗ рдЕрдиреБрднрд╡рдХреЛ рдЕрд╡рд╛рд╕реНрддрд╡рд┐рдХ рдорд╛рддреНрд░рд╛ рдкреНрд░рд╛рдкреНрдд рдЧрд░реНрдиреБрд╣реБрдиреЗрдЫ, рдЬреБрди рд╣рд╛рдореНрд░реЛ рд╕рдордпрдорд╛ рдорд╣рддреНрддреНрд╡рдкреВрд░реНрдг рдЫред

рд╣рд╛рдореА рддреНрдпрд╣рд╛рдБрдмрд╛рдЯ рд╣рд╛рдореНрд░реЛ рдХрд╛рдо рд▓рд┐рдиреНрдЫреМрдВред рдпрд╕рд▓рд╛рдИ "рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ" рднрдирд┐рдиреНрдЫред рдЕрд╡рд╕реНрдерд╛ рдпреЛ рд╣реЛ: рдкреНрд░рддреНрдпреЗрдХ рд╡реНрдпрдХреНрддрд┐ рдмрд╛рдБрдЪреНрдиреЗрдЫ рдХрд┐ рднрдиреЗрд░ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдЧрд░реНрдиреБрд╣реЛрд╕реНред рд╕рд╛рдорд╛рдиреНрдпрддрдпрд╛, DS рдорд╛ рд╕рдВрд▓рдЧреНрди рд╡реНрдпрдХреНрддрд┐рдХреЛ рдХрд╛рд░реНрдп рдбреЗрдЯрд╛ рд╕рдЩреНрдХрд▓рди, рдкреНрд░рд╢реЛрдзрди, рдПрдХ рдореЛрдбреЗрд▓ рдкреНрд░рд╢рд┐рдХреНрд╖рдг, рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди, рд░ рдпрд╕реНрддреИ рд╣реЛред рдХрд╛рдЧрд▓рдорд╛, рд╣рд╛рдореАрд▓рд╛рдИ рдбреЗрдЯрд╛ рд╕рдЩреНрдХрд▓рди рдЪрд░рдг рдЫреЛрдбреНрди рдЕрдиреБрдорддрд┐ рджрд┐рдЗрдПрдХреЛ рдЫ - рддрд┐рдиреАрд╣рд░реВ рдкреНрд▓реЗрдЯрдлрд░реНрдордорд╛ рдкреНрд░рд╕реНрддреБрдд рдЧрд░рд┐рдПрдХрд╛ рдЫрдиреНред рд╣рд╛рдореАрд▓реЗ рддрд┐рдиреАрд╣рд░реВрд▓рд╛рдИ рдбрд╛рдЙрдирд▓реЛрдб рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫ рд░ рд╣рд╛рдореА рд╕реБрд░реБ рдЧрд░реНрди рд╕рдХреНрдЫреМрдВ!

рддрдкрд╛рдЗрдБ рдирд┐рдореНрдирд╛рдиреБрд╕рд╛рд░ рдпреЛ рдЧрд░реНрди рд╕рдХреНрдиреБрд╣реБрдиреНрдЫ:

рдбрд╛рдЯрд╛ рдЯреНрдпрд╛рдмрд▓реЗ рдбрд╛рдЯрд╛ рд╕рдорд╛рд╡реЗрд╢ рдЧрд░реНрдиреЗ рдлрд╛рдЗрд▓рд╣рд░реВ рд╕рдорд╛рд╡реЗрд╢ рдЧрд░реНрджрдЫ

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рд╣рд╛рдореАрд▓реЗ рдбрд╛рдЯрд╛ рдбрд╛рдЙрдирд▓реЛрдб рдЧрд░реНрдпреМрдВ, рд╣рд╛рдореНрд░реЛ Jupyter рдиреЛрдЯрдмреБрдХрд╣рд░реВ рддрдпрд╛рд░ рдЧрд░реНрдпреМрдВ рд░...

рджреЛрд╕реНрд░реЛ рдЪрд░рдг

рдЕрдм рд╣рд╛рдореА рдпреЛ рдбрд╛рдЯрд╛ рдХрд╕рд░реА рд▓реЛрдб рдЧрд░реНрдЫреМрдВ?

рдкрд╣рд┐рд▓реЗ, рдЖрд╡рд╢реНрдпрдХ рдкреБрд╕реНрддрдХрд╛рд▓рдпрд╣рд░реВ рдЖрдпрд╛рдд рдЧрд░реМрдВ:

import pandas as pd
import numpy as np

Pandas рд▓реЗ рд╣рд╛рдореАрд▓рд╛рдИ рдердк рдкреНрд░рд╢реЛрдзрдирдХрд╛ рд▓рд╛рдЧрд┐ .csv рдлрд╛рдЗрд▓рд╣рд░реВ рдбрд╛рдЙрдирд▓реЛрдб рдЧрд░реНрди рдЕрдиреБрдорддрд┐ рджрд┐рдиреЗрдЫред

Numpy рдХреЛ рд╕рдВрдЦреНрдпрд╛ рд╕рдВрдЧ рдореНрдпрд╛рдЯреНрд░рд┐рдХреНрд╕ рдХреЛ рд░реВрдк рдорд╛ рд╣рд╛рдореНрд░реЛ рдбреЗрдЯрд╛ рддрд╛рд▓рд┐рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫред
рдЕрдШрд┐ рдмрдвред рдлрд╛рдИрд▓ train.csv рд▓рд┐рдиреБрд╣реЛрд╕реН рд░ рд╣рд╛рдореАрд▓рд╛рдИ рдЕрдкрд▓реЛрдб рдЧрд░реНрдиреБрд╣реЛрд╕реН:

dataset = pd.read_csv('train.csv')

рд╣рд╛рдореА рдбреЗрдЯрд╛рд╕реЗрдЯ рдЪрд░ рдорд╛рд░реНрдлрдд рд╣рд╛рдореНрд░реЛ train.csv рдбреЗрдЯрд╛ рдЪрдпрдирд▓рд╛рдИ рд╕рдиреНрджрд░реНрдн рдЧрд░реНрдиреЗрдЫреМрдВред рддреНрдпрд╣рд╛рдБ рдХреЗ рдЫ рд╣реЗрд░реМрдВ:

dataset.head()

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

head() рдкреНрд░рдХрд╛рд░реНрдпрд▓реЗ рд╣рд╛рдореАрд▓рд╛рдИ рдбреЗрдЯрд╛рдлреНрд░реЗрдордХреЛ рдкрд╣рд┐рд▓реЛ рдХреЗрд╣реА рдкрдЩреНрдХреНрддрд┐рд╣рд░реВ рд╣реЗрд░реНрди рдЕрдиреБрдорддрд┐ рджрд┐рдиреНрдЫред

рдмрд╛рдБрдЪреЗрдХрд╛ рд╕реНрддрдореНрднрд╣рд░реВ рдареНрдпрд╛рдХреНрдХреИ рд╣рд╛рдореНрд░рд╛ рдирддрд┐рдЬрд╛рд╣рд░реВ рд╣реБрдиреН, рдЬреБрди рдпрд╕ рдбреЗрдЯрд╛рдлреНрд░реЗрдордорд╛ рдЬреНрдЮрд╛рдд рдЫрдиреНред рдХрд╛рд░реНрдп рдкреНрд░рд╢реНрдирдХреЛ рд▓рд╛рдЧрд┐, рд╣рд╛рдореАрд▓реЗ test.csv рдбреЗрдЯрд╛рдХреЛ рд▓рд╛рдЧрд┐ рдмрд╛рдБрдЪреЗрдХреЛ рд╕реНрддрдореНрднрдХреЛ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫред рдпреЛ рдбрд╛рдЯрд╛рд▓реЗ рдЯрд╛рдЗрдЯрд╛рдирд┐рдХрдХрд╛ рдЕрдиреНрдп рдпрд╛рддреНрд░реБрд╣рд░реВрдХреЛ рдмрд╛рд░реЗрдорд╛ рдЬрд╛рдирдХрд╛рд░реА рднрдгреНрдбрд╛рд░ рдЧрд░реНрджрдЫ, рдЬрд╕рдХреЛ рд▓рд╛рдЧрд┐ рд╣рд╛рдореА, рд╕рдорд╕реНрдпрд╛ рд╕рдорд╛рдзрд╛рди рдЧрд░реНрджреИ, рдкрд░рд┐рдгрд╛рдо рдерд╛рд╣рд╛ рдЫреИрдиред

рддреНрдпрд╕реЛрднрдП, рд╣рд╛рдореНрд░реЛ рддрд╛рд▓рд┐рдХрд╛рд▓рд╛рдИ рдирд┐рд░реНрднрд░ рд░ рд╕реНрд╡рддрдиреНрддреНрд░ рдбреЗрдЯрд╛рдорд╛ рд╡рд┐рднрд╛рдЬрди рдЧрд░реМрдВред рдпрд╣рд╛рдБ рд╕рдмреИ рдХреБрд░рд╛ рд╕рд░рд▓ рдЫред рдирд┐рд░реНрднрд░ рдбрд╛рдЯрд╛ рддреА рдбрд╛рдЯрд╛ рд╣реБрдиреН рдЬреБрди рдкрд░рд┐рдгрд╛рдорд╣рд░реВрдорд╛ рд░рд╣реЗрдХреЛ рд╕реНрд╡рддрдиреНрддреНрд░ рдбрд╛рдЯрд╛рдорд╛ рдирд┐рд░реНрднрд░ рд╣реБрдиреНрдЫред рд╕реНрд╡рддрдиреНрддреНрд░ рдбрд╛рдЯрд╛ рддреА рдбрд╛рдЯрд╛ рд╣реБрдиреН рдЬрд╕рд▓реЗ рдкрд░рд┐рдгрд╛рдорд▓рд╛рдИ рдЕрд╕рд░ рдЧрд░реНрдЫред

рдЙрджрд╛рд╣рд░рдгрдХрд╛ рд▓рд╛рдЧрд┐, рд╣рд╛рдореАрд╕рдБрдЧ рдирд┐рдореНрди рдбреЗрдЯрд╛ рд╕реЗрдЯ рдЫ:

"рднреЛрднрд╛рд▓реЗ рдХрдореНрдкреНрдпреБрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рди рдкрдврд╛рдП - рд╣реЛрдЗрдиред
рднреЛрднрд╛рд▓реЗ рдХрдореНрдкреНрдпреБрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рдирдорд╛ реи рдкреНрд░рд╛рдкреНрдд рдЧрд░реЗред

рдХрдореНрдкреНрдпреБрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рдирдорд╛ рдЧреНрд░реЗрдб рдкреНрд░рд╢реНрдирдХреЛ рдЬрд╡рд╛рдлрдорд╛ рдирд┐рд░реНрднрд░ рдЧрд░реНрджрдЫ: рдХреЗ рднреЛрднрд╛рд▓реЗ рдХрдореНрдкреНрдпреБрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рди рдЕрдзреНрдпрдпрди рдЧрд░реЗ? рдХреЗ рдпреЛ рд╕реНрдкрд╖реНрдЯ рдЫ? рдЕрдЧрд╛рдбрд┐ рдмрдвреМрдВ, рд╣рд╛рдореА рдкрд╣рд┐рд▓реЗ рдиреИ рд▓рдХреНрд╖реНрдпрдХреЛ рдирдЬрд┐рдХ рдЫреМрдВ!

рд╕реНрд╡рддрдиреНрддреНрд░ рдбреЗрдЯрд╛рдХреЛ рд▓рд╛рдЧрд┐ рдкрд░рдореНрдкрд░рд╛рдЧрдд рдЪрд░ X рд╣реЛред рдирд┐рд░реНрднрд░ рдбреЗрдЯрд╛рдХреЛ рд▓рд╛рдЧрд┐, yред

рд╣рд╛рдореА рдирд┐рдореНрди рдЧрд░реНрдЫреМрдВ:

X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]

рдпреЛ рдХреЗ рд╣реЛ? рдкреНрд░рдХрд╛рд░реНрдп iloc [:, 2: ] рдХреЛ рд╕рд╛рдердорд╛ рд╣рд╛рдореА Python рд▓рд╛рдИ рднрдиреНрдЫреМрдВ: рдо рджреЛрд╕реНрд░реЛ рд╕реНрддрдореНрднрдмрд╛рдЯ рд╕реБрд░реБ рд╣реБрдиреЗ рдбрд╛рдЯрд╛ рднреЗрд░рд┐рдПрдмрд▓ X рдорд╛ рд╣реЗрд░реНрди рдЪрд╛рд╣рдиреНрдЫреБ (рд╕рдорд╛рд╡реЗрд╢реА рд░ рдЧрдиреНрддреА рд╢реВрдиреНрдпрдмрд╛рдЯ рд╕реБрд░реБ рд╣реБрдиреНрдЫ)ред рджреЛрд╕реНрд░реЛ рд▓рд╛рдЗрдирдорд╛ рд╣рд╛рдореА рднрдиреНрдЫреМрдВ рдХрд┐ рд╣рд╛рдореА рдкрд╣рд┐рд▓реЛ рд╕реНрддрдореНрднрдорд╛ рдбрд╛рдЯрд╛ рд╣реЗрд░реНрди рдЪрд╛рд╣рдиреНрдЫреМрдВред

[a:b, c:d] рд╣рд╛рдореАрд▓реЗ рдХреЛрд╖реНрдардХрдорд╛ рдкреНрд░рдпреЛрдЧ рдЧрд░реНрдиреЗ рдХреБрд░рд╛рдХреЛ рдирд┐рд░реНрдорд╛рдг рд╣реЛред рдпрджрд┐ рддрдкрд╛рдИрдВрд▓реЗ рдХреБрдиреИ рдкрдирд┐ рдЪрд░ рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдЧрд░реНрдиреБрднрдПрди рднрдиреЗ, рддрд┐рдиреАрд╣рд░реВ рдкреВрд░реНрд╡рдирд┐рд░реНрдзрд╛рд░рд┐рдд рд░реВрдкрдорд╛ рдмрдЪрдд рд╣реБрдиреЗрдЫрдиреНред рдЕрд░реНрдерд╛рддреН, рд╣рд╛рдореАрд▓реЗ [:,: d] рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдЧрд░реНрди рд╕рдХреНрдЫреМрдВ рд░ рддреНрдпрд╕рдкрдЫрд┐ рд╣рд╛рдореАрд▓реЗ рдбреЗрдЯрд╛рдлреНрд░реЗрдордорд╛ рд╕рдмреИ рд╕реНрддрдореНрднрд╣рд░реВ рдкреНрд░рд╛рдкреНрдд рдЧрд░реНрдиреЗрдЫреМрдВ, рддреА рдмрд╛рд╣реЗрдХ рдЬреБрди рдирдореНрдмрд░ d рдмрд╛рдЯ рдЕрдЧрд╛рдбрд┐ рдЬрд╛рдиреНрдЫрдиреНред рдЪрд░ a рд░ b рд▓реЗ рд╕реНрдЯреНрд░рд┐рдЩрд╣рд░реВ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдЧрд░реНрджрдЫ, рддрд░ рд╣рд╛рдореАрд▓рд╛рдИ рддреА рд╕рдмреИ рдЪрд╛рд╣рд┐рдиреНрдЫ, рддреНрдпрд╕реИрд▓реЗ рд╣рд╛рдореАрд▓реЗ рдпрд╕рд▓рд╛рдИ рдкреВрд░реНрд╡рдирд┐рд░реНрдзрд╛рд░рд┐рдд рд░реВрдкрдорд╛ рдЫреЛрдбреНрдЫреМрдВред

рд╣рд╛рдореАрд▓реЗ рдХреЗ рдкрд╛рдпреМрдВ рд╣реЗрд░реМрдВ:

X.head()

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

y.head()

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рдпрд╕ рд╕рд╛рдиреЛ рдкрд╛рдард▓рд╛рдИ рд╕рд░рд▓ рдмрдирд╛рдЙрдирдХреЛ рд▓рд╛рдЧрд┐, рд╣рд╛рдореА рд╡рд┐рд╢реЗрд╖ рд╣реЗрд░рдЪрд╛рд╣ рдЖрд╡рд╢реНрдпрдХ рдкрд░реНрдиреЗ рд╡рд╛ рдмрд╛рдБрдЪреНрдиреЗ рдХреНрд╖рдорддрд╛рд▓рд╛рдИ рдЕрд╕рд░ рдирдЧрд░реНрдиреЗ рд╕реНрддрдореНрднрд╣рд░реВ рд╣рдЯрд╛рдЙрдиреЗрдЫреМрдВред рддрд┐рдиреАрд╣рд░реВрд▓реЗ str рдкреНрд░рдХрд╛рд░рдХреЛ рдбреЗрдЯрд╛ рд╕рдорд╛рд╡реЗрд╢ рдЧрд░реНрджрдЫред

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)

рд╕реБрдкрд░! рдЕрд░реНрдХреЛ рдЪрд░рдгрдорд╛ рдЬрд╛рдФрдВред

рддреЗрд╕реНрд░реЛ рдЪрд░рдг

рдпрд╣рд╛рдБ рд╣рд╛рдореАрд▓реЗ рд╣рд╛рдореНрд░реЛ рдбреЗрдЯрд╛ рдЗрдиреНрдХреЛрдб рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫ рддрд╛рдХрд┐ рдореЗрд╕рд┐рдирд▓реЗ рдпреЛ рдбреЗрдЯрд╛рд▓реЗ рдкрд░рд┐рдгрд╛рдорд▓рд╛рдИ рдХрд╕рд░реА рдЕрд╕рд░ рдЧрд░реНрдЫ рднрдиреЗрд░ рд░рд╛рдореНрд░реЛрд╕рдБрдЧ рдмреБрдЭреНрджрдЫред рддрд░ рд╣рд╛рдореА рд╕рдмреИ рдХреБрд░рд╛ рдЗрдиреНрдХреЛрдб рдЧрд░реНрджреИрдиреМрдВ, рддрд░ рд╣рд╛рдореАрд▓реЗ рдЫреЛрдбреЗрдХреЛ str рдбрд╛рдЯрд╛ рдорд╛рддреНрд░ред рд╕реНрддрдореНрдн "рд╕реЗрдХреНрд╕"ред рд╣рд╛рдореА рдХрд╕рд░реА рдХреЛрдб рдЧрд░реНрди рдЪрд╛рд╣рдиреНрдЫреМрдВ? рднреЗрдХреНрдЯрд░рдХреЛ рд░реВрдкрдорд╛ рдПрдХ рд╡реНрдпрдХреНрддрд┐рдХреЛ рд▓рд┐рдВрдЧрдХреЛ рдмрд╛рд░реЗрдорд╛ рдбреЗрдЯрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдЧрд░реМрдВ: 10 - рдкреБрд░реБрд╖, 01 - рдорд╣рд┐рд▓рд╛ред

рдкрд╣рд┐рд▓реЗ, рд╣рд╛рдореНрд░реЛ рддрд╛рд▓рд┐рдХрд╛рд╣рд░реВрд▓рд╛рдИ NumPy рдореНрдпрд╛рдЯреНрд░рд┐рдХреНрд╕рдорд╛ рд░реВрдкрд╛рдиреНрддрд░рдг рдЧрд░реМрдВ:

X = np.array(X)
y = np.array(y)

рд░ рдЕрдм рд╣реЗрд░реМрдВ:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X = np.array(ct.fit_transform(X))

sklearn рдкреБрд╕реНрддрдХрд╛рд▓рдп рдпрд╕реНрддреЛ рд╕реБрдиреНрджрд░ рдкреБрд╕реНрддрдХрд╛рд▓рдп рд╣реЛ рдЬрд╕рд▓реЗ рд╣рд╛рдореАрд▓рд╛рдИ рдбреЗрдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рдирдорд╛ рдкреВрд░реНрдг рдХрд╛рдо рдЧрд░реНрди рдЕрдиреБрдорддрд┐ рджрд┐рдиреНрдЫред рдпрд╕рд▓реЗ рдареВрд▓реЛ рд╕рдВрдЦреНрдпрд╛рдорд╛ рд░реЛрдЪрдХ рдореЗрд╕рд┐рди рд▓рд░реНрдирд┐рдЩ рдореЛрдбреЗрд▓рд╣рд░реВ рд╕рдорд╛рд╡реЗрд╢ рдЧрд░реНрджрдЫ рд░ рд╣рд╛рдореАрд▓рд╛рдИ рдбреЗрдЯрд╛ рддрдпрд╛рд░реА рдЧрд░реНрди рдЕрдиреБрдорддрд┐ рджрд┐рдиреНрдЫред

OneHotEncoder рд▓реЗ рд╣рд╛рдореАрд▓рд╛рдИ рддреНрдпреЛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡рдорд╛ рд╡реНрдпрдХреНрддрд┐рдХреЛ рд▓рд┐рдЩреНрдЧ рдЗрдиреНрдХреЛрдб рдЧрд░реНрди рдЕрдиреБрдорддрд┐ рджрд┐рдиреЗрдЫ, рдЬрд╕рд░реА рд╣рд╛рдореАрд▓реЗ рд╡рд░реНрдгрди рдЧрд░реЗрдХрд╛ рдЫреМрдВред 2 рд╡рд░реНрдЧрд╣рд░реВ рд╕рд┐рд░реНрдЬрдирд╛ рдЧрд░рд┐рдиреЗрдЫ: рдкреБрд░реБрд╖, рдорд╣рд┐рд▓рд╛ред рдпрджрд┐ рд╡реНрдпрдХреНрддрд┐ рдкреБрд░реБрд╖ рд╣реЛ рднрдиреЗ, "рдкреБрд░реБрд╖" рд╕реНрддрдореНрднрдорд╛ 1 рд░ "рдорд╣рд┐рд▓рд╛" рд╕реНрддрдореНрднрдорд╛ рдХреНрд░рдорд╢рдГ 0 рд▓реЗрдЦрд┐рдиреЗрдЫред

OneHotEncoder() рдкрдЫрд┐ рддреНрдпрд╣рд╛рдБ [1] рдЫ - рдпрд╕рдХреЛ рдорддрд▓рдм рд╣рд╛рдореА рд╕реНрддрдореНрдн рдирдореНрдмрд░ 1 (рд╢реВрдиреНрдпрдмрд╛рдЯ рдЧрдгрдирд╛ рдЧрд░реНрджреИ) рдЗрдиреНрдХреЛрдб рдЧрд░реНрди рдЪрд╛рд╣рдиреНрдЫреМрдВред

рд╕реБрдкрд░ред рдЕрдЭ рдЕрдЧрд╛рдбрд┐ рдмрдвреМрдВ!

рдПрдХ рдирд┐рдпрдордХреЛ рд░реВрдкрдорд╛, рдпреЛ рд╣реБрдиреНрдЫ рдХрд┐ рдХреЗрд╣рд┐ рдбрд╛рдЯрд╛ рдЦрд╛рд▓реА рдЫреЛрдбрд┐рдПрдХреЛ рдЫ (рдЕрд░реНрдерд╛рдд, NaN - рдирдореНрдмрд░ рд╣реЛрдЗрди)ред рдЙрджрд╛рд╣рд░рдгрдХрд╛ рд▓рд╛рдЧрд┐, рддреНрдпрд╣рд╛рдБ рдПрдХ рд╡реНрдпрдХреНрддрд┐рдХреЛ рдмрд╛рд░реЗрдорд╛ рдЬрд╛рдирдХрд╛рд░реА рдЫ: рдЙрд╕рдХреЛ рдирд╛рдо, рд▓рд┐рдЩреНрдЧред рддрд░ рдЙрдирдХреЛ рдЙрдореЗрд░рдмрд╛рд░реЗ рднрдиреЗ рдХреЗрд╣реА рдЬрд╛рдирдХрд╛рд░реА рдЫреИрди ред рдпрд╕ рдЕрд╡рд╕реНрдерд╛рдорд╛, рд╣рд╛рдореА рдирд┐рдореНрди рд╡рд┐рдзрд┐ рд▓рд╛рдЧреВ рдЧрд░реНрдиреЗрдЫреМрдВ: рд╣рд╛рдореА рд╕рдмреИ рд╕реНрддрдореНрднрд╣рд░реВрдорд╛ рдЕрдВрдХрдЧрдгрд┐рдд рдорд╛рдзреНрдп рдлреЗрд▓рд╛ рдкрд╛рд░реНрдиреЗрдЫреМрдВ рд░, рдпрджрд┐ рд╕реНрддрдореНрднрдорд╛ рдХреЗрд╣реА рдбреЗрдЯрд╛ рдЫреБрдЯреЗрдХреЛ рдЫ рднрдиреЗ, рд╣рд╛рдореА рдЕрдВрдХрдЧрдгрд┐рддреАрдп рдорд╛рдзреНрдпрд▓реЗ рд╢реВрдиреНрдп рднрд░реНрдиреЗрдЫреМрдВред

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)

рдЕрдм рдбреЗрдЯрд╛ рдзреЗрд░реИ рдареВрд▓реЛ рд╣реБрдБрджрд╛ рдкрд░рд┐рд╕реНрдерд┐рддрд┐рд╣рд░реВ рд╣реБрдиреНрдЫрдиреН рднрдиреНрдиреЗ рдХреБрд░рд╛рд▓рд╛рдИ рдзреНрдпрд╛рдирдорд╛ рд░рд╛рдЦреМрдВред рдХреЗрд╣рд┐ рдбрд╛рдЯрд╛ рдЕрдиреНрддрд░рд╛рд▓ [реж:рез] рдорд╛ рдЫ, рдЬрдмрдХрд┐ рдХреЗрд╣рд┐ рд╕рдпреМрдВ рд░ рд╣рдЬрд╛рд░реМрдВ рднрдиреНрджрд╛ рдорд╛рдерд┐ рдЬрд╛рди рд╕рдХреНрдЫред рдпрд╕реНрддреЛ рд╕реНрдХреНрдпрд╛рдЯрд░ рд╣рдЯрд╛рдЙрди рд░ рдХрдореНрдкреНрдпреБрдЯрд░рд▓рд╛рдИ рдпрд╕рдХреЛ рдЧрдгрдирд╛рдорд╛ рдЕрдЭ рд╕рдЯреАрдХ рдмрдирд╛рдЙрди, рд╣рд╛рдореА рдбрд╛рдЯрд╛ рд╕реНрдХреНрдпрд╛рди рдЧрд░реНрдиреЗрдЫреМрдВ рд░ рдпрд╕рд▓рд╛рдИ рдорд╛рдкрди рдЧрд░реНрдиреЗрдЫреМрдВред рд╕рдмреИ рд╕рдВрдЦреНрдпрд╛рд╣рд░реВ рддреАрди рднрдиреНрджрд╛ рдмрдвреА рдирд╣реЛрд╕реНред рдпреЛ рдЧрд░реНрдирдХреЛ рд▓рд╛рдЧрд┐, рд╣рд╛рдореА StandardScaler рдкреНрд░рдХрд╛рд░реНрдп рдкреНрд░рдпреЛрдЧ рдЧрд░реНрдиреЗрдЫреМрдВред

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])

рдЕрдм рд╣рд╛рдореНрд░реЛ рдбрд╛рдЯрд╛ рдпрд╕реНрддреЛ рджреЗрдЦрд┐рдиреНрдЫ:

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рдХрдХреНрд╖рд╛ред рд╣рд╛рдореА рдкрд╣рд┐рд▓реЗ рдиреИ рд╣рд╛рдореНрд░реЛ рд▓рдХреНрд╖реНрдпрдХреЛ рдирдЬрд┐рдХ рдЫреМрдВ!

рдЪрд░рдг рдЪрд╛рд░

рд╣рд╛рдореНрд░реЛ рдкрд╣рд┐рд▓реЛ рдореЛрдбреЗрд▓ рддрд╛рд▓рд┐рдо рдЧрд░реМрдВ! sklearn рдкреБрд╕реНрддрдХрд╛рд▓рдпрдмрд╛рдЯ рд╣рд╛рдореАрд▓реЗ рдзреЗрд░реИ рд░реЛрдЪрдХ рдЪреАрдЬрд╣рд░реВ рдлреЗрд▓рд╛ рдкрд╛рд░реНрди рд╕рдХреНрдЫреМрдВред рдореИрд▓реЗ рдпрд╕ рд╕рдорд╕реНрдпрд╛рдорд╛ рдЧреНрд░реЗрдбрд┐рдпрдиреНрдЯ рдмреВрд╕реНрдЯрд┐рдЩ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдореЛрдбреЗрд▓ рд▓рд╛рдЧреВ рдЧрд░реЗрдВред рд╣рд╛рдореА рдП рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдкреНрд░рдпреЛрдЧ рдЧрд░реНрджрдЫреМрдВ рдХрд┐рдирднрдиреЗ рд╣рд╛рдореНрд░реЛ рдХрд╛рд░реНрдп рд╡рд░реНрдЧреАрдХрд░рдг рдХрд╛рд░реНрдп рд╣реЛред рдкреНрд░реЛрдЧреНрдиреЛрд╕рд┐рд╕ 1 (рдмрд╛рдБрдЪрд┐рдПрдХреЛ) рд╡рд╛ 0 (рдмрд╛рдБрдЪреНрди рд╕рдХреЗрди) рдорд╛ рддреЛрдХрд┐рдПрдХреЛ рд╣реБрдиреБрдкрд░реНрдЫред

from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)

рдлрд┐рдЯ рдкреНрд░рдХрд╛рд░реНрдпрд▓реЗ рдкрд╛рдЗрдердирд▓рд╛рдИ рдмрддрд╛рдЙрдБрдЫ: рдореЛрдбреЗрд▓рд▓рд╛рдИ X рд░ y рдмреАрдЪрдХреЛ рдирд┐рд░реНрднрд░рддрд╛рд╣рд░реВ рдЦреЛрдЬреНрди рджрд┐рдиреБрд╣реЛрд╕реНред

рдПрдХ рд╕реЗрдХреЗрдиреНрдб рднрдиреНрджрд╛ рдХрдо рд░ рдореЛрдбреЗрд▓ рддрдпрд╛рд░ рдЫред

рдбрд╛рдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдорд╛ рддрдкрд╛рдЗрдБрдХреЛ рдкрд╣рд┐рд▓реЛ рдХрджрдоред рдЯрд╛рдЗрдЯрд╛рдирд┐рдХ

рдпрд╕рд▓рд╛рдИ рдХрд╕рд░реА рд▓рд╛рдЧреВ рдЧрд░реНрдиреЗ? рд╣рд╛рдореА рдЕрдм рджреЗрдЦреНрдиреЗрдЫреМрдВ!

рдЪрд░рдг рдкрд╛рдБрдЪред рдирд┐рд╖реНрдХрд░реНрд╖

рдЕрдм рд╣рд╛рдореАрд▓реЗ рд╣рд╛рдореНрд░реЛ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛рдХреЛ рд╕рд╛рде рдПрдЙрдЯрд╛ рддрд╛рд▓рд┐рдХрд╛ рд▓реЛрдб рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫ рдЬрд╕рдХреЛ рд▓рд╛рдЧрд┐ рд╣рд╛рдореАрд▓реЗ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдЧрд░реНрди рдЖрд╡рд╢реНрдпрдХ рдЫред рдпрд╕ рддрд╛рд▓рд┐рдХрд╛рдХреЛ рд╕рд╛рде рд╣рд╛рдореАрд▓реЗ X рдХреЛ рд▓рд╛рдЧрд┐ рдЧрд░реЗрдХрд╛ рд╕рдмреИ рдХрд╛рд░реНрдпрд╣рд░реВ рдЧрд░реНрдиреЗрдЫреМрдВред

X_test = pd.read_csv('test.csv', index_col=0)

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)

X_test = np.array(X_test)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])

рдЕрдм рд╣рд╛рдореНрд░реЛ рдореЛрдбреЗрд▓ рд▓рд╛рдЧреВ рдЧрд░реМрдВ!

gbc_predict = gbc.predict(X_test)

рд╕рдмреИред рд╣рд╛рдореАрд▓реЗ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдЧрд░реНрдпреМрдВред рдЕрдм рдпрд╕рд▓рд╛рдИ csv рдорд╛ рд░реЗрдХрд░реНрдб рдЧрд░реА рд╕рд╛рдЗрдЯрдорд╛ рдкрдард╛рдЙрди рдЖрд╡рд╢реНрдпрдХ рдЫред

np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')

рддрдпрд╛рд░ред рд╣рд╛рдореАрд▓реЗ рдкреНрд░рддреНрдпреЗрдХ рдпрд╛рддреНрд░реБрдХреЛ рд▓рд╛рдЧрд┐ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рднрдПрдХреЛ рдлрд╛рдЗрд▓ рдкреНрд░рд╛рдкреНрдд рдЧрд░реНрдпреМрдВред рдмрд╛рдБрдХреА рд╕рдмреИ рд╡реЗрдмрд╕рд╛рдЗрдЯрдорд╛ рдпреА рд╕рдорд╛рдзрд╛рдирд╣рд░реВ рдЕрдкрд▓реЛрдб рдЧрд░реНрди рд░ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рдирдХреЛ рдореВрд▓реНрдпрд╛рдЩреНрдХрди рдкреНрд░рд╛рдкреНрдд рдЧрд░реНрди рд╣реЛред рдпрд╕реНрддреЛ рдЖрджрд┐рдо рд╕рдорд╛рдзрд╛рдирд▓реЗ рдЬрдирддрд╛рдорд╛ ренрек% рд╕рд╣рд┐ рдЙрддреНрддрд░ рдорд╛рддреНрд░ рд╣реЛрдЗрди, рдбрд╛рдЯрд╛ рд╕рд╛рдЗрдиреНрд╕рдорд╛ рдХреЗрд╣реА рдкреНрд░реЛрддреНрд╕рд╛рд╣рди рдкрдирд┐ рджрд┐рдиреНрдЫред рд╕рдмреИрднрдиреНрджрд╛ рдЬрд┐рдЬреНрдЮрд╛рд╕реБрд▓реЗ рдорд▓рд╛рдИ рдХреБрдиреИ рдкрдирд┐ рд╕рдордпрдорд╛ рдирд┐рдЬреА рд╕рдиреНрджреЗрд╢рд╣рд░реВрдорд╛ рд▓реЗрдЦреНрди рд░ рдкреНрд░рд╢реНрди рд╕реЛрдзреНрди рд╕рдХреНрдЫред рд╕рдмреИрд▓рд╛рдИ рдзрдиреНрдпрд╡рд╛рдж!

рд╕реНрд░реЛрдд: www.habr.com

рдПрдХ рдЯрд┐рдкреНрдкрдгреА рдердкреНрди