āĻāĻāĻāĻŋ āĻ¸āĻāĻā§āĻˇāĻŋāĻĒā§āĻ¤ āĻĒāĻ°āĻŋāĻāĻžāĻ¯āĻŧāĻ āĻļāĻŦā§āĻĻ
āĻāĻŽāĻŋ āĻŦāĻŋāĻļā§āĻŦāĻžāĻ¸ āĻāĻ°āĻŋ āĻ¯ā§ āĻāĻŽāĻ°āĻž āĻāĻ°āĻ āĻāĻŋāĻā§ āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°āĻ¤āĻžāĻŽ āĻ¯āĻĻāĻŋ āĻāĻŽāĻžāĻĻā§āĻ° āĻ§āĻžāĻĒā§ āĻ§āĻžāĻĒā§ āĻ¨āĻŋāĻ°ā§āĻĻā§āĻļāĻžāĻŦāĻ˛ā§ āĻĻā§āĻāĻ¯āĻŧāĻž āĻšāĻ¯āĻŧ āĻ¯āĻž āĻāĻŽāĻžāĻĻā§āĻ°āĻā§ āĻā§ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§ āĻāĻŦāĻ āĻā§āĻāĻžāĻŦā§ āĻāĻāĻŋ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§ āĻ¤āĻž āĻāĻžāĻ¨āĻžāĻŦā§āĨ¤ āĻāĻŽāĻŋ āĻ¨āĻŋāĻā§āĻ āĻāĻŽāĻžāĻ° āĻā§āĻŦāĻ¨ā§āĻ° āĻ¸ā§āĻ āĻŽā§āĻšā§āĻ°ā§āĻ¤āĻā§āĻ˛āĻŋ āĻŽāĻ¨ā§ āĻāĻ°āĻŋ āĻ¯āĻāĻ¨ āĻāĻŽāĻŋ āĻāĻŋāĻā§ āĻļā§āĻ°ā§ āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°āĻŋāĻ¨āĻŋ āĻāĻžāĻ°āĻŖ āĻā§āĻĨāĻž āĻĨā§āĻā§ āĻļā§āĻ°ā§ āĻāĻ°āĻŦ āĻ¤āĻž āĻŦā§āĻāĻž āĻāĻ āĻŋāĻ¨ āĻāĻŋāĻ˛āĨ¤ āĻ¸āĻŽā§āĻāĻŦāĻ¤, āĻāĻāĻŦāĻžāĻ° āĻāĻ¨ā§āĻāĻžāĻ°āĻ¨ā§āĻā§ āĻāĻĒāĻ¨āĻŋ "āĻĄā§āĻāĻž āĻ¸āĻžāĻ¯āĻŧā§āĻ¨ā§āĻ¸" āĻļāĻŦā§āĻĻāĻā§āĻ˛āĻŋ āĻĻā§āĻā§āĻāĻŋāĻ˛ā§āĻ¨ āĻāĻŦāĻ āĻ¸āĻŋāĻĻā§āĻ§āĻžāĻ¨ā§āĻ¤ āĻ¨āĻŋāĻ¯āĻŧā§āĻāĻŋāĻ˛ā§āĻ¨ āĻ¯ā§ āĻāĻĒāĻ¨āĻŋ āĻāĻāĻŋ āĻĨā§āĻā§ āĻ
āĻ¨ā§āĻ āĻĻā§āĻ°ā§ āĻāĻŋāĻ˛ā§āĻ¨ āĻāĻŦāĻ āĻ¯āĻžāĻ°āĻž āĻāĻāĻŋ āĻāĻ°ā§ āĻ¤āĻžāĻ°āĻž āĻ
āĻ¨ā§āĻ¯ āĻā§āĻĨāĻžāĻ āĻā§āĻĨāĻžāĻ āĻāĻŋāĻ˛āĨ¤ āĻ¨āĻž, āĻ¤āĻžāĻ°āĻž āĻāĻāĻžāĻ¨ā§āĻ āĻāĻā§āĨ¤ āĻāĻŦāĻ āĻ¸āĻŽā§āĻāĻŦāĻ¤, āĻāĻ āĻā§āĻˇā§āĻ¤ā§āĻ°ā§āĻ° āĻ˛ā§āĻā§āĻĻā§āĻ° āĻ§āĻ¨ā§āĻ¯āĻŦāĻžāĻĻ, āĻāĻāĻāĻŋ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ āĻāĻĒāĻ¨āĻžāĻ° āĻĢāĻŋāĻĄā§ āĻāĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻšāĻ¯āĻŧā§āĻā§āĨ¤ āĻĒā§āĻ°āĻā§āĻ° āĻā§āĻ°ā§āĻ¸ āĻ°āĻ¯āĻŧā§āĻā§ āĻ¯āĻž āĻāĻĒāĻ¨āĻžāĻā§ āĻāĻ āĻ¨ā§āĻĒā§āĻŖā§āĻ¯ā§ āĻ¸ā§āĻŦāĻžāĻā§āĻāĻ¨ā§āĻĻā§āĻ¯ āĻĒā§āĻ¤ā§ āĻ¸āĻžāĻšāĻžāĻ¯ā§āĻ¯ āĻāĻ°āĻŦā§, āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻāĻāĻžāĻ¨ā§ āĻāĻŽāĻŋ āĻāĻĒāĻ¨āĻžāĻā§ āĻĒā§āĻ°āĻĨāĻŽ āĻĒāĻĻāĻā§āĻˇā§āĻĒ āĻ¨āĻŋāĻ¤ā§ āĻ¸āĻžāĻšāĻžāĻ¯ā§āĻ¯ āĻāĻ°āĻŦāĨ¤
āĻāĻā§āĻāĻž, āĻ¤ā§āĻŽāĻŋ āĻāĻŋ āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤? āĻāĻŽāĻŋ āĻāĻāĻ¨āĻ āĻāĻĒāĻ¨āĻžāĻā§ āĻŦāĻ˛āĻŋ āĻ¯ā§ āĻāĻĒāĻ¨āĻžāĻā§ āĻĒāĻžāĻāĻĨāĻ¨ 3 āĻāĻžāĻ¨āĻ¤ā§ āĻšāĻŦā§, āĻ¯ā§āĻšā§āĻ¤ā§ āĻāĻŽāĻŋ āĻāĻāĻžāĻ¨ā§ āĻāĻāĻŋ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻāĻ°āĻŦāĨ¤ āĻāĻŽāĻŋ āĻāĻĒāĻ¨āĻžāĻā§ Jupyter Notebook āĻ āĻāĻāĻŋāĻā§ āĻāĻā§ āĻĨā§āĻā§ āĻāĻ¨āĻ¸ā§āĻāĻ˛ āĻāĻ°āĻžāĻ° āĻĒāĻ°āĻžāĻŽāĻ°ā§āĻļ āĻĻāĻŋāĻā§āĻāĻŋ āĻ
āĻĨāĻŦāĻž āĻāĻŋāĻāĻžāĻŦā§ google colab āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻāĻ°āĻ¤ā§ āĻšāĻ¯āĻŧ āĻ¤āĻž āĻĻā§āĻā§āĻ¨āĨ¤
āĻāĻ āĻ§āĻžāĻĒ
āĻāĻžāĻāĻ˛ āĻāĻ āĻŦāĻŋāĻˇāĻ¯āĻŧā§ āĻāĻĒāĻ¨āĻžāĻ° āĻāĻ˛ā§āĻ˛ā§āĻāĻ¯ā§āĻā§āĻ¯ āĻ¸āĻšāĻāĻžāĻ°ā§āĨ¤ āĻ¨ā§āĻ¤āĻŋāĻāĻ¤āĻāĻžāĻŦā§, āĻāĻĒāĻ¨āĻŋ āĻāĻāĻŋ āĻāĻžāĻĄāĻŧāĻž āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°ā§āĻ¨, āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻāĻŽāĻŋ āĻ
āĻ¨ā§āĻ¯ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ā§ āĻāĻ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻā§ āĻāĻĨāĻž āĻŦāĻ˛āĻ¤ā§ āĻšāĻŦā§āĨ¤ āĻāĻāĻŋ āĻāĻŽāĻ¨ āĻāĻāĻāĻŋ āĻĒā§āĻ˛ā§āĻ¯āĻžāĻāĻĢāĻ°ā§āĻŽ āĻ¯āĻž āĻĄā§āĻāĻž āĻ¸āĻžāĻ¯āĻŧā§āĻ¨ā§āĻ¸ āĻĒā§āĻ°āĻ¤āĻŋāĻ¯ā§āĻāĻŋāĻ¤āĻžāĻ° āĻāĻ¯āĻŧā§āĻāĻ¨ āĻāĻ°ā§āĨ¤ āĻāĻ āĻāĻžāĻ¤ā§āĻ¯āĻŧ āĻĒā§āĻ°āĻ¤āĻŋāĻāĻŋ āĻĒā§āĻ°āĻ¤āĻŋāĻ¯ā§āĻāĻŋāĻ¤āĻžāĻ¯āĻŧ, āĻĒā§āĻ°āĻžāĻĨāĻŽāĻŋāĻ āĻĒāĻ°ā§āĻ¯āĻžāĻ¯āĻŧā§ āĻāĻĒāĻ¨āĻŋ āĻŦāĻŋāĻāĻŋāĻ¨ā§āĻ¨ āĻ§āĻ°āĻŖā§āĻ° āĻ¸āĻŽāĻ¸ā§āĻ¯āĻž āĻ¸āĻŽāĻžāĻ§āĻžāĻ¨ā§ āĻ
āĻŦāĻžāĻ¸ā§āĻ¤āĻŦ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖā§ āĻ
āĻāĻŋāĻā§āĻāĻ¤āĻž āĻ
āĻ°ā§āĻāĻ¨ āĻāĻ°āĻŦā§āĻ¨, āĻŦāĻŋāĻāĻžāĻļā§āĻ° āĻ
āĻāĻŋāĻā§āĻāĻ¤āĻž āĻāĻŦāĻ āĻāĻāĻāĻŋ āĻĻāĻ˛ā§ āĻāĻžāĻ āĻāĻ°āĻžāĻ° āĻ
āĻāĻŋāĻā§āĻāĻ¤āĻž, āĻ¯āĻž āĻāĻŽāĻžāĻĻā§āĻ° āĻ¸āĻŽāĻ¯āĻŧā§ āĻā§āĻ°ā§āĻ¤ā§āĻŦāĻĒā§āĻ°ā§āĻŖāĨ¤
āĻāĻŽāĻ°āĻž āĻ¸ā§āĻāĻžāĻ¨ āĻĨā§āĻā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻĻāĻžāĻ¯āĻŧāĻŋāĻ¤ā§āĻŦ āĻ¨ā§āĻŦāĨ¤ āĻāĻ° āĻ¨āĻžāĻŽ âāĻāĻžāĻāĻāĻžāĻ¨āĻŋāĻâāĨ¤ āĻļāĻ°ā§āĻ¤ āĻšāĻ˛: āĻĒā§āĻ°āĻ¤āĻŋāĻāĻŋ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋ āĻŦā§āĻāĻā§ āĻĨāĻžāĻāĻŦā§ āĻāĻŋāĻ¨āĻž āĻ¤āĻž āĻāĻŦāĻŋāĻˇā§āĻ¯āĻĻā§āĻŦāĻžāĻŖā§ āĻāĻ°ā§āĻ¨āĨ¤ āĻ¸āĻžāĻ§āĻžāĻ°āĻŖāĻāĻžāĻŦā§ āĻŦāĻ˛āĻ¤ā§ āĻā§āĻ˛ā§, āĻĄāĻŋāĻāĻ¸-āĻāĻ° āĻ¸āĻžāĻĨā§ āĻāĻĄāĻŧāĻŋāĻ¤ āĻāĻāĻāĻ¨ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻ° āĻāĻžāĻ āĻšāĻ˛ āĻĄā§āĻāĻž āĻ¸āĻāĻā§āĻ°āĻš āĻāĻ°āĻž, āĻāĻāĻŋ āĻĒā§āĻ°āĻā§āĻ°āĻŋāĻ¯āĻŧāĻž āĻāĻ°āĻž, āĻāĻāĻāĻŋ āĻŽāĻĄā§āĻ˛āĻā§ āĻĒā§āĻ°āĻļāĻŋāĻā§āĻˇāĻŖ āĻĻā§āĻāĻ¯āĻŧāĻž, āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ āĻĻā§āĻāĻ¯āĻŧāĻž āĻāĻ¤ā§āĻ¯āĻžāĻĻāĻŋāĨ¤ āĻāĻžāĻāĻ˛-āĻ, āĻāĻŽāĻžāĻĻā§āĻ° āĻĄā§āĻāĻž āĻ¸āĻāĻā§āĻ°āĻšā§āĻ° āĻĒāĻ°ā§āĻ¯āĻžāĻ¯āĻŧāĻāĻŋ āĻāĻĄāĻŧāĻŋāĻ¯āĻŧā§ āĻ¯āĻžāĻāĻ¯āĻŧāĻžāĻ° āĻ āĻ¨ā§āĻŽāĻ¤āĻŋ āĻĻā§āĻāĻ¯āĻŧāĻž āĻšāĻ¯āĻŧ - āĻ¸ā§āĻā§āĻ˛āĻŋ āĻĒā§āĻ˛ā§āĻ¯āĻžāĻāĻĢāĻ°ā§āĻŽā§ āĻāĻĒāĻ¸ā§āĻĨāĻžāĻĒāĻ¨ āĻāĻ°āĻž āĻšāĻ¯āĻŧāĨ¤ āĻāĻŽāĻžāĻĻā§āĻ° āĻ¸ā§āĻā§āĻ˛āĻŋ āĻĄāĻžāĻāĻ¨āĻ˛ā§āĻĄ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§ āĻāĻŦāĻ āĻāĻŽāĻ°āĻž āĻļā§āĻ°ā§ āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°āĻŋ!
āĻāĻĒāĻ¨āĻŋ āĻ¨āĻŋāĻŽā§āĻ¨āĻ˛āĻŋāĻāĻŋāĻ¤ āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻāĻāĻŋ āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°ā§āĻ¨:
āĻĄā§āĻāĻž āĻā§āĻ¯āĻžāĻŦā§ āĻĄā§āĻāĻž āĻĨāĻžāĻā§ āĻāĻŽāĻ¨ āĻĢāĻžāĻāĻ˛ āĻ°āĻ¯āĻŧā§āĻā§
ĐĐ°ĐŗŅŅСиĐģи Đ´Đ°ĐŊĐŊŅĐĩ, ĐŋОдĐŗĐžŅОвиĐģи ĐŊĐ°Ņи Jupyter ŅĐĩŅŅĐ°Đ´Đēи иâĻ
āĻ§āĻžāĻĒ āĻĻā§āĻ
āĻāĻŽāĻ°āĻž āĻāĻāĻ¨ āĻāĻ āĻĄā§āĻāĻž āĻāĻŋāĻāĻžāĻŦā§ āĻ˛ā§āĻĄ āĻāĻ°āĻŦ?
āĻĒā§āĻ°āĻĨāĻŽā§, āĻāĻ¸ā§āĻ¨ āĻĒā§āĻ°āĻ¯āĻŧā§āĻāĻ¨ā§āĻ¯āĻŧ āĻ˛āĻžāĻāĻŦā§āĻ°ā§āĻ°āĻŋāĻā§āĻ˛āĻŋ āĻāĻŽāĻĻāĻžāĻ¨āĻŋ āĻāĻ°āĻŋ:
import pandas as pd
import numpy as np
āĻāĻ°āĻ āĻĒā§āĻ°āĻā§āĻ°āĻŋāĻ¯āĻŧāĻžāĻāĻ°āĻŖā§āĻ° āĻāĻ¨ā§āĻ¯ āĻĒāĻžāĻ¨ā§āĻĄāĻžāĻ¸ āĻāĻŽāĻžāĻĻā§āĻ° .csv āĻĢāĻžāĻāĻ˛ āĻĄāĻžāĻāĻ¨āĻ˛ā§āĻĄ āĻāĻ°āĻžāĻ° āĻ āĻ¨ā§āĻŽāĻ¤āĻŋ āĻĻā§āĻŦā§āĨ¤
āĻ¸āĻāĻā§āĻ¯āĻž āĻ¸āĻš āĻāĻāĻāĻŋ āĻŽā§āĻ¯āĻžāĻā§āĻ°āĻŋāĻā§āĻ¸ āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻĄā§āĻāĻž āĻā§āĻŦāĻŋāĻ˛ā§āĻ° āĻĒā§āĻ°āĻ¤āĻŋāĻ¨āĻŋāĻ§āĻŋāĻ¤ā§āĻŦ āĻāĻ°āĻ¤ā§ Numpy āĻĒā§āĻ°āĻ¯āĻŧā§āĻāĻ¨āĨ¤
āĻāĻāĻŋāĻ¯āĻŧā§ āĻ¯āĻžāĻ¨. āĻāĻ¸ā§āĻ¨ train.csv āĻĢāĻžāĻāĻ˛āĻāĻŋ āĻ¨āĻŋāĻ¯āĻŧā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻžāĻā§ āĻāĻĒāĻ˛ā§āĻĄ āĻāĻ°āĻŋ:
dataset = pd.read_csv('train.csv')
āĻāĻŽāĻ°āĻž āĻĄā§āĻāĻžāĻ¸ā§āĻ āĻā§āĻ°āĻŋāĻ¯āĻŧā§āĻŦāĻ˛ā§āĻ° āĻŽāĻžāĻ§ā§āĻ¯āĻŽā§ āĻāĻŽāĻžāĻĻā§āĻ° train.csv āĻĄā§āĻāĻž āĻ¨āĻŋāĻ°ā§āĻŦāĻžāĻāĻ¨āĻā§ āĻāĻ˛ā§āĻ˛ā§āĻ āĻāĻ°āĻŦāĨ¤ āĻāĻ˛ā§āĻ¨ āĻĻā§āĻāĻŋ āĻ¸ā§āĻāĻžāĻ¨ā§ āĻāĻŋ āĻāĻā§:
dataset.head()
head() āĻĢāĻžāĻāĻļāĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻāĻāĻŋ āĻĄā§āĻāĻžāĻĢā§āĻ°ā§āĻŽā§āĻ° āĻĒā§āĻ°āĻĨāĻŽ āĻāĻ¯āĻŧā§āĻāĻāĻŋ āĻ¸āĻžāĻ°āĻŋ āĻĻā§āĻāĻ¤ā§ āĻĻā§āĻ¯āĻŧāĨ¤
āĻŦā§āĻāĻā§ āĻĨāĻžāĻāĻž āĻāĻ˛āĻžāĻŽāĻā§āĻ˛āĻŋ āĻšāĻ˛ āĻāĻŽāĻžāĻĻā§āĻ° āĻĢāĻ˛āĻžāĻĢāĻ˛, āĻ¯āĻž āĻāĻ āĻĄā§āĻāĻžāĻĢā§āĻ°ā§āĻŽā§ āĻĒāĻ°āĻŋāĻāĻŋāĻ¤āĨ¤ āĻāĻžāĻ¸ā§āĻ āĻĒā§āĻ°āĻļā§āĻ¨ā§āĻ° āĻāĻ¨ā§āĻ¯, test.csv āĻĄā§āĻāĻžāĻ° āĻāĻ¨ā§āĻ¯ āĻāĻŽāĻžāĻĻā§āĻ° āĻŦā§āĻāĻā§ āĻĨāĻžāĻāĻž āĻāĻ˛āĻžāĻŽā§āĻ° āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ āĻĻāĻŋāĻ¤ā§ āĻšāĻŦā§āĨ¤ āĻāĻ āĻĄā§āĻāĻž āĻāĻžāĻāĻāĻžāĻ¨āĻŋāĻā§āĻ° āĻ āĻ¨ā§āĻ¯āĻžāĻ¨ā§āĻ¯ āĻ¯āĻžāĻ¤ā§āĻ°ā§āĻĻā§āĻ° āĻ¸āĻŽā§āĻĒāĻ°ā§āĻā§ āĻ¤āĻĨā§āĻ¯ āĻ¸āĻā§āĻāĻ¯āĻŧ āĻāĻ°ā§, āĻ¯āĻžāĻ° āĻāĻ¨ā§āĻ¯ āĻāĻŽāĻ°āĻž āĻ¸āĻŽāĻ¸ā§āĻ¯āĻžāĻ° āĻ¸āĻŽāĻžāĻ§āĻžāĻ¨ āĻāĻ°āĻāĻŋ, āĻĢāĻ˛āĻžāĻĢāĻ˛āĻāĻŋ āĻāĻžāĻ¨āĻŋ āĻ¨āĻžāĨ¤
āĻ¸ā§āĻ¤āĻ°āĻžāĻ, āĻāĻ¸ā§āĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻā§āĻŦāĻŋāĻ˛āĻāĻŋāĻā§ āĻ¨āĻŋāĻ°ā§āĻāĻ°āĻļā§āĻ˛ āĻāĻŦāĻ āĻ¸ā§āĻŦāĻžāĻ§ā§āĻ¨ āĻĄā§āĻāĻžāĻ¤ā§ āĻāĻžāĻ āĻāĻ°āĻŋāĨ¤ āĻāĻāĻžāĻ¨ā§ āĻ¸āĻŦāĻāĻŋāĻā§ āĻ¸āĻšāĻ. āĻ¨āĻŋāĻ°ā§āĻāĻ°āĻļā§āĻ˛ āĻĄā§āĻāĻž āĻšāĻ˛ āĻ¸ā§āĻ āĻĄā§āĻāĻž āĻ¯āĻž āĻĢāĻ˛āĻžāĻĢāĻ˛ā§ āĻĨāĻžāĻāĻž āĻ¸ā§āĻŦāĻžāĻ§ā§āĻ¨ āĻĄā§āĻāĻžāĻ° āĻāĻĒāĻ° āĻ¨āĻŋāĻ°ā§āĻāĻ° āĻāĻ°ā§āĨ¤ āĻ¸ā§āĻŦāĻžāĻ§ā§āĻ¨ āĻĄā§āĻāĻž āĻšāĻ˛ āĻ¸ā§āĻ āĻĄā§āĻāĻž āĻ¯āĻž āĻĢāĻ˛āĻžāĻĢāĻ˛āĻā§ āĻĒā§āĻ°āĻāĻžāĻŦāĻŋāĻ¤ āĻāĻ°ā§āĨ¤
āĻāĻĻāĻžāĻšāĻ°āĻŖāĻ¸ā§āĻŦāĻ°ā§āĻĒ, āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻžāĻā§ āĻ¨āĻŋāĻŽā§āĻ¨āĻ˛āĻŋāĻāĻŋāĻ¤ āĻĄā§āĻāĻž āĻ¸ā§āĻ āĻ°āĻ¯āĻŧā§āĻā§:
"āĻā§āĻāĻž āĻāĻŽā§āĻĒāĻŋāĻāĻāĻžāĻ° āĻ¸āĻžāĻ¯āĻŧā§āĻ¨ā§āĻ¸ āĻĒāĻĄāĻŧāĻžāĻ¤ā§āĻ¨ - āĻ¨āĻžāĨ¤
āĻā§āĻāĻž āĻāĻŽā§āĻĒāĻŋāĻāĻāĻžāĻ° āĻŦāĻŋāĻā§āĻāĻžāĻ¨ā§ 2 āĻĒā§āĻ¯āĻŧā§āĻā§āĨ¤"
āĻāĻŽā§āĻĒāĻŋāĻāĻāĻžāĻ° āĻŦāĻŋāĻā§āĻāĻžāĻ¨ā§āĻ° āĻā§āĻ°ā§āĻĄ āĻĒā§āĻ°āĻļā§āĻ¨ā§āĻ° āĻāĻ¤ā§āĻ¤āĻ°ā§āĻ° āĻāĻĒāĻ° āĻ¨āĻŋāĻ°ā§āĻāĻ° āĻāĻ°ā§: āĻā§āĻāĻž āĻāĻŋ āĻāĻŽā§āĻĒāĻŋāĻāĻāĻžāĻ° āĻŦāĻŋāĻā§āĻāĻžāĻ¨ āĻ āĻ§ā§āĻ¯āĻ¯āĻŧāĻ¨ āĻāĻ°ā§āĻāĻŋāĻ˛ā§āĻ¨? āĻāĻāĻž āĻāĻŋ āĻĒāĻ°āĻŋāĻ¸ā§āĻāĻžāĻ°? āĻāĻ˛ā§āĻ¨ āĻāĻāĻŋāĻ¯āĻŧā§ āĻāĻ˛ā§āĻ¨, āĻāĻŽāĻ°āĻž āĻāĻ¤āĻŋāĻŽāĻ§ā§āĻ¯ā§ āĻ˛āĻā§āĻˇā§āĻ¯ āĻāĻžāĻāĻžāĻāĻžāĻāĻŋ!
āĻ¸ā§āĻŦāĻžāĻ§ā§āĻ¨ āĻĄā§āĻāĻžāĻ° āĻāĻ¨ā§āĻ¯ āĻĒā§āĻ°āĻĨāĻžāĻāĻ¤ āĻĒāĻ°āĻŋāĻŦāĻ°ā§āĻ¤āĻ¨āĻļā§āĻ˛ āĻšāĻ˛ XāĨ¤ āĻ¨āĻŋāĻ°ā§āĻāĻ°āĻļā§āĻ˛ āĻĄā§āĻāĻžāĻ° āĻāĻ¨ā§āĻ¯, yāĨ¤
āĻāĻŽāĻ°āĻž āĻ¨āĻŋāĻŽā§āĻ¨āĻ˛āĻŋāĻāĻŋāĻ¤ āĻāĻ°āĻŋ:
X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]
āĻāĻāĻž āĻāĻŋ? iloc[:, 2: ] āĻĢāĻžāĻāĻļāĻ¨ āĻĻāĻŋāĻ¯āĻŧā§ āĻāĻŽāĻ°āĻž āĻĒāĻžāĻāĻĨāĻ¨āĻā§ āĻŦāĻ˛āĻŋ: āĻāĻŽāĻŋ āĻĻā§āĻŦāĻŋāĻ¤ā§āĻ¯āĻŧ āĻāĻ˛āĻžāĻŽ āĻĨā§āĻā§ āĻļā§āĻ°ā§ āĻšāĻāĻ¯āĻŧāĻž āĻĄāĻžāĻāĻž X āĻĒāĻ°āĻŋāĻŦāĻ°ā§āĻ¤āĻ¨āĻļā§āĻ˛ āĻĻā§āĻāĻ¤ā§ āĻāĻžāĻ (āĻ āĻ¨ā§āĻ¤āĻ°ā§āĻā§āĻā§āĻ¤ āĻāĻŦāĻ āĻļāĻ°ā§āĻ¤ āĻĨāĻžāĻā§ āĻ¯ā§ āĻāĻŖāĻ¨āĻž āĻļā§āĻ¨ā§āĻ¯ āĻĨā§āĻā§ āĻļā§āĻ°ā§ āĻšāĻ¯āĻŧ)āĨ¤ āĻĻā§āĻŦāĻŋāĻ¤ā§āĻ¯āĻŧ āĻ˛āĻžāĻāĻ¨ā§ āĻāĻŽāĻ°āĻž āĻŦāĻ˛āĻŋ āĻ¯ā§ āĻāĻŽāĻ°āĻž āĻĒā§āĻ°āĻĨāĻŽ āĻāĻ˛āĻžāĻŽā§ āĻĄā§āĻāĻž āĻĻā§āĻāĻ¤ā§ āĻāĻžāĻāĨ¤
[a:b, c:d] āĻšāĻ˛ āĻāĻŽāĻ°āĻž āĻŦāĻ¨ā§āĻ§āĻ¨ā§āĻ¤ā§ āĻ¯āĻž āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻāĻ°āĻŋ āĻ¤āĻžāĻ° āĻ¨āĻŋāĻ°ā§āĻŽāĻžāĻŖāĨ¤ āĻāĻĒāĻ¨āĻŋ āĻā§āĻ¨ā§ āĻā§āĻ°āĻŋāĻ¯āĻŧā§āĻŦāĻ˛ āĻ¨āĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āĻ āĻ¨āĻž āĻāĻ°āĻ˛ā§, āĻ¸ā§āĻā§āĻ˛āĻŋ āĻĄāĻŋāĻĢāĻ˛ā§āĻ āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻ¸āĻāĻ°āĻā§āĻˇāĻŖ āĻāĻ°āĻž āĻšāĻŦā§āĨ¤ āĻ āĻ°ā§āĻĨāĻžā§, āĻāĻŽāĻ°āĻž [:,:d] āĻ¨āĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āĻ āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°āĻŋ āĻāĻŦāĻ āĻ¤āĻžāĻ°āĻĒāĻ°ā§ āĻāĻŽāĻ°āĻž āĻĄāĻžāĻāĻžāĻĢā§āĻ°ā§āĻŽā§āĻ° āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻāĻ˛āĻžāĻŽ āĻĒāĻžāĻŦ, āĻ¯ā§āĻā§āĻ˛āĻŋ d āĻĨā§āĻā§ āĻ¸āĻāĻā§āĻ¯āĻžāĻ° āĻĻāĻŋāĻā§ āĻ¯āĻžāĻ¯āĻŧ āĻŦāĻžāĻĻā§āĨ¤ āĻā§āĻ°āĻŋāĻ¯āĻŧā§āĻŦāĻ˛ a āĻāĻŦāĻ b āĻ¸ā§āĻā§āĻ°āĻŋāĻāĻā§āĻ˛āĻŋāĻā§ āĻ¸āĻāĻā§āĻāĻžāĻ¯āĻŧāĻŋāĻ¤ āĻāĻ°ā§, āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻ¸ā§āĻā§āĻ˛āĻŋ āĻ¸āĻŦ āĻĒā§āĻ°āĻ¯āĻŧā§āĻāĻ¨, āĻ¤āĻžāĻ āĻāĻŽāĻ°āĻž āĻāĻāĻŋāĻā§ āĻĄāĻŋāĻĢāĻ˛ā§āĻ āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻ°ā§āĻā§ āĻĻāĻŋāĻāĨ¤āĻāĻ¸ā§āĻ¨ āĻĻā§āĻāĻŋ āĻāĻŽāĻ°āĻž āĻāĻŋ āĻĒā§āĻ¯āĻŧā§āĻāĻŋ:
X.head()
y.head()
āĻāĻ āĻā§āĻā§āĻ āĻĒāĻžāĻ āĻāĻŋāĻā§ āĻ¸āĻšāĻ āĻāĻ°āĻžāĻ° āĻāĻ¨ā§āĻ¯, āĻāĻŽāĻ°āĻž āĻāĻŽāĻ¨ āĻāĻ˛āĻžāĻŽāĻā§āĻ˛āĻŋ āĻ¸āĻ°āĻŋāĻ¯āĻŧā§ āĻĻā§āĻŦ āĻ¯ā§āĻā§āĻ˛āĻŋāĻ° āĻŦāĻŋāĻļā§āĻˇ āĻ¯āĻ¤ā§āĻ¨ā§āĻ° āĻĒā§āĻ°āĻ¯āĻŧā§āĻāĻ¨ āĻŦāĻž āĻŦā§āĻāĻā§ āĻĨāĻžāĻāĻžāĻ° āĻā§āĻˇāĻŽāĻ¤āĻžāĻā§ āĻāĻā§āĻŦāĻžāĻ°ā§āĻ āĻĒā§āĻ°āĻāĻžāĻŦāĻŋāĻ¤ āĻāĻ°ā§ āĻ¨āĻžāĨ¤ āĻ¤āĻžāĻ°āĻž āĻāĻžāĻāĻĒ str āĻ¤āĻĨā§āĻ¯ āĻāĻā§.
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)
āĻ¸ā§āĻĒāĻžāĻ°! āĻāĻ° āĻĒāĻ°āĻŦāĻ°ā§āĻ¤ā§ āĻ§āĻžāĻĒā§ āĻāĻāĻŋāĻ¯āĻŧā§ āĻ¯āĻžāĻāĻ¯āĻŧāĻž āĻ¯āĻžāĻ.
āĻ§āĻžāĻĒ āĻ¤āĻŋāĻ¨
āĻāĻāĻžāĻ¨ā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻĄā§āĻāĻž āĻāĻ¨āĻā§āĻĄ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§ āĻ¯āĻžāĻ¤ā§ āĻŽā§āĻļāĻŋāĻ¨āĻāĻŋ āĻāĻ°āĻ āĻāĻžāĻ˛āĻāĻžāĻŦā§ āĻŦā§āĻāĻ¤ā§ āĻĒāĻžāĻ°ā§ āĻ¯ā§ āĻāĻ āĻĄā§āĻāĻž āĻĢāĻ˛āĻžāĻĢāĻ˛āĻā§ āĻā§āĻāĻžāĻŦā§ āĻĒā§āĻ°āĻāĻžāĻŦāĻŋāĻ¤ āĻāĻ°ā§āĨ¤ āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻāĻŽāĻ°āĻž āĻ¸āĻŦāĻāĻŋāĻā§ āĻāĻ¨āĻā§āĻĄ āĻāĻ°āĻŦ āĻ¨āĻž, āĻļā§āĻ§ā§āĻŽāĻžāĻ¤ā§āĻ° str āĻĄā§āĻāĻž āĻ¯āĻž āĻāĻŽāĻ°āĻž āĻ°ā§āĻā§āĻāĻŋāĨ¤ āĻāĻ˛āĻžāĻŽ "āĻ¸ā§āĻā§āĻ¸"āĨ¤ āĻāĻŽāĻ°āĻž āĻāĻŋāĻāĻžāĻŦā§ āĻā§āĻĄ āĻāĻ°āĻ¤ā§ āĻāĻžāĻ? āĻāĻ¸ā§āĻ¨ āĻā§āĻā§āĻāĻ° āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻāĻāĻāĻ¨ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻ° āĻ˛āĻŋāĻā§āĻ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻā§ āĻĄā§āĻāĻž āĻāĻĒāĻ¸ā§āĻĨāĻžāĻĒāĻ¨ āĻāĻ°āĻŋ: 10 - āĻĒā§āĻ°ā§āĻˇ, 01 - āĻŽāĻšāĻŋāĻ˛āĻžāĨ¤
āĻĒā§āĻ°āĻĨāĻŽā§, āĻāĻ¸ā§āĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻā§āĻŦāĻŋāĻ˛āĻā§āĻ˛āĻŋāĻā§ āĻāĻāĻāĻŋ NumPy āĻŽā§āĻ¯āĻžāĻā§āĻ°āĻŋāĻā§āĻ¸ā§ āĻ°ā§āĻĒāĻžāĻ¨ā§āĻ¤āĻ° āĻāĻ°āĻŋ:
X = np.array(X)
y = np.array(y)
āĻāĻŦāĻ āĻāĻāĻ¨ āĻĻā§āĻāĻž āĻ¯āĻžāĻ:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X = np.array(ct.fit_transform(X))
āĻ¸ā§āĻāĻ˛āĻžāĻ°āĻ¨ āĻ˛āĻžāĻāĻŦā§āĻ°ā§āĻ°āĻŋ āĻāĻŽāĻ¨ āĻāĻāĻāĻŋ āĻĻā§āĻ°ā§āĻĻāĻžāĻ¨ā§āĻ¤ āĻ˛āĻžāĻāĻŦā§āĻ°ā§āĻ°āĻŋ āĻ¯āĻž āĻāĻŽāĻžāĻĻā§āĻ° āĻĄā§āĻāĻž āĻ¸āĻžāĻ¯āĻŧā§āĻ¨ā§āĻ¸ā§ āĻ¸āĻŽā§āĻĒā§āĻ°ā§āĻŖ āĻāĻžāĻ āĻāĻ°āĻ¤ā§ āĻĻā§āĻ¯āĻŧāĨ¤ āĻāĻāĻŋāĻ¤ā§ āĻĒā§āĻ°āĻā§āĻ° āĻ¸āĻāĻā§āĻ¯āĻ āĻāĻāĻ°ā§āĻˇāĻŖā§āĻ¯āĻŧ āĻŽā§āĻļāĻŋāĻ¨ āĻ˛āĻžāĻ°ā§āĻ¨āĻŋāĻ āĻŽāĻĄā§āĻ˛ āĻ°āĻ¯āĻŧā§āĻā§ āĻāĻŦāĻ āĻāĻāĻŋ āĻāĻŽāĻžāĻĻā§āĻ° āĻĄā§āĻāĻž āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤ āĻāĻ°āĻžāĻ° āĻ āĻ¨ā§āĻŽāĻ¤āĻŋ āĻĻā§āĻ¯āĻŧāĨ¤
OneHotEncoder āĻāĻŽāĻžāĻĻā§āĻ°āĻā§ āĻ¸ā§āĻ āĻĒā§āĻ°āĻ¤āĻŋāĻ¨āĻŋāĻ§āĻŋāĻ¤ā§āĻŦā§ āĻāĻāĻāĻ¨ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻ° āĻ˛āĻŋāĻā§āĻ āĻāĻ¨āĻā§āĻĄ āĻāĻ°āĻžāĻ° āĻ āĻ¨ā§āĻŽāĻ¤āĻŋ āĻĻā§āĻŦā§, āĻ¯ā§āĻŽāĻ¨ āĻāĻŽāĻ°āĻž āĻŦāĻ°ā§āĻŖāĻ¨āĻž āĻāĻ°ā§āĻāĻŋāĨ¤ 2āĻāĻŋ āĻā§āĻ˛āĻžāĻ¸ āĻ¤ā§āĻ°āĻŋ āĻāĻ°āĻž āĻšāĻŦā§: āĻĒā§āĻ°ā§āĻˇ, āĻŽāĻšāĻŋāĻ˛āĻžāĨ¤ āĻ¯āĻĻāĻŋ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻāĻŋ āĻāĻāĻāĻ¨ āĻĒā§āĻ°ā§āĻˇ āĻšāĻ¯āĻŧ, āĻ¤āĻžāĻšāĻ˛ā§ āĻ¯āĻĨāĻžāĻā§āĻ°āĻŽā§ "āĻĒā§āĻ°ā§āĻˇ" āĻāĻ˛āĻžāĻŽā§ 1 āĻāĻŦāĻ "āĻŽāĻšāĻŋāĻ˛āĻž" āĻāĻ˛āĻžāĻŽā§ 0 āĻ˛ā§āĻāĻž āĻšāĻŦā§āĨ¤
OneHotEncoder() āĻāĻ° āĻĒāĻ°ā§ āĻāĻā§ [1] - āĻāĻ° āĻŽāĻžāĻ¨ā§ āĻšāĻ˛ āĻāĻŽāĻ°āĻž āĻāĻ˛āĻžāĻŽ āĻ¨āĻŽā§āĻŦāĻ° 1 (āĻļā§āĻ¨ā§āĻ¯ āĻĨā§āĻā§ āĻāĻŖāĻ¨āĻž) āĻāĻ¨āĻā§āĻĄ āĻāĻ°āĻ¤ā§ āĻāĻžāĻāĨ¤
āĻ¸ā§āĻĒāĻžāĻ°. āĻāĻ° āĻāĻ°āĻ āĻāĻāĻŋāĻ¯āĻŧā§ āĻāĻ˛ā§āĻ¨!
āĻāĻāĻāĻŋ āĻ¨āĻŋāĻ¯āĻŧāĻŽ āĻšāĻŋāĻ¸āĻžāĻŦā§, āĻāĻāĻŋ āĻāĻā§ āĻ¯ā§ āĻāĻŋāĻā§ āĻĄā§āĻāĻž āĻĢāĻžāĻāĻāĻž āĻ°āĻžāĻāĻž āĻšāĻ¯āĻŧ (āĻ āĻ°ā§āĻĨāĻžā§, NaN - āĻāĻāĻāĻŋ āĻ¸āĻāĻā§āĻ¯āĻž āĻ¨āĻ¯āĻŧ)āĨ¤ āĻāĻĻāĻžāĻšāĻ°āĻŖāĻ¸ā§āĻŦāĻ°ā§āĻĒ, āĻāĻāĻāĻ¨ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻ° āĻ¸āĻŽā§āĻĒāĻ°ā§āĻā§ āĻ¤āĻĨā§āĻ¯ āĻ°āĻ¯āĻŧā§āĻā§: āĻ¤āĻžāĻ° āĻ¨āĻžāĻŽ, āĻ˛āĻŋāĻā§āĻāĨ¤ āĻ¤āĻŦā§ āĻ¤āĻžāĻ° āĻŦāĻ¯āĻŧāĻ¸ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻā§ āĻā§āĻ¨ā§ āĻ¤āĻĨā§āĻ¯ āĻ¨ā§āĻāĨ¤ āĻāĻ āĻā§āĻˇā§āĻ¤ā§āĻ°ā§, āĻāĻŽāĻ°āĻž āĻ¨āĻŋāĻŽā§āĻ¨āĻ˛āĻŋāĻāĻŋāĻ¤ āĻĒāĻĻā§āĻ§āĻ¤āĻŋāĻāĻŋ āĻĒā§āĻ°āĻ¯āĻŧā§āĻ āĻāĻ°āĻŦ: āĻāĻŽāĻ°āĻž āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻāĻ˛āĻžāĻŽā§ āĻāĻžāĻŖāĻŋāĻ¤āĻŋāĻ āĻāĻĄāĻŧ āĻā§āĻāĻā§ āĻĒāĻžāĻŦ āĻāĻŦāĻ, āĻ¯āĻĻāĻŋ āĻāĻ˛āĻžāĻŽā§ āĻāĻŋāĻā§ āĻĄā§āĻāĻž āĻ āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻĨāĻžāĻā§, āĻ¤āĻžāĻšāĻ˛ā§ āĻāĻŽāĻ°āĻž āĻāĻžāĻŖāĻŋāĻ¤āĻŋāĻ āĻāĻĄāĻŧ āĻĻāĻŋāĻ¯āĻŧā§ āĻļā§āĻ¨ā§āĻ¯āĻ¤āĻž āĻĒā§āĻ°āĻŖ āĻāĻ°āĻŦāĨ¤
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)
āĻāĻāĻ¨ āĻŦāĻŋāĻŦā§āĻāĻ¨āĻž āĻāĻ°āĻž āĻ¯āĻžāĻ āĻ¯ā§ āĻĒāĻ°āĻŋāĻ¸ā§āĻĨāĻŋāĻ¤āĻŋāĻā§āĻ˛āĻŋ āĻāĻā§ āĻ¯āĻāĻ¨ āĻĄā§āĻāĻž āĻā§āĻŦ āĻŦāĻĄāĻŧ āĻšāĻ¯āĻŧāĨ¤ āĻāĻŋāĻā§ āĻĄā§āĻāĻž āĻŦā§āĻ¯āĻŦāĻ§āĻžāĻ¨ā§ āĻ°āĻ¯āĻŧā§āĻā§ [0:1], āĻāĻŋāĻā§ āĻĄā§āĻāĻž āĻāĻ¯āĻŧā§āĻāĻļ āĻāĻŦāĻ āĻšāĻžāĻāĻžāĻ° āĻāĻžāĻĄāĻŧāĻŋāĻ¯āĻŧā§ āĻ¯ā§āĻ¤ā§ āĻĒāĻžāĻ°ā§āĨ¤ āĻāĻ āĻ§āĻ°āĻ¨ā§āĻ° āĻŦāĻŋāĻā§āĻˇāĻŋāĻĒā§āĻ¤āĻāĻ°āĻŖ āĻĻā§āĻ° āĻāĻ°āĻ¤ā§ āĻāĻŦāĻ āĻāĻŽā§āĻĒāĻŋāĻāĻāĻžāĻ°āĻā§ āĻ¤āĻžāĻ° āĻāĻŖāĻ¨āĻžāĻ¯āĻŧ āĻāĻ°āĻ āĻ¨āĻŋāĻ°ā§āĻā§āĻ˛ āĻāĻ°āĻ¤ā§, āĻāĻŽāĻ°āĻž āĻĄā§āĻāĻž āĻ¸ā§āĻā§āĻ¯āĻžāĻ¨ āĻāĻ°āĻŦ āĻāĻŦāĻ āĻ¸ā§āĻā§āĻ˛ āĻāĻ°āĻŦāĨ¤ āĻ¸āĻŦ āĻ¸āĻāĻā§āĻ¯āĻž āĻ¤āĻŋāĻ¨ āĻ āĻ¤āĻŋāĻā§āĻ°āĻŽ āĻ¨āĻž āĻāĻ°āĻž āĻ¯āĻžāĻ. āĻāĻāĻŋ āĻāĻ°āĻžāĻ° āĻāĻ¨ā§āĻ¯, āĻāĻŽāĻ°āĻž StandardScaler āĻĢāĻžāĻāĻļāĻ¨ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻāĻ°āĻŦāĨ¤
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])
āĻāĻāĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻ¤āĻĨā§āĻ¯ āĻāĻ āĻŽāĻ¤ āĻĻā§āĻāĻžāĻ¯āĻŧ:
āĻā§āĻ˛āĻžāĻ¸āĨ¤ āĻāĻŽāĻ°āĻž āĻāĻ¤āĻŋāĻŽāĻ§ā§āĻ¯ā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻ˛āĻā§āĻˇā§āĻ¯ āĻāĻžāĻāĻžāĻāĻžāĻāĻŋ!
āĻ§āĻžāĻĒ āĻāĻžāĻ°
āĻāĻ¸ā§āĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻĒā§āĻ°āĻĨāĻŽ āĻŽāĻĄā§āĻ˛āĻā§ āĻĒā§āĻ°āĻļāĻŋāĻā§āĻˇāĻŖ āĻĻāĻŋāĻ! āĻ¸ā§āĻā§āĻ˛āĻŋāĻ¯āĻŧāĻžāĻ° āĻ˛āĻžāĻāĻŦā§āĻ°ā§āĻ°āĻŋ āĻĨā§āĻā§ āĻāĻŽāĻ°āĻž āĻĒā§āĻ°āĻā§āĻ° āĻāĻāĻ°ā§āĻˇāĻŖā§āĻ¯āĻŧ āĻāĻŋāĻ¨āĻŋāĻ¸ āĻā§āĻāĻā§ āĻĒā§āĻ¤ā§ āĻĒāĻžāĻ°āĻŋāĨ¤ āĻāĻŽāĻŋ āĻāĻ āĻ¸āĻŽāĻ¸ā§āĻ¯āĻžāĻ° āĻāĻ¨ā§āĻ¯ āĻā§āĻ°ā§āĻĄāĻŋāĻ¯āĻŧā§āĻ¨ā§āĻ āĻŦā§āĻ¸ā§āĻāĻŋāĻ āĻā§āĻ˛āĻžāĻ¸āĻŋāĻĢāĻžāĻ¯āĻŧāĻžāĻ° āĻŽāĻĄā§āĻ˛ āĻĒā§āĻ°āĻ¯āĻŧā§āĻ āĻāĻ°ā§āĻāĻŋāĨ¤ āĻāĻŽāĻ°āĻž āĻāĻāĻāĻŋ āĻā§āĻ˛āĻžāĻ¸āĻŋāĻĢāĻžāĻ¯āĻŧāĻžāĻ° āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻāĻ°āĻŋ āĻāĻžāĻ°āĻŖ āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻžāĻāĻāĻŋ āĻāĻāĻāĻŋ āĻļā§āĻ°ā§āĻŖāĻŋāĻŦāĻĻā§āĻ§āĻāĻ°āĻŖā§āĻ° āĻāĻžāĻāĨ¤ āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸āĻāĻŋ 1 (āĻŦā§āĻāĻā§ āĻĨāĻžāĻāĻž) āĻŦāĻž 0 (āĻŦā§āĻāĻā§ āĻ¯āĻžāĻ¯āĻŧāĻ¨āĻŋ) āĻ¨āĻŋāĻ°ā§āĻ§āĻžāĻ°āĻŖ āĻāĻ°āĻž āĻāĻāĻŋāĻ¤āĨ¤
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)
āĻĢāĻŋāĻ āĻĢāĻžāĻāĻļāĻ¨āĻāĻŋ āĻĒāĻžāĻāĻĨāĻ¨āĻā§ āĻŦāĻ˛ā§: āĻŽāĻĄā§āĻ˛āĻāĻŋāĻā§ X āĻāĻŦāĻ y-āĻāĻ° āĻŽāĻ§ā§āĻ¯ā§ āĻ¨āĻŋāĻ°ā§āĻāĻ°āĻ¤āĻž āĻā§āĻāĻāĻ¤ā§ āĻĻāĻŋāĻ¨āĨ¤
āĻāĻ āĻ¸ā§āĻā§āĻ¨ā§āĻĄā§āĻ°āĻ āĻāĻŽ āĻāĻŦāĻ āĻŽāĻĄā§āĻ˛ āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤āĨ¤
āĻāĻāĻž āĻāĻŋāĻāĻžāĻŦā§ āĻĒā§āĻ°āĻ¯āĻŧā§āĻ āĻāĻ°āĻŦā§āĻ¨? āĻāĻŽāĻ°āĻž āĻāĻāĻ¨ āĻĻā§āĻāĻŦ!
āĻ§āĻžāĻĒ āĻĒāĻžāĻāĻ. āĻāĻĒāĻ¸āĻāĻšāĻžāĻ°
āĻāĻāĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻĒāĻ°ā§āĻā§āĻˇāĻžāĻ° āĻĄā§āĻāĻž āĻ¸āĻš āĻāĻāĻāĻŋ āĻā§āĻŦāĻŋāĻ˛ āĻ˛ā§āĻĄ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§ āĻ¯āĻžāĻ° āĻāĻ¨ā§āĻ¯ āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻāĻāĻŋ āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ āĻāĻ°āĻ¤ā§ āĻšāĻŦā§āĨ¤ āĻāĻ āĻā§āĻŦāĻŋāĻ˛ā§āĻ° āĻ¸āĻžāĻšāĻžāĻ¯ā§āĻ¯ā§ āĻāĻŽāĻ°āĻž X āĻāĻ° āĻāĻ¨ā§āĻ¯ āĻ¯ā§ āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻāĻžāĻ āĻāĻ°ā§āĻāĻŋ āĻ¸ā§āĻ āĻāĻāĻ āĻāĻžāĻ āĻāĻ°āĻŦāĨ¤
X_test = pd.read_csv('test.csv', index_col=0)
count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)
X_test = np.array(X_test)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])
āĻāĻāĻ¨ āĻāĻŽāĻžāĻĻā§āĻ° āĻŽāĻĄā§āĻ˛ āĻĒā§āĻ°āĻ¯āĻŧā§āĻ āĻāĻ°āĻž āĻ¯āĻžāĻ!
gbc_predict = gbc.predict(X_test)
āĻ¸āĻŦ āĻāĻŽāĻ°āĻž āĻāĻāĻāĻŋ āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ āĻāĻ°ā§āĻāĻŋāĨ¤ āĻāĻāĻ¨ āĻāĻāĻŋ āĻ¸āĻŋāĻāĻ¸āĻāĻŋāĻ¤ā§ āĻ°ā§āĻāĻ°ā§āĻĄ āĻāĻ°ā§ āĻāĻ¯āĻŧā§āĻŦāĻ¸āĻžāĻāĻā§ āĻĒāĻžāĻ āĻžāĻ¤ā§ āĻšāĻŦā§āĨ¤
np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')
āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤. āĻāĻŽāĻ°āĻž āĻĒā§āĻ°āĻ¤āĻŋāĻāĻŋ āĻ¯āĻžāĻ¤ā§āĻ°ā§āĻ° āĻāĻ¨ā§āĻ¯ āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ āĻ¸āĻŽā§āĻŦāĻ˛āĻŋāĻ¤ āĻāĻāĻāĻŋ āĻĢāĻžāĻāĻ˛ āĻĒā§āĻ¯āĻŧā§āĻāĻŋāĨ¤ āĻ¯āĻž āĻ
āĻŦāĻļāĻŋāĻˇā§āĻ āĻĨāĻžāĻā§ āĻ¤āĻž āĻšāĻ˛ āĻāĻ¯āĻŧā§āĻŦāĻ¸āĻžāĻāĻā§ āĻāĻ āĻ¸āĻŽāĻžāĻ§āĻžāĻ¨āĻā§āĻ˛āĻŋ āĻāĻĒāĻ˛ā§āĻĄ āĻāĻ°āĻž āĻāĻŦāĻ āĻĒā§āĻ°ā§āĻŦāĻžāĻāĻžāĻ¸ā§āĻ° āĻŽā§āĻ˛ā§āĻ¯āĻžāĻ¯āĻŧāĻ¨ āĻāĻ°āĻžāĨ¤ āĻāĻ āĻ§āĻ°āĻ¨ā§āĻ° āĻāĻāĻāĻŋ āĻāĻĻāĻŋāĻŽ āĻ¸āĻŽāĻžāĻ§āĻžāĻ¨ āĻāĻ¨āĻ¸āĻžāĻ§āĻžāĻ°āĻŖā§āĻ° āĻāĻžāĻā§ āĻļā§āĻ§ā§āĻŽāĻžāĻ¤ā§āĻ° 74% āĻ¸āĻ āĻŋāĻ āĻāĻ¤ā§āĻ¤āĻ° āĻĻā§āĻ¯āĻŧ āĻ¨āĻž, āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻĄā§āĻāĻž āĻ¸āĻžāĻ¯āĻŧā§āĻ¨ā§āĻ¸ā§ āĻāĻŋāĻā§ āĻ
āĻ¨ā§āĻĒā§āĻ°ā§āĻ°āĻŖāĻžāĻ āĻĻā§āĻ¯āĻŧāĨ¤ āĻ¸āĻŦāĻā§āĻ¯āĻŧā§ āĻā§āĻ¤ā§āĻšāĻ˛ā§ āĻ¯ā§ āĻā§āĻ¨ āĻ¸āĻŽāĻ¯āĻŧ āĻāĻŽāĻžāĻā§ āĻŦā§āĻ¯āĻā§āĻ¤āĻŋāĻāĻ¤ āĻŦāĻžāĻ°ā§āĻ¤āĻžāĻ¯āĻŧ āĻ˛āĻŋāĻāĻ¤ā§ āĻāĻŦāĻ āĻāĻāĻāĻŋ āĻĒā§āĻ°āĻļā§āĻ¨ āĻāĻŋāĻā§āĻāĻžāĻ¸āĻž āĻāĻ°āĻ¤ā§ āĻĒāĻžāĻ°ā§āĨ¤ āĻ¸āĻŦāĻžāĻāĻā§ āĻ§āĻ¨ā§āĻ¯āĻŦāĻžāĻĻ!
āĻāĻ¤ā§āĻ¸: www.habr.com