āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

āĻĒā§āĻ°āĻžāĻ¯āĻŧāĻļāĻ‡ āĻĄā§‡āĻŸāĻž āĻ¸āĻžāĻ¯āĻŧā§‡āĻ¨ā§āĻ¸ā§‡āĻ° āĻ•ā§āĻˇā§‡āĻ¤ā§āĻ°ā§‡ āĻĒā§āĻ°āĻŦā§‡āĻļāĻ•āĻžāĻ°ā§€ āĻ˛ā§‹āĻ•ā§‡āĻ°āĻž āĻ¤āĻžāĻĻā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¯āĻž āĻ…āĻĒā§‡āĻ•ā§āĻˇāĻž āĻ•āĻ°āĻ›ā§‡ āĻ¤āĻžāĻ° āĻŦāĻžāĻ¸ā§āĻ¤āĻŦāĻ¸āĻŽā§āĻŽāĻ¤ āĻĒā§āĻ°āĻ¤ā§āĻ¯āĻžāĻļāĻžāĻ° āĻšā§‡āĻ¯āĻŧā§‡ āĻ•āĻŽāĨ¤ āĻ…āĻ¨ā§‡āĻ• āĻ˛ā§‹āĻ• āĻŽāĻ¨ā§‡ āĻ•āĻ°ā§‡ āĻ¯ā§‡ āĻ¤āĻžāĻ°āĻž āĻāĻ–āĻ¨ āĻĻā§āĻ°ā§āĻĻāĻžāĻ¨ā§āĻ¤ āĻ¨āĻŋāĻ‰āĻ°āĻžāĻ˛ āĻ¨ā§‡āĻŸāĻ“āĻ¯āĻŧāĻžāĻ°ā§āĻ• āĻ˛āĻŋāĻ–āĻŦā§‡, āĻ†āĻ¯āĻŧāĻ°āĻ¨ āĻŽā§āĻ¯āĻžāĻ¨ āĻĨā§‡āĻ•ā§‡ āĻāĻ•āĻŸāĻŋ āĻ­āĻ¯āĻŧā§‡āĻ¸ āĻ¸āĻšāĻ•āĻžāĻ°ā§€ āĻ¤ā§ˆāĻ°āĻŋ āĻ•āĻ°āĻŦā§‡ āĻŦāĻž āĻ†āĻ°ā§āĻĨāĻŋāĻ• āĻŦāĻžāĻœāĻžāĻ°ā§‡ āĻ¸āĻŦāĻžāĻ‡āĻ•ā§‡ āĻĒāĻ°āĻžāĻœāĻŋāĻ¤ āĻ•āĻ°āĻŦā§‡āĨ¤
āĻ•āĻŋāĻ¨ā§āĻ¤ā§ āĻ•āĻžāĻœ āĻ‰āĻĒāĻžāĻ¤ā§āĻ¤ āĻŦāĻŋāĻœā§āĻžāĻžāĻ¨ā§€ āĻĄā§‡āĻŸāĻž-āĻšāĻžāĻ˛āĻŋāĻ¤, āĻāĻŦāĻ‚ āĻ¸āĻŦāĻšā§‡āĻ¯āĻŧā§‡ āĻ—ā§āĻ°ā§āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ āĻāĻŦāĻ‚ āĻ¸āĻŽāĻ¯āĻŧāĻ¸āĻžāĻĒā§‡āĻ•ā§āĻˇ āĻĻāĻŋāĻ•āĻ—ā§āĻ˛āĻŋāĻ° āĻŽāĻ§ā§āĻ¯ā§‡ āĻāĻ•āĻŸāĻŋ āĻšāĻ˛ āĻĄā§‡āĻŸāĻžāĻ•ā§‡ āĻāĻ•āĻŸāĻŋ āĻ¨āĻŋāĻ‰āĻ°āĻžāĻ˛ āĻ¨ā§‡āĻŸāĻ“āĻ¯āĻŧāĻžāĻ°ā§āĻ•ā§‡ āĻ–āĻžāĻ“āĻ¯āĻŧāĻžāĻ¨ā§‹āĻ° āĻ†āĻ—ā§‡ āĻŦāĻž āĻāĻ•āĻŸāĻŋ āĻ¨āĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āĻŸ āĻ‰āĻĒāĻžāĻ¯āĻŧā§‡ āĻŦāĻŋāĻļā§āĻ˛ā§‡āĻˇāĻŖ āĻ•āĻ°āĻžāĻ° āĻ†āĻ—ā§‡ āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻž āĻ•āĻ°āĻžāĨ¤

āĻāĻ‡ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ā§‡, āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻĻāĻ˛ āĻŦāĻ°ā§āĻŖāĻ¨āĻž āĻ•āĻ°āĻŦā§‡ āĻ•āĻŋāĻ­āĻžāĻŦā§‡ āĻ†āĻĒāĻ¨āĻŋ āĻ§āĻžāĻĒā§‡ āĻ§āĻžāĻĒā§‡ āĻ¨āĻŋāĻ°ā§āĻĻā§‡āĻļāĻžāĻŦāĻ˛ā§€ āĻāĻŦāĻ‚ āĻ•ā§‹āĻĄ āĻ¸āĻš āĻĻā§āĻ°ā§āĻ¤ āĻāĻŦāĻ‚ āĻ¸āĻšāĻœā§‡ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻž āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĻ¨āĨ¤ āĻ†āĻŽāĻ°āĻž āĻ•ā§‹āĻĄāĻŸāĻŋāĻ•ā§‡ āĻŦā§‡āĻļ āĻ¨āĻŽāĻ¨ā§€āĻ¯āĻŧ āĻ•āĻ°āĻžāĻ° āĻšā§‡āĻˇā§āĻŸāĻž āĻ•āĻ°ā§‡āĻ›āĻŋ āĻāĻŦāĻ‚ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āĻ¨ āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻž āĻ¯ā§‡āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĨ¤

āĻ…āĻ¨ā§‡āĻ• āĻĒā§‡āĻļāĻžāĻĻāĻžāĻ° āĻāĻ‡ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§āĻŸāĻŋāĻ¤ā§‡ āĻ…āĻ¸āĻžāĻ§āĻžāĻ°āĻŖ āĻ•āĻŋāĻ›ā§ āĻ–ā§āĻāĻœā§‡ āĻ¨āĻžāĻ“ āĻĒā§‡āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĻ¨, āĻ¤āĻŦā§‡ āĻ¨āĻ¤ā§āĻ¨āĻ°āĻž āĻ¨āĻ¤ā§āĻ¨ āĻ•āĻŋāĻ›ā§ āĻļāĻŋāĻ–āĻ¤ā§‡ āĻ¸āĻ•ā§āĻˇāĻŽ āĻšāĻŦā§‡āĻ¨, āĻāĻŦāĻ‚ āĻ¯ā§‡ āĻ•ā§‡āĻ‰ āĻĻā§āĻ°ā§āĻ¤ āĻāĻŦāĻ‚ āĻ•āĻžāĻ āĻžāĻŽā§‹āĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻžāĻ•āĻ°āĻŖā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻāĻ•āĻŸāĻŋ āĻĒā§ƒāĻĨāĻ• āĻ¨ā§‹āĻŸāĻŦā§āĻ• āĻ¤ā§ˆāĻ°āĻŋāĻ° āĻ¸ā§āĻŦāĻĒā§āĻ¨ āĻĻā§‡āĻ–ā§‡āĻ›ā§‡āĻ¨ āĻ¤āĻžāĻ°āĻž āĻ•ā§‹āĻĄāĻŸāĻŋ āĻ…āĻ¨ā§āĻ˛āĻŋāĻĒāĻŋ āĻ•āĻ°āĻ¤ā§‡ āĻāĻŦāĻ‚ āĻ¨āĻŋāĻœā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻĢāĻ°ā§āĻŽā§āĻ¯āĻžāĻŸ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĻ¨, āĻ…āĻĨāĻŦāĻž Github āĻĨā§‡āĻ•ā§‡ āĻ¸āĻŽāĻžāĻĒā§āĻ¤ āĻ¨ā§‹āĻŸāĻŦā§āĻ• āĻĄāĻžāĻ‰āĻ¨āĻ˛ā§‹āĻĄ āĻ•āĻ°ā§āĻ¨āĨ¤

āĻ†āĻŽāĻ°āĻž āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸ āĻĒā§‡āĻ¯āĻŧā§‡āĻ›āĻŋāĨ¤ āĻĒāĻ°āĻŦāĻ°ā§āĻ¤ā§€ āĻ•āĻŋ āĻ•āĻ°āĻ¤ā§‡ āĻšāĻŦā§‡?

āĻ¸ā§āĻ¤āĻ°āĻžāĻ‚, āĻŽāĻžāĻ¨: āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻŦā§āĻāĻ¤ā§‡ āĻšāĻŦā§‡ āĻ†āĻŽāĻ°āĻž āĻ•ā§€ āĻ¨āĻŋāĻ¯āĻŧā§‡ āĻ•āĻžāĻœ āĻ•āĻ°āĻ›āĻŋ, āĻ¸āĻžāĻŽāĻ—ā§āĻ°āĻŋāĻ• āĻšāĻŋāĻ¤ā§āĻ°āĨ¤ āĻāĻŸāĻŋ āĻ•āĻ°āĻžāĻ° āĻœāĻ¨ā§āĻ¯, āĻ†āĻŽāĻ°āĻž āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āĻ¨ āĻĄā§‡āĻŸāĻž āĻŸāĻžāĻ‡āĻĒāĻ•ā§‡ āĻ¸āĻšāĻœāĻ­āĻžāĻŦā§‡ āĻ¸āĻ‚āĻœā§āĻžāĻžāĻ¯āĻŧāĻŋāĻ¤ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ¨ā§āĻĄāĻž āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻŋāĨ¤

import pandas as pd #иĐŧĐŋĐžŅ€Ņ‚иŅ€ŅƒĐĩĐŧ pandas
import numpy as np  #иĐŧĐŋĐžŅ€Ņ‚иŅ€ŅƒĐĩĐŧ numpy
df = pd.read_csv("AB_NYC_2019.csv") #Ņ‡Đ¸Ņ‚Đ°ĐĩĐŧ Đ´Đ°Ņ‚Đ°ŅĐĩŅ‚ и СаĐŋиŅŅ‹Đ˛Đ°ĐĩĐŧ в ĐŋĐĩŅ€ĐĩĐŧĐĩĐŊĐŊŅƒŅŽ df

df.head(3) #ŅĐŧĐžŅ‚Ņ€Đ¸Đŧ ĐŊĐ° ĐŋĐĩŅ€Đ˛Ņ‹Đĩ 3 ŅŅ‚Ņ€ĐžŅ‡Đēи, Ņ‡Ņ‚ОйŅ‹ ĐŋĐžĐŊŅŅ‚ŅŒ, ĐēĐ°Đē вŅ‹ĐŗĐģŅĐ´ŅŅ‚ СĐŊĐ°Ņ‡ĐĩĐŊиŅ

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

df.info() #ДĐĩĐŧĐžĐŊŅŅ‚Ņ€Đ¸Ņ€ŅƒĐĩĐŧ иĐŊŅ„ĐžŅ€ĐŧĐ°Ņ†Đ¸ŅŽ Đž ĐēĐžĐģĐžĐŊĐēĐ°Ņ…

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

āĻ†āĻ¸ā§āĻ¨ āĻ•āĻ˛āĻžāĻŽā§‡āĻ° āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻĻā§‡āĻ–āĻŋ:

  1. āĻĒā§āĻ°āĻ¤āĻŋāĻŸāĻŋ āĻ•āĻ˛āĻžāĻŽā§‡āĻ° āĻ˛āĻžāĻ‡āĻ¨ā§‡āĻ° āĻ¸āĻ‚āĻ–ā§āĻ¯āĻž āĻ•āĻŋ āĻŽā§‹āĻŸ āĻ˛āĻžāĻ‡āĻ¨ā§‡āĻ° āĻ¸āĻ‚āĻ–ā§āĻ¯āĻžāĻ° āĻ¸āĻžāĻĨā§‡ āĻŽāĻŋāĻ˛ā§‡ āĻ¯āĻžāĻ¯āĻŧ?
  2. āĻĒā§āĻ°āĻ¤āĻŋāĻŸāĻŋ āĻ•āĻ˛āĻžāĻŽā§‡ āĻĄā§‡āĻŸāĻžāĻ° āĻ¸āĻžāĻ°āĻŽāĻ°ā§āĻŽ āĻ•ā§€?
  3. āĻāĻ° āĻœāĻ¨ā§āĻ¯ āĻ­āĻŦāĻŋāĻˇā§āĻ¯āĻĻā§āĻŦāĻžāĻŖā§€ āĻ•āĻ°āĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻ†āĻŽāĻ°āĻž āĻ•ā§‹āĻ¨ āĻ•āĻ˛āĻžāĻŽāĻ•ā§‡ āĻ˛āĻ•ā§āĻˇā§āĻ¯ āĻ•āĻ°āĻ¤ā§‡ āĻšāĻžāĻ‡?

āĻāĻ‡ āĻĒā§āĻ°āĻļā§āĻ¨āĻ—ā§āĻ˛āĻŋāĻ° āĻ‰āĻ¤ā§āĻ¤āĻ° āĻ†āĻĒāĻ¨āĻžāĻ•ā§‡ āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸ āĻŦāĻŋāĻļā§āĻ˛ā§‡āĻˇāĻŖ āĻ•āĻ°āĻ¤ā§‡ āĻāĻŦāĻ‚ āĻ†āĻĒāĻ¨āĻžāĻ° āĻĒāĻ°āĻŦāĻ°ā§āĻ¤ā§€ āĻ•āĻ°ā§āĻŽā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻŽā§‹āĻŸāĻžāĻŽā§āĻŸāĻŋāĻ­āĻžāĻŦā§‡ āĻāĻ•āĻŸāĻŋ āĻĒāĻ°āĻŋāĻ•āĻ˛ā§āĻĒāĻ¨āĻž āĻ†āĻāĻ•āĻ¤ā§‡ āĻ…āĻ¨ā§āĻŽāĻ¤āĻŋ āĻĻā§‡āĻŦā§‡āĨ¤

āĻāĻ›āĻžāĻĄāĻŧāĻžāĻ“, āĻĒā§āĻ°āĻ¤āĻŋāĻŸāĻŋ āĻ•āĻ˛āĻžāĻŽā§‡āĻ° āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻ—āĻ­ā§€āĻ°āĻ­āĻžāĻŦā§‡ āĻĻā§‡āĻ–āĻžāĻ° āĻœāĻ¨ā§āĻ¯, āĻ†āĻŽāĻ°āĻž pandas describe() āĻĢāĻžāĻ‚āĻļāĻ¨ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋāĨ¤ āĻ¯āĻžāĻ‡āĻšā§‹āĻ•, āĻāĻ‡ āĻĢāĻžāĻ‚āĻļāĻ¨ā§‡āĻ° āĻ…āĻ¸ā§āĻŦāĻŋāĻ§āĻž āĻšāĻ˛ āĻ¯ā§‡ āĻāĻŸāĻŋ āĻ¸ā§āĻŸā§āĻ°āĻŋāĻ‚ āĻŽāĻžāĻ¨ āĻ¸āĻš āĻ•āĻ˛āĻžāĻŽ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•ā§‡ āĻ¤āĻĨā§āĻ¯ āĻĒā§āĻ°āĻĻāĻžāĻ¨ āĻ•āĻ°ā§‡ āĻ¨āĻžāĨ¤ āĻ†āĻŽāĻ°āĻž āĻĒāĻ°ā§‡ āĻ¤āĻžāĻĻā§‡āĻ° āĻŽā§‹āĻ•āĻžāĻŦā§‡āĻ˛āĻž āĻ•āĻ°āĻŦ.

df.describe()

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

āĻŽā§āĻ¯āĻžāĻœāĻŋāĻ• āĻ­āĻŋāĻœā§āĻ¯ā§āĻ¯āĻŧāĻžāĻ˛āĻžāĻ‡āĻœā§‡āĻļāĻ¨

āĻ†āĻ¸ā§āĻ¨ āĻĻā§‡āĻ–āĻŋ āĻ¯ā§‡āĻ–āĻžāĻ¨ā§‡ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻ•ā§‹āĻ¨ āĻŽāĻžāĻ¨ āĻ¨ā§‡āĻ‡:

import seaborn as sns
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

āĻāĻŸāĻŋ āĻ‰āĻĒāĻ°ā§‡ āĻĨā§‡āĻ•ā§‡ āĻāĻ•āĻŸāĻŋ āĻ¸āĻ‚āĻ•ā§āĻˇāĻŋāĻĒā§āĻ¤ āĻšā§‡āĻšāĻžāĻ°āĻž āĻ›āĻŋāĻ˛, āĻāĻ–āĻ¨ āĻ†āĻŽāĻ°āĻž āĻ†āĻ°āĻ“ āĻ†āĻ•āĻ°ā§āĻˇāĻŖā§€āĻ¯āĻŧ āĻœāĻŋāĻ¨āĻŋāĻ¸āĻ—ā§āĻ˛āĻŋāĻ¤ā§‡ āĻšāĻ˛ā§‡ āĻ¯āĻžāĻŦ

āĻ†āĻ¸ā§āĻ¨ āĻ–ā§āĻāĻœā§‡ āĻŦā§‡āĻ° āĻ•āĻ°āĻžāĻ° āĻšā§‡āĻˇā§āĻŸāĻž āĻ•āĻ°āĻŋ āĻāĻŦāĻ‚, āĻ¯āĻĻāĻŋ āĻ¸āĻŽā§āĻ­āĻŦ āĻšāĻ¯āĻŧ, āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻ¸āĻžāĻ°āĻŋāĻ¤ā§‡ āĻļā§āĻ§ā§āĻŽāĻžāĻ¤ā§āĻ° āĻāĻ•āĻŸāĻŋ āĻŽāĻžāĻ¨ āĻ†āĻ›ā§‡ āĻāĻŽāĻ¨ āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋ āĻ¸āĻ°āĻžāĻ¨ (āĻ¤āĻžāĻ°āĻž āĻĢāĻ˛āĻžāĻĢāĻ˛āĻ•ā§‡ āĻ•ā§‹āĻ¨ā§‹āĻ­āĻžāĻŦā§‡āĻ‡ āĻĒā§āĻ°āĻ­āĻžāĻŦāĻŋāĻ¤ āĻ•āĻ°āĻŦā§‡ āĻ¨āĻž):

df = df[[c for c
        in list(df)
        if len(df[c].unique()) > 1]] #ПĐĩŅ€ĐĩСаĐŋиŅŅ‹Đ˛Đ°ĐĩĐŧ Đ´Đ°Ņ‚Đ°ŅĐĩŅ‚, ĐžŅŅ‚авĐģŅŅ Ņ‚ĐžĐģŅŒĐēĐž Ņ‚Đĩ ĐēĐžĐģĐžĐŊĐēи, в ĐēĐžŅ‚ĐžŅ€Ņ‹Ņ… йОĐģŅŒŅˆĐĩ ОдĐŊĐžĐŗĐž ŅƒĐŊиĐēĐ°ĐģŅŒĐŊĐžĐŗĐž СĐŊĐ°Ņ‡ĐĩĐŊиŅ

āĻāĻ–āĻ¨ āĻ†āĻŽāĻ°āĻž āĻ¨āĻŋāĻœā§‡āĻĻā§‡āĻ°āĻ•ā§‡ āĻāĻŦāĻ‚ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻĒā§āĻ°āĻ•āĻ˛ā§āĻĒā§‡āĻ° āĻ¸āĻžāĻĢāĻ˛ā§āĻ¯āĻ•ā§‡ āĻĄā§āĻĒā§āĻ˛āĻŋāĻ•ā§‡āĻŸ āĻ˛āĻžāĻ‡āĻ¨ āĻĨā§‡āĻ•ā§‡ āĻ°āĻ•ā§āĻˇāĻž āĻ•āĻ°āĻŋ (āĻ¯ā§‡ āĻ˛āĻžāĻ‡āĻ¨ā§‡ āĻŦāĻŋāĻĻā§āĻ¯āĻŽāĻžāĻ¨ āĻ˛āĻžāĻ‡āĻ¨āĻ—ā§āĻ˛āĻŋāĻ° āĻāĻ•āĻŸāĻŋāĻ° āĻŽāĻ¤ā§‹ āĻāĻ•āĻ‡ āĻ•ā§āĻ°āĻŽā§‡ āĻāĻ•āĻ‡ āĻ¤āĻĨā§āĻ¯ āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡):

df.drop_duplicates(inplace=True) #ДĐĩĐģĐ°ĐĩĐŧ ŅŅ‚Đž, ĐĩŅĐģи ŅŅ‡Đ¸Ņ‚Đ°ĐĩĐŧ ĐŊŅƒĐļĐŊŅ‹Đŧ.
                                 #В ĐŊĐĩĐēĐžŅ‚ĐžŅ€Ņ‹Ņ… ĐŋŅ€ĐžĐĩĐēŅ‚Đ°Ņ… ŅƒĐ´Đ°ĐģŅŅ‚ŅŒ Ņ‚Đ°ĐēиĐĩ Đ´Đ°ĐŊĐŊŅ‹Đĩ Ņ ŅĐ°ĐŧĐžĐŗĐž ĐŊĐ°Ņ‡Đ°ĐģĐ° ĐŊĐĩ ŅŅ‚ОиŅ‚.

āĻ†āĻŽāĻ°āĻž āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸāĻŸāĻŋāĻ•ā§‡ āĻĻā§āĻŸāĻŋ āĻ­āĻžāĻ—ā§‡ āĻ­āĻžāĻ— āĻ•āĻ°āĻŋ: āĻāĻ•āĻŸāĻŋ āĻ—ā§āĻŖāĻ—āĻ¤ āĻŽāĻžāĻ¨ āĻ¸āĻš āĻāĻŦāĻ‚ āĻ…āĻ¨ā§āĻ¯āĻŸāĻŋ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻŽāĻžāĻ¨ āĻ¸āĻš

āĻāĻ–āĻžāĻ¨ā§‡ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻāĻ•āĻŸāĻŋ āĻ›ā§‹āĻŸ āĻ¸ā§āĻĒāĻˇā§āĻŸā§€āĻ•āĻ°āĻŖ āĻ•āĻ°āĻ¤ā§‡ āĻšāĻŦā§‡: āĻ¯āĻĻāĻŋ āĻ—ā§āĻŖāĻ—āĻ¤ āĻāĻŦāĻ‚ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ¤ā§‡ āĻ…āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻĄā§‡āĻŸāĻž āĻ¸āĻš āĻ˛āĻžāĻ‡āĻ¨āĻ—ā§āĻ˛āĻŋ āĻāĻ•ā§‡ āĻ…āĻĒāĻ°ā§‡āĻ° āĻ¸āĻžāĻĨā§‡ āĻ–ā§āĻŦ āĻŦā§‡āĻļāĻŋ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•āĻ¯ā§āĻ•ā§āĻ¤ āĻ¨āĻž āĻšāĻ¯āĻŧ, āĻ¤āĻŦā§‡ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻ¸āĻŋāĻĻā§āĻ§āĻžāĻ¨ā§āĻ¤ āĻ¨āĻŋāĻ¤ā§‡ āĻšāĻŦā§‡ āĻ¯ā§‡ āĻ†āĻŽāĻ°āĻž āĻ•ā§€ āĻ‰ā§ŽāĻ¸āĻ°ā§āĻ— āĻ•āĻ°āĻŦ - āĻ…āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻĄā§‡āĻŸāĻž āĻ¸āĻš āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻ˛āĻžāĻ‡āĻ¨, āĻ¤āĻžāĻĻā§‡āĻ° āĻļā§āĻ§ā§āĻŽāĻžāĻ¤ā§āĻ° āĻāĻ•āĻŸāĻŋ āĻ…āĻ‚āĻļ, āĻŦāĻž āĻ¨āĻŋāĻ°ā§āĻĻāĻŋāĻˇā§āĻŸ āĻ•āĻ˛āĻžāĻŽāĨ¤ āĻ¯āĻĻāĻŋ āĻ˛āĻžāĻ‡āĻ¨āĻ—ā§āĻ˛āĻŋ āĻĒāĻžāĻ°āĻ¸ā§āĻĒāĻ°āĻŋāĻ• āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•āĻ¯ā§āĻ•ā§āĻ¤ āĻšāĻ¯āĻŧ, āĻ¤āĻŦā§‡ āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸāĻŸāĻŋāĻ•ā§‡ āĻĻā§āĻŸāĻŋ āĻ­āĻžāĻ—ā§‡ āĻ­āĻžāĻ— āĻ•āĻ°āĻžāĻ° āĻ…āĻ§āĻŋāĻ•āĻžāĻ° āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡āĨ¤ āĻ…āĻ¨ā§āĻ¯āĻĨāĻžāĻ¯āĻŧ, āĻ†āĻĒāĻ¨āĻžāĻ•ā§‡ āĻĒā§āĻ°āĻĨāĻŽā§‡ āĻ¸ā§‡āĻ‡ āĻ˛āĻžāĻ‡āĻ¨āĻ—ā§āĻ˛āĻŋāĻ° āĻ¸āĻžāĻĨā§‡ āĻŽā§‹āĻ•āĻžāĻŦāĻŋāĻ˛āĻž āĻ•āĻ°āĻ¤ā§‡ āĻšāĻŦā§‡ āĻ¯āĻž āĻ—ā§āĻŖāĻ—āĻ¤ āĻāĻŦāĻ‚ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤āĻ­āĻžāĻŦā§‡ āĻ…āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻĄā§‡āĻŸāĻžāĻ° āĻ¸āĻžāĻĨā§‡ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ• āĻ°āĻžāĻ–ā§‡ āĻ¨āĻž āĻāĻŦāĻ‚ āĻļā§āĻ§ā§āĻŽāĻžāĻ¤ā§āĻ° āĻ¤āĻžāĻ°āĻĒāĻ°ā§‡ āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸāĻŸāĻŋāĻ•ā§‡ āĻĻā§āĻŸāĻŋ āĻ­āĻžāĻ—ā§‡ āĻ­āĻžāĻ— āĻ•āĻ°āĻ¤ā§‡ āĻšāĻŦā§‡āĨ¤

df_numerical = df.select_dtypes(include = [np.number])
df_categorical = df.select_dtypes(exclude = [np.number])

āĻāĻ‡ āĻĻā§āĻŸāĻŋ āĻ­āĻŋāĻ¨ā§āĻ¨ āĻ§āĻ°āĻŖā§‡āĻ° āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻž āĻ•āĻ°āĻž āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¸āĻšāĻœ āĻ•āĻ°āĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻ†āĻŽāĻ°āĻž āĻāĻŸāĻŋ āĻ•āĻ°āĻŋ - āĻĒāĻ°ā§‡ āĻ†āĻŽāĻ°āĻž āĻŦā§āĻāĻ¤ā§‡ āĻĒāĻžāĻ°āĻŦ āĻāĻŸāĻŋ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻœā§€āĻŦāĻ¨āĻ•ā§‡ āĻ•āĻ¤āĻŸāĻž āĻ¸āĻšāĻœ āĻ•āĻ°ā§‡ āĻ¤ā§‹āĻ˛ā§‡āĨ¤

āĻ†āĻŽāĻ°āĻž āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻ¤āĻĨā§āĻ¯ āĻ¨āĻŋāĻ¯āĻŧā§‡ āĻ•āĻžāĻœ āĻ•āĻ°āĻŋ

āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻĒā§āĻ°āĻĨāĻŽ āĻœāĻŋāĻ¨āĻŋāĻ¸āĻŸāĻŋ āĻ¨āĻŋāĻ°ā§āĻ§āĻžāĻ°āĻŖ āĻ•āĻ°āĻž āĻ‰āĻšāĻŋāĻ¤ āĻ¯ā§‡ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ¤ā§‡ "āĻ—ā§āĻĒā§āĻ¤āĻšāĻ° āĻ•āĻ˛āĻžāĻŽ" āĻ†āĻ›ā§‡ āĻ•āĻŋāĻ¨āĻžāĨ¤ āĻ†āĻŽāĻ°āĻž āĻāĻ‡ āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋāĻ•ā§‡ āĻŦāĻ˛āĻŋ āĻ•āĻžāĻ°āĻŖ āĻ¤āĻžāĻ°āĻž āĻ¨āĻŋāĻœā§‡āĻĻā§‡āĻ°āĻ•ā§‡ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻšāĻŋāĻ¸āĻžāĻŦā§‡ āĻ‰āĻĒāĻ¸ā§āĻĨāĻžāĻĒāĻ¨ āĻ•āĻ°ā§‡, āĻ•āĻŋāĻ¨ā§āĻ¤ā§ āĻ—ā§āĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻšāĻŋāĻ¸āĻžāĻŦā§‡ āĻ•āĻžāĻœ āĻ•āĻ°ā§‡āĨ¤

āĻ†āĻŽāĻ°āĻž āĻ•āĻŋāĻ­āĻžāĻŦā§‡ āĻ¤āĻžāĻĻā§‡āĻ° āĻšāĻŋāĻšā§āĻ¨āĻŋāĻ¤ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋ? āĻ…āĻŦāĻļā§āĻ¯āĻ‡, āĻāĻŸāĻŋ āĻ¸āĻŦāĻ‡ āĻ¨āĻŋāĻ°ā§āĻ­āĻ° āĻ•āĻ°ā§‡ āĻ†āĻĒāĻ¨āĻŋ āĻ¯ā§‡ āĻĄā§‡āĻŸāĻž āĻŦāĻŋāĻļā§āĻ˛ā§‡āĻˇāĻŖ āĻ•āĻ°āĻ›ā§‡āĻ¨ āĻ¤āĻžāĻ° āĻĒā§āĻ°āĻ•ā§ƒāĻ¤āĻŋāĻ° āĻ‰āĻĒāĻ°, āĻ¤āĻŦā§‡ āĻ¸āĻžāĻ§āĻžāĻ°āĻŖāĻ­āĻžāĻŦā§‡ āĻāĻ‡ āĻ§āĻ°āĻ¨ā§‡āĻ° āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋāĻ¤ā§‡ āĻ¸āĻžāĻŽāĻžāĻ¨ā§āĻ¯ āĻ…āĻ¨āĻ¨ā§āĻ¯ āĻĄā§‡āĻŸāĻž āĻĨāĻžāĻ•āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡ (3-10 āĻ…āĻ¨āĻ¨ā§āĻ¯ āĻŽāĻžāĻ¨ā§‡āĻ° āĻ…āĻžā§āĻšāĻ˛ā§‡)āĨ¤

print(df_numerical.nunique())

āĻāĻ•āĻŦāĻžāĻ° āĻ†āĻŽāĻ°āĻž āĻ—ā§āĻĒā§āĻ¤āĻšāĻ° āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋ āĻšāĻŋāĻšā§āĻ¨āĻŋāĻ¤ āĻ•āĻ°āĻžāĻ° āĻĒāĻ°ā§‡, āĻ†āĻŽāĻ°āĻž āĻ¤āĻžāĻĻā§‡āĻ° āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻĨā§‡āĻ•ā§‡ āĻ—ā§āĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ¤ā§‡ āĻ¸ā§āĻĨāĻžāĻ¨āĻžāĻ¨ā§āĻ¤āĻ° āĻ•āĻ°āĻŦ:

spy_columns = df_numerical[['ĐēĐžĐģĐžĐŊĐēĐ°1', 'ĐēĐžĐģĐžĐēĐ°2', 'ĐēĐžĐģĐžĐŊĐēĐ°3']]#вŅ‹Đ´ĐĩĐģŅĐĩĐŧ ĐēĐžĐģĐžĐŊĐēи-ŅˆĐŋиОĐŊŅ‹ и СаĐŋиŅŅ‹Đ˛Đ°ĐĩĐŧ в ĐžŅ‚Đ´ĐĩĐģŅŒĐŊŅƒŅŽ dataframe
df_numerical.drop(labels=['ĐēĐžĐģĐžĐŊĐēĐ°1', 'ĐēĐžĐģĐžĐēĐ°2', 'ĐēĐžĐģĐžĐŊĐēĐ°3'], axis=1, inplace = True)#вŅ‹Ņ€ĐĩСаĐĩĐŧ ŅŅ‚и ĐēĐžĐģĐžĐŊĐēи иС ĐēĐžĐģиŅ‡ĐĩŅŅ‚вĐĩĐŊĐŊŅ‹Ņ… Đ´Đ°ĐŊĐŊŅ‹Ņ…
df_categorical.insert(1, 'ĐēĐžĐģĐžĐŊĐēĐ°1', spy_columns['ĐēĐžĐģĐžĐŊĐēĐ°1']) #дОйавĐģŅĐĩĐŧ ĐŋĐĩŅ€Đ˛ŅƒŅŽ ĐēĐžĐģĐžĐŊĐēŅƒ-ŅˆĐŋиОĐŊ в ĐēĐ°Ņ‡ĐĩŅŅ‚вĐĩĐŊĐŊŅ‹Đĩ Đ´Đ°ĐŊĐŊŅ‹Đĩ
df_categorical.insert(1, 'ĐēĐžĐģĐžĐŊĐēĐ°2', spy_columns['ĐēĐžĐģĐžĐŊĐēĐ°2']) #дОйавĐģŅĐĩĐŧ вŅ‚ĐžŅ€ŅƒŅŽ ĐēĐžĐģĐžĐŊĐēŅƒ-ŅˆĐŋиОĐŊ в ĐēĐ°Ņ‡ĐĩŅŅ‚вĐĩĐŊĐŊŅ‹Đĩ Đ´Đ°ĐŊĐŊŅ‹Đĩ
df_categorical.insert(1, 'ĐēĐžĐģĐžĐŊĐēĐ°3', spy_columns['ĐēĐžĐģĐžĐŊĐēĐ°3']) #дОйавĐģŅĐĩĐŧ Ņ‚Ņ€ĐĩŅ‚ŅŒŅŽ ĐēĐžĐģĐžĐŊĐēŅƒ-ŅˆĐŋиОĐŊ в ĐēĐ°Ņ‡ĐĩŅŅ‚вĐĩĐŊĐŊŅ‹Đĩ Đ´Đ°ĐŊĐŊŅ‹Đĩ

āĻ…āĻŦāĻļā§‡āĻˇā§‡, āĻ†āĻŽāĻ°āĻž āĻ—ā§āĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻĨā§‡āĻ•ā§‡ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻ¸āĻŽā§āĻĒā§‚āĻ°ā§āĻŖāĻ°ā§‚āĻĒā§‡ āĻ†āĻ˛āĻžāĻĻāĻž āĻ•āĻ°ā§‡āĻ›āĻŋ āĻāĻŦāĻ‚ āĻāĻ–āĻ¨ āĻ†āĻŽāĻ°āĻž āĻāĻŸāĻŋāĻ° āĻ¸āĻžāĻĨā§‡ āĻ¸āĻ āĻŋāĻ•āĻ­āĻžāĻŦā§‡ āĻ•āĻžāĻœ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋāĨ¤ āĻĒā§āĻ°āĻĨāĻŽ āĻœāĻŋāĻ¨āĻŋāĻ¸āĻŸāĻŋ āĻŦā§āĻāĻ¤ā§‡ āĻšāĻŦā§‡ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻ•ā§‹āĻĨāĻžāĻ¯āĻŧ āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡ (NaN, āĻāĻŦāĻ‚ āĻ•āĻŋāĻ›ā§ āĻ•ā§āĻˇā§‡āĻ¤ā§āĻ°ā§‡ 0 āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ āĻšāĻŋāĻ¸āĻžāĻŦā§‡ āĻ—ā§āĻ°āĻšāĻŖ āĻ•āĻ°āĻž āĻšāĻŦā§‡)āĨ¤

for i in df_numerical.columns:
    print(i, df[i][df[i]==0].count())

āĻāĻ‡ āĻŽā§āĻšā§āĻ°ā§āĻ¤ā§‡, āĻ•ā§‹āĻ¨ āĻ•āĻ˛āĻžāĻŽā§‡ āĻļā§‚āĻ¨ā§āĻ¯ āĻ…āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻ¨āĻŋāĻ°ā§āĻĻā§‡āĻļ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡ āĻ¤āĻž āĻŦā§‹āĻāĻž āĻ—ā§āĻ°ā§āĻ¤ā§āĻŦāĻĒā§‚āĻ°ā§āĻŖ: āĻāĻŸāĻŋ āĻ•āĻŋ āĻĄā§‡āĻŸāĻž āĻ¸āĻ‚āĻ—ā§āĻ°āĻš āĻ•āĻ°āĻžāĻ° āĻ•āĻžāĻ°āĻŖā§‡? āĻ…āĻĨāĻŦāĻž āĻāĻŸāĻŋ āĻĄā§‡āĻŸāĻž āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋāĻ° āĻ¸āĻžāĻĨā§‡ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•āĻŋāĻ¤ āĻšāĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡? āĻāĻ‡ āĻĒā§āĻ°āĻļā§āĻ¨ā§‡āĻ° āĻ‰āĻ¤ā§āĻ¤āĻ° āĻ•ā§‡āĻ¸-āĻŦāĻžāĻ‡-āĻ•ā§‡āĻ¸ āĻ­āĻŋāĻ¤ā§āĻ¤āĻŋāĻ¤ā§‡ āĻĻāĻŋāĻ¤ā§‡ āĻšāĻŦā§‡āĨ¤

āĻ¸ā§āĻ¤āĻ°āĻžāĻ‚, āĻ¯āĻĻāĻŋ āĻ†āĻŽāĻ°āĻž āĻāĻ–āĻ¨āĻ“ āĻ¸āĻŋāĻĻā§āĻ§āĻžāĻ¨ā§āĻ¤ āĻ¨āĻŋāĻ‡ āĻ¯ā§‡ āĻ¯ā§‡āĻ–āĻžāĻ¨ā§‡ āĻļā§‚āĻ¨ā§āĻ¯ āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡ āĻ¸ā§‡āĻ–āĻžāĻ¨ā§‡ āĻ†āĻŽāĻ°āĻž āĻĄā§‡āĻŸāĻž āĻšāĻžāĻ°āĻŋāĻ¯āĻŧā§‡ āĻĢā§‡āĻ˛āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋ, āĻ¤āĻžāĻšāĻ˛ā§‡ āĻĒāĻ°āĻŦāĻ°ā§āĻ¤ā§€āĻ¤ā§‡ āĻāĻ‡ āĻšāĻžāĻ°āĻŋāĻ¯āĻŧā§‡ āĻ¯āĻžāĻ“āĻ¯āĻŧāĻž āĻĄā§‡āĻŸāĻžāĻ° āĻ¸āĻžāĻĨā§‡ āĻ•āĻžāĻœ āĻ•āĻ°āĻž āĻ†āĻ°āĻ“ āĻ¸āĻšāĻœ āĻ•āĻ°āĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻļā§‚āĻ¨ā§āĻ¯āĻ—ā§āĻ˛āĻŋāĻ•ā§‡ NaN āĻĻāĻŋāĻ¯āĻŧā§‡ āĻĒā§āĻ°āĻ¤āĻŋāĻ¸ā§āĻĨāĻžāĻĒāĻ¨ āĻ•āĻ°āĻž āĻ‰āĻšāĻŋāĻ¤:

df_numerical[["ĐēĐžĐģĐžĐŊĐēĐ° 1", "ĐēĐžĐģĐžĐŊĐēĐ° 2"]] = df_numerical[["ĐēĐžĐģĐžĐŊĐēĐ° 1", "ĐēĐžĐģĐžĐŊĐēĐ° 2"]].replace(0, nan)

āĻāĻ–āĻ¨ āĻĻā§‡āĻ–āĻž āĻ¯āĻžāĻ• āĻ†āĻŽāĻ°āĻž āĻ•ā§‹āĻĨāĻžāĻ¯āĻŧ āĻĄā§‡āĻŸāĻž āĻŽāĻŋāĻ¸ āĻ•āĻ°āĻ›āĻŋ:

sns.heatmap(df_numerical.isnull(),yticklabels=False,cbar=False,cmap='viridis') # МоĐļĐŊĐž Ņ‚Đ°ĐēĐļĐĩ вОŅĐŋĐžĐģŅŒĐˇĐžĐ˛Đ°Ņ‚ŅŒŅŅ df_numerical.info()

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

āĻāĻ–āĻžāĻ¨ā§‡ āĻ…āĻ¨ā§āĻĒāĻ¸ā§āĻĨāĻŋāĻ¤ āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋāĻ° āĻ­āĻŋāĻ¤āĻ°ā§‡ āĻ¸ā§‡āĻ‡ āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻšāĻ˛ā§āĻĻ āĻ°āĻ™ā§‡ āĻšāĻŋāĻšā§āĻ¨āĻŋāĻ¤ āĻ•āĻ°āĻž āĻ‰āĻšāĻŋāĻ¤āĨ¤ āĻāĻŦāĻ‚ āĻāĻ–āĻ¨ āĻŽāĻœāĻž āĻļā§āĻ°ā§ āĻšāĻ¯āĻŧ - āĻ•āĻŋāĻ­āĻžāĻŦā§‡ āĻāĻ‡ āĻŽāĻžāĻ¨ āĻŽā§‹āĻ•āĻžāĻŦā§‡āĻ˛āĻž āĻ•āĻ°āĻ¤ā§‡? āĻ†āĻŽāĻŋ āĻ•āĻŋ āĻāĻ‡ āĻŽāĻžāĻ¨ āĻŦāĻž āĻ•āĻ˛āĻžāĻŽāĻ—ā§āĻ˛āĻŋāĻ° āĻ¸āĻžāĻĨā§‡ āĻ¸āĻžāĻ°āĻŋ āĻŽā§āĻ›ā§‡ āĻĢā§‡āĻ˛āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋ? āĻ¨āĻžāĻ•āĻŋ āĻ…āĻ¨ā§āĻ¯ āĻ•āĻŋāĻ›ā§ āĻĻāĻŋāĻ¯āĻŧā§‡ āĻāĻ‡ āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻĒā§‚āĻ°āĻŖ āĻ•āĻ°āĻŦā§‡āĻ¨?

āĻāĻ–āĻžāĻ¨ā§‡ āĻāĻ•āĻŸāĻŋ āĻ†āĻ¨ā§āĻŽāĻžāĻ¨āĻŋāĻ• āĻšāĻŋāĻ¤ā§āĻ° āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡ āĻ¯āĻž āĻ†āĻĒāĻ¨āĻžāĻ•ā§‡ āĻ¸āĻŋāĻĻā§āĻ§āĻžāĻ¨ā§āĻ¤ āĻ¨āĻŋāĻ¤ā§‡ āĻ¸āĻžāĻšāĻžāĻ¯ā§āĻ¯ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡ āĻ¯ā§‡ āĻ¨ā§€āĻ¤āĻŋāĻ—āĻ¤āĻ­āĻžāĻŦā§‡, āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋāĻ° āĻ¸āĻžāĻĨā§‡ āĻ•ā§€ āĻ•āĻ°āĻž āĻ¯ā§‡āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡:

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

0. āĻ…āĻĒā§āĻ°āĻ¯āĻŧā§‹āĻœāĻ¨ā§€āĻ¯āĻŧ āĻ•āĻ˛āĻžāĻŽ āĻ¸āĻ°āĻžāĻ¨

df_numerical.drop(labels=["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2"], axis=1, inplace=True)

1. āĻāĻ‡ āĻ•āĻ˛āĻžāĻŽā§‡ āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ā§‡āĻ° āĻ¸āĻ‚āĻ–ā§āĻ¯āĻž āĻ•āĻŋ 50% āĻāĻ° āĻŦā§‡āĻļāĻŋ?

print(df_numerical.isnull().sum() / df_numerical.shape[0] * 100)

df_numerical.drop(labels=["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2"], axis=1, inplace=True)#ĐŖĐ´Đ°ĐģŅĐĩĐŧ, ĐĩŅĐģи ĐēĐ°ĐēĐ°Ņ-Ņ‚Đž ĐēĐžĐģĐžĐŊĐēĐ° иĐŧĐĩĐĩŅ‚ йОĐģŅŒŅˆĐĩ 50 ĐŋŅƒŅŅ‚Ņ‹Ņ… СĐŊĐ°Ņ‡ĐĩĐŊиК

2. āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ āĻ¸āĻš āĻ˛āĻžāĻ‡āĻ¨ āĻŽā§āĻ›ā§āĻ¨

df_numerical.dropna(inplace=True)#ĐŖĐ´Đ°ĐģŅĐĩĐŧ ŅŅ‚Ņ€ĐžŅ‡Đēи Ņ ĐŋŅƒŅŅ‚Ņ‹Đŧи СĐŊĐ°Ņ‡ĐĩĐŊиŅĐŧи, ĐĩŅĐģи ĐŋĐžŅ‚ĐžĐŧ ĐžŅŅ‚Đ°ĐŊĐĩŅ‚ŅŅ Đ´ĐžŅŅ‚Đ°Ņ‚ĐžŅ‡ĐŊĐž Đ´Đ°ĐŊĐŊŅ‹Ņ… Đ´ĐģŅ ОйŅƒŅ‡ĐĩĐŊиŅ

3.1āĨ¤ āĻāĻ•āĻŸāĻŋ āĻ°ā§āĻ¯āĻžāĻ¨ā§āĻĄāĻŽ āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ

import random #иĐŧĐŋĐžŅ€Ņ‚иŅ€ŅƒĐĩĐŧ random
df_numerical["ĐēĐžĐģĐžĐŊĐēĐ°"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ĐēĐžĐģĐžĐŊĐēĐ°"]), inplace=True) #вŅŅ‚авĐģŅĐĩĐŧ Ņ€Đ°ĐŊĐ´ĐžĐŧĐŊŅ‹Đĩ СĐŊĐ°Ņ‡ĐĩĐŊиŅ в ĐŋŅƒŅŅ‚Ņ‹Đĩ ĐēĐģĐĩŅ‚Đēи Ņ‚Đ°ĐąĐģиŅ†Ņ‹

3.2āĨ¤ āĻāĻ•āĻŸāĻŋ āĻ§ā§āĻ°ā§āĻŦāĻ• āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ āĻ•āĻ°āĻžāĻ¨

from sklearn.impute import SimpleImputer #иĐŧĐŋĐžŅ€Ņ‚иŅ€ŅƒĐĩĐŧ SimpleImputer, ĐēĐžŅ‚ĐžŅ€Ņ‹Đš ĐŋĐžĐŧĐžĐļĐĩŅ‚ вŅŅ‚авиŅ‚ŅŒ СĐŊĐ°Ņ‡ĐĩĐŊиŅ
imputer = SimpleImputer(strategy='constant', fill_value="<ВаŅˆĐĩ СĐŊĐ°Ņ‡ĐĩĐŊиĐĩ СдĐĩŅŅŒ>") #вŅŅ‚авĐģŅĐĩĐŧ ĐžĐŋŅ€ĐĩĐ´ĐĩĐģĐĩĐŊĐŊĐžĐĩ СĐŊĐ°Ņ‡ĐĩĐŊиĐĩ Ņ ĐŋĐžĐŧĐžŅ‰ŅŒŅŽ SimpleImputer
df_numerical[["ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°1",'ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°2','ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°3']] = imputer.fit_transform(df_numerical[['ĐēĐžĐģĐžĐŊĐēĐ°1', 'ĐēĐžĐģĐžĐŊĐēĐ°2', 'ĐēĐžĐģĐžĐŊĐēĐ°3']]) #ПŅ€Đ¸ĐŧĐĩĐŊŅĐĩĐŧ ŅŅ‚Đž Đ´ĐģŅ ĐŊĐ°ŅˆĐĩĐš Ņ‚Đ°ĐąĐģиŅ†Ņ‹
df_numerical.drop(labels = ["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2","ĐēĐžĐģĐžĐŊĐēĐ°3"], axis = 1, inplace = True) #ĐŖйиŅ€Đ°ĐĩĐŧ ĐēĐžĐģĐžĐŊĐēи ŅĐž ŅŅ‚Đ°Ņ€Ņ‹Đŧи СĐŊĐ°Ņ‡ĐĩĐŊиŅĐŧи

3.3āĨ¤ āĻ—āĻĄāĻŧ āĻŦāĻž āĻ¸āĻŦāĻšā§‡āĻ¯āĻŧā§‡ āĻ˜āĻ¨ āĻ˜āĻ¨ āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ āĻ•āĻ°āĻžāĻ¨

from sklearn.impute import SimpleImputer #иĐŧĐŋĐžŅ€Ņ‚иŅ€ŅƒĐĩĐŧ SimpleImputer, ĐēĐžŅ‚ĐžŅ€Ņ‹Đš ĐŋĐžĐŧĐžĐļĐĩŅ‚ вŅŅ‚авиŅ‚ŅŒ СĐŊĐ°Ņ‡ĐĩĐŊиŅ
imputer = SimpleImputer(strategy='mean', missing_values = np.nan) #вĐŧĐĩŅŅ‚Đž mean ĐŧĐžĐļĐŊĐž Ņ‚Đ°ĐēĐļĐĩ иŅĐŋĐžĐģŅŒĐˇĐžĐ˛Đ°Ņ‚ŅŒ most_frequent
df_numerical[["ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°1",'ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°2','ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°3']] = imputer.fit_transform(df_numerical[['ĐēĐžĐģĐžĐŊĐēĐ°1', 'ĐēĐžĐģĐžĐŊĐēĐ°2', 'ĐēĐžĐģĐžĐŊĐēĐ°3']]) #ПŅ€Đ¸ĐŧĐĩĐŊŅĐĩĐŧ ŅŅ‚Đž Đ´ĐģŅ ĐŊĐ°ŅˆĐĩĐš Ņ‚Đ°ĐąĐģиŅ†Ņ‹
df_numerical.drop(labels = ["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2","ĐēĐžĐģĐžĐŊĐēĐ°3"], axis = 1, inplace = True) #ĐŖйиŅ€Đ°ĐĩĐŧ ĐēĐžĐģĐžĐŊĐēи ŅĐž ŅŅ‚Đ°Ņ€Ņ‹Đŧи СĐŊĐ°Ņ‡ĐĩĐŊиŅĐŧи

3.4āĨ¤ āĻ…āĻ¨ā§āĻ¯ āĻŽāĻĄā§‡āĻ˛ āĻĻā§āĻŦāĻžāĻ°āĻž āĻ—āĻŖāĻ¨āĻž āĻ•āĻ°āĻž āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ āĻ•āĻ°āĻžāĻ¨

āĻ•āĻ–āĻ¨āĻ“ āĻ•āĻ–āĻ¨āĻ“ āĻŽāĻžāĻ¨ āĻ¸ā§āĻ•āĻ˛āĻžāĻ° āĻ˛āĻžāĻ‡āĻŦā§āĻ°ā§‡āĻ°āĻŋ āĻŦāĻž āĻ…āĻ¨ā§āĻ¯āĻžāĻ¨ā§āĻ¯ āĻ…āĻ¨ā§āĻ°ā§‚āĻĒ āĻ˛āĻžāĻ‡āĻŦā§āĻ°ā§‡āĻ°āĻŋ āĻĨā§‡āĻ•ā§‡ āĻŽāĻĄā§‡āĻ˛ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°ā§‡ āĻ°āĻŋāĻ—ā§āĻ°ā§‡āĻļāĻ¨ āĻŽāĻĄā§‡āĻ˛ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°ā§‡ āĻ—āĻŖāĻ¨āĻž āĻ•āĻ°āĻž āĻ¯ā§‡āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĨ¤ āĻ…āĻĻā§‚āĻ° āĻ­āĻŦāĻŋāĻˇā§āĻ¯āĻ¤ā§‡ āĻāĻŸāĻŋ āĻ•ā§€āĻ­āĻžāĻŦā§‡ āĻ•āĻ°āĻž āĻ¯ā§‡āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡ āĻ¸ā§‡ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•ā§‡ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻĻāĻ˛ āĻāĻ•āĻŸāĻŋ āĻĒā§ƒāĻĨāĻ• āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ āĻ‰āĻ¤ā§āĻ¸āĻ°ā§āĻ— āĻ•āĻ°āĻŦā§‡āĨ¤

āĻ¸ā§āĻ¤āĻ°āĻžāĻ‚, āĻ†āĻĒāĻžāĻ¤āĻ¤, āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•ā§‡ āĻ†āĻ–ā§āĻ¯āĻžāĻ¨āĻŸāĻŋ āĻŦāĻžāĻ§āĻžāĻ—ā§āĻ°āĻ¸ā§āĻ¤ āĻšāĻŦā§‡, āĻ•āĻžāĻ°āĻŖ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āĻ¨ āĻ•āĻžāĻœā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤āĻŋ āĻāĻŦāĻ‚ āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚ āĻ•ā§€āĻ­āĻžāĻŦā§‡ āĻ†āĻ°āĻ“ āĻ­āĻžāĻ˛āĻ­āĻžāĻŦā§‡ āĻ•āĻ°āĻž āĻ¯āĻžāĻ¯āĻŧ āĻ¸ā§‡ āĻ¸āĻŽā§āĻĒāĻ°ā§āĻ•ā§‡ āĻ†āĻ°āĻ“ āĻ…āĻ¨ā§‡āĻ• āĻ¸ā§‚āĻ•ā§āĻˇā§āĻŽāĻ¤āĻž āĻ°āĻ¯āĻŧā§‡āĻ›ā§‡ āĻāĻŦāĻ‚ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻĒā§āĻ°āĻžāĻĨāĻŽāĻŋāĻ• āĻŦāĻŋāĻˇāĻ¯āĻŧāĻ—ā§āĻ˛āĻŋ āĻāĻ‡ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ā§‡ āĻŦāĻŋāĻŦā§‡āĻšāĻ¨āĻž āĻ•āĻ°āĻž āĻšāĻ¯āĻŧā§‡āĻ›ā§‡, āĻāĻŦāĻ‚ āĻāĻ–āĻ¨ āĻ¸āĻŽāĻ¯āĻŧ āĻāĻ¸ā§‡āĻ›ā§‡ āĻ—ā§āĻŖāĻ—āĻ¤ āĻ¤āĻĨā§āĻ¯ā§‡ āĻĢāĻŋāĻ°ā§‡ āĻ¯āĻžāĻŦāĻžāĻ°āĨ¤ āĻ†āĻĒāĻ¨āĻŋ āĻāĻ‡ āĻ¨ā§‹āĻŸāĻŦā§āĻ•āĻŸāĻŋ āĻ†āĻĒāĻ¨āĻžāĻ° āĻ‡āĻšā§āĻ›āĻžāĻŽāĻ¤ā§‹ āĻĒāĻ°āĻŋāĻŦāĻ°ā§āĻ¤āĻ¨ āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĻ¨, āĻāĻŸāĻŋāĻ•ā§‡ āĻŦāĻŋāĻ­āĻŋāĻ¨ā§āĻ¨ āĻ•āĻžāĻœā§‡āĻ° āĻ¸āĻžāĻĨā§‡ āĻ–āĻžāĻĒ āĻ–āĻžāĻ‡āĻ¯āĻŧā§‡ āĻ¨āĻŋāĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡āĻ¨, āĻ¯āĻžāĻ¤ā§‡ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚ āĻ–ā§āĻŦ āĻĻā§āĻ°ā§āĻ¤ āĻšāĻ¯āĻŧ!

āĻ—ā§āĻŖāĻ—āĻ¤ āĻ¤āĻĨā§āĻ¯

āĻŽā§‚āĻ˛āĻ¤, āĻ—ā§āĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ° āĻœāĻ¨ā§āĻ¯, āĻ“āĻ¯āĻŧāĻžāĻ¨-āĻšāĻŸ-āĻāĻ¨āĻ•ā§‹āĻĄāĻŋāĻ‚ āĻĒāĻĻā§āĻ§āĻ¤āĻŋāĻŸāĻŋ āĻāĻ•āĻŸāĻŋ āĻ¸ā§āĻŸā§āĻ°āĻŋāĻ‚ (āĻŦāĻž āĻŦāĻ¸ā§āĻ¤ā§) āĻĨā§‡āĻ•ā§‡ āĻāĻ•āĻŸāĻŋ āĻ¸āĻ‚āĻ–ā§āĻ¯āĻžāĻ¯āĻŧ āĻĢāĻ°ā§āĻŽā§āĻ¯āĻžāĻŸ āĻ•āĻ°āĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻž āĻšāĻ¯āĻŧāĨ¤ āĻāĻ‡ āĻŦāĻŋāĻ¨ā§āĻĻā§āĻ¤ā§‡ āĻ¯āĻžāĻ“āĻ¯āĻŧāĻžāĻ° āĻ†āĻ—ā§‡, āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ āĻŽā§‹āĻ•āĻžāĻŦā§‡āĻ˛āĻž āĻ•āĻ°āĻ¤ā§‡ āĻ‰āĻĒāĻ°ā§‡āĻ° āĻšāĻŋāĻ¤ā§āĻ° āĻāĻŦāĻ‚ āĻ•ā§‹āĻĄāĻŸāĻŋ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻž āĻ¯āĻžāĻ•āĨ¤

df_categorical.nunique()

sns.heatmap(df_categorical.isnull(),yticklabels=False,cbar=False,cmap='viridis')

āĻĻā§āĻ°ā§āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻŋāĻĒā§āĻ°āĻ¸ā§‡āĻ¸āĻŋāĻ‚āĻ¯āĻŧā§‡āĻ° āĻœāĻ¨ā§āĻ¯ āĻ¨ā§‹āĻŸāĻĒā§āĻ¯āĻžāĻĄ-āĻšāĻŋāĻŸ āĻļā§€āĻŸ

0. āĻ…āĻĒā§āĻ°āĻ¯āĻŧā§‹āĻœāĻ¨ā§€āĻ¯āĻŧ āĻ•āĻ˛āĻžāĻŽ āĻ¸āĻ°āĻžāĻ¨

df_categorical.drop(labels=["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2"], axis=1, inplace=True)

1. āĻāĻ‡ āĻ•āĻ˛āĻžāĻŽā§‡ āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ā§‡āĻ° āĻ¸āĻ‚āĻ–ā§āĻ¯āĻž āĻ•āĻŋ 50% āĻāĻ° āĻŦā§‡āĻļāĻŋ?

print(df_categorical.isnull().sum() / df_numerical.shape[0] * 100)

df_categorical.drop(labels=["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2"], axis=1, inplace=True) #ĐŖĐ´Đ°ĐģŅĐĩĐŧ, ĐĩŅĐģи ĐēĐ°ĐēĐ°Ņ-Ņ‚Đž ĐēĐžĐģĐžĐŊĐēĐ° 
                                                                          #иĐŧĐĩĐĩŅ‚ йОĐģŅŒŅˆĐĩ 50% ĐŋŅƒŅŅ‚Ņ‹Ņ… СĐŊĐ°Ņ‡ĐĩĐŊиК

2. āĻ–āĻžāĻ˛āĻŋ āĻŽāĻžāĻ¨ āĻ¸āĻš āĻ˛āĻžāĻ‡āĻ¨ āĻŽā§āĻ›ā§āĻ¨

df_categorical.dropna(inplace=True)#ĐŖĐ´Đ°ĐģŅĐĩĐŧ ŅŅ‚Ņ€ĐžŅ‡Đēи Ņ ĐŋŅƒŅŅ‚Ņ‹Đŧи СĐŊĐ°Ņ‡ĐĩĐŊиŅĐŧи, 
                                   #ĐĩŅĐģи ĐŋĐžŅ‚ĐžĐŧ ĐžŅŅ‚Đ°ĐŊĐĩŅ‚ŅŅ Đ´ĐžŅŅ‚Đ°Ņ‚ĐžŅ‡ĐŊĐž Đ´Đ°ĐŊĐŊŅ‹Ņ… Đ´ĐģŅ ОйŅƒŅ‡ĐĩĐŊиŅ

3.1āĨ¤ āĻāĻ•āĻŸāĻŋ āĻ°ā§āĻ¯āĻžāĻ¨ā§āĻĄāĻŽ āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ

import random
df_categorical["ĐēĐžĐģĐžĐŊĐēĐ°"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ĐēĐžĐģĐžĐŊĐēĐ°"]), inplace=True)

3.2āĨ¤ āĻāĻ•āĻŸāĻŋ āĻ§ā§āĻ°ā§āĻŦāĻ• āĻŽāĻžāĻ¨ āĻ¸āĻ¨ā§āĻ¨āĻŋāĻŦā§‡āĻļ āĻ•āĻ°āĻžāĻ¨

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='constant', fill_value="<ВаŅˆĐĩ СĐŊĐ°Ņ‡ĐĩĐŊиĐĩ СдĐĩŅŅŒ>")
df_categorical[["ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°1",'ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°2','ĐŊОваŅ_ĐēĐžĐģĐžĐŊĐēĐ°3']] = imputer.fit_transform(df_categorical[['ĐēĐžĐģĐžĐŊĐēĐ°1', 'ĐēĐžĐģĐžĐŊĐēĐ°2', 'ĐēĐžĐģĐžĐŊĐēĐ°3']])
df_categorical.drop(labels = ["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2","ĐēĐžĐģĐžĐŊĐēĐ°3"], axis = 1, inplace = True)

āĻ¸ā§āĻ¤āĻ°āĻžāĻ‚, āĻ†āĻŽāĻ°āĻž āĻ…āĻŦāĻļā§‡āĻˇā§‡ āĻ—ā§āĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻžāĻ¤ā§‡ āĻ¨āĻžāĻ˛āĻ—ā§āĻ˛āĻŋāĻ° āĻāĻ•āĻŸāĻŋ āĻšā§āĻ¯āĻžāĻ¨ā§āĻĄā§‡āĻ˛ āĻĒā§‡āĻ¯āĻŧā§‡āĻ›āĻŋāĨ¤ āĻāĻ–āĻ¨ āĻ†āĻĒāĻ¨āĻžāĻ° āĻĄāĻžāĻŸāĻžāĻŦā§‡āĻ¸ā§‡ āĻĨāĻžāĻ•āĻž āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋāĻ¤ā§‡ āĻāĻ•-āĻšāĻŸ-āĻāĻ¨āĻ•ā§‹āĻĄāĻŋāĻ‚ āĻ•āĻ°āĻžāĻ° āĻ¸āĻŽāĻ¯āĻŧāĨ¤ āĻ†āĻĒāĻ¨āĻžāĻ° āĻ…ā§āĻ¯āĻžāĻ˛āĻ—āĻ°āĻŋāĻĻāĻŽ āĻ‰āĻšā§āĻš-āĻŽāĻžāĻ¨ā§‡āĻ° āĻĄā§‡āĻŸāĻž āĻĨā§‡āĻ•ā§‡ āĻļāĻŋāĻ–āĻ¤ā§‡ āĻĒāĻžāĻ°ā§‡ āĻ¤āĻž āĻ¨āĻŋāĻļā§āĻšāĻŋāĻ¤ āĻ•āĻ°āĻ¤ā§‡ āĻāĻ‡ āĻĒāĻĻā§āĻ§āĻ¤āĻŋāĻŸāĻŋ āĻĒā§āĻ°āĻžāĻ¯āĻŧāĻļāĻ‡ āĻŦā§āĻ¯āĻŦāĻšā§ƒāĻ¤ āĻšāĻ¯āĻŧāĨ¤

def encode_and_bind(original_dataframe, feature_to_encode):
    dummies = pd.get_dummies(original_dataframe[[feature_to_encode]])
    res = pd.concat([original_dataframe, dummies], axis=1)
    res = res.drop([feature_to_encode], axis=1)
    return(res)

features_to_encode = ["ĐēĐžĐģĐžĐŊĐēĐ°1","ĐēĐžĐģĐžĐŊĐēĐ°2","ĐēĐžĐģĐžĐŊĐēĐ°3"]
for feature in features_to_encode:
    df_categorical = encode_and_bind(df_categorical, feature))

āĻ¸ā§āĻ¤āĻ°āĻžāĻ‚, āĻ†āĻŽāĻ°āĻž āĻ…āĻŦāĻļā§‡āĻˇā§‡ āĻĒā§ƒāĻĨāĻ• āĻ—ā§āĻŖāĻ—āĻ¤ āĻāĻŦāĻ‚ āĻĒāĻ°āĻŋāĻŽāĻžāĻŖāĻ—āĻ¤ āĻĄā§‡āĻŸāĻž āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻžāĻ•āĻ°āĻŖ āĻļā§‡āĻˇ āĻ•āĻ°ā§‡āĻ›āĻŋ - āĻ¤āĻžāĻĻā§‡āĻ° āĻ†āĻŦāĻžāĻ° āĻāĻ•āĻ¤ā§āĻ°āĻŋāĻ¤ āĻ•āĻ°āĻžāĻ° āĻ¸āĻŽāĻ¯āĻŧ

new_df = pd.concat([df_numerical,df_categorical], axis=1)

āĻ†āĻŽāĻ°āĻž āĻĄā§‡āĻŸāĻžāĻ¸ā§‡āĻŸāĻ—ā§āĻ˛āĻŋāĻ•ā§‡ āĻāĻ•āĻ¤ā§āĻ°ā§‡ āĻāĻ•āĻ¤ā§āĻ°āĻŋāĻ¤ āĻ•āĻ°āĻžāĻ° āĻĒāĻ°ā§‡, āĻ†āĻŽāĻ°āĻž āĻ…āĻŦāĻļā§‡āĻˇā§‡ sklearn āĻ˛āĻžāĻ‡āĻŦā§āĻ°ā§‡āĻ°āĻŋ āĻĨā§‡āĻ•ā§‡ MinMaxScaler āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°ā§‡ āĻĄā§‡āĻŸāĻž āĻŸā§āĻ°āĻžāĻ¨ā§āĻ¸āĻĢāĻ°ā§āĻŽā§‡āĻļāĻ¨ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻ¤ā§‡ āĻĒāĻžāĻ°āĻŋāĨ¤ āĻāĻŸāĻŋ āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻŽāĻžāĻ¨āĻ—ā§āĻ˛āĻŋ 0 āĻāĻŦāĻ‚ 1 āĻāĻ° āĻŽāĻ§ā§āĻ¯ā§‡ āĻ¤ā§ˆāĻ°āĻŋ āĻ•āĻ°āĻŦā§‡, āĻ¯āĻž āĻ­āĻŦāĻŋāĻˇā§āĻ¯āĻ¤ā§‡ āĻŽāĻĄā§‡āĻ˛āĻ•ā§‡ āĻĒā§āĻ°āĻļāĻŋāĻ•ā§āĻˇāĻŖ āĻĻā§‡āĻ“āĻ¯āĻŧāĻžāĻ° āĻ¸āĻŽāĻ¯āĻŧ āĻ¸āĻžāĻšāĻžāĻ¯ā§āĻ¯ āĻ•āĻ°āĻŦā§‡āĨ¤

from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
new_df = min_max_scaler.fit_transform(new_df)

āĻāĻ‡ āĻĄā§‡āĻŸāĻž āĻāĻ–āĻ¨ āĻ¯ā§‡āĻ•ā§‹āĻ¨ā§‹ āĻ•āĻŋāĻ›ā§āĻ° āĻœāĻ¨ā§āĻ¯ āĻĒā§āĻ°āĻ¸ā§āĻ¤ā§āĻ¤ - āĻ¨āĻŋāĻ‰āĻ°āĻžāĻ˛ āĻ¨ā§‡āĻŸāĻ“āĻ¯āĻŧāĻžāĻ°ā§āĻ•, āĻ¸ā§āĻŸā§āĻ¯āĻžāĻ¨ā§āĻĄāĻžāĻ°ā§āĻĄ āĻāĻŽāĻāĻ˛ āĻ…ā§āĻ¯āĻžāĻ˛āĻ—āĻ°āĻŋāĻĻāĻŽ āĻ‡āĻ¤ā§āĻ¯āĻžāĻĻāĻŋ!

āĻāĻ‡ āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ā§‡, āĻ†āĻŽāĻ°āĻž āĻŸāĻžāĻ‡āĻŽ āĻ¸āĻŋāĻ°āĻŋāĻœ āĻĄā§‡āĻŸāĻž āĻ¨āĻŋāĻ¯āĻŧā§‡ āĻ•āĻžāĻœ āĻ•āĻ°āĻžāĻ° āĻ•āĻĨāĻž āĻŦāĻŋāĻŦā§‡āĻšāĻ¨āĻž āĻ•āĻ°āĻŋāĻ¨āĻŋ, āĻ¯ā§‡āĻšā§‡āĻ¤ā§ āĻāĻ‡ āĻ§āĻ°āĻ¨ā§‡āĻ° āĻĄā§‡āĻŸāĻžāĻ° āĻœāĻ¨ā§āĻ¯ āĻ†āĻĒāĻ¨āĻžāĻ° āĻ•āĻžāĻœā§‡āĻ° āĻ‰āĻĒāĻ° āĻ¨āĻŋāĻ°ā§āĻ­āĻ° āĻ•āĻ°ā§‡ āĻ•āĻŋāĻ›ā§āĻŸāĻž āĻ­āĻŋāĻ¨ā§āĻ¨ āĻĒā§āĻ°āĻ•ā§āĻ°āĻŋāĻ¯āĻŧāĻžāĻ•āĻ°āĻŖ āĻ•ā§ŒāĻļāĻ˛ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻ•āĻ°āĻž āĻ‰āĻšāĻŋāĻ¤āĨ¤ āĻ­āĻŦāĻŋāĻˇā§āĻ¯āĻ¤ā§‡, āĻ†āĻŽāĻžāĻĻā§‡āĻ° āĻĻāĻ˛ āĻāĻ‡ āĻŦāĻŋāĻˇāĻ¯āĻŧā§‡ āĻāĻ•āĻŸāĻŋ āĻĒā§ƒāĻĨāĻ• āĻ¨āĻŋāĻŦāĻ¨ā§āĻ§ āĻ‰āĻ¤ā§āĻ¸āĻ°ā§āĻ— āĻ•āĻ°āĻŦā§‡, āĻāĻŦāĻ‚ āĻ†āĻŽāĻ°āĻž āĻ†āĻļāĻž āĻ•āĻ°āĻŋ āĻ¯ā§‡ āĻāĻŸāĻŋ āĻ†āĻĒāĻ¨āĻžāĻ° āĻœā§€āĻŦāĻ¨ā§‡ āĻ†āĻ•āĻ°ā§āĻˇāĻŖā§€āĻ¯āĻŧ, āĻ¨āĻ¤ā§āĻ¨ āĻāĻŦāĻ‚ āĻĻāĻ°āĻ•āĻžāĻ°ā§€ āĻ•āĻŋāĻ›ā§ āĻ†āĻ¨āĻ¤ā§‡ āĻ¸āĻ•ā§āĻˇāĻŽ āĻšāĻŦā§‡, āĻ āĻŋāĻ• āĻāĻŸāĻŋāĻ° āĻŽāĻ¤ā§‹āĨ¤

āĻ‰āĻ¤ā§āĻ¸: www.habr.com

āĻāĻ•āĻŸāĻŋ āĻŽāĻ¨ā§āĻ¤āĻŦā§āĻ¯ āĻœā§āĻĄāĻŧā§āĻ¨