Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

แƒฎแƒจแƒ˜แƒ แƒแƒ“ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒ˜แƒก แƒกแƒคแƒ”แƒ แƒแƒจแƒ˜ แƒจแƒ”แƒกแƒฃแƒš แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ”แƒ‘แƒก แƒแƒฅแƒ•แƒ— แƒœแƒแƒ™แƒšแƒ”แƒ‘แƒ˜ แƒ แƒ”แƒแƒšแƒฃแƒ แƒ˜ แƒ›แƒแƒšแƒแƒ“แƒ˜แƒœแƒ˜ แƒ˜แƒ›แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘, แƒ—แƒฃ แƒ แƒ แƒ”แƒšแƒ˜แƒก แƒ›แƒแƒ—. แƒ‘แƒ”แƒ•แƒ แƒ˜ แƒคแƒ˜แƒฅแƒ แƒแƒ‘แƒก, แƒ แƒแƒ› แƒแƒฎแƒšแƒ แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒ“แƒแƒฌแƒ”แƒ แƒ”แƒœ แƒ›แƒแƒ’แƒแƒ  แƒœแƒ”แƒ แƒ•แƒฃแƒš แƒฅแƒกแƒ”แƒšแƒ”แƒ‘แƒก, แƒจแƒ”แƒฅแƒ›แƒœแƒ˜แƒแƒœ แƒฎแƒ›แƒแƒ•แƒแƒœ แƒแƒกแƒ˜แƒกแƒขแƒ”แƒœแƒขแƒก แƒ แƒ™แƒ˜แƒœแƒ˜แƒก แƒ™แƒแƒชแƒ˜แƒกแƒ’แƒแƒœ, แƒแƒœ แƒ“แƒแƒแƒ›แƒแƒ แƒชแƒฎแƒ”แƒ‘แƒ”แƒœ แƒงแƒ•แƒ”แƒšแƒแƒก แƒคแƒ˜แƒœแƒแƒœแƒกแƒฃแƒ  แƒ‘แƒแƒ–แƒ แƒ”แƒ‘แƒ–แƒ”.
แƒ›แƒแƒ’แƒ แƒแƒ› แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ แƒ—แƒแƒ แƒ˜แƒฆแƒ˜ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ˜ แƒฎแƒ”แƒšแƒ›แƒซแƒฆแƒ•แƒแƒœแƒ”แƒšแƒแƒ‘แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก แƒ“แƒ แƒ”แƒ แƒ—-แƒ”แƒ แƒ—แƒ˜ แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ•แƒแƒœแƒ˜ แƒ“แƒ แƒจแƒ แƒแƒ›แƒแƒขแƒ”แƒ•แƒแƒ“แƒ˜ แƒแƒกแƒžแƒ”แƒฅแƒขแƒ˜แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ แƒœแƒ”แƒ แƒ•แƒฃแƒš แƒฅแƒกแƒ”แƒšแƒจแƒ˜ แƒจแƒ”แƒงแƒ•แƒแƒœแƒแƒ›แƒ“แƒ” แƒแƒœ แƒ’แƒแƒ แƒ™แƒ•แƒ”แƒฃแƒšแƒ˜ แƒ’แƒ–แƒ˜แƒ— แƒ’แƒแƒแƒœแƒแƒšแƒ˜แƒ–แƒ”แƒ‘แƒแƒ›แƒ“แƒ”.

แƒแƒ› แƒกแƒขแƒแƒขแƒ˜แƒแƒจแƒ˜ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ’แƒฃแƒœแƒ“แƒ˜ แƒแƒฆแƒฌแƒ”แƒ แƒก, แƒ—แƒฃ แƒ แƒแƒ’แƒแƒ  แƒจแƒ”แƒ’แƒ˜แƒซแƒšแƒ˜แƒแƒ— แƒกแƒฌแƒ แƒแƒคแƒแƒ“ แƒ“แƒ แƒ›แƒแƒ แƒขแƒ˜แƒ•แƒแƒ“ แƒ“แƒแƒแƒ›แƒฃแƒจแƒแƒ•แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏ-แƒœแƒแƒ‘แƒ˜แƒฏ แƒ˜แƒœแƒกแƒขแƒ แƒฃแƒฅแƒชแƒ˜แƒ”แƒ‘แƒ˜แƒ—แƒ แƒ“แƒ แƒ™แƒแƒ“แƒ˜แƒ—. แƒฉแƒ•แƒ”แƒœ แƒจแƒ”แƒ•แƒ”แƒชแƒแƒ“แƒ”แƒ— แƒ’แƒแƒ’แƒ•แƒ”แƒ™แƒ”แƒ—แƒ”แƒ‘แƒ˜แƒœแƒ แƒ™แƒแƒ“แƒ˜ แƒกแƒแƒ™แƒ›แƒแƒแƒ“ แƒ›แƒแƒฅแƒœแƒ˜แƒšแƒ˜ แƒ“แƒ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ’แƒแƒ›แƒแƒ’แƒ•แƒ”แƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒœแƒ แƒกแƒฎแƒ•แƒแƒ“แƒแƒกแƒฎแƒ•แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก.

แƒ‘แƒ”แƒ•แƒ แƒ›แƒ แƒžแƒ แƒแƒคแƒ”แƒกแƒ˜แƒแƒœแƒแƒšแƒ›แƒ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ•แƒ”แƒ  แƒ˜แƒžแƒแƒ•แƒœแƒแƒก แƒ แƒแƒ˜แƒ›แƒ” แƒ’แƒแƒœแƒกแƒแƒ™แƒฃแƒ—แƒ แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒแƒ› แƒกแƒขแƒแƒขแƒ˜แƒแƒจแƒ˜, แƒ›แƒแƒ’แƒ แƒแƒ› แƒ“แƒแƒ›แƒฌแƒงแƒ”แƒ‘แƒ—แƒแƒ—แƒ•แƒ˜แƒก แƒจแƒ”แƒ”แƒซแƒšแƒ”แƒ‘แƒแƒ— แƒ˜แƒกแƒฌแƒแƒ•แƒšแƒแƒœ แƒ แƒแƒ˜แƒ›แƒ” แƒแƒฎแƒแƒšแƒ˜ แƒ“แƒ แƒงแƒ•แƒ”แƒšแƒแƒก, แƒ•แƒ˜แƒœแƒช แƒ“แƒ˜แƒ“แƒ˜ แƒฎแƒแƒœแƒ˜แƒ แƒแƒชแƒœแƒ”แƒ‘แƒแƒ‘แƒก แƒชแƒแƒšแƒ™แƒ”แƒฃแƒšแƒ˜ แƒœแƒแƒฃแƒ—แƒ‘แƒฃแƒฅแƒ˜แƒก แƒจแƒ”แƒฅแƒ›แƒœแƒแƒ–แƒ” แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒ“แƒ แƒกแƒขแƒ แƒฃแƒฅแƒขแƒฃแƒ แƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒจแƒ”แƒฃแƒซแƒšแƒ˜แƒ แƒ“แƒแƒแƒ™แƒแƒžแƒ˜แƒ แƒแƒก แƒ™แƒแƒ“แƒ˜ แƒ“แƒ แƒ“แƒแƒแƒคแƒแƒ แƒ›แƒแƒก แƒ˜แƒ’แƒ˜ แƒ—แƒแƒ•แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒแƒœ แƒฉแƒแƒ›แƒแƒขแƒ•แƒ˜แƒ แƒ—แƒ”แƒ— แƒ›แƒ–แƒ แƒœแƒแƒฃแƒ—แƒ‘แƒฃแƒฅแƒ˜ Github-แƒ“แƒแƒœ.

แƒฉแƒ•แƒ”แƒœ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒ”แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ‘แƒแƒ–แƒ. แƒ แƒ แƒฃแƒœแƒ“แƒ แƒ’แƒแƒแƒ™แƒ”แƒ—แƒแƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’?

แƒแƒกแƒ” แƒ แƒแƒ›, แƒกแƒขแƒแƒœแƒ“แƒแƒ แƒขแƒ˜: แƒฃแƒœแƒ“แƒ แƒ’แƒ•แƒ”แƒกแƒ›แƒแƒ“แƒ”แƒก, แƒ แƒแƒกแƒ—แƒแƒœ แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒกแƒแƒฅแƒ›แƒ”, แƒกแƒแƒ”แƒ แƒ—แƒ แƒกแƒฃแƒ แƒแƒ—แƒ˜. แƒแƒ›แƒ˜แƒกแƒแƒ—แƒ•แƒ˜แƒก แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ— แƒžแƒแƒœแƒ“แƒ”แƒ‘แƒก, แƒ แƒแƒ—แƒ แƒฃแƒ‘แƒ แƒแƒšแƒแƒ“ แƒ’แƒแƒœแƒ•แƒกแƒแƒ–แƒฆแƒ•แƒ แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฎแƒ•แƒแƒ“แƒแƒกแƒฎแƒ•แƒ แƒขแƒ˜แƒžแƒ”แƒ‘แƒ˜.

import pandas as pd #ะธะผะฟะพั€ั‚ะธั€ัƒะตะผ pandas
import numpy as np  #ะธะผะฟะพั€ั‚ะธั€ัƒะตะผ numpy
df = pd.read_csv("AB_NYC_2019.csv") #ั‡ะธั‚ะฐะตะผ ะดะฐั‚ะฐัะตั‚ ะธ ะทะฐะฟะธัั‹ะฒะฐะตะผ ะฒ ะฟะตั€ะตะผะตะฝะฝัƒัŽ df

df.head(3) #ัะผะพั‚ั€ะธะผ ะฝะฐ ะฟะตั€ะฒั‹ะต 3 ัั‚ั€ะพั‡ะบะธ, ั‡ั‚ะพะฑั‹ ะฟะพะฝัั‚ัŒ, ะบะฐะบ ะฒั‹ะณะปัะดัั‚ ะทะฝะฐั‡ะตะฝะธั

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

df.info() #ะ”ะตะผะพะฝัั‚ั€ะธั€ัƒะตะผ ะธะฝั„ะพั€ะผะฐั†ะธัŽ ะพ ะบะพะปะพะฝะบะฐั…

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

แƒ›แƒแƒ“แƒ˜แƒ— แƒจแƒ”แƒ•แƒฎแƒ”แƒ“แƒแƒ— แƒกแƒ•แƒ”แƒขแƒ˜แƒก แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒก:

  1. แƒจแƒ”แƒ”แƒกแƒแƒ‘แƒแƒ›แƒ”แƒ‘แƒ แƒ—แƒฃ แƒแƒ แƒ แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒš แƒกแƒ•แƒ”แƒขแƒจแƒ˜ แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜แƒก แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜แƒก แƒ›แƒ—แƒšแƒ˜แƒแƒœ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒแƒก?
  2. แƒ แƒ แƒแƒ แƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒแƒ แƒกแƒ˜ แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒš แƒกแƒ•แƒ”แƒขแƒจแƒ˜?
  3. แƒ แƒแƒ›แƒ”แƒšแƒ˜ แƒกแƒ•แƒ”แƒขแƒ˜ แƒ’แƒ•แƒ˜แƒœแƒ“แƒ แƒ›แƒ˜แƒ•แƒ›แƒแƒ แƒ—แƒแƒ—, แƒ แƒแƒ› แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ”แƒ‘แƒ˜ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ—?

แƒแƒ› แƒ™แƒ˜แƒ—แƒฎแƒ•แƒ”แƒ‘แƒ–แƒ” แƒžแƒแƒกแƒฃแƒฎแƒ”แƒ‘แƒ˜ แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก แƒ›แƒแƒ’แƒชแƒ”แƒ›แƒ— แƒ’แƒแƒแƒœแƒแƒšแƒ˜แƒ–แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜ แƒ“แƒ แƒฃแƒฎแƒ”แƒจแƒแƒ“ แƒ“แƒแƒฎแƒแƒ–แƒแƒ— แƒ’แƒ”แƒ’แƒ›แƒ แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒจแƒ”แƒ›แƒ“แƒ”แƒ’แƒ˜ แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก.

แƒแƒกแƒ”แƒ•แƒ”, แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒกแƒ•แƒ”แƒขแƒ˜แƒก แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒก แƒฃแƒคแƒ แƒ แƒฆแƒ แƒ›แƒแƒ“ แƒกแƒแƒœแƒแƒฎแƒแƒ•แƒแƒ“, แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒแƒ— pandas describe() แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒ. แƒ—แƒฃแƒ›แƒชแƒ, แƒแƒ› แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒ˜แƒก แƒ›แƒ˜แƒœแƒฃแƒกแƒ˜ แƒแƒ แƒ˜แƒก แƒ˜แƒก, แƒ แƒแƒ› แƒ˜แƒก แƒแƒ  แƒ˜แƒซแƒšแƒ”แƒ•แƒ แƒ˜แƒœแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒแƒก แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒ”แƒ‘แƒ˜แƒก แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒก แƒ›แƒฅแƒแƒœแƒ” แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘. แƒฉแƒ•แƒ”แƒœ แƒ›แƒแƒ— แƒ›แƒแƒ’แƒ•แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒ— แƒจแƒ”แƒ•แƒ”แƒฎแƒ”แƒ‘แƒ˜แƒ—.

df.describe()

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

แƒฏแƒแƒ“แƒแƒกแƒœแƒฃแƒ แƒ˜ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ

แƒ›แƒแƒ“แƒ˜แƒ— แƒจแƒ”แƒ•แƒฎแƒ”แƒ“แƒแƒ— แƒกแƒแƒ“ แƒแƒ  แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒฆแƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ”แƒ‘แƒ”แƒ‘แƒ˜:

import seaborn as sns
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

แƒ”แƒก แƒ˜แƒงแƒ แƒ–แƒ”แƒ›แƒแƒ“แƒแƒœ แƒ›แƒแƒ™แƒšแƒ” แƒ’แƒแƒ›แƒแƒฎแƒ”แƒ“แƒ•แƒ, แƒแƒฎแƒšแƒ แƒฃแƒคแƒ แƒ แƒกแƒแƒ˜แƒœแƒขแƒ”แƒ แƒ”แƒกแƒแƒ–แƒ” แƒ’แƒแƒ“แƒแƒ•แƒแƒšแƒ—

แƒจแƒ”แƒ•แƒ”แƒชแƒแƒ“แƒแƒ— แƒ•แƒ˜แƒžแƒแƒ•แƒแƒ— แƒ“แƒ, แƒ—แƒฃ แƒ”แƒก แƒจแƒ”แƒกแƒแƒซแƒšแƒ”แƒ‘แƒ”แƒšแƒ˜แƒ, แƒฌแƒแƒ•แƒจแƒแƒšแƒแƒ— แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒกแƒแƒช แƒแƒฅแƒ•แƒ— แƒ›แƒฎแƒแƒšแƒแƒ“ แƒ”แƒ แƒ—แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ แƒงแƒ•แƒ”แƒšแƒ แƒ›แƒฌแƒ™แƒ แƒ˜แƒ•แƒจแƒ˜ (แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒแƒ แƒแƒœแƒแƒ˜แƒ แƒแƒ“ แƒแƒ  แƒ˜แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒ”แƒœ แƒจแƒ”แƒ“แƒ”แƒ’แƒ–แƒ”):

df = df[[c for c
        in list(df)
        if len(df[c].unique()) > 1]] #ะŸะตั€ะตะทะฐะฟะธัั‹ะฒะฐะตะผ ะดะฐั‚ะฐัะตั‚, ะพัั‚ะฐะฒะปัั ั‚ะพะปัŒะบะพ ั‚ะต ะบะพะปะพะฝะบะธ, ะฒ ะบะพั‚ะพั€ั‹ั… ะฑะพะปัŒัˆะต ะพะดะฝะพะณะพ ัƒะฝะธะบะฐะปัŒะฝะพะณะพ ะทะฝะฐั‡ะตะฝะธั

แƒแƒฎแƒšแƒ แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒชแƒแƒ•แƒ— แƒกแƒแƒ™แƒฃแƒ—แƒแƒ  แƒ—แƒแƒ•แƒก แƒ“แƒ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒžแƒ แƒแƒ”แƒฅแƒขแƒ˜แƒก แƒฌแƒแƒ แƒ›แƒแƒขแƒ”แƒ‘แƒแƒก แƒ“แƒฃแƒ‘แƒšแƒ˜แƒ™แƒแƒขแƒ˜ แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜แƒกแƒ’แƒแƒœ (แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก แƒ˜แƒ›แƒแƒ•แƒ” แƒ˜แƒœแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒแƒก แƒ˜แƒ›แƒแƒ•แƒ” แƒ—แƒแƒœแƒ›แƒ˜แƒ›แƒ“แƒ”แƒ•แƒ แƒแƒ‘แƒ˜แƒ—, แƒ แƒแƒ’แƒแƒ แƒช แƒ”แƒ แƒ—-แƒ”แƒ แƒ—แƒ˜ แƒแƒ แƒกแƒ”แƒ‘แƒฃแƒšแƒ˜ แƒฎแƒแƒ–แƒ˜):

df.drop_duplicates(inplace=True) #ะ”ะตะปะฐะตะผ ัั‚ะพ, ะตัะปะธ ัั‡ะธั‚ะฐะตะผ ะฝัƒะถะฝั‹ะผ.
                                 #ะ’ ะฝะตะบะพั‚ะพั€ั‹ั… ะฟั€ะพะตะบั‚ะฐั… ัƒะดะฐะปัั‚ัŒ ั‚ะฐะบะธะต ะดะฐะฝะฝั‹ะต ั ัะฐะผะพะณะพ ะฝะฐั‡ะฐะปะฐ ะฝะต ัั‚ะพะธั‚.

แƒฉแƒ•แƒ”แƒœ แƒ•แƒงแƒแƒคแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒก แƒแƒ แƒแƒ“: แƒ”แƒ แƒ—แƒ˜ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—, แƒ›แƒ”แƒแƒ แƒ” แƒ™แƒ˜ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—.

แƒแƒฅ แƒ›แƒชแƒ˜แƒ แƒ” แƒ’แƒแƒœแƒ›แƒแƒ แƒขแƒ”แƒ‘แƒ แƒ’แƒ•แƒญแƒ˜แƒ แƒ“แƒ”แƒ‘แƒ: แƒ—แƒฃ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ• แƒ“แƒ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ• แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒจแƒ˜ แƒ“แƒแƒ™แƒแƒ แƒ’แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ›แƒฅแƒแƒœแƒ” แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜ แƒแƒ  แƒแƒ แƒ˜แƒก แƒ”แƒ แƒ—แƒ›แƒแƒœแƒ”แƒ—แƒ—แƒแƒœ แƒซแƒแƒšแƒ˜แƒแƒœ แƒ™แƒแƒ แƒ”แƒšแƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ˜, แƒ›แƒแƒจแƒ˜แƒœ แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ“แƒแƒ•แƒฌแƒงแƒ•แƒ˜แƒขแƒแƒ— แƒ แƒแƒก แƒจแƒ”แƒ•แƒฌแƒ˜แƒ แƒแƒ•แƒ— - แƒงแƒ•แƒ”แƒšแƒ แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒ˜ แƒ“แƒแƒ™แƒแƒ แƒ’แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ—, แƒ›แƒฎแƒแƒšแƒแƒ“ แƒ›แƒแƒ—แƒ˜ แƒœแƒแƒฌแƒ˜แƒšแƒ˜. แƒแƒœ แƒ’แƒแƒ แƒ™แƒ•แƒ”แƒฃแƒšแƒ˜ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜. แƒ—แƒฃ แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜ แƒ™แƒแƒ แƒ”แƒšแƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ˜แƒ, แƒ›แƒแƒจแƒ˜แƒœ แƒฉแƒ•แƒ”แƒœ แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒกแƒ แƒฃแƒšแƒ˜ แƒฃแƒคแƒšแƒ”แƒ‘แƒ แƒ’แƒแƒ•แƒงแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜ แƒแƒ แƒแƒ“. แƒฌแƒ˜แƒœแƒแƒแƒฆแƒ›แƒ“แƒ”แƒ’ แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒแƒจแƒ˜, แƒฏแƒ”แƒ  แƒ›แƒแƒ’แƒ˜แƒฌแƒ”แƒ•แƒ— แƒ’แƒแƒฃแƒ›แƒ™แƒšแƒแƒ•แƒ“แƒ”แƒ— แƒฎแƒแƒ–แƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒแƒ  แƒแƒ™แƒแƒ•แƒจแƒ˜แƒ แƒ”แƒ‘แƒก แƒ“แƒแƒ™แƒแƒ แƒ’แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒแƒ“ แƒ“แƒ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒแƒ“ แƒ“แƒ แƒ›แƒฎแƒแƒšแƒแƒ“ แƒแƒ›แƒ˜แƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒ’แƒแƒงแƒแƒ•แƒ˜แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜ แƒแƒ แƒแƒ“.

df_numerical = df.select_dtypes(include = [np.number])
df_categorical = df.select_dtypes(exclude = [np.number])

แƒฉแƒ•แƒ”แƒœ แƒแƒ›แƒแƒก แƒ•แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ— แƒ˜แƒ›แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒ แƒแƒ› แƒ’แƒแƒ’แƒ•แƒ˜แƒแƒ“แƒ•แƒ˜แƒšแƒ“แƒ”แƒก แƒแƒ› แƒแƒ แƒ˜ แƒ’แƒแƒœแƒกแƒฎแƒ•แƒแƒ•แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒขแƒ˜แƒžแƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ - แƒ›แƒแƒ’แƒ•แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒ— แƒ’แƒแƒ•แƒ˜แƒ’แƒ”แƒ‘แƒ—, แƒ แƒแƒ›แƒ“แƒ”แƒœแƒแƒ“ แƒแƒแƒ“แƒ•แƒ˜แƒšแƒ”แƒ‘แƒก แƒ”แƒก แƒฉแƒ•แƒ”แƒœแƒก แƒชแƒฎแƒแƒ•แƒ แƒ”แƒ‘แƒแƒก.

แƒฉแƒ•แƒ”แƒœ แƒ•แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ— แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ—

แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜, แƒ แƒแƒช แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ—, แƒแƒ แƒ˜แƒก แƒ˜แƒ›แƒ˜แƒก แƒ“แƒแƒ“แƒ’แƒ”แƒœแƒ, แƒแƒ แƒ˜แƒก แƒ—แƒฃ แƒแƒ แƒ โ€žแƒฏแƒแƒจแƒฃแƒจแƒฃแƒ แƒ˜ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜โ€œ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ• แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒจแƒ˜. แƒฉแƒ•แƒ”แƒœ แƒแƒ› แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒก แƒแƒกแƒ” แƒ•แƒฃแƒฌแƒแƒ“แƒ”แƒ‘แƒ—, แƒ แƒแƒ“แƒ’แƒแƒœ แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒ—แƒแƒ•แƒก แƒฌแƒแƒ แƒ›แƒแƒแƒ“แƒ’แƒ”แƒœแƒ”แƒœ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ• แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒแƒ“, แƒ›แƒแƒ’แƒ แƒแƒ› แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒ”แƒœ แƒ แƒแƒ’แƒแƒ แƒช แƒ—แƒ•แƒ˜แƒกแƒ”แƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜.

แƒ แƒแƒ’แƒแƒ  แƒ’แƒแƒœแƒ•แƒกแƒแƒ–แƒฆแƒ•แƒ แƒแƒ— แƒ˜แƒกแƒ˜แƒœแƒ˜? แƒ แƒ แƒ—แƒฅแƒ›แƒ แƒฃแƒœแƒ“แƒ, แƒ”แƒก แƒงแƒ•แƒ”แƒšแƒแƒคแƒ”แƒ แƒ˜ แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ˜แƒ แƒ—แƒฅแƒ•แƒ”แƒœแƒก แƒ›แƒ˜แƒ”แƒ  แƒ’แƒแƒแƒœแƒแƒšแƒ˜แƒ–แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ‘แƒฃแƒœแƒ”แƒ‘แƒแƒ–แƒ”, แƒ›แƒแƒ’แƒ แƒแƒ› แƒ–แƒแƒ’แƒแƒ“แƒแƒ“ แƒแƒกแƒ”แƒ— แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒก แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒฐแƒฅแƒแƒœแƒ“แƒ”แƒก แƒ›แƒชแƒ˜แƒ แƒ” แƒฃแƒœแƒ˜แƒ™แƒแƒšแƒฃแƒ แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ (3-10 แƒฃแƒœแƒ˜แƒ™แƒแƒšแƒฃแƒ แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ˜แƒก แƒ แƒ”แƒ’แƒ˜แƒแƒœแƒจแƒ˜).

print(df_numerical.nunique())

แƒ›แƒแƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒ แƒแƒช แƒฉแƒ•แƒ”แƒœ แƒ“แƒแƒ•แƒแƒ“แƒ’แƒ˜แƒœแƒ”แƒ— แƒฏแƒแƒจแƒฃแƒจแƒฃแƒ แƒ˜ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜, แƒฉแƒ•แƒ”แƒœ แƒ›แƒแƒ— แƒ’แƒแƒ“แƒแƒ•แƒ˜แƒขแƒแƒœแƒ— แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ“แƒแƒœ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ• แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ–แƒ”:

spy_columns = df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]#ะฒั‹ะดะตะปัะตะผ ะบะพะปะพะฝะบะธ-ัˆะฟะธะพะฝั‹ ะธ ะทะฐะฟะธัั‹ะฒะฐะตะผ ะฒ ะพั‚ะดะตะปัŒะฝัƒัŽ dataframe
df_numerical.drop(labels=['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะบะฐ2', 'ะบะพะปะพะฝะบะฐ3'], axis=1, inplace = True)#ะฒั‹ั€ะตะทะฐะตะผ ัั‚ะธ ะบะพะปะพะฝะบะธ ะธะท ะบะพะปะธั‡ะตัั‚ะฒะตะฝะฝั‹ั… ะดะฐะฝะฝั‹ั…
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ1', spy_columns['ะบะพะปะพะฝะบะฐ1']) #ะดะพะฑะฐะฒะปัะตะผ ะฟะตั€ะฒัƒัŽ ะบะพะปะพะฝะบัƒ-ัˆะฟะธะพะฝ ะฒ ะบะฐั‡ะตัั‚ะฒะตะฝะฝั‹ะต ะดะฐะฝะฝั‹ะต
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ2', spy_columns['ะบะพะปะพะฝะบะฐ2']) #ะดะพะฑะฐะฒะปัะตะผ ะฒั‚ะพั€ัƒัŽ ะบะพะปะพะฝะบัƒ-ัˆะฟะธะพะฝ ะฒ ะบะฐั‡ะตัั‚ะฒะตะฝะฝั‹ะต ะดะฐะฝะฝั‹ะต
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ3', spy_columns['ะบะพะปะพะฝะบะฐ3']) #ะดะพะฑะฐะฒะปัะตะผ ั‚ั€ะตั‚ัŒัŽ ะบะพะปะพะฝะบัƒ-ัˆะฟะธะพะฝ ะฒ ะบะฐั‡ะตัั‚ะฒะตะฝะฝั‹ะต ะดะฐะฝะฝั‹ะต

แƒกแƒแƒ‘แƒแƒšแƒแƒแƒ“, แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒกแƒ’แƒแƒœ แƒกแƒ แƒฃแƒšแƒ˜แƒแƒ“ แƒ’แƒแƒ›แƒแƒ•แƒงแƒแƒ•แƒ˜แƒ— แƒ“แƒ แƒแƒฎแƒšแƒ แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒกแƒฌแƒแƒ แƒแƒ“ แƒ•แƒ˜แƒ›แƒฃแƒจแƒแƒแƒ—. แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜, แƒ แƒแƒช แƒฃแƒœแƒ“แƒ แƒ’แƒ•แƒ”แƒกแƒ›แƒแƒ“แƒ”แƒก, แƒกแƒแƒ“ แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜ (NaN แƒ“แƒ แƒ–แƒแƒ’แƒ˜แƒ”แƒ แƒ— แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒแƒจแƒ˜ 0 แƒ›แƒ˜แƒ˜แƒฆแƒ”แƒ‘แƒ แƒชแƒแƒ แƒ˜แƒ”แƒš แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒแƒ“).

for i in df_numerical.columns:
    print(i, df[i][df[i]==0].count())

แƒแƒ› แƒ”แƒขแƒแƒžแƒ–แƒ”, แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ•แƒแƒœแƒ˜แƒ แƒ’แƒ•แƒ”แƒกแƒ›แƒแƒ“แƒ”แƒก, แƒ แƒแƒ›แƒ”แƒš แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒจแƒ˜ แƒœแƒฃแƒšแƒ”แƒ‘แƒ˜ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ›แƒ˜แƒฃแƒ—แƒ˜แƒ—แƒ”แƒ‘แƒ“แƒ”แƒก แƒ’แƒแƒ›แƒแƒขแƒแƒ•แƒ”แƒ‘แƒฃแƒš แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ–แƒ”: แƒแƒ แƒ˜แƒก แƒ”แƒก แƒ˜แƒ›แƒ˜แƒก แƒ’แƒแƒ›แƒ, แƒ—แƒฃ แƒ แƒแƒ’แƒแƒ  แƒจแƒ”แƒ’แƒ แƒแƒ•แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜? แƒแƒœ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ˜แƒงแƒแƒก แƒ“แƒแƒ™แƒแƒ•แƒจแƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ—แƒแƒœ? แƒแƒ› แƒ™แƒ˜แƒ—แƒฎแƒ•แƒ”แƒ‘แƒ–แƒ” แƒžแƒแƒกแƒฃแƒฎแƒ˜ แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ”แƒชแƒ”แƒก แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒš แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒแƒจแƒ˜.

แƒแƒกแƒ” แƒ แƒแƒ›, แƒ—แƒฃ แƒ›แƒแƒ˜แƒœแƒช แƒ’แƒแƒ“แƒแƒ•แƒฌแƒงแƒ•แƒ˜แƒขแƒ”แƒ—, แƒ แƒแƒ› แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ’แƒ•แƒแƒ™แƒšแƒ“แƒ”แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒ˜แƒฅ, แƒกแƒแƒ“แƒแƒช แƒแƒ แƒ˜แƒก แƒœแƒฃแƒšแƒ”แƒ‘แƒ˜, แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒจแƒ”แƒ•แƒชแƒ•แƒแƒšแƒแƒ— แƒœแƒฃแƒšแƒ”แƒ‘แƒ˜ NaN-แƒ˜แƒ—, แƒ แƒแƒ—แƒ แƒ›แƒแƒ’แƒ•แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒ— แƒ’แƒแƒฃแƒแƒ“แƒ•แƒ˜แƒšแƒ“แƒ”แƒก แƒแƒ› แƒ“แƒแƒ™แƒแƒ แƒ’แƒฃแƒš แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ—แƒแƒœ แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ:

df_numerical[["ะบะพะปะพะฝะบะฐ 1", "ะบะพะปะพะฝะบะฐ 2"]] = df_numerical[["ะบะพะปะพะฝะบะฐ 1", "ะบะพะปะพะฝะบะฐ 2"]].replace(0, nan)

แƒแƒฎแƒšแƒ แƒ•แƒœแƒแƒฎแƒแƒ— แƒกแƒแƒ“ แƒ’แƒ•แƒแƒ™แƒšแƒ˜แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜:

sns.heatmap(df_numerical.isnull(),yticklabels=False,cbar=False,cmap='viridis') # ะœะพะถะฝะพ ั‚ะฐะบะถะต ะฒะพัะฟะพะปัŒะทะพะฒะฐั‚ัŒัั df_numerical.info()

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

แƒแƒฅ แƒ˜แƒก แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜แƒก แƒจแƒ˜แƒ’แƒœแƒ˜แƒ—, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒแƒ™แƒšแƒ˜แƒ, แƒฃแƒœแƒ“แƒ แƒ˜แƒงแƒแƒก แƒ›แƒแƒœแƒ˜แƒจแƒœแƒฃแƒšแƒ˜ แƒงแƒ•แƒ˜แƒ—แƒšแƒแƒ“. แƒแƒฎแƒšแƒ แƒ™แƒ˜ แƒ’แƒแƒ แƒ—แƒแƒ‘แƒ แƒ˜แƒฌแƒงแƒ”แƒ‘แƒ - แƒ แƒแƒ’แƒแƒ  แƒ’แƒแƒ•แƒฃแƒ›แƒ™แƒšแƒแƒ•แƒ“แƒ”แƒ— แƒแƒ› แƒฆแƒ˜แƒ แƒ”แƒ‘แƒฃแƒšแƒ”แƒ‘แƒ”แƒ‘แƒก? แƒฃแƒœแƒ“แƒ แƒฌแƒแƒ•แƒจแƒแƒšแƒ แƒ แƒ˜แƒ’แƒ”แƒ‘แƒ˜ แƒแƒ› แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ— แƒแƒœ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜แƒ—? แƒแƒœ แƒจแƒ”แƒแƒ•แƒกแƒ”แƒ— แƒ”แƒก แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜ แƒกแƒฎแƒ•แƒ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—?

แƒแƒฅ แƒแƒ แƒ˜แƒก แƒกแƒแƒ•แƒแƒ แƒแƒฃแƒ“แƒ แƒ“แƒ˜แƒแƒ’แƒ แƒแƒ›แƒ, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒ“แƒแƒ’แƒ”แƒฎแƒ›แƒแƒ แƒ”แƒ‘แƒแƒ— แƒ’แƒแƒ“แƒแƒฌแƒงแƒ•แƒ˜แƒขแƒแƒ— แƒ แƒ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ’แƒแƒ™แƒ”แƒ—แƒ“แƒ”แƒก, แƒžแƒ แƒ˜แƒœแƒชแƒ˜แƒžแƒจแƒ˜, แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—:

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

0. แƒฌแƒแƒจแƒแƒšแƒ”แƒ— แƒแƒ แƒแƒกแƒแƒญแƒ˜แƒ แƒ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜

df_numerical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)

1. แƒแƒ แƒ˜แƒก แƒ—แƒฃ แƒแƒ แƒ แƒแƒ› แƒกแƒ•แƒ”แƒขแƒจแƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒก แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ 50%-แƒ–แƒ” แƒ›แƒ”แƒขแƒ˜?

print(df_numerical.isnull().sum() / df_numerical.shape[0] * 100)

df_numerical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)#ะฃะดะฐะปัะตะผ, ะตัะปะธ ะบะฐะบะฐั-ั‚ะพ ะบะพะปะพะฝะบะฐ ะธะผะตะตั‚ ะฑะพะปัŒัˆะต 50 ะฟัƒัั‚ั‹ั… ะทะฝะฐั‡ะตะฝะธะน

2. แƒฌแƒแƒจแƒแƒšแƒ”แƒ— แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—

df_numerical.dropna(inplace=True)#ะฃะดะฐะปัะตะผ ัั‚ั€ะพั‡ะบะธ ั ะฟัƒัั‚ั‹ะผะธ ะทะฝะฐั‡ะตะฝะธัะผะธ, ะตัะปะธ ะฟะพั‚ะพะผ ะพัั‚ะฐะฝะตั‚ัั ะดะพัั‚ะฐั‚ะพั‡ะฝะพ ะดะฐะฝะฝั‹ั… ะดะปั ะพะฑัƒั‡ะตะฝะธั

3.1. แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒ˜แƒ—แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ˜แƒก แƒฉแƒแƒกแƒ›แƒ

import random #ะธะผะฟะพั€ั‚ะธั€ัƒะตะผ random
df_numerical["ะบะพะปะพะฝะบะฐ"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ะบะพะปะพะฝะบะฐ"]), inplace=True) #ะฒัั‚ะฐะฒะปัะตะผ ั€ะฐะฝะดะพะผะฝั‹ะต ะทะฝะฐั‡ะตะฝะธั ะฒ ะฟัƒัั‚ั‹ะต ะบะปะตั‚ะบะธ ั‚ะฐะฑะปะธั†ั‹

3.2. แƒ›แƒฃแƒ“แƒ›แƒ˜แƒ•แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ˜แƒก แƒฉแƒแƒกแƒ›แƒ

from sklearn.impute import SimpleImputer #ะธะผะฟะพั€ั‚ะธั€ัƒะตะผ SimpleImputer, ะบะพั‚ะพั€ั‹ะน ะฟะพะผะพะถะตั‚ ะฒัั‚ะฐะฒะธั‚ัŒ ะทะฝะฐั‡ะตะฝะธั
imputer = SimpleImputer(strategy='constant', fill_value="<ะ’ะฐัˆะต ะทะฝะฐั‡ะตะฝะธะต ะทะดะตััŒ>") #ะฒัั‚ะฐะฒะปัะตะผ ะพะฟั€ะตะดะตะปะตะฝะฝะพะต ะทะฝะฐั‡ะตะฝะธะต ั ะฟะพะผะพั‰ัŒัŽ SimpleImputer
df_numerical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]) #ะŸั€ะธะผะตะฝัะตะผ ัั‚ะพ ะดะปั ะฝะฐัˆะตะน ั‚ะฐะฑะปะธั†ั‹
df_numerical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True) #ะฃะฑะธั€ะฐะตะผ ะบะพะปะพะฝะบะธ ัะพ ัั‚ะฐั€ั‹ะผะธ ะทะฝะฐั‡ะตะฝะธัะผะธ

3.3. แƒฉแƒแƒ“แƒ”แƒ— แƒกแƒแƒจแƒฃแƒแƒšแƒ แƒแƒœ แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒฎแƒจแƒ˜แƒ แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ

from sklearn.impute import SimpleImputer #ะธะผะฟะพั€ั‚ะธั€ัƒะตะผ SimpleImputer, ะบะพั‚ะพั€ั‹ะน ะฟะพะผะพะถะตั‚ ะฒัั‚ะฐะฒะธั‚ัŒ ะทะฝะฐั‡ะตะฝะธั
imputer = SimpleImputer(strategy='mean', missing_values = np.nan) #ะฒะผะตัั‚ะพ mean ะผะพะถะฝะพ ั‚ะฐะบะถะต ะธัะฟะพะปัŒะทะพะฒะฐั‚ัŒ most_frequent
df_numerical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]) #ะŸั€ะธะผะตะฝัะตะผ ัั‚ะพ ะดะปั ะฝะฐัˆะตะน ั‚ะฐะฑะปะธั†ั‹
df_numerical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True) #ะฃะฑะธั€ะฐะตะผ ะบะพะปะพะฝะบะธ ัะพ ัั‚ะฐั€ั‹ะผะธ ะทะฝะฐั‡ะตะฝะธัะผะธ

3.4. แƒฉแƒแƒ“แƒ”แƒ— แƒกแƒฎแƒ•แƒ แƒ›แƒแƒ“แƒ”แƒšแƒ˜แƒก แƒ›แƒ˜แƒ”แƒ  แƒ’แƒแƒ›แƒแƒ—แƒ•แƒšแƒ˜แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ

แƒ–แƒแƒ’แƒฏแƒ”แƒ  แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜ แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒ’แƒแƒ›แƒแƒ˜แƒ—แƒ•แƒแƒšแƒแƒก แƒ แƒ”แƒ’แƒ แƒ”แƒกแƒ˜แƒ˜แƒก แƒ›แƒแƒ“แƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒ— sklearn แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ˜แƒก แƒแƒœ แƒกแƒฎแƒ•แƒ แƒ›แƒกแƒ’แƒแƒ•แƒกแƒ˜ แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ”แƒ‘แƒ˜แƒก แƒ›แƒแƒ“แƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒ—. แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ’แƒฃแƒœแƒ“แƒ˜ แƒ“แƒแƒฃแƒ—แƒ›แƒแƒ‘แƒก แƒชแƒแƒšแƒ™แƒ” แƒกแƒขแƒแƒขแƒ˜แƒแƒก, แƒ—แƒฃ แƒ แƒแƒ’แƒแƒ  แƒจแƒ”แƒ˜แƒซแƒšแƒ”แƒ‘แƒ แƒแƒ›แƒ˜แƒก แƒ’แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ แƒฃแƒแƒฎแƒšแƒแƒ”แƒก แƒ›แƒแƒ›แƒแƒ•แƒแƒšแƒจแƒ˜.

แƒแƒกแƒ” แƒ แƒแƒ›, แƒฏแƒ”แƒ แƒฏแƒ”แƒ แƒแƒ‘แƒ˜แƒ—, แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘ แƒ—แƒฎแƒ แƒแƒ‘แƒ แƒจแƒ”แƒฌแƒงแƒ“แƒ”แƒ‘แƒ, แƒ แƒแƒ“แƒ’แƒแƒœ แƒแƒ แƒกแƒ”แƒ‘แƒแƒ‘แƒก แƒ›แƒ แƒแƒ•แƒแƒšแƒ˜ แƒกแƒฎแƒ•แƒ แƒœแƒ˜แƒฃแƒแƒœแƒกแƒ˜ แƒ˜แƒ›แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘, แƒ—แƒฃ แƒ แƒแƒ’แƒแƒ  แƒฃแƒ™แƒ”แƒ—แƒ”แƒกแƒแƒ“ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ›แƒแƒ›แƒ–แƒแƒ“แƒ”แƒ‘แƒ แƒ“แƒ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ แƒกแƒฎแƒ•แƒแƒ“แƒแƒกแƒฎแƒ•แƒ แƒแƒ›แƒแƒชแƒแƒœแƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒ“แƒ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒซแƒ˜แƒ แƒ˜แƒ—แƒแƒ“แƒ˜ แƒกแƒแƒ™แƒ˜แƒ—แƒฎแƒ”แƒ‘แƒ˜ แƒ’แƒแƒ—แƒ•แƒแƒšแƒ˜แƒกแƒฌแƒ˜แƒœแƒ”แƒ‘แƒฃแƒšแƒ˜แƒ แƒแƒ› แƒกแƒขแƒแƒขแƒ˜แƒแƒจแƒ˜, แƒ“แƒ แƒแƒฎแƒšแƒ แƒ“แƒ แƒแƒ แƒ“แƒแƒ•แƒฃแƒ‘แƒ แƒฃแƒœแƒ“แƒ”แƒ— แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ• แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜แƒ“แƒแƒœ แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜แƒ›แƒ” แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜แƒ— แƒฃแƒ™แƒแƒœ แƒ’แƒแƒ›แƒแƒ•แƒงแƒแƒ•แƒ˜แƒ—. แƒ—แƒฅแƒ•แƒ”แƒœ แƒจแƒ”แƒ’แƒ˜แƒซแƒšแƒ˜แƒแƒ— แƒจแƒ”แƒชแƒ•แƒแƒšแƒแƒ— แƒ”แƒก แƒœแƒแƒฃแƒ—แƒ‘แƒฃแƒฅแƒ˜, แƒ แƒแƒ’แƒแƒ แƒช แƒ’แƒกแƒฃแƒ แƒ—, แƒ›แƒแƒแƒ แƒ’แƒ”แƒ— แƒ˜แƒ’แƒ˜ แƒกแƒฎแƒ•แƒแƒ“แƒแƒกแƒฎแƒ•แƒ แƒแƒ›แƒแƒชแƒแƒœแƒ”แƒ‘แƒก, แƒ แƒแƒ—แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ แƒซแƒแƒšแƒ˜แƒแƒœ แƒกแƒฌแƒ แƒแƒคแƒแƒ“ แƒฌแƒแƒ•แƒ˜แƒ“แƒ”แƒก!

แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜

แƒซแƒ˜แƒ แƒ˜แƒ—แƒแƒ“แƒแƒ“, แƒ—แƒ•แƒ˜แƒกแƒ”แƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก แƒ’แƒแƒ›แƒแƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ One-hot-encoding แƒ›แƒ”แƒ—แƒแƒ“แƒ˜, แƒ แƒแƒ—แƒ แƒ›แƒแƒฎแƒ“แƒ”แƒก แƒ›แƒ˜แƒกแƒ˜ แƒคแƒแƒ แƒ›แƒแƒขแƒ˜แƒ แƒ”แƒ‘แƒ แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒ˜แƒ“แƒแƒœ (แƒแƒœ แƒแƒ‘แƒ˜แƒ”แƒฅแƒขแƒ˜แƒ“แƒแƒœ) แƒ แƒ˜แƒชแƒฎแƒ•แƒแƒ›แƒ“แƒ”. แƒกแƒแƒœแƒแƒ› แƒแƒ› แƒžแƒฃแƒœแƒฅแƒขแƒ–แƒ” แƒ’แƒแƒ“แƒแƒ•แƒ˜แƒ“แƒแƒ“แƒ”แƒ—, แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒแƒ— แƒ–แƒ”แƒ›แƒแƒ— แƒ›แƒแƒชแƒ”แƒ›แƒฃแƒšแƒ˜ แƒ“แƒ˜แƒแƒ’แƒ แƒแƒ›แƒ แƒ“แƒ แƒ™แƒแƒ“แƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒš แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ—แƒแƒœ แƒ’แƒแƒกแƒแƒ›แƒ™แƒšแƒแƒ•แƒ”แƒ‘แƒšแƒแƒ“.

df_categorical.nunique()

sns.heatmap(df_categorical.isnull(),yticklabels=False,cbar=False,cmap='viridis')

Notepad-cheat sheet แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒกแƒฌแƒ แƒแƒคแƒ˜ แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก

0. แƒฌแƒแƒจแƒแƒšแƒ”แƒ— แƒแƒ แƒแƒกแƒแƒญแƒ˜แƒ แƒ แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜

df_categorical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)

1. แƒแƒ แƒ˜แƒก แƒ—แƒฃ แƒแƒ แƒ แƒแƒ› แƒกแƒ•แƒ”แƒขแƒจแƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒก แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ 50%-แƒ–แƒ” แƒ›แƒ”แƒขแƒ˜?

print(df_categorical.isnull().sum() / df_numerical.shape[0] * 100)

df_categorical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True) #ะฃะดะฐะปัะตะผ, ะตัะปะธ ะบะฐะบะฐั-ั‚ะพ ะบะพะปะพะฝะบะฐ 
                                                                          #ะธะผะตะตั‚ ะฑะพะปัŒัˆะต 50% ะฟัƒัั‚ั‹ั… ะทะฝะฐั‡ะตะฝะธะน

2. แƒฌแƒแƒจแƒแƒšแƒ”แƒ— แƒฎแƒแƒ–แƒ”แƒ‘แƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ˜แƒ—

df_categorical.dropna(inplace=True)#ะฃะดะฐะปัะตะผ ัั‚ั€ะพั‡ะบะธ ั ะฟัƒัั‚ั‹ะผะธ ะทะฝะฐั‡ะตะฝะธัะผะธ, 
                                   #ะตัะปะธ ะฟะพั‚ะพะผ ะพัั‚ะฐะฝะตั‚ัั ะดะพัั‚ะฐั‚ะพั‡ะฝะพ ะดะฐะฝะฝั‹ั… ะดะปั ะพะฑัƒั‡ะตะฝะธั

3.1. แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒ˜แƒ—แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ˜แƒก แƒฉแƒแƒกแƒ›แƒ

import random
df_categorical["ะบะพะปะพะฝะบะฐ"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ะบะพะปะพะฝะบะฐ"]), inplace=True)

3.2. แƒ›แƒฃแƒ“แƒ›แƒ˜แƒ•แƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ˜แƒก แƒฉแƒแƒกแƒ›แƒ

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='constant', fill_value="<ะ’ะฐัˆะต ะทะฝะฐั‡ะตะฝะธะต ะทะดะตััŒ>")
df_categorical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_categorical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']])
df_categorical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True)

แƒแƒกแƒ” แƒ แƒแƒ›, แƒฉแƒ•แƒ”แƒœ แƒกแƒแƒ‘แƒแƒšแƒแƒแƒ“ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒ”แƒ— แƒกแƒแƒฎแƒ”แƒšแƒฃแƒ แƒ˜ แƒœแƒฃแƒšแƒแƒ•แƒแƒœแƒ˜ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ—. แƒแƒฎแƒšแƒ แƒ“แƒ แƒแƒ แƒจแƒ”แƒแƒกแƒ แƒฃแƒšแƒแƒ— แƒ”แƒ แƒ—แƒฏแƒ”แƒ แƒแƒ“แƒ˜ แƒ™แƒแƒ“แƒ˜แƒ แƒ”แƒ‘แƒ แƒ˜แƒ› แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒ–แƒ”, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ—แƒฅแƒ•แƒ”แƒœแƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ‘แƒแƒ–แƒแƒจแƒ˜แƒ. แƒ”แƒก แƒ›แƒ”แƒ—แƒแƒ“แƒ˜ แƒซแƒแƒšแƒ˜แƒแƒœ แƒฎแƒจแƒ˜แƒ แƒแƒ“ แƒ’แƒแƒ›แƒแƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ แƒ˜แƒ›แƒ˜แƒก แƒฃแƒ–แƒ แƒฃแƒœแƒ•แƒ”แƒšแƒกแƒแƒงแƒแƒคแƒแƒ“, แƒ แƒแƒ› แƒ—แƒฅแƒ•แƒ”แƒœแƒก แƒแƒšแƒ’แƒแƒ แƒ˜แƒ—แƒ›แƒก แƒจแƒ”แƒฃแƒซแƒšแƒ˜แƒ แƒ˜แƒกแƒฌแƒแƒ•แƒšแƒแƒก แƒ›แƒแƒฆแƒแƒšแƒ˜ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ“แƒแƒœ.

def encode_and_bind(original_dataframe, feature_to_encode):
    dummies = pd.get_dummies(original_dataframe[[feature_to_encode]])
    res = pd.concat([original_dataframe, dummies], axis=1)
    res = res.drop([feature_to_encode], axis=1)
    return(res)

features_to_encode = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"]
for feature in features_to_encode:
    df_categorical = encode_and_bind(df_categorical, feature))

แƒแƒกแƒ” แƒ แƒแƒ›, แƒฉแƒ•แƒ”แƒœ แƒกแƒแƒ‘แƒแƒšแƒแƒแƒ“ แƒ“แƒแƒ•แƒแƒกแƒ แƒฃแƒšแƒ”แƒ— แƒชแƒแƒšแƒ™แƒ”แƒฃแƒšแƒ˜ แƒฎแƒแƒ แƒ˜แƒกแƒฎแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ“แƒ แƒ แƒแƒแƒ“แƒ”แƒœแƒแƒ‘แƒ แƒ˜แƒ•แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ - แƒ“แƒ แƒแƒ แƒ’แƒแƒ•แƒแƒ”แƒ แƒ—แƒ˜แƒแƒœแƒแƒ— แƒ˜แƒกแƒ˜แƒœแƒ˜

new_df = pd.concat([df_numerical,df_categorical], axis=1)

แƒ›แƒแƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’, แƒ แƒแƒช แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ•แƒแƒ”แƒ แƒ—แƒ˜แƒแƒœแƒ”แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜ แƒ”แƒ แƒ—แƒจแƒ˜, แƒฉแƒ•แƒ”แƒœ แƒกแƒแƒ‘แƒแƒšแƒแƒแƒ“ แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒขแƒ แƒแƒœแƒกแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒ MinMaxScaler-แƒ˜แƒก แƒ’แƒแƒ›แƒแƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒ— sklearn แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ˜แƒ“แƒแƒœ. แƒ”แƒก แƒ’แƒแƒฎแƒ“แƒ˜แƒก แƒฉแƒ•แƒ”แƒœแƒก แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ‘แƒ”แƒ‘แƒก 0-แƒกแƒ แƒ“แƒ 1-แƒก แƒจแƒแƒ แƒ˜แƒก, แƒ แƒแƒช แƒ“แƒแƒ’แƒ”แƒฎแƒ›แƒแƒ แƒ”แƒ‘แƒแƒ— แƒ›แƒแƒ›แƒแƒ•แƒแƒšแƒจแƒ˜ แƒ›แƒแƒ“แƒ”แƒšแƒ˜แƒก แƒ›แƒแƒ›แƒ–แƒแƒ“แƒ”แƒ‘แƒแƒจแƒ˜.

from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
new_df = min_max_scaler.fit_transform(new_df)

แƒ”แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒแƒฎแƒšแƒ แƒ›แƒ–แƒแƒ“ แƒแƒ แƒ˜แƒก แƒงแƒ•แƒ”แƒšแƒแƒคแƒ แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก - แƒœแƒ”แƒ แƒ•แƒฃแƒšแƒ˜ แƒฅแƒกแƒ”แƒšแƒ”แƒ‘แƒ˜, แƒกแƒขแƒแƒœแƒ“แƒแƒ แƒขแƒฃแƒšแƒ˜ ML แƒแƒšแƒ’แƒแƒ แƒ˜แƒ—แƒ›แƒ”แƒ‘แƒ˜ แƒ“แƒ แƒ.แƒจ.!

แƒแƒ› แƒกแƒขแƒแƒขแƒ˜แƒแƒจแƒ˜ แƒฉแƒ•แƒ”แƒœ แƒแƒ  แƒ’แƒแƒ•แƒ˜แƒ—แƒ•แƒแƒšแƒ˜แƒกแƒฌแƒ˜แƒœแƒ”แƒ— แƒ“แƒ แƒแƒ˜แƒก แƒกแƒ”แƒ แƒ˜แƒ”แƒ‘แƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ—แƒแƒœ แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ, แƒ แƒแƒ“แƒ’แƒแƒœ แƒแƒกแƒ”แƒ—แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก แƒ—แƒฅแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ›แƒแƒ˜แƒงแƒ”แƒœแƒแƒ— แƒแƒ“แƒœแƒแƒ• แƒ’แƒแƒœแƒกแƒฎแƒ•แƒแƒ•แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒก แƒขแƒ”แƒฅแƒœแƒ˜แƒ™แƒ, แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒ“แƒแƒ•แƒแƒšแƒ”แƒ‘แƒ˜แƒก แƒ›แƒ˜แƒฎแƒ”แƒ“แƒ•แƒ˜แƒ—. แƒกแƒแƒ›แƒแƒ›แƒแƒ•แƒšแƒแƒ“ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ’แƒฃแƒœแƒ“แƒ˜ แƒชแƒแƒšแƒ™แƒ” แƒกแƒขแƒแƒขแƒ˜แƒแƒก แƒ“แƒแƒฃแƒ—แƒ›แƒแƒ‘แƒก แƒแƒ› แƒ—แƒ”แƒ›แƒแƒก แƒ“แƒ แƒ•แƒ˜แƒ›แƒ”แƒ“แƒแƒ•แƒœแƒ”แƒ‘แƒ—, แƒ แƒแƒ› แƒ˜แƒก แƒจแƒ”แƒซแƒšแƒ”แƒ‘แƒก แƒ—แƒฅแƒ•แƒ”แƒœแƒก แƒชแƒฎแƒแƒ•แƒ แƒ”แƒ‘แƒแƒจแƒ˜ แƒ แƒแƒ˜แƒ›แƒ” แƒกแƒแƒ˜แƒœแƒขแƒ”แƒ แƒ”แƒกแƒ, แƒแƒฎแƒแƒšแƒ˜ แƒ“แƒ แƒกแƒแƒกแƒแƒ แƒ’แƒ”แƒ‘แƒšแƒ แƒจแƒ”แƒ›แƒแƒ˜แƒขแƒแƒœแƒแƒก, แƒ˜แƒกแƒ”แƒ•แƒ” แƒ แƒแƒ’แƒแƒ แƒช แƒ”แƒก.

แƒฌแƒงแƒแƒ แƒ: www.habr.com

แƒแƒฎแƒแƒšแƒ˜ แƒ™แƒแƒ›แƒ”แƒœแƒขแƒแƒ แƒ˜แƒก แƒ“แƒแƒ›แƒแƒขแƒ”แƒ‘แƒ