เดชเดฒเดชเตเดชเตเดดเตเด เดกเดพเดฑเตเดฑเดพ เดธเดฏเตปเดธเต เดฎเตเดเดฒเดฏเดฟเดฒเตเดเตเดเต เดชเตเดฐเดตเตเดถเดฟเดเตเดเตเดจเตเดจ เดเดณเตเดเตพเดเตเดเต เดคเดเตเดเดณเต เดเดพเดคเตเดคเดฟเดฐเดฟเดเตเดเตเดจเตเดจ เดเดพเดฐเตเดฏเดเตเดเดณเตเดเตเดเตเดฑเดฟเดเตเดเตเดณเตเดณ เดฏเดฅเดพเตผเดคเตเดฅ เดชเตเดฐเดคเตเดเตเดทเดเดณเตเดเตเดเดพเตพ เดเตเดฑเดตเดพเดฃเต. เดเดชเตเดชเตเตพ เด
เดตเตผ เดฐเดธเดเดฐเดฎเดพเดฏ เดจเตเดฏเตเดฑเตฝ เดจเตเดฑเตเดฑเตโเดตเตผเดเตเดเตเดเตพ เดเดดเตเดคเตเดฎเตเดจเตเดจเตเด เด
เดฏเตบ เดฎเดพเดจเดฟเตฝ เดจเดฟเดจเตเดจเต เดเดฐเต เดตเตเดฏเตโเดธเต เด
เดธเดฟเดธเตเดฑเตเดฑเดจเตเดฑเดฟเดจเต เดธเตเดทเตเดเดฟเดเตเดเตเดฎเตเดจเตเดจเตเด เด
เดฒเตเดฒเตเดเตเดเดฟเตฝ เดธเดพเดฎเตเดชเดคเตเดคเดฟเด เดตเดฟเดชเดฃเดฟเดฏเดฟเดฒเต เดเดฒเตเดฒเดพเดตเดฐเตเดฏเตเด เดคเตเตฝเดชเตเดชเดฟเดเตเดเตเดฎเตเดจเตเดจเตเด เดชเดฒเดฐเตเด เดเดฐเตเดคเตเดจเตเดจเต.
เดเดจเตเดจเดพเตฝ เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเตเด เดกเดพเดฑเตเดฑ เดถเดพเดธเตเดคเตเดฐเดเตเดเตป เดกเดพเดฑเตเดฑเดพเดงเดฟเดทเตเด เดฟเดคเดฎเดพเดฃเต, เดเดฑเตเดฑเดตเตเด เดชเตเดฐเดงเดพเดจเดชเตเดชเตเดเตเดเดคเตเด เดธเดฎเดฏเดฎเตเดเตเดเตเดเตเดจเตเดจเดคเตเดฎเดพเดฏ เดเดฐเต เดตเดถเด เดเดฐเต เดจเตเดฏเตเดฑเตฝ เดจเตเดฑเตเดฑเตโเดตเตผเดเตเดเดฟเดฒเตเดเตเดเต เดกเดพเดฑเตเดฑ เดจเตฝเดเตเดจเตเดจเดคเดฟเดจเตเดฎเตเดฎเตเดชเต เด
เดฒเตเดฒเตเดเตเดเดฟเตฝ เดเดฐเต เดชเตเดฐเดคเตเดฏเตเด เดฐเตเดคเดฟเดฏเดฟเตฝ เดตเดฟเดถเดเดฒเดจเด เดเตเดฏเตเดฏเตเดจเตเดจเดคเดฟเดจเต เดฎเตเดฎเตเดชเต เดกเดพเดฑเตเดฑ เดชเตเดฐเตเดธเดธเตเดธเต เดเตเดฏเตเดฏเตเด เดเดจเตเดจเดคเดพเดฃเต.
เด เดฒเตเดเดจเดคเตเดคเดฟเตฝ, เดเดเตเดเด เดเดเตเดเดฎเดพเดฏเตเดณเตเดณ เดจเดฟเตผเดฆเตเดฆเตเดถเดเตเดเดณเตเด เดเตเดกเตเด เดเดชเดฏเตเดเดฟเดเตเดเต เดจเดฟเดเตเดเตพเดเตเดเต เดเดเตเดเดจเต เดตเตเดเดคเตเดคเดฟเดฒเตเด เดเดณเตเดชเตเดชเดคเตเดคเดฟเดฒเตเด เดกเดพเดฑเตเดฑ เดชเตเดฐเตเดธเดธเตเดธเต เดเตเดฏเตเดฏเดพเดฎเตเดจเตเดจเต เดเดเตเดเดณเตเดเต เดเตเด เดตเดฟเดตเดฐเดฟเดเตเดเตเด. เดเตเดกเต เดคเดฟเดเดเตเดเตเด เด เดฏเดตเตเดณเตเดณเดคเดพเดเตเดเดพเตป เดเดเตเดเตพ เดถเตเดฐเดฎเดฟเดเตเดเต, เดตเตเดฏเดคเตเดฏเดธเตเดค เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเตเดเตพเดเตเดเต เดเดคเต เดเดชเดฏเตเดเดฟเดเตเดเดพเด.
เดชเดฒ เดชเตเดฐเตเดซเดทเดฃเดฒเตเดเตพเดเตเดเตเด เด เดฒเตเดเดจเดคเตเดคเดฟเตฝ เด
เดธเดพเดงเดพเดฐเดฃเดฎเดพเดฏ เดเดจเตเดจเตเด เดเดฃเตเดเตเดคเตเดคเดพเดจเดพเดฏเดฟเดฒเตเดฒ, เดชเดเตเดทเต เดคเตเดเดเตเดเดเตเดเดพเตผเดเตเดเต เดชเตเดคเดฟเดฏ เดเดจเตเดคเตเดเตเดเดฟเดฒเตเด เดชเด เดฟเดเตเดเดพเตป เดเดดเดฟเดฏเตเด, เดเตเดเดพเดคเต เดตเตเดเดคเตเดคเดฟเดฒเตเด เดเดเดจเดพเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดพ เดชเตเดฐเตเดธเดธเตเดธเดฟเดเดเดฟเดจเดพเดฏเดฟ เดเดฐเต เดชเตเดฐเดคเตเดฏเตเด เดจเตเดเตเดเตเดฌเตเดเตเดเต เดจเดฟเตผเดฎเตเดฎเดฟเดเตเดเดพเตป เดฆเตเตผเดเดจเดพเดณเดพเดฏเดฟ เดธเตเดตเดชเตเดจเด เดเดพเดฃเตเดจเตเดจ เดเตผเดเตเดเตเด เดเตเดกเต เดชเดเตผเดคเตเดคเดฟ เด
เดคเต เดธเตเดตเดฏเด เดซเตเตผเดฎเดพเดฑเตเดฑเต เดเตเดฏเตเดฏเดพเตป เดเดดเดฟเดฏเตเด, เด
เดฒเตเดฒเตเดเตเดเดฟเตฝ
เดเดเตเดเตพเดเตเดเต เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเต เดฒเดญเดฟเดเตเดเต. เดเดจเดฟ เดเดจเตเดคเต เดเตเดฏเตเดฏเดฃเด?
เด เดคเดฟเดจเดพเตฝ, เดธเตเดฑเตเดฑเดพเตปเดกเตเตผเดกเต: เดจเดฎเตเดฎเตพ เดเดจเตเดคเดพเดฃเต เดเตเดเดพเดฐเตเดฏเด เดเตเดฏเตเดฏเตเดจเตเดจเดคเตเดจเตเดจเต เดฎเดจเดธเดฟเดฒเดพเดเตเดเตเดฃเตเดเดคเตเดฃเตเดเต, เดฎเตเดคเตเดคเดคเตเดคเดฟเดฒเตเดณเตเดณ เดเดฟเดคเตเดฐเด. เดเดคเต เดเตเดฏเตเดฏเตเดจเตเดจเดคเดฟเดจเต, เดตเตเดฏเดคเตเดฏเดธเตเดค เดกเดพเดฑเตเดฑ เดคเดฐเดเตเดเดณเต เดฒเดณเดฟเดคเดฎเดพเดฏเดฟ เดจเดฟเตผเดตเดเดฟเดเตเดเดพเตป เดเดเตเดเตพ เดชเดพเดฃเตเดเดเตพ เดเดชเดฏเตเดเดฟเดเตเดเตเดจเตเดจเต.
import pandas as pd #ะธะผะฟะพััะธััะตะผ pandas
import numpy as np #ะธะผะฟะพััะธััะตะผ numpy
df = pd.read_csv("AB_NYC_2019.csv") #ัะธัะฐะตะผ ะดะฐัะฐัะตั ะธ ะทะฐะฟะธััะฒะฐะตะผ ะฒ ะฟะตัะตะผะตะฝะฝัั df
df.head(3) #ัะผะพััะธะผ ะฝะฐ ะฟะตัะฒัะต 3 ัััะพัะบะธ, ััะพะฑั ะฟะพะฝััั, ะบะฐะบ ะฒัะณะปัะดัั ะทะฝะฐัะตะฝะธั
df.info() #ะะตะผะพะฝัััะธััะตะผ ะธะฝัะพัะผะฐัะธั ะพ ะบะพะปะพะฝะบะฐั
เดเตเดณเด เดฎเตเดฒเตเดฏเดเตเดเตพ เดจเตเดเตเดเดพเด:
- เดเดฐเต เดจเดฟเดฐเดฏเดฟเดฒเตเดฏเตเด เดตเดฐเดฟเดเดณเตเดเต เดเดฃเตเดฃเด เดฎเตเดคเตเดคเด เดตเดฐเดฟเดเดณเตเดเต เดเดฃเตเดฃเดตเตเดฎเดพเดฏเดฟ เดชเตเดฐเตเดคเตเดคเดชเตเดชเตเดเตเดจเตเดจเตเดฃเตเดเต?
- เดเดฐเต เดเตเดณเดคเตเดคเดฟเดฒเตเดฏเตเด เดกเดพเดฑเตเดฑเดฏเตเดเต เดธเดพเดฐเดพเดเดถเด เดเดจเตเดคเดพเดฃเต?
- เด เดคเดฟเดจเดพเดฏเดฟ เดชเตเดฐเดตเดเดจเดเตเดเตพ เดจเดเดคเตเดคเดพเตป เดเดคเต เดเตเดณเดฎเดพเดฃเต เดเดเตเดเตพ เดฒเดเตเดทเตเดฏเดฎเดฟเดเตเดจเตเดจเดคเต?
เด เดเตเดฆเตเดฏเดเตเดเตพเดเตเดเตเดณเตเดณ เดเดคเตเดคเดฐเดเตเดเตพ เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเต เดตเดฟเดถเดเดฒเดจเด เดเตเดฏเตเดฏเดพเดจเตเด เดจเดฟเดเตเดเดณเตเดเต เด เดเตเดคเตเดค เดชเตเดฐเดตเตผเดคเตเดคเดจเดเตเดเตพเดเตเดเดพเดฏเดฟ เดเดเดฆเตเดถเด เดเดฐเต เดชเตเดฒเดพเตป เดตเดฐเดฏเตเดเตเดเดพเดจเตเด เดจเดฟเดเตเดเดณเต เด เดจเตเดตเดฆเดฟเดเตเดเตเด.
เดเตเดเดพเดคเต, เดเดฐเต เดจเดฟเดฐเดฏเดฟเดฒเตเดฏเตเด เดฎเตเดฒเตเดฏเดเตเดเตพ เดเดดเดคเตเดคเดฟเตฝ เดชเดฐเดฟเดถเตเดงเดฟเดเตเดเตเดจเตเดจเดคเดฟเดจเต, เดจเดฎเตเดเตเดเต เดชเดพเดฃเตเดเดเตพ เดตเดฟเดตเดฐเดฟเดเตเดเตเดจเตเดจ () เดซเดเดเตเดทเตป เดเดชเดฏเตเดเดฟเดเตเดเดพเด. เดเดจเตเดจเดฟเดฐเตเดจเตเดจเดพเดฒเตเด, เด เดซเดเดเตโเดทเดจเตเดฑเต เดชเตเดฐเดพเดฏเตเดฎ เดธเตเดเตเดฐเดฟเดเดเต เดฎเตเดฒเตเดฏเดเตเดเดณเตเดณเตเดณ เดจเดฟเดฐเดเดณเตเดเตเดเตเดฑเดฟเดเตเดเตเดณเตเดณ เดตเดฟเดตเดฐเดเตเดเตพ เดจเตฝเดเตเดจเตเดจเดฟเดฒเตเดฒ เดเดจเตเดจเดคเดพเดฃเต. เดเดเตเดเตพ เด เดตเดฐเต เดชเดฟเดจเตเดจเตเดเต เดเตเดเดพเดฐเตเดฏเด เดเตเดฏเตเดฏเตเด.
df.describe()
เดฎเดพเดเดฟเดเต เดฆเตเดถเตเดฏเดตเตฝเดเตเดเดฐเดฃเด
เดจเดฎเตเดเตเดเต เดฎเตเดฒเตเดฏเดเตเดเดณเดฟเดฒเตเดฒเดพเดคเตเดคเดคเต เดเดตเดฟเดเตเดฏเดพเดฃเตเดจเตเดจเต เดจเตเดเตเดเดพเด:
import seaborn as sns
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')
เดเดคเต เดฎเตเดเดณเดฟเตฝ เดจเดฟเดจเตเดจเตเดณเตเดณ เดเดฐเต เดเตเดฑเดฟเดฏ เดเดพเดดเตเดเดฏเดพเดฏเดฟเดฐเตเดจเตเดจเต, เดเดชเตเดชเตเตพ เดเดเตเดเตพ เดเตเดเตเดคเตฝ เดฐเดธเดเดฐเดฎเดพเดฏ เดเดพเดฐเตเดฏเดเตเดเดณเดฟเดฒเตเดเตเดเต เดชเตเดเตเด
เดจเดฎเตเดเตเดเต เดเดฃเตเดเตเดคเตเดคเดพเตป เดถเตเดฐเดฎเดฟเดเตเดเดพเด, เดธเดพเดงเตเดฏเดฎเตเดเตเดเดฟเตฝ, เดเดฒเตเดฒเดพ เดตเดฐเดฟเดเดณเดฟเดฒเตเด เดเดฐเต เดฎเตเดฒเตเดฏเด เดฎเดพเดคเตเดฐเดฎเตเดณเตเดณ เดจเดฟเดฐเดเตพ เดจเตเดเตเดเด เดเตเดฏเตเดฏเตเด (เด เดต เดซเดฒเดคเตเดคเต เดเดฐเต เดคเดฐเดคเตเดคเดฟเดฒเตเด เดฌเดพเดงเดฟเดเตเดเดฟเดฒเตเดฒ):
df = df[[c for c
in list(df)
if len(df[c].unique()) > 1]] #ะะตัะตะทะฐะฟะธััะฒะฐะตะผ ะดะฐัะฐัะตั, ะพััะฐะฒะปัั ัะพะปัะบะพ ัะต ะบะพะปะพะฝะบะธ, ะฒ ะบะพัะพััั
ะฑะพะปััะต ะพะดะฝะพะณะพ ัะฝะธะบะฐะปัะฝะพะณะพ ะทะฝะฐัะตะฝะธั
เดกเตเดฏเตเดชเตเดฒเดฟเดเตเดเตเดฑเตเดฑเต เดฒเตเดจเตเดเดณเดฟเตฝ เดจเดฟเดจเตเดจเต (เดจเดฟเดฒเดตเดฟเดฒเตเดณเตเดณ เดฒเตเดจเตเดเดณเดฟเตฝ เดเดจเตเดจเดฟเดจเตเดฑเต เด เดคเต เดเตเดฐเดฎเดคเตเดคเดฟเตฝ เด เดคเต เดตเดฟเดตเดฐเดเตเดเตพ เดเตพเดเตเดเตเดณเตเดณเตเดจเตเดจ เดตเดฐเดฟเดเตพ) เดเดชเตเดชเตเตพ เดเดเตเดเตพ เดธเตเดตเดฏเด เดชเดฐเดฟเดฐเดเตเดทเดฟเดเตเดเตเดจเตเดจเต, เดเดเตเดเดณเตเดเต เดชเตเดฐเตเดเดเตเดฑเตเดฑเดฟเดจเตเดฑเต เดตเดฟเดเดฏเดตเตเด:
df.drop_duplicates(inplace=True) #ะะตะปะฐะตะผ ััะพ, ะตัะปะธ ััะธัะฐะตะผ ะฝัะถะฝัะผ.
#ะ ะฝะตะบะพัะพััั
ะฟัะพะตะบัะฐั
ัะดะฐะปััั ัะฐะบะธะต ะดะฐะฝะฝัะต ั ัะฐะผะพะณะพ ะฝะฐัะฐะปะฐ ะฝะต ััะพะธั.
เดเดเตเดเตพ เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเดฟเดจเต เดฐเดฃเตเดเดพเดฏเดฟ เดตเดฟเดญเดเดฟเดเตเดเตเดจเตเดจเต: เดเดจเตเดจเต เดเตเดฃเดชเดฐเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดณเตเดณเดคเตเด เดฎเดฑเตเดฑเตเดจเตเดจเต เด เดณเดตเต
เดเดตเดฟเดเต เดจเดฎเตเดฎเตพ เดเดฐเต เดเตเดฑเดฟเดฏ เดตเตเดฏเดเตเดคเดค เดตเดฐเตเดคเตเดคเตเดฃเตเดเดคเตเดฃเตเดเต: เดเตเดฃเดชเดฐเดตเตเด เด เดณเดตเตเดชเดฐเดตเตเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเดฟเตฝ เดจเดทเตเดเดชเตเดชเตเดเตเด เดกเดพเดฑเตเดฑเดฏเตเดณเตเดณ เดตเดฐเดฟเดเตพ เดชเดฐเดธเตเดชเดฐเด เดตเดณเดฐเต เดชเดฐเดธเตเดชเดฐเดฌเดจเตเดงเดฟเดคเดฎเดฒเตเดฒเตเดเตเดเดฟเตฝ, เดเดเตเดเตพ เดเดจเตเดคเดพเดฃเต เดฌเดฒเดฟเดฏเตผเดชเตเดชเดฟเดเตเดเตเดจเตเดจเดคเต เดเดจเตเดจเต เดคเตเดฐเตเดฎเดพเดจเดฟเดเตเดเตเดฃเตเดเดคเตเดฃเตเดเต - เดจเดทเตโเดเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเตเดณเตเดณ เดเดฒเตเดฒเดพ เดตเดฐเดฟเดเดณเตเด, เด เดตเดฏเตเดเต เดเดฐเต เดญเดพเดเด เดฎเดพเดคเตเดฐเด, เด เดฒเตเดฒเตเดเตเดเดฟเตฝ เดเดฟเดฒ เดเตเดณเดเตเดเตพ. เดตเดฐเดฟเดเตพ เดชเดฐเดธเตเดชเดฐเดฌเดจเตเดงเดฟเดคเดฎเดพเดฃเตเดเตเดเดฟเตฝ, เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเดฟเดจเต เดฐเดฃเตเดเดพเดฏเดฟ เดตเดฟเดญเดเดฟเดเตเดเดพเตป เดเดเตเดเตพเดเตเดเต เดเดฒเตเดฒเดพ เด เดตเดเดพเดถเดตเตเดฎเตเดฃเตเดเต. เด เดฒเตเดฒเตเดเตเดเดฟเตฝ, เดจเดทเตโเดเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเต เดเตเดฃเดชเดฐเดฎเดพเดฏเตเด เด เดณเดตเดฟเดฒเตเด เดชเดฐเดธเตเดชเดฐเด เดฌเดจเตเดงเดชเตเดชเตเดเตเดคเตเดคเดพเดคเตเดค เดตเดฐเดฟเดเตพ เดจเดฟเดเตเดเตพ เดเดฆเตเดฏเด เดเตเดเดพเดฐเตเดฏเด เดเตเดฏเตเดฏเตเดฃเตเดเดคเตเดฃเตเดเต, เด เดคเดฟเดจเตเดถเตเดทเด เดฎเดพเดคเตเดฐเดฎเต เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเดฟเดจเต เดฐเดฃเตเดเดพเดฏเดฟ เดตเดฟเดญเดเดฟเดเตเดเตเด.
df_numerical = df.select_dtypes(include = [np.number])
df_categorical = df.select_dtypes(exclude = [np.number])
เด เดฐเดฃเตเดเต เดตเตเดฏเดคเตเดฏเดธเตเดค เดคเดฐเด เดกเดพเดฑเตเดฑ เดชเตเดฐเตเดธเดธเตเดธเต เดเตเดฏเตเดฏเตเดจเตเดจเดคเต เดเดณเตเดชเตเดชเดฎเดพเดเตเดเตเดจเตเดจเดคเดฟเดจเดพเดฃเต เดเดเตเดเตพ เดเดคเต เดเตเดฏเตเดฏเตเดจเตเดจเดคเต - เดเดคเต เดจเดฎเตเดฎเตเดเต เดเตเดตเดฟเดคเดคเตเดคเต เดเดคเตเดฐเดคเตเดคเตเดณเด เดเดณเตเดชเตเดชเดฎเดพเดเตเดเตเดจเตเดจเตเดตเตเดจเตเดจเต เดชเดฟเดจเตเดจเตเดเต เดจเดฎเตเดเตเดเต เดฎเดจเดธเตเดธเดฟเดฒเดพเดเตเด.
เดเดเตเดเตพ เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเตเดฎเดพเดฏเดฟ เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเตเดจเตเดจเต
เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเดฟเตฝ "เดธเตเดชเต เดเตเดณเดเตเดเตพ" เดเดฃเตเดเต เดเดจเตเดจเต เดจเดฟเตผเดฃเตเดฃเดฏเดฟเดเตเดเตเด เดเดจเตเดจเดคเดพเดฃเต เดจเดฎเตเดฎเตพ เดเดฆเตเดฏเด เดเตเดฏเตเดฏเตเดฃเตเดเดคเต. เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเดพเดฏเดฟ เดธเตเดตเดฏเด เด เดตเดคเดฐเดฟเดชเตเดชเดฟเดเตเดเตเดเดฏเตเด เดเดจเตเดจเดพเตฝ เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเดพเดฏเดฟ เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเตเดเดฏเตเด เดเตเดฏเตเดฏเตเดจเตเดจเดคเดฟเดจเดพเดฒเดพเดฃเต เดเดเตเดเตพ เด เดเตเดณเดเตเดเดณเต เดตเดฟเดณเดฟเดเตเดเตเดจเตเดจเดคเต.
เดจเดฎเตเดเตเดเต เด เดตเดฐเต เดเดเตเดเดจเต เดคเดฟเดฐเดฟเดเตเดเดฑเดฟเดฏเดพเด? เดคเตเตผเดเตเดเดฏเดพเดฏเตเด, เดเดคเตเดฒเตเดฒเดพเด เดจเดฟเดเตเดเตพ เดตเดฟเดถเดเดฒเดจเด เดเตเดฏเตเดฏเตเดจเตเดจ เดกเดพเดฑเตเดฑเดฏเตเดเต เดธเตเดตเดญเดพเดตเดคเตเดคเต เดเดถเตเดฐเดฏเดฟเดเตเดเดฟเดฐเดฟเดเตเดเตเดจเตเดจเต, เดเดจเตเดจเดพเตฝ เดชเตเดคเตเดตเต เด เดคเตเดคเดฐเด เดจเดฟเดฐเดเตพเดเตเดเต เด เดฆเตเดตเดฟเดคเตเดฏ เดกเดพเดฑเตเดฑ เดเตเดฑเดตเดพเดฏเดฟเดฐเดฟเดเตเดเดพเด (3-10 เด เดฆเตเดตเดฟเดคเตเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดเต เดฎเตเดเดฒเดฏเดฟเตฝ).
print(df_numerical.nunique())
เดเดเตเดเตพ เดธเตเดชเต เดเตเดณเดเตเดเตพ เดคเดฟเดฐเดฟเดเตเดเดฑเดฟเดเตเดเตเดเดดเดฟเดเตเดเดพเตฝ, เดเดเตเดเตพ เด เดตเดฏเต เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเดฟเตฝ เดจเดฟเดจเตเดจเต เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเดฟเดฒเตเดเตเดเต เดฎเดพเดฑเตเดฑเตเด:
spy_columns = df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]#ะฒัะดะตะปัะตะผ ะบะพะปะพะฝะบะธ-ัะฟะธะพะฝั ะธ ะทะฐะฟะธััะฒะฐะตะผ ะฒ ะพัะดะตะปัะฝัั dataframe
df_numerical.drop(labels=['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะบะฐ2', 'ะบะพะปะพะฝะบะฐ3'], axis=1, inplace = True)#ะฒััะตะทะฐะตะผ ััะธ ะบะพะปะพะฝะบะธ ะธะท ะบะพะปะธัะตััะฒะตะฝะฝัั
ะดะฐะฝะฝัั
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ1', spy_columns['ะบะพะปะพะฝะบะฐ1']) #ะดะพะฑะฐะฒะปัะตะผ ะฟะตัะฒัั ะบะพะปะพะฝะบั-ัะฟะธะพะฝ ะฒ ะบะฐัะตััะฒะตะฝะฝัะต ะดะฐะฝะฝัะต
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ2', spy_columns['ะบะพะปะพะฝะบะฐ2']) #ะดะพะฑะฐะฒะปัะตะผ ะฒัะพััั ะบะพะปะพะฝะบั-ัะฟะธะพะฝ ะฒ ะบะฐัะตััะฒะตะฝะฝัะต ะดะฐะฝะฝัะต
df_categorical.insert(1, 'ะบะพะปะพะฝะบะฐ3', spy_columns['ะบะพะปะพะฝะบะฐ3']) #ะดะพะฑะฐะฒะปัะตะผ ััะตััั ะบะพะปะพะฝะบั-ัะฟะธะพะฝ ะฒ ะบะฐัะตััะฒะตะฝะฝัะต ะดะฐะฝะฝัะต
เด เดตเดธเดพเดจเดฎเดพเดฏเดฟ, เดเดเตเดเตพ เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเต เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเดฟเตฝ เดจเดฟเดจเตเดจเต เดชเตเตผเดฃเตเดฃเดฎเดพเดฏเตเด เดตเตเตผเดคเดฟเดฐเดฟเดเตเดเตเดจเตเดจเต, เดเดชเตเดชเตเตพ เดจเดฎเตเดเตเดเต เด เดคเต เดถเดฐเดฟเดฏเดพเดฏเดฟ เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเดพเตป เดเดดเดฟเดฏเตเด. เดจเดฎเตเดเตเดเต เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเตพ เดเดตเดฟเดเตเดฏเดพเดฃเตเดจเตเดจเต เดฎเดจเดธเตเดธเดฟเดฒเดพเดเตเดเตเด เดเดจเตเดจเดคเดพเดฃเต เดเดฆเตเดฏเดคเตเดคเต เดเดพเดฐเตเดฏเด (NaN, เดเดฟเดฒ เดธเดจเตเดฆเตผเดญเดเตเดเดณเดฟเตฝ 0 เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเดพเดฏเดฟ เด เดเดเตเดเดฐเดฟเดเตเดเดชเตเดชเตเดเตเด).
for i in df_numerical.columns:
print(i, df[i][df[i]==0].count())
เด เดเดเตเดเดคเตเดคเดฟเตฝ, เดเดคเต เดจเดฟเดฐเดเดณเดฟเตฝ เดชเตเดเตเดฏเดเตเดเตพ เดจเดทเตโเดเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเต เดธเตเดเดฟเดชเตเดชเดฟเดเตเดเตเดฎเตเดจเตเดจเต เดฎเดจเดธเตเดธเดฟเดฒเดพเดเตเดเตเดฃเตเดเดคเต เดชเตเดฐเดงเดพเดจเดฎเดพเดฃเต: เดเดคเต เดกเดพเดฑเตเดฑ เดเดเตเดเดจเต เดถเตเดเดฐเดฟเดเตเดเต เดเดจเตเดจเดคเดพเดฃเต? เด เดฒเตเดฒเตเดเตเดเดฟเตฝ เดเดคเต เดกเดพเดฑเตเดฑ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดฎเดพเดฏเดฟ เดฌเดจเตเดงเดชเตเดชเตเดเตเดเดฟเดฐเดฟเดเตเดเตเดฎเต? เด เดเตเดฆเตเดฏเดเตเดเตพเดเตเดเต เดเดฐเต เดเตเดธเดฟเดจเตเดฑเต เด เดเดฟเดธเตเดฅเดพเดจเดคเตเดคเดฟเตฝ เดเดคเตเดคเดฐเด เดจเตฝเดเดฃเด.
เด เดคเดฟเดจเดพเตฝ, เดชเตเดเตเดฏเดเตเดเตพ เดเดณเตเดณเดฟเดเดคเตเดคเต เดเดเตเดเตพเดเตเดเต เดกเดพเดฑเตเดฑ เดจเดทเตโเดเดฎเดพเดฏเตเดเตเดเดพเดฎเตเดจเตเดจเต เดเดเตเดเตพ เดเดชเตเดชเตเดดเตเด เดคเตเดฐเตเดฎเดพเดจเดฟเดเตเดเตเดเดฏเดพเดฃเตเดเตเดเดฟเตฝ, เดจเดทเตโเดเดฎเดพเดฏ เด เดกเดพเดฑเตเดฑเดฏเตโเดเตเดเตเดชเตเดชเด เดชเดฟเดจเตเดจเตเดเต เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเตเดจเตเดจเดคเต เดเดณเตเดชเตเดชเดฎเดพเดเตเดเตเดจเตเดจเดคเดฟเดจเต เดเดเตเดเตพ เดชเตเดเตเดฏเดเตเดเดณเต NaN เดเดชเดฏเตเดเดฟเดเตเดเต เดฎเดพเดฑเตเดฑเดฟเดธเตเดฅเดพเดชเดฟเดเตเดเดฃเด:
df_numerical[["ะบะพะปะพะฝะบะฐ 1", "ะบะพะปะพะฝะบะฐ 2"]] = df_numerical[["ะบะพะปะพะฝะบะฐ 1", "ะบะพะปะพะฝะบะฐ 2"]].replace(0, nan)
เดเดชเตเดชเตเตพ เดจเดฎเตเดเตเดเต เดเดตเดฟเดเตเดฏเดพเดฃเต เดกเดพเดฑเตเดฑ เดจเดทเตโเดเดฎเดพเดฏเดคเตเดจเตเดจเต เดจเตเดเตเดเดพเด:
sns.heatmap(df_numerical.isnull(),yticklabels=False,cbar=False,cmap='viridis') # ะะพะถะฝะพ ัะฐะบะถะต ะฒะพัะฟะพะปัะทะพะฒะฐัััั df_numerical.info()
เดเดตเดฟเดเต เดจเดทเตเดเดชเตเดชเตเดเตเด เดจเดฟเดฐเดเตพเดเตเดเตเดณเตเดณเดฟเดฒเต เดฎเตเดฒเตเดฏเดเตเดเตพ เดฎเดเตเด เดจเดฟเดฑเดคเตเดคเดฟเตฝ เด
เดเดฏเดพเดณเดชเตเดชเตเดเตเดคเตเดคเดฃเด. เดเดชเตเดชเตเตพ เดคเดฎเดพเดถ เดเดฐเดเดญเดฟเดเตเดเตเดจเตเดจเต - เด เดฎเตเดฒเตเดฏเดเตเดเตพ เดเดเตเดเดจเต เดเตเดเดพเดฐเตเดฏเด เดเตเดฏเตเดฏเดพเด? เด เดฎเตเดฒเตเดฏเดเตเดเดณเต เดจเดฟเดฐเดเดณเต เดเดณเตเดณ เดตเดฐเดฟเดเตพ เดเดพเตป เดเดฒเตเดฒเดพเดคเดพเดเตเดเดฃเต? เด
เดฒเตเดฒเตเดเตเดเดฟเตฝ เด เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเตพ เดฎเดฑเตเดฑเตเดจเตเดคเตเดเตเดเดฟเดฒเตเด เดเดชเดฏเตเดเดฟเดเตเดเต เดชเตเดฐเดฟเดชเตเดชเดฟเดเตเดเดฃเต?
เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเตพ เดเดชเดฏเตเดเดฟเดเตเดเต เดคเดคเตเดตเดคเตเดคเดฟเตฝ เดเดจเตเดคเตเดเตเดฏเตเดฏเดฃเดฎเตเดจเตเดจเต เดคเตเดฐเตเดฎเดพเดจเดฟเดเตเดเดพเตป เดจเดฟเดเตเดเดณเต เดธเดนเดพเดฏเดฟเดเตเดเตเดจเตเดจ เดเดฐเต เดเดเดฆเตเดถ เดกเดฏเดเตเดฐเด เดเดคเดพ:
0. เด
เดจเดพเดตเดถเตเดฏ เดเตเดณเดเตเดเตพ เดจเตเดเตเดเด เดเตเดฏเตเดฏเตเด
df_numerical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)
1. เด เดจเดฟเดฐเดฏเดฟเดฒเต เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดเต เดเดฃเตเดฃเด 50% เตฝ เดเตเดเตเดคเดฒเดพเดฃเต?
print(df_numerical.isnull().sum() / df_numerical.shape[0] * 100)
df_numerical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)#ะฃะดะฐะปัะตะผ, ะตัะปะธ ะบะฐะบะฐั-ัะพ ะบะพะปะพะฝะบะฐ ะธะผะตะตั ะฑะพะปััะต 50 ะฟััััั
ะทะฝะฐัะตะฝะธะน
2. เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดณเตเดณ เดตเดฐเดฟเดเตพ เดเดฒเตเดฒเดพเดคเดพเดเตเดเตเด
df_numerical.dropna(inplace=True)#ะฃะดะฐะปัะตะผ ัััะพัะบะธ ั ะฟััััะผะธ ะทะฝะฐัะตะฝะธัะผะธ, ะตัะปะธ ะฟะพัะพะผ ะพััะฐะฝะตััั ะดะพััะฐัะพัะฝะพ ะดะฐะฝะฝัั
ะดะปั ะพะฑััะตะฝะธั
3.1 เดเตเดฐเดฎเดฐเดนเดฟเดคเดฎเดพเดฏ เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเดจเตเดจเต
import random #ะธะผะฟะพััะธััะตะผ random
df_numerical["ะบะพะปะพะฝะบะฐ"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ะบะพะปะพะฝะบะฐ"]), inplace=True) #ะฒััะฐะฒะปัะตะผ ัะฐะฝะดะพะผะฝัะต ะทะฝะฐัะตะฝะธั ะฒ ะฟััััะต ะบะปะตัะบะธ ัะฐะฑะปะธัั
3.2 เดธเตเดฅเดฟเดฐเดฎเดพเดฏ เดเดฐเต เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเดจเตเดจเต
from sklearn.impute import SimpleImputer #ะธะผะฟะพััะธััะตะผ SimpleImputer, ะบะพัะพััะน ะฟะพะผะพะถะตั ะฒััะฐะฒะธัั ะทะฝะฐัะตะฝะธั
imputer = SimpleImputer(strategy='constant', fill_value="<ะะฐัะต ะทะฝะฐัะตะฝะธะต ะทะดะตัั>") #ะฒััะฐะฒะปัะตะผ ะพะฟัะตะดะตะปะตะฝะฝะพะต ะทะฝะฐัะตะฝะธะต ั ะฟะพะผะพััั SimpleImputer
df_numerical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]) #ะัะธะผะตะฝัะตะผ ััะพ ะดะปั ะฝะฐัะตะน ัะฐะฑะปะธัั
df_numerical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True) #ะฃะฑะธัะฐะตะผ ะบะพะปะพะฝะบะธ ัะพ ััะฐััะผะธ ะทะฝะฐัะตะฝะธัะผะธ
3.3 เดถเดฐเดพเดถเดฐเดฟ เด เดฒเตเดฒเตเดเตเดเดฟเตฝ เดเดฑเตเดฑเดตเตเด เดชเดคเดฟเดตเต เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเด
from sklearn.impute import SimpleImputer #ะธะผะฟะพััะธััะตะผ SimpleImputer, ะบะพัะพััะน ะฟะพะผะพะถะตั ะฒััะฐะฒะธัั ะทะฝะฐัะตะฝะธั
imputer = SimpleImputer(strategy='mean', missing_values = np.nan) #ะฒะผะตััะพ mean ะผะพะถะฝะพ ัะฐะบะถะต ะธัะฟะพะปัะทะพะฒะฐัั most_frequent
df_numerical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_numerical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']]) #ะัะธะผะตะฝัะตะผ ััะพ ะดะปั ะฝะฐัะตะน ัะฐะฑะปะธัั
df_numerical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True) #ะฃะฑะธัะฐะตะผ ะบะพะปะพะฝะบะธ ัะพ ััะฐััะผะธ ะทะฝะฐัะตะฝะธัะผะธ
3.4 เดฎเดฑเตเดฑเตเดฐเต เดฎเตเดกเตฝ เดเดฃเดเตเดเดพเดเตเดเดฟเดฏ เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเด
เดเดฟเดฒเดชเตเดชเตเตพ เดธเตโเดเตเดฒเตเตบ เดฒเตเดฌเตเดฐเดฑเดฟเดฏเดฟเตฝ เดจเดฟเดจเตเดจเต เดธเดฎเดพเดจเดฎเดพเดฏ เดฎเดฑเตเดฑเต เดฒเตเดฌเตเดฐเดฑเดฟเดเดณเดฟเตฝ เดจเดฟเดจเตเดจเต เดเดณเตเดณ เดฎเตเดกเดฒเตเดเตพ เดเดชเดฏเตเดเดฟเดเตเดเต เดฑเดฟเดเตเดฐเดทเตป เดฎเตเดกเดฒเตเดเตพ เดเดชเดฏเตเดเดฟเดเตเดเต เดฎเตเดฒเตเดฏเดเตเดเตพ เดเดฃเดเตเดเดพเดเตเดเดพเด. เดธเดฎเตเดชเดญเดพเดตเดฟเดฏเดฟเตฝ เดเดคเต เดเดเตเดเดจเต เดเตเดฏเตเดฏเดพเด เดเดจเตเดจเดคเดฟเดจเตเดเตเดเตเดฑเดฟเดเตเดเต เดเดเตเดเดณเตเดเต เดเตเด เดเดฐเต เดชเตเดฐเดคเตเดฏเตเด เดฒเตเดเดจเด เดธเดฎเตผเดชเตเดชเดฟเดเตเดเตเด.
เด เดคเดฟเดจเดพเตฝ, เดเดชเตเดชเตเตพ, เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเตเดเตเดเตเดฑเดฟเดเตเดเตเดณเตเดณ เดตเดฟเดตเดฐเดฃเด เดคเดเดธเตเดธเดชเตเดชเตเดเตเด, เดเดพเดฐเดฃเด เดตเตเดฏเดคเตเดฏเดธเตเดค เดเตเดฒเดฟเดเตพเดเตเดเดพเดฏเดฟ เดกเดพเดฑเตเดฑ เดคเดฏเตเดฏเดพเดฑเดพเดเตเดเดฒเตเด เดชเตเดฐเตเดชเตเดฐเตเดธเดธเตเดธเดฟเดเดเตเด เดเดเตเดเดจเต เดฎเดฟเดเดเตเดเดคเดพเดเตเดเดพเด เดเดจเตเดจเดคเดฟเดจเตเดเตเดเตเดฑเดฟเดเตเดเต เดฎเดฑเตเดฑเต เดจเดฟเดฐเดตเดงเดฟ เดธเตเดเตเดทเตเดฎเดคเดเดณเตเดฃเตเดเต, เดเตเดเดพเดคเต เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเตเดเตเดเตเดณเตเดณ เด เดเดฟเดธเตเดฅเดพเดจ เดเดพเดฐเตเดฏเดเตเดเตพ เด เดฒเตเดเดจเดคเตเดคเดฟเตฝ เดเดฃเดเตเดเดฟเดฒเตเดเตเดเตเดเตเดจเตเดจเต, เดเตเดเดพเดคเต เดเดชเตเดชเตเตพ เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเดฟเดฒเตเดเตเดเต เดฎเดเดเตเดเดพเดจเตเดณเตเดณ เดธเดฎเดฏเดฎเดพเดฃเต, เด เดคเต เดเดเตเดเตพ เดเตเดตเดพเดฃเตเดเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดเดฏเดคเดฟเตฝ เดจเดฟเดจเตเดจเต เดชเดฒ เดเดเตเดเดเตเดเตพ เดชเดฟเดจเตเดจเตเดเตเดเต เดตเตเตผเดคเดฟเดฐเดฟเดเตเดเตเดจเตเดจเต. เด เดจเตเดเตเดเตเดฌเตเดเตเดเต เดจเดฟเดเตเดเตพเดเตเดเต เดเดทเตเดเดพเดจเตเดธเดฐเดฃเด เดฎเดพเดฑเตเดฑเดพเด, เดตเตเดฏเดคเตเดฏเดธเตเดค เดเดพเดธเตเดเตเดเตเดเดณเดฟเดฒเตเดเตเดเต เดเดคเต เดชเตเดฐเตเดคเตเดคเดชเตเดชเตเดเตเดคเตเดคเตเด, เด เดคเตเดตเดดเดฟ เดกเดพเดฑเตเดฑ เดชเตเดฐเตเดชเตเดฐเตเดธเดธเตเดธเดฟเดเดเต เดตเดณเดฐเต เดตเตเดเดคเตเดคเดฟเตฝ เดจเดเดเตเดเตเดจเตเดจเต!
เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑ
เด เดเดฟเดธเตเดฅเดพเดจเดชเดฐเดฎเดพเดฏเดฟ, เดเตเดฃเดชเดฐเดฎเดพเดฏ เดกเดพเดฑเตเดฑเดฏเตเดเตเดเดพเดฏเดฟ, เดเดฐเต เดธเตเดเตเดฐเดฟเดเดเดฟเตฝ เดจเดฟเดจเตเดจเต (เด เดฒเตเดฒเตเดเตเดเดฟเตฝ เดเดฌเตเดเดเตเดฑเตเดฑเดฟเตฝ) เดจเดฟเดจเตเดจเต เดเดฐเต เดธเดเดเตเดฏเดฏเดฟเดฒเตเดเตเดเต เดซเตเตผเดฎเดพเดฑเตเดฑเต เดเตเดฏเตเดฏเตเดจเตเดจเดคเดฟเดจเต เดตเตบ-เดนเตเดเตเดเต-เดเตปเดเตเดกเดฟเดเดเต เดฐเตเดคเดฟ เดเดชเดฏเตเดเดฟเดเตเดเตเดจเตเดจเต. เด เดชเตเดฏเดฟเดจเตเดฑเดฟเดฒเตเดเตเดเต เดชเตเดเตเดจเตเดจเดคเดฟเดจเต เดฎเตเดฎเตเดชเต, เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเตพ เดเตเดเดพเดฐเตเดฏเด เดเตเดฏเตเดฏเดพเตป เดฎเตเดเดณเดฟเดฒเตเดณเตเดณ เดกเดฏเดเตเดฐเดพเดฎเตเด เดเตเดกเตเด เดเดชเดฏเตเดเดฟเดเตเดเดพเด.
df_categorical.nunique()
sns.heatmap(df_categorical.isnull(),yticklabels=False,cbar=False,cmap='viridis')
0. เด
เดจเดพเดตเดถเตเดฏ เดเตเดณเดเตเดเตพ เดจเตเดเตเดเด เดเตเดฏเตเดฏเตเด
df_categorical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True)
1. เด เดจเดฟเดฐเดฏเดฟเดฒเต เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดเต เดเดฃเตเดฃเด 50% เตฝ เดเตเดเตเดคเดฒเดพเดฃเต?
print(df_categorical.isnull().sum() / df_numerical.shape[0] * 100)
df_categorical.drop(labels=["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2"], axis=1, inplace=True) #ะฃะดะฐะปัะตะผ, ะตัะปะธ ะบะฐะบะฐั-ัะพ ะบะพะปะพะฝะบะฐ
#ะธะผะตะตั ะฑะพะปััะต 50% ะฟััััั
ะทะฝะฐัะตะฝะธะน
2. เดถเตเดจเตเดฏเดฎเดพเดฏ เดฎเตเดฒเตเดฏเดเตเดเดณเตเดณเตเดณ เดตเดฐเดฟเดเตพ เดเดฒเตเดฒเดพเดคเดพเดเตเดเตเด
df_categorical.dropna(inplace=True)#ะฃะดะฐะปัะตะผ ัััะพัะบะธ ั ะฟััััะผะธ ะทะฝะฐัะตะฝะธัะผะธ,
#ะตัะปะธ ะฟะพัะพะผ ะพััะฐะฝะตััั ะดะพััะฐัะพัะฝะพ ะดะฐะฝะฝัั
ะดะปั ะพะฑััะตะฝะธั
3.1 เดเตเดฐเดฎเดฐเดนเดฟเดคเดฎเดพเดฏ เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเดจเตเดจเต
import random
df_categorical["ะบะพะปะพะฝะบะฐ"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ะบะพะปะพะฝะบะฐ"]), inplace=True)
3.2 เดธเตเดฅเดฟเดฐเดฎเดพเดฏ เดเดฐเต เดฎเตเดฒเตเดฏเด เดเตเตผเดเตเดเตเดจเตเดจเต
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='constant', fill_value="<ะะฐัะต ะทะฝะฐัะตะฝะธะต ะทะดะตัั>")
df_categorical[["ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ1",'ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ2','ะฝะพะฒะฐั_ะบะพะปะพะฝะบะฐ3']] = imputer.fit_transform(df_categorical[['ะบะพะปะพะฝะบะฐ1', 'ะบะพะปะพะฝะบะฐ2', 'ะบะพะปะพะฝะบะฐ3']])
df_categorical.drop(labels = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"], axis = 1, inplace = True)
เด เดคเดฟเดจเดพเตฝ, เดเตเดตเดพเดณเดฟเดฑเตเดฑเตเดฑเตเดฑเตเดตเต เดกเดพเดฑเตเดฑเดฏเดฟเดฒเต เดจเดฒเตเดฒเตเดเดณเดฟเตฝ เดเดเตเดเตพเดเตเดเต เดเดเตเดตเดฟเตฝ เดเดฐเต เดนเดพเตปเดกเดฟเตฝ เดฒเดญเดฟเดเตเดเต. เดจเดฟเดเตเดเดณเตเดเต เดกเดพเดฑเตเดฑเดพเดฌเตเดธเดฟเตฝ เดเดณเตเดณ เดฎเตเดฒเตเดฏเดเตเดเดณเดฟเตฝ เดเดฑเตเดฑ-เดนเตเดเตเดเต-เดเตปเดเตเดกเดฟเดเดเต เดจเดเดคเตเดคเดพเดจเตเดณเตเดณ เดธเดฎเดฏเดฎเดพเดฃเดฟเดคเต. เดเดฏเตผเดจเตเดจ เดจเดฟเดฒเดตเดพเดฐเดฎเตเดณเตเดณ เดกเดพเดฑเตเดฑเดฏเดฟเตฝ เดจเดฟเดจเตเดจเต เดจเดฟเดเตเดเดณเตเดเต เด เตฝเดเตเดฐเดฟเดคเด เดชเด เดฟเดเตเดเดพเดจเดพเดเตเดฎเตเดจเตเดจเต เดเดฑเดชเตเดชเดพเดเตเดเดพเตป เด เดฐเตเดคเดฟ เดชเดฒเดชเตเดชเตเดดเตเด เดเดชเดฏเตเดเดฟเดเตเดเตเดจเตเดจเต.
def encode_and_bind(original_dataframe, feature_to_encode):
dummies = pd.get_dummies(original_dataframe[[feature_to_encode]])
res = pd.concat([original_dataframe, dummies], axis=1)
res = res.drop([feature_to_encode], axis=1)
return(res)
features_to_encode = ["ะบะพะปะพะฝะบะฐ1","ะบะพะปะพะฝะบะฐ2","ะบะพะปะพะฝะบะฐ3"]
for feature in features_to_encode:
df_categorical = encode_and_bind(df_categorical, feature))
เด เดคเดฟเดจเดพเตฝ, เดเดเตเดเตพ เดชเตเดฐเดคเตเดฏเตเด เดเตเดฃเดชเดฐเดตเตเด เด เดณเดตเตเดชเดฐเดตเตเดฎเดพเดฏ เดกเดพเดฑเตเดฑ เดชเตเดฐเตเดธเดธเตเดธเต เดเตเดฏเตเดฏเตเดจเตเดจเดคเต เดชเตเตผเดคเตเดคเดฟเดฏเดพเดเตเดเดฟ - เด เดต เดตเตเดฃเตเดเตเด เดธเดเดฏเตเดเดฟเดชเตเดชเดฟเดเตเดเดพเดจเตเดณเตเดณ เดธเดฎเดฏเด
new_df = pd.concat([df_numerical,df_categorical], axis=1)
เดเดเตเดเตพ เดกเดพเดฑเตเดฑเดพเดธเตเดฑเตเดฑเตเดเตพ เดเดจเตเดจเดพเดฏเดฟ เดธเดเดฏเตเดเดฟเดชเตเดชเดฟเดเตเด เดถเตเดทเด, sklearn เดฒเตเดฌเตเดฐเดฑเดฟเดฏเดฟเตฝ เดจเดฟเดจเตเดจเต MinMaxScaler เดเดชเดฏเตเดเดฟเดเตเดเต เดจเดฎเตเดเตเดเต เดกเดพเดฑเตเดฑเดพ เดเตเดฐเดพเตปเดธเตเดซเตเตผเดฎเตเดทเตป เดเดชเดฏเตเดเดฟเดเตเดเดพเด. เดเดคเต เดเดเตเดเดณเตเดเต เดฎเตเดฒเตเดฏเดเตเดเดณเต 0 เดจเตเด 1 เดจเตเด เดเดเดฏเดฟเดฒเดพเดเตเดเตเด, เดญเดพเดตเดฟเดฏเดฟเตฝ เดฎเตเดกเดฒเดฟเดจเต เดชเดฐเดฟเดถเตเดฒเดฟเดชเตเดชเดฟเดเตเดเตเดฎเตเดชเตเตพ เดเดคเต เดธเดนเดพเดฏเดฟเดเตเดเตเด.
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
new_df = min_max_scaler.fit_transform(new_df)
เด เดกเดพเดฑเตเดฑ เดเดชเตเดชเตเตพ เดเดจเตเดคเดฟเดจเตเด เดคเดฏเตเดฏเดพเดฑเดพเดฃเต - เดจเตเดฏเตเดฑเตฝ เดจเตเดฑเตเดฑเตโเดตเตผเดเตเดเตเดเตพ, เดธเตเดฑเตเดฑเดพเตปเดกเตเตผเดกเต ML เด เตฝเดเตเดฐเดฟเดคเดเตเดเตพ เดฎเตเดคเดฒเดพเดฏเดต!
เด เดฒเตเดเดจเดคเตเดคเดฟเตฝ, เดเตเด เดธเตเดฐเตเดธเต เดกเดพเดฑเตเดฑเดฏเตเดฎเดพเดฏเดฟ เดชเตเดฐเดตเตผเดคเตเดคเดฟเดเตเดเตเดจเตเดจเดคเต เดเดเตเดเตพ เดเดฃเดเตเดเดฟเดฒเตเดเตเดคเตเดคเดฟเดฒเตเดฒ, เดเดพเดฐเดฃเด เด
เดคเตเดคเดฐเด เดกเดพเดฑเตเดฑเดฏเตโเดเตเดเดพเดฏเดฟ เดจเดฟเดเตเดเดณเตเดเต เดเตเดฎเดคเดฒเดฏเต เดเดถเตเดฐเดฏเดฟเดเตเดเต เดจเดฟเดเตเดเตพ เด
เดฒเตเดชเด เดตเตเดฏเดคเตเดฏเดธเตเดคเดฎเดพเดฏ เดชเตเดฐเตเดธเดธเตเดธเดฟเดเดเต เดเตเดเตเดจเดฟเดเตเดเตเดเตพ เดเดชเดฏเตเดเดฟเดเตเดเดฃเด. เดญเดพเดตเดฟเดฏเดฟเตฝ, เดเดเตเดเดณเตเดเต เดเตเด เด เดตเดฟเดทเดฏเดคเตเดคเดฟเดจเดพเดฏเดฟ เดเดฐเต เดชเตเดฐเดคเตเดฏเตเด เดฒเตเดเดจเด เดจเตเดเตเดเดฟเดตเดฏเตเดเตเดเตเด, เดเดคเต เดชเตเดฒเต เดจเดฟเดเตเดเดณเตเดเต เดเตเดตเดฟเดคเดคเตเดคเดฟเดฒเตเดเตเดเต เดฐเดธเดเดฐเดตเตเด เดชเตเดคเดฟเดฏเดคเตเด เดเดชเดฏเตเดเดชเตเดฐเดฆเดตเตเดฎเดพเดฏ เดเดจเตเดคเตเดเตเดเดฟเดฒเตเด เดเตเดฃเตเดเตเดตเดฐเดพเตป เดเดคเดฟเดจเต เดเดดเดฟเดฏเตเดฎเตเดจเตเดจเต เดเดเตเดเตพ เดชเตเดฐเดคเตเดเตเดทเดฟเดเตเดเตเดจเตเดจเต.
เด
เดตเดฒเดเดฌเด: www.habr.com