I te nuinga o nga wa ko nga tangata e uru ana ki te waahi o te Raraunga Raraunga he iti ake i nga tumanakohanga pono mo nga mea e tatari ana ki a raatau. He maha nga tangata e whakaaro ana inaianei ka tuhia e ratou nga whatunga neural hauhautanga, ka hangaia he kaiawhina reo mai i te Iron Man, ka whiua ranei nga tangata katoa o nga maakete putea.
Engari mahi Raraunga Ko te kaiputaiao he mea na-raraunga, a ko tetahi o nga mea tino nui me te whakapau i te waa ko te tukatuka i nga raraunga i mua i te whangai ki roto i te whatunga neural, ki te tΔtari ranei i tetahi huarahi.
I roto i tenei tuhinga, ka whakaahua to taatau roopu me pehea e taea ai e koe te tukatuka raraunga tere me te ngawari me nga tohutohu taahiraa-i-taahiraa me te waehere. I ngana matou ki te hanga i te waehere kia ngawari, ka taea te whakamahi mo nga huingararaunga rereke.
He maha nga tohunga kare pea e kite i tetahi mea whakamiharo i roto i tenei tuhinga, engari ka taea e te hunga timata te ako i tetahi mea hou, a ko te tangata kua roa e moemoea ana ki te hanga pukatuhi motuhake mo te tere me te hanga raraunga tukatuka ka taea te kape i te waehere me te whakahΕputu ma ratou ake,
I whiwhi matou i te huingararaunga. He aha te mahi i muri mai?
Na, ko te paerewa: me mohio tatou ki ta tatou e pa ana, te pikitia katoa. Hei mahi i tenei, ka whakamahia e matou nga pandas hei tautuhi noa i nga momo raraunga rereke.
import pandas as pd #ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠ΅ΠΌ pandas
import numpy as np #ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠ΅ΠΌ numpy
df = pd.read_csv("AB_NYC_2019.csv") #ΡΠΈΡΠ°Π΅ΠΌ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈ Π·Π°ΠΏΠΈΡΡΠ²Π°Π΅ΠΌ Π² ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ df
df.head(3) #ΡΠΌΠΎΡΡΠΈΠΌ Π½Π° ΠΏΠ΅ΡΠ²ΡΠ΅ 3 ΡΡΡΠΎΡΠΊΠΈ, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ½ΡΡΡ, ΠΊΠ°ΠΊ Π²ΡΠ³Π»ΡΠ΄ΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ
df.info() #ΠΠ΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅ΠΌ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°Ρ
Me titiro ki nga uara o te pou:
- He rite te maha o nga rarangi o ia pou ki te tapeke o nga rarangi?
- He aha te mauri o nga raraunga kei ia pou?
- Ko tΔhea tΔ«wae e hiahia ana mΔtou ki te whakawhΔiti kia matapae ai?
Ma nga whakautu ki enei patai ka taea e koe te tΔtari i te huingararaunga me te tuhi maahere mo o mahi ka whai ake.
Ano, mo te tirohanga hohonu ki nga uara o ia pou, ka taea e taatau te whakamahi i te mahi pandas describe(). Engari, ko te kino o tenei mahi ko te kore e tuku korero mo nga pou me nga uara aho. Ka mahi tatou ki a raatau i muri mai.
df.describe()
Te tirohanga makutu
Kia titiro tatou ki te waahi karekau he uara:
import seaborn as sns
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')
He ahua poto tenei mai i runga ake nei, inaianei ka neke atu ki nga mea whakamere
Me ngana ki te kimi, ki te taea, tangohia nga pou kotahi anake te uara o nga rarangi katoa (kaore e pa ki te hua i tetahi ara):
df = df[[c for c
in list(df)
if len(df[c].unique()) > 1]] #ΠΠ΅ΡΠ΅Π·Π°ΠΏΠΈΡΡΠ²Π°Π΅ΠΌ Π΄Π°ΡΠ°ΡΠ΅Ρ, ΠΎΡΡΠ°Π²Π»ΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ, Π² ΠΊΠΎΡΠΎΡΡΡ
Π±ΠΎΠ»ΡΡΠ΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΠΎΠ³ΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΡ
Inaianei kei te tiaki matou i a matou ano me te angitu o ta matou kaupapa mai i nga rarangi taarua (nga rarangi kei roto nga korero rite i te raupapa rite ki tetahi o nga rarangi o naianei):
df.drop_duplicates(inplace=True) #ΠΠ΅Π»Π°Π΅ΠΌ ΡΡΠΎ, Π΅ΡΠ»ΠΈ ΡΡΠΈΡΠ°Π΅ΠΌ Π½ΡΠΆΠ½ΡΠΌ.
#Π Π½Π΅ΠΊΠΎΡΠΎΡΡΡ
ΠΏΡΠΎΠ΅ΠΊΡΠ°Ρ
ΡΠ΄Π°Π»ΡΡΡ ΡΠ°ΠΊΠΈΠ΅ Π΄Π°Π½Π½ΡΠ΅ Ρ ΡΠ°ΠΌΠΎΠ³ΠΎ Π½Π°ΡΠ°Π»Π° Π½Π΅ ΡΡΠΎΠΈΡ.
Ka wehea e matou te huingararaunga kia rua: ko tetahi me nga uara kounga, ko tetahi me nga mea ine
I konei me whakamaarama iti: mena ko nga raina me nga raraunga ngaro i roto i nga raraunga kounga me te ine kaore i te tino honohono tetahi ki tetahi, katahi ka hiahia taatau ki te whakatau he aha ta tatou e patu ana - ko nga raina katoa me nga raraunga ngaro, he waahanga noa iho, etahi pou ranei. Mena ka hono nga raina, katahi ka tika taatau ki te wehewehe i te huingararaunga kia rua. Ki te kore, me mahi tuatahi koe ki nga rarangi kaore i te hono i nga raraunga ngaro i roto i te kounga me te ine, katahi ka wehewehea te huingararaunga kia rua.
df_numerical = df.select_dtypes(include = [np.number])
df_categorical = df.select_dtypes(exclude = [np.number])
Ka mahia e matou tenei kia maamaa ake te mahi i enei momo raraunga rereke e rua - hei muri ka mohio matou ki te ngawari ake o to maatau oranga.
Ka mahi matou me nga raraunga ine
Ko te mea tuatahi me mahi ko te whakatau mehemea he "tutei pou" kei roto i nga raraunga ine. Ka kiia e matou enei pou na te mea kei te whakaatu i a raatau ano he raraunga ine, engari he raraunga tohu.
Me pehea e mohio ai tatou ki a raatau? Ko te tikanga, ka whakawhirinaki katoa ki te ahua o nga raraunga e tΔtarihia ana e koe, engari i te nuinga o te waa he iti noa nga raraunga ahurei o aua pou (i te rohe o te 3-10 uara ahurei).
print(df_numerical.nunique())
Ina kitea e matou nga pou tutei, ka nekehia e matou mai i nga raraunga ine ki te raraunga kounga:
spy_columns = df_numerical[['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', 'ΠΊΠΎΠ»ΠΎΠΊΠ°2', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']]#Π²ΡΠ΄Π΅Π»ΡΠ΅ΠΌ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ-ΡΠΏΠΈΠΎΠ½Ρ ΠΈ Π·Π°ΠΏΠΈΡΡΠ²Π°Π΅ΠΌ Π² ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΡ dataframe
df_numerical.drop(labels=['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', 'ΠΊΠΎΠ»ΠΎΠΊΠ°2', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3'], axis=1, inplace = True)#Π²ΡΡΠ΅Π·Π°Π΅ΠΌ ΡΡΠΈ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΠΈΠ· ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ
Π΄Π°Π½Π½ΡΡ
df_categorical.insert(1, 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', spy_columns['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1']) #Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΠΌ ΠΏΠ΅ΡΠ²ΡΡ ΠΊΠΎΠ»ΠΎΠ½ΠΊΡ-ΡΠΏΠΈΠΎΠ½ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅
df_categorical.insert(1, 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2', spy_columns['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2']) #Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΠΌ Π²ΡΠΎΡΡΡ ΠΊΠΎΠ»ΠΎΠ½ΠΊΡ-ΡΠΏΠΈΠΎΠ½ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅
df_categorical.insert(1, 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3', spy_columns['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']) #Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅ΠΌ ΡΡΠ΅ΡΡΡ ΠΊΠΎΠ»ΠΎΠ½ΠΊΡ-ΡΠΏΠΈΠΎΠ½ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅
Ka mutu, kua tino wehea e matou nga raraunga ine mai i nga raraunga kounga, a inaianei ka taea e taatau te mahi tika. Ko te mea tuatahi ko te maarama kei hea nga uara kau (NaN, a i etahi wa ka whakaaetia te 0 hei uara kau).
for i in df_numerical.columns:
print(i, df[i][df[i]==0].count())
I tenei wa, he mea nui kia mohio kei hea nga pou kore ka tohu i nga uara ngaro: na te pehea i kohia ai nga raraunga? Ka taea ranei te hono ki nga uara raraunga? Me whakautuhia enei patai i runga i ia keehi.
Na, ki te whakatau tonu tatou kei te ngaro nga raraunga kei reira nga kore, me whakakapi nga koo ki te NaN kia maamaa ake te mahi me enei raraunga ngaro i muri mai:
df_numerical[["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ° 1", "ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ° 2"]] = df_numerical[["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ° 1", "ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ° 2"]].replace(0, nan)
Inaianei kia kite tatou kei hea te ngaro o nga raraunga:
sns.heatmap(df_numerical.isnull(),yticklabels=False,cbar=False,cmap='viridis') # ΠΠΎΠΆΠ½ΠΎ ΡΠ°ΠΊΠΆΠ΅ Π²ΠΎΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡΡΡ df_numerical.info()
I konei ko nga uara kei roto i nga pou e ngaro ana me tohu ki te kowhai. Na inaianei ka timata te ngahau - me pehea te mahi ki enei uara? Me muku ahau i nga rarangi me enei uara, pou ranei? Whakakiia ranei enei uara kau ki etahi atu?
Anei he hoahoa tata hei awhina i a koe ki te whakatau he aha te mea ka taea te mahi me nga uara kau:
0. Tangohia nga pou kore e tika ana
df_numerical.drop(labels=["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2"], axis=1, inplace=True)
1. He nui ake i te 50% te maha o nga uara kau o tenei pou?
print(df_numerical.isnull().sum() / df_numerical.shape[0] * 100)
df_numerical.drop(labels=["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2"], axis=1, inplace=True)#Π£Π΄Π°Π»ΡΠ΅ΠΌ, Π΅ΡΠ»ΠΈ ΠΊΠ°ΠΊΠ°Ρ-ΡΠΎ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ° ΠΈΠΌΠ΅Π΅Ρ Π±ΠΎΠ»ΡΡΠ΅ 50 ΠΏΡΡΡΡΡ
Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ
2. Mukua nga raina me nga uara putua
df_numerical.dropna(inplace=True)#Π£Π΄Π°Π»ΡΠ΅ΠΌ ΡΡΡΠΎΡΠΊΠΈ Ρ ΠΏΡΡΡΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ, Π΅ΡΠ»ΠΈ ΠΏΠΎΡΠΎΠΌ ΠΎΡΡΠ°Π½Π΅ΡΡΡ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ Π΄Π°Π½Π½ΡΡ
Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ
3.1. Te whakauru uara matapΕkere
import random #ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠ΅ΠΌ random
df_numerical["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°"]), inplace=True) #Π²ΡΡΠ°Π²Π»ΡΠ΅ΠΌ ΡΠ°Π½Π΄ΠΎΠΌΠ½ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ Π² ΠΏΡΡΡΡΠ΅ ΠΊΠ»Π΅ΡΠΊΠΈ ΡΠ°Π±Π»ΠΈΡΡ
3.2. Te whakauru uara tonu
from sklearn.impute import SimpleImputer #ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠ΅ΠΌ SimpleImputer, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ Π²ΡΡΠ°Π²ΠΈΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ
imputer = SimpleImputer(strategy='constant', fill_value="<ΠΠ°ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π·Π΄Π΅ΡΡ>") #Π²ΡΡΠ°Π²Π»ΡΠ΅ΠΌ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Ρ ΠΏΠΎΠΌΠΎΡΡΡ SimpleImputer
df_numerical[["Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1",'Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2','Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']] = imputer.fit_transform(df_numerical[['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']]) #ΠΡΠΈΠΌΠ΅Π½ΡΠ΅ΠΌ ΡΡΠΎ Π΄Π»Ρ Π½Π°ΡΠ΅ΠΉ ΡΠ°Π±Π»ΠΈΡΡ
df_numerical.drop(labels = ["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3"], axis = 1, inplace = True) #Π£Π±ΠΈΡΠ°Π΅ΠΌ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΡΠΎ ΡΡΠ°ΡΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ
3.3. Whakauruhia te uara toharite, te uara auau
from sklearn.impute import SimpleImputer #ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠ΅ΠΌ SimpleImputer, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ Π²ΡΡΠ°Π²ΠΈΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ
imputer = SimpleImputer(strategy='mean', missing_values = np.nan) #Π²ΠΌΠ΅ΡΡΠΎ mean ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°ΠΊΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ most_frequent
df_numerical[["Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1",'Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2','Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']] = imputer.fit_transform(df_numerical[['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']]) #ΠΡΠΈΠΌΠ΅Π½ΡΠ΅ΠΌ ΡΡΠΎ Π΄Π»Ρ Π½Π°ΡΠ΅ΠΉ ΡΠ°Π±Π»ΠΈΡΡ
df_numerical.drop(labels = ["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3"], axis = 1, inplace = True) #Π£Π±ΠΈΡΠ°Π΅ΠΌ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΡΠΎ ΡΡΠ°ΡΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ
3.4. Whakauruhia te uara i tatauhia e tetahi atu tauira
I etahi wa ka taea te tatau i nga uara ma te whakamahi i nga tauira whakaheke ma te whakamahi i nga tauira mai i te whare pukapuka sklearn me etahi atu whare pukapuka rite. Ka whakatapua e ta maatau roopu he tuhinga motuhake mo te pehea e taea ai tenei i nga wa e heke mai nei.
Na, mo tenei wa, ka haukotia te korero mo nga raraunga ine, no te mea he maha atu nga ahuatanga e pa ana ki te pai ake o te whakarite raraunga me te tukatuka o mua mo nga mahi rereke, me nga mea taketake mo nga raraunga ine kua whakaarohia i roto i tenei tuhinga, a Ko te wa tenei ki te hoki ki nga raraunga kounga, i wehea e matou etahi hikoinga mai i nga waahanga ine. Ka taea e koe te huri i tenei pukatuhi kia rite ki taau e pai ai, ka urutau ki nga mahi rereke, kia tere tere te tukatuka raraunga!
Te raraunga kounga
Ko te tikanga, mo nga raraunga kounga, ka whakamahia te tikanga One-hot-encoding hei whakahΕputu mai i te aho (he ahanoa ranei) ki te tau. I mua i te neke ki tenei waahi, me whakamahi te hoahoa me te waehere i runga ake nei hei mahi i nga uara kore.
df_categorical.nunique()
sns.heatmap(df_categorical.isnull(),yticklabels=False,cbar=False,cmap='viridis')
0. Tangohia nga pou kore e tika ana
df_categorical.drop(labels=["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2"], axis=1, inplace=True)
1. He nui ake i te 50% te maha o nga uara kau o tenei pou?
print(df_categorical.isnull().sum() / df_numerical.shape[0] * 100)
df_categorical.drop(labels=["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2"], axis=1, inplace=True) #Π£Π΄Π°Π»ΡΠ΅ΠΌ, Π΅ΡΠ»ΠΈ ΠΊΠ°ΠΊΠ°Ρ-ΡΠΎ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°
#ΠΈΠΌΠ΅Π΅Ρ Π±ΠΎΠ»ΡΡΠ΅ 50% ΠΏΡΡΡΡΡ
Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ
2. Mukua nga raina me nga uara putua
df_categorical.dropna(inplace=True)#Π£Π΄Π°Π»ΡΠ΅ΠΌ ΡΡΡΠΎΡΠΊΠΈ Ρ ΠΏΡΡΡΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ,
#Π΅ΡΠ»ΠΈ ΠΏΠΎΡΠΎΠΌ ΠΎΡΡΠ°Π½Π΅ΡΡΡ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ Π΄Π°Π½Π½ΡΡ
Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ
3.1. Te whakauru uara matapΕkere
import random
df_categorical["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°"].fillna(lambda x: random.choice(df[df[column] != np.nan]["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°"]), inplace=True)
3.2. Te whakauru uara tonu
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='constant', fill_value="<ΠΠ°ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π·Π΄Π΅ΡΡ>")
df_categorical[["Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1",'Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2','Π½ΠΎΠ²Π°Ρ_ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']] = imputer.fit_transform(df_categorical[['ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2', 'ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3']])
df_categorical.drop(labels = ["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3"], axis = 1, inplace = True)
Na, i te mutunga kua whiwhi matou i te kakau mo nga nulls i roto i nga raraunga kounga. Inaianei kua tae ki te wa ki te mahi whakawaehere kotahi-wera i runga i nga uara kei roto i to papaunga raraunga. Ka whakamahia tenei tikanga ki te whakarite ka taea e to algorithm te ako mai i nga raraunga kounga teitei.
def encode_and_bind(original_dataframe, feature_to_encode):
dummies = pd.get_dummies(original_dataframe[[feature_to_encode]])
res = pd.concat([original_dataframe, dummies], axis=1)
res = res.drop([feature_to_encode], axis=1)
return(res)
features_to_encode = ["ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°1","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°2","ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°3"]
for feature in features_to_encode:
df_categorical = encode_and_bind(df_categorical, feature))
Na, kua oti i a maatau te tukatuka i nga raraunga ine me te ine - he wa ki te whakakotahi ano
new_df = pd.concat([df_numerical,df_categorical], axis=1)
I muri i te whakakotahitanga o nga huingararaunga ki te kotahi, ka taea e taatau te whakamahi huringa raraunga ma te whakamahi i te MinMaxScaler mai i te whare pukapuka sklearn. Ma tenei ka whakatauhia o taatau uara i waenga i te 0 me te 1, ka awhina i te whakangungu i te tauira a meake nei.
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
new_df = min_max_scaler.fit_transform(new_df)
Kua reri enei raraunga mo nga mea katoa - whatunga neural, ML algorithms paerewa, aha atu!
I roto i tenei tuhinga, kaore matou i whai whakaaro ki te mahi me nga raraunga raupapa wa, na te mea mo enei raraunga me whakamahi koe i nga tikanga tukatuka rereke, i runga i to mahi. I nga wa kei te heke mai, ka tukuna e ta maatau roopu he tuhinga motuhake mo tenei kaupapa, a ko te tumanako ka taea e ia te kawe mai i tetahi mea whakamere, hou, whai hua ki roto i to oranga, penei i tenei.
Source: will.com