Ko te mahi tuatahi ka timata ki te mahi me tetahi huinga raraunga hou ko te maarama. Hei mahi i tenei, me rapu koe, hei tauira, ki te rapu i nga awhe o nga uara e whakaaetia ana e nga taurangi, o raatau momo, me te rapu hoki mo te maha o nga uara kua ngaro.
Ko te whare pukapuka pandas he maha nga taputapu whai hua mo te mahi tātari raraunga torotoro (EDA). Engari i mua i to whakamahi i aua mea, me timata koe ki etahi atu mahi whanui penei i te df.describe(). Engari, me tohu ko nga kaha e whakaratohia ana e enei mahi he iti, a ko nga waahanga tuatahi o te mahi me nga huinga raraunga i te wa e mahi ana i te EDA he tino rite ki a raatau.
Ko te kaituhi o nga korero e whakaputahia ana e matou i tenei ra e kii ana ehara ia i te kaikawe ki te mahi i nga mahi tukurua. Ko te mutunga mai, i te rapu taputapu kia tere me te whai hua te mahi tātari raraunga torotoro, i kitea e ia te whare pukapuka
I konei ka titiro tatou ki nga ahuatanga o te whakamahi i te whare pukapuka pandas-profiling ma te whakamahi i te huingararaunga Titanic hei tauira.
Te tātari raraunga torotoro ma te whakamahi pandas
I whakatau ahau ki te whakamatau i nga pandas-profiling i runga i te huingararaunga Titanic na te rereke o nga momo raraunga kei roto me te waahi o nga uara ngaro kei roto. E whakapono ana ahau he mea tino pai te whare pukapuka pandas-profiling i roto i nga keehi kaore ano kia horoia nga raraunga me te hiahia kia tukatuka ano i runga i ona ahuatanga. Kia pai ai te mahi i taua tukinga, me mohio koe ki hea ka tiimata me te aha me aro. Koinei te waahi ka whai waahi nga mahi tohu pandas.
Tuatahi, ka kawemai matou i nga raraunga me te whakamahi pandas ki te tiki tatauranga whakaahuatanga:
# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np
# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# вычисление показателей описательной статистики
df.describe()
I muri i te mahi i tenei waahanga waehere, ka whiwhi koe i nga mea e whakaatuhia ana i te ahua e whai ake nei.
Ko nga tatauranga whakaahuatanga i whiwhi ma te whakamahi i nga taputapu pandas paerewa
Ahakoa he maha nga korero whai hua kei konei, kaore nga mea katoa e pai ana ki te mohio mo nga raraunga e rangahauhia ana. Hei tauira, ka whakaaro pea tetahi i roto i te anga raraunga, i roto i te hanganga DataFrame
, e 891 nga rarangi. Mena me tirotirohia tenei, ka hiahiatia tetahi atu rarangi waehere hei whakatau i te rahi o te anga. Ahakoa ehara enei tatauranga i te tino kaha rawa, ko te whakahoki ano i nga waa katoa ka pau te waa ka pai ake pea te horoi i nga raraunga.
Te tātari raraunga torotoro ma te whakamahi i te tohu-pandas
Inaianei me pena ano ma te whakamahi i te tohu-pandas:
pandas_profiling.ProfileReport(df)
Ma te mahi i te rarangi o runga ake nei ka puta he purongo me nga tohu tātari raraunga torotoro. Ko te waehere e whakaatuhia ana i runga ake ka whakaputa i nga raraunga i kitea, engari ka taea e koe te whakaputa i te konae HTML ka taea e koe te whakaatu ki tetahi, hei tauira.
Kei te wahanga tuatahi o te ripoata he waahanga Tirohanga, e whakaatu ana i nga korero taketake mo nga raraunga (te maha o nga tirohanga, te maha o nga taurangi, me etahi atu). Kei roto ano he rarangi o nga matohi, e whakamohio ana ki te kaitirotiro mo nga mea hei aro nui. Ka taea e enei matohi te whakaatu tohu mo te waahi ka taea e koe te arotahi ki o mahi horoi raraunga.
Te waahanga ripoata tirohanga
Tātari Taurangi Tuhura
Kei raro i te waahanga Tirohanga o te ripoata ka kitea e koe nga korero whai hua mo ia taurangi. Kei roto i era atu mea, he mahere iti e whakaatu ana i te tohatoha o ia taurangi.
Mo te Taurangi Tau Tau
Ka taea e koe te kite mai i te tauira o mua, he maha nga tohu whai hua a pandas-profiling, penei i te paheketanga me te maha o nga uara ngaro, tae atu ki nga inenga tatauranga whakaahua kua kitea e matou. No te mea Age
he taurangi tau, ko te tirohanga o tona tohatoha i roto i te ahua o te histogram ka taea e tatou te whakatau he tohatoha toha ki te taha matau.
Ina whakaarohia he taurangi taurangi, he paku rereke nga hua whakaputa mai i nga mea i kitea mo te taurangi tau.
Mō te taurangi kāwai Sex
Ara, hei utu mo te rapu i te toharite, te iti me te teitei, i kitea e te whare pukapuka pandas-profiling te maha o nga karaehe. No te mea Sex
— he taurangi rua, e rua nga karaehe e tohu ana ona uara.
Mena kei te pirangi koe ki te tirotiro i nga waehere penei i ahau, kei te pirangi pea koe me pehea te tatau a te whare pukapuka pandas-profiling i enei inenga. Ko te rapu mo tenei, na te mea kei te tuwhera te waehere whare pukapuka me te waatea i runga i te GitHub, ehara i te mea uaua. I te mea ehara ahau i te tino powhiriwhiri ki te whakamahi i nga pouaka pango i roto i aku kaupapa, ka titiro ahau ki te waehere puna o te whare pukapuka. Hei tauira, koinei te ahua o te tikanga mo te tukatuka taurangi tau, e tohuhia ana e te mahi
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)
Ahakoa te ahua nui me te uaua o tenei waahanga waehere, he tino maamaa te maarama. Ko te tohu kei roto i te waehere puna o te whare pukapuka he mahi hei whakatau i nga momo taurangi. Mena ka puta mai kua tutaki te whare pukapuka ki tetahi taurangi tau, ka kitea e te mahinga o runga ake nga ine i tirohia e matou. Ka whakamahia e tenei mahi nga mahi pandas paerewa mo te mahi me nga momo momo Series
, rite series.mean()
. Ka penapenahia nga hua tatauranga ki te papakupu stats
. Ka hangaia nga histograms ma te whakamahi i te putanga urutau o te mahi matplotlib.pyplot.hist
. Ko te urutau ki te whakarite ka taea e te mahi te mahi me nga momo huinga raraunga rereke.
Ko nga tohu honohono me nga tauira raraunga i akohia
Whai muri i nga hua o te wetewete o nga taurangi, ko te pandas-profiling, kei te wahanga Whakakotahitanga, ka whakaatu i nga matrices hononga Pearson me Spearman.
Pearson matrix hononga
Mena e tika ana, ka taea e koe, i roto i te rarangi waehere e whakaohooho ana i te whakatipuranga o te ripoata, te whakarite i nga tohu o nga uara paepae e whakamahia ana i te wa e tatau ana i te hononga. Ma te mahi i tenei, ka taea e koe te tohu he aha te kaha o te hononga e kiia ana he mea nui mo to tātaritanga.
Ka mutu, ka whakaatuhia e te ripoata panda-profiling, i te waahanga Tauira, hei tauira, he waahanga raraunga i tangohia mai i te timatanga o te huinga raraunga. Ka taea e tenei huarahi te arahi ki nga ohorere kino, na te mea ko nga tirohanga tuatahi ka tohu pea he tauira kaore i te whakaatu i nga ahuatanga o te huinga raraunga katoa.
Wāhanga kei roto he tauira raraunga e rangahaua ana
Ko te mutunga mai, kaore au e kii kia aro koe ki tenei waahanga whakamutunga. Engari, he pai ake te whakamahi i te whakahau df.sample(5)
, ka kowhiri matapōkeretia e 5 nga tirohanga mai i te huinga raraunga.
Ngā putanga
Hei whakarāpopototanga, ka hoatu e te whare pukapuka pandas-profiling ki te kaitātari etahi kaha whai hua ka whai hua i roto i nga keehi e hiahia ana koe ki te whai whakaaro tere mo nga raraunga ka tukuna atu ranei he purongo tātaritanga matauranga ki tetahi. I te wa ano, ko te mahi pono me nga raraunga, me te whakaaro ki ona ahuatanga, ka mahia, me te kore e whakamahi i te pandas-profiling, ma te ringa.
Mena kei te pirangi koe ki te titiro ki te ahua o nga tātaritanga raraunga mohio katoa i roto i tetahi pukatuhi Jupyter, tirohia
E nga kaipānui aroha! Kei hea koe ka timata ki te tarai i nga huinga raraunga hou?
Source: will.com