Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas

O le laasaga muamua pe a amata galue ma se seti faʻamatalaga fou o le malamalama i ai. Ina ia faia lenei mea, e te manaʻomia, mo se faʻataʻitaʻiga, e suʻe le aofaʻi o tulaga taua e talia e le fesuiaiga, o latou ituaiga, ma saili foi e uiga i le numera o tau o loʻo misi.

O le faletusi pandas e maua ai le tele o meafaigaluega aoga mo le faʻatinoina o suʻesuʻega faʻamaumauga (EDA). Ae ae e te leʻi faʻaaogaina, e masani ona e manaʻomia e amata i nisi galuega lautele e pei o le df.describe(). Ae ui i lea, e tatau ona maitauina o le gafatia e tuʻuina atu e ia galuega e faʻatapulaʻaina, ma o laʻasaga muamua o le galue ma soʻo se seti faʻamaumauga pe a faia le EDA e masani ona tutusa le tasi ma le isi.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas

O le tusitala o mea o loʻo matou lolomiina i aso nei e fai mai e le o ia o se tagata fiafia e faia ni gaioiga faifaipea. O se taunuuga, i le sailiga o meafaigaluega e vave ma lelei le faia o suʻesuʻega o faʻamaumauga, na ia maua ai le faletusi pandas-profiling. O taunuʻuga o lana galuega e le faʻaalia i le tulaga o nisi o faʻailoga taʻitoʻatasi, ae i le tulaga o se faʻamatalaga auiliili HTML o loʻo i ai le tele o faʻamatalaga e uiga i faʻamatalaga auʻiliʻili atonu e te manaʻomia e iloa aʻo leʻi amata galue vavalalata ma ia.

O iinei o le a tatou tilotilo ai i foliga o le faʻaaogaina o le pandas-profiling library e faʻaaoga ai le Titanic dataset e fai ma faʻataʻitaʻiga.

Su'esu'e fa'amatalaga fa'amatalaga e fa'aaoga ai pandas

Na ou filifili e faʻataʻitaʻi i pandas-profiling i luga o le Titanic dataset ona o ituaiga eseese o faʻamatalaga o loʻo i ai ma le i ai o mea taua o loʻo misi i totonu. Ou te talitonu o le pandas-profiling library e sili ona manaia i mataupu e leʻi faʻamamaina faʻamaumauga ma manaʻomia ai le faʻaogaina atili e faʻatatau i ona uiga. Ina ia manuia le faʻatinoina o ia gaioiga, e tatau ona e iloa le mea e amata ai ma le mea e gauai i ai. O le mea lea e maua ai le tomai faʻasalalau pandas.

Muamua, matou te faʻaulufaleina faʻamaumauga ma faʻaoga pandas e maua ai faʻamaumauga faʻamatalaga:

# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np

# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')

# вычисление показателей описательной статистики
df.describe()

A maeʻa ona faʻatino lenei fasi code, o le ae mauaina le mea o loʻo faʻaalia i le ata o loʻo i lalo.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
Fa'amatalaga fa'amaumauga e maua mai i le fa'aaogaina o meafaigaluega masani pandas

E ui lava o loʻo i ai le tele o faʻamatalaga aoga iinei, e le o iai mea uma e manaia e iloa e uiga i faʻamatalaga o loʻo suʻesuʻeina. Mo se faʻataʻitaʻiga, atonu e manatu se tasi i totonu o se faʻamatalaga faʻamatalaga, i totonu o se fausaga DataFrame, e 891 laina. Afai e manaʻomia le siakiina o lenei mea, ona manaʻomia lea o se isi laina code e iloa ai le tele o le faʻavaa. E ui o nei fa'atusatusaga e le'o fa'atauva'a tele a'oa'oga, o le toe faia i taimi uma o le a maumau ai le taimi e sili atu ona fa'aalu e fa'amamā ai fa'amaumauga.

Su'esu'ega fa'amatalaga fa'amatalaga e fa'aaoga ai pandas-profiling

Ia tatou faia le mea lava e tasi e faʻaaoga ai le pandas-profiling:

pandas_profiling.ProfileReport(df)

O le fa'atinoina o le laina o lo'o i luga o le a fa'atupuina ai se lipoti fa'atasi ai ma fa'ailoga su'esu'e o fa'amaumauga. O le faʻailoga o loʻo faʻaalia i luga o le a faʻaalia ai faʻamaumauga o loʻo maua, ae e mafai ona e faia se faila HTML e mafai ona e faʻaali atu i se tasi, mo se faʻataʻitaʻiga.

O le vaega muamua o le lipoti o le a aofia ai se Va'aiga Va'aiga, tu'uina atu fa'amatalaga autu e uiga i fa'amaumauga (numera o fa'amatalaga, numera o fesuiaiga, ma isi). O le a iai foʻi se lisi o faʻasalalauga, faʻailoa i le tagata suʻesuʻe mea e tatau ona gauai faapitoa i ai. O nei fa'aaliga e mafai ona tu'uina atu ai fa'aataataga i le mea e mafai ona e taula'i atu ai au taumafaiga fa'amama fa'amaumauga.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
Vaaiga lautele lipoti vaega

Su'esu'ega Su'esu'ega Su'esu'ega

I lalo ifo o le Va'aiga lautele o le lipoti e mafai ona e mauaina fa'amatalaga aoga e uiga i fesuiaiga taitasi. Latou te aofia ai, faʻatasi ai ma isi mea, siata laiti e faʻamatala ai le tufatufaina o fesuiaiga taitasi.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
E uiga i le Fuafuaga Numera Tausaga

E pei ona mafai ona e vaʻaia mai le faʻataʻitaʻiga talu ai, o le pandas-profiling e tuʻuina mai ia i matou ni faʻamatalaga aoga, e pei o le pasene ma le numera o mea taua o loʻo misi, faʻapea foʻi ma faʻamatalaga fuainumera fuainumera ua uma ona matou vaʻaia. Aua Age o se fesuiaiga numera, vaʻaia o lona tufatufaga i le tulaga o se histogram e mafai ai ona tatou faʻamaonia o loʻo i ai se tatou tufatufaga faʻafefe i le taumatau.

Pe a iloiloina se fesuiaiga fa'avasegaina, o fa'ai'uga o galuega e fai si ese teisi mai mea na maua mo se fesuiaiga numera.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
E uiga ile Sex categorical variable

O lona uiga, nai lo le sailia o le averesi, laʻititi ma le maualuga, o le pandas-profiling library na maua le numera o vasega. Aua Sex - o se fesuiaiga binary, o ona tau o loʻo faʻatusalia e vasega e lua.

Afai e te manaʻo e suʻesuʻe faʻailoga pei o aʻu, atonu e te fiafia i le auala tonu e fuafua ai e le pandas-profiling library nei fua. O le su'esu'eina o lenei mea, ona o lo'o tatala le fa'ailoga faletusi ma avanoa ile GitHub, e le faigata tele. Talu ai e le o aʻu o se tagata fiafia tele i le faʻaaogaina o pusa uliuli i aʻu galuega faatino, sa ou tilotilo i le faʻailoga puna a le faletusi. Mo se faʻataʻitaʻiga, o le mea lea e foliga mai ai le masini mo le faʻaogaina o numera numera, faʻatusalia e le galuega describe_numeric_1d:

def describe_numeric_1d(series, **kwargs):
    """Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
    Also create histograms (mini an full) of its distribution.
    Parameters
    ----------
    series : Series
        The variable to describe.
    Returns
    -------
    Series
        The description of the variable as a Series with index being stats keys.
    """
    # Format a number as a percentage. For example 0.25 will be turned to 25%.
    _percentile_format = "{:.0%}"
    stats = dict()
    stats['type'] = base.TYPE_NUM
    stats['mean'] = series.mean()
    stats['std'] = series.std()
    stats['variance'] = series.var()
    stats['min'] = series.min()
    stats['max'] = series.max()
    stats['range'] = stats['max'] - stats['min']
    # To avoid to compute it several times
    _series_no_na = series.dropna()
    for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
        # The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
        stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
    stats['iqr'] = stats['75%'] - stats['25%']
    stats['kurtosis'] = series.kurt()
    stats['skewness'] = series.skew()
    stats['sum'] = series.sum()
    stats['mad'] = series.mad()
    stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
    stats['n_zeros'] = (len(series) - np.count_nonzero(series))
    stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
    # Histograms
    stats['histogram'] = histogram(series, **kwargs)
    stats['mini_histogram'] = mini_histogram(series, **kwargs)
    return pd.Series(stats, name=series.name)

E ui lava e foliga mai e lapopoa ma lavelave lenei fasi code, ae e matua faigofie lava ona malamalama. O le manatu o loʻo i ai i totonu o le code source o le faletusi o loʻo i ai se galuega e fuafua ai ituaiga o fesuiaiga. Afai e aliali mai o le faletusi na feagai ma se fesuiaiga numera, o le galuega o loʻo i luga o le a maua ai le metric na matou vaʻai i ai. O lenei galuega e faʻaogaina ai galuega masani pandas mo le galue i mea faitino Series, pei series.mean(). O fa'ai'uga fa'atatau o lo'o teuina ile lomifefiloi stats. Histograms e fa'atupuina e fa'aaoga ai se fa'ata'ita'iga o le galuega matplotlib.pyplot.hist. Fetuuna'iga e fa'atatau i le fa'amautinoaina o le galuega e mafai ona galue i ituaiga eseese o fa'amaumauga.

Fa'ailoga fa'atasi ma fa'amatalaga fa'ata'ita'iga na su'esu'eina

A maeʻa faʻaiʻuga o le auʻiliʻiliga o fesuiaiga, pandas-profiling, i le vaega Faʻasalalauga, o le a faʻaalia ai matrices faʻatasi a Pearson ma Spearman.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
Pearson matrix fa'atasi

Afai e manaʻomia, e mafai, i le laina o le code lea e faʻaosoina ai le faʻatupuina o le lipoti, seti faʻailoga o le faʻaogaina o le faʻaaogaina pe a faʻatusatusa le faʻamaopoopoina. I le faia o lenei mea, e mafai ona e faʻamaonia poʻo le a le malosi o le faʻamaopoopoina e taua mo lau suʻesuʻega.

Mulimuli ane, i le pandas-profiling lipoti, i le vaega Faʻataʻitaʻiga, o se vaega o faʻamaumauga na maua mai le amataga o faʻamaumauga faʻamaumauga o loʻo faʻaalia e fai ma faʻataʻitaʻiga. O lenei faiga e mafai ona oʻo atu ai i ni mea e ofo ai, talu ai o nai faʻamatalaga muamua e mafai ona faʻatusalia se faʻataʻitaʻiga e le atagia ai uiga o le faʻamaumauga atoa.

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas
Vaega o lo'o iai fa'amatalaga fa'ata'ita'iga o lo'o su'esu'eina

O se taunuuga, ou te le fautuaina le gauai atu i lenei vaega mulimuli. Nai lo lena, e sili atu le faʻaaogaina o le faʻatonuga df.sample(5), lea o le a filifilia faʻafuaseʻi 5 faʻamatalaga mai le seti faʻamaumauga.

O taunuʻuga

I se aotelega, o le pandas-profiling library e tuʻuina atu ai i le au suʻesuʻe ni tomai aoga o le a faʻaaogaina i mataupu e te manaʻomia vave maua ai se manatu faigata o faʻamatalaga pe tuʻuina atu se lipoti o suʻesuʻega atamai i se tasi. I le taimi lava e tasi, o galuega moni ma faʻamatalaga, faʻatatau i ona foliga, e faia, e aunoa ma le faʻaaogaina o pandas-profiling, ma le lima.

Afai e te manaʻo e vaʻavaʻai i foliga uma o suʻesuʻega faʻamatalaga faʻamatalaga i totonu o le tasi api Jupyter, vaʻai i ai lenei O laʻu poloketi na faia e faʻaaoga ai le nbviewer. Ma i totonu lenei E mafai ona e mauaina le code tutusa i GitHub repositories.

Lau faitau le au faitau! O fea e te amata su'esu'eina ai fa'amaumauga fou?

Fa'atele le su'esu'eina o fa'amaumauga e fa'aaoga ai le faletusi fa'asalalau pandas

puna: www.habr.com

Faaopoopo i ai se faamatalaga