ืืฆืขื ืืจืืฉืื ืืืฉืจ ืืชืืืืื ืืขืืื ืขื ืืขืจื ื ืชืื ืื ืืืฉ ืืื ืืืืื ืืืชื. ืืื ืืขืฉืืช ืืืช, ืืชื ืฆืจืื, ืืืฉื, ืืืจืจ ืืช ืืืืื ืืขืจืืื ืืืงืืืืื ืขื ืืืฉืชื ืื, ืกืืืืื, ืืื ืืืจืจ ืขื ืืกืคืจ ืืขืจืืื ืืืกืจืื.
ืกืคืจืืืช ืืคื ืืืช ืืกืคืงืช ืื ื ืืืื ืฉืืืืฉืืื ืจืืื ืืืืฆืืข ื ืืชืื ื ืชืื ืื ืืงืจื ื (EDA). ืืื ืืคื ื ืฉืืชื ืืฉืชืืฉ ืืื, ืืชื ืืืจื ืืื ืฆืจืื ืืืชืืื ืขื ืคืื ืงืฆืืืช ืืืืืืช ืืืชืจ ืืืื df.describe(). ืขื ืืืช, ืืฉ ืืฆืืื ืื ืืืืืืืช ืฉืืกืคืงืืช ืคืื ืงืฆืืืช ืืืื ืืืืืืืช, ืืืฉืืืื ืืจืืฉืื ืืื ืฉื ืืขืืืื ืขื ืืขืจืื ื ืชืื ืื ืืืฉืื ืืขืช ืืืฆืืข EDA ืืืืื ืืืื ืื ืืื.
ืืืืจ ืืืืืจ ืฉืื ื ืืคืจืกืืื ืืืื ืืืืจ ืฉืืื ืื ืืืื ืืืฆืืข ืคืขืืืืช ืฉืืืืจืืช ืขื ืขืฆืื. ืืชืืฆืื ืืื, ืืืืคืืฉ ืืืจ ืืืื ืืืืฆืืข ืืืืจ ืืืขืื ืฉื ื ืืชืื ื ืชืื ืื ืืงืจื ืืื, ืืื ืืฆื ืืช ืืกืคืจืืื
ืืื ื ืกืชืื ืขื ืืชืืื ืืช ืฉื ืฉืืืืฉ ืืกืคืจืืืช ืคืจืืคืืื ืืคื ืืืช ืืืืฆืขืืช ืืขืจื ืื ืชืื ืื ืฉื Titanic ืืืืืื.
ื ืืชืื ื ืชืื ืื ืืงืจื ื ืืืืฆืขืืช ืคื ืืืช
ืืืืืชื ืืืชื ืกืืช ื-Pandas-profiling ืขื ืืขืจื ืื ืชืื ืื ืฉื Titanic ืืฉื ืกืืื ืื ืชืื ืื ืืฉืื ืื ืฉืืื ืืืื ืื ืืืืืชื ืฉื ืขืจืืื ืืกืจืื ืื. ืื ื ืืืืื ืฉืกืคืจืืืช ืคืจืืคืืื ืืคื ืืืช ืืขื ืืื ืช ืืืืืื ืืืงืจืื ืืื ืื ืชืื ืื ืืจื ื ืืงื ืืืืจืฉืช ืขืืืื ื ืืกืฃ ืืืชืื ืืืืคืืื ืื. ืขื ืื ืช ืืืฆืข ืืืฆืืื ืขืืืื ืืื, ืืชื ืฆืจืื ืืืขืช ืืืืคื ืืืชืืื ืืืื ืืฉืื ืื. ืื ืืืงืื ืฉืื ืืืืืืช ืืฆืืจืช ืคืจืืคืืื ืคื ืืืช ืืืขืืืืช.
ืจืืฉืืช, ืื ื ืืืืืืื ืืช ืื ืชืื ืื ืืืฉืชืืฉืื ืืคื ืืืช ืืื ืืงืื ื ืชืื ืื ืกืืืืกืืืื ืชืืืืจืืื:
# ะธะผะฟะพัั ะฝะตะพะฑั
ะพะดะธะผัั
ะฟะฐะบะตัะพะฒ
import pandas as pd
import pandas_profiling
import numpy as np
# ะธะผะฟะพัั ะดะฐะฝะฝัั
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# ะฒััะธัะปะตะฝะธะต ะฟะพะบะฐะทะฐัะตะปะตะน ะพะฟะธัะฐัะตะปัะฝะพะน ััะฐัะธััะธะบะธ
df.describe()
ืืืืจ ืืืฆืืข ืงืืข ืงืื ืื, ืชืงืื ืืช ืื ืฉืืืฆื ืืืืืจ ืืื.
ืกืืืืกืืืงื ืชืืืืจืืช ืืืชืงืืืช ืืืืฆืขืืช ืืื ืคื ืื ืกืื ืืจืืืื
ืืืจืืช ืฉืืฉ ืืื ืืจืื ืืืืข ืฉืืืืฉื, ืืื ืื ืืืื ืืช ืื ืื ืฉืืืื ืืขื ืืื ืืืขืช ืขื ืื ืชืื ืื ืื ืืืงืื. ืืืืืื, ืืคืฉืจ ืืื ืื ืฉืืืกืืจืช ื ืชืื ืื, ืืืื ื DataFrame
, ืืฉ 891 ืงืืืื. ืื ืืฉ ืฆืืจื ืืืืืง ืืืช, ื ืืจืฉืช ืฉืืจืช ืงืื ื ืืกืคืช ืืื ืืงืืืข ืืช ืืืื ืืืกืืจืช. ืืืจืืช ืฉืืืฉืืืื ืืื ืืื ื ืขืชืืจื ืืฉืืืื ืืืืืื, ืืืจื ืขืืืื ืื ืืืื ืืืืืช ืืืืื ืืื ืฉืื ืจืื ื ืืชื ืืื ืืืืื ืืื ืืืชืจ ืื ืืงืื ืื ืชืื ืื.
ื ืืชืื ื ืชืื ืื ืืงืจื ื ืืืืฆืขืืช ืคืจืืคืืื ืคื ืืืช
ืขืืฉืื ืืืื ื ืขืฉื ืืช ืืืชื ืืืืจ ืืืืฆืขืืช ืคืจืืคืืื ืคื ืืืช:
pandas_profiling.ProfileReport(df)
ืืืฆืืข ืฉืืจืช ืืงืื ืฉืืืขืื ืืคืืง ืืื ืขื ืืื ืืืงืืืจืื ืื ืืชืื ื ืชืื ืื ืืงืจื ืืื. ืืงืื ืืืืฆื ืืขืื ืืืฆืื ืืช ืื ืชืื ืื ืฉื ืืฆืื, ืืื ืืชื ืืืื ืืืจืื ืื ืืคืื ืงืืืฅ HTML ืฉืืชื ืืืื ืืืฆืื ืืืืฉืื, ืืืฉื.
ืืืืง ืืจืืฉืื ืฉื ืืืื ืืืื ืงืืข ืกืงืืจื, ืืืขื ืืง ืืืืข ืืกืืกื ืขื ืื ืชืื ืื (ืืกืคืจ ืชืฆืคืืืช, ืืกืคืจ ืืฉืชื ืื ืืื'). ืืื ืืืื ืื ืจืฉืืื ืฉื ืืชืจืืืช, ืฉืืืืืขื ืื ืชื ืขื ืืืจืื ืฉืืฉ ืืฉืื ืื ืืืืื ืืืืืื. ืืชืจืืืช ืืื ืืืืืืช ืืกืคืง ืจืืืื ืืืื ืชืืื ืืืงื ืืช ืืืืฆื ื ืืงืื ืื ืชืื ืื ืฉืื.
ืกืขืืฃ ืืื ืกืงืืจื
ื ืืชืื ืืฉืชื ืื ืืงืจื ืืื
ืืชืืช ืืงืืข ืกืงืืจื ืืืืืช ืฉื ืืืื ืชืืื ืืืฆืื ืืืืข ืฉืืืืฉื ืขื ืื ืืฉืชื ื. ืื ืืืืืื, ืืื ืืืชืจ, ืชืจืฉืืืื ืงืื ืื ืืืชืืจืื ืืช ืืืชืคืืืืช ืฉื ืื ืืฉืชื ื.
ืขื ืืืฉืชื ื ืื ืืืจื ืฉื ืืื
ืืคื ืฉื ืืชื ืืจืืืช ืืืืืืื ืืงืืืืช, ืคืจืืคืืื ืคื ืื ื ืืชื ืื ื ืืกืคืจ ืืื ืืืงืืืจืื ืฉืืืืฉืืื, ืืื ืืืื ืืืกืคืจ ืืขืจืืื ืืืกืจืื, ืืื ืื ืืืื ืกืืืืกืืืงื ืชืืืืจืืื ืฉืืืจ ืจืืื ื. ืื Age
ืืื ืืฉืชื ื ืืกืคืจื, ืืืืื ืฉื ืืชืคืืืืชื ืืฆืืจื ืฉื ืืืกืืืืจืื ืืืคืฉืจืช ืื ื ืืืกืืง ืฉืืฉ ืื ื ืืชืคืืืืช ืืืื ืืืื ื.
ืืืฉืจ ืืืื ืื ืืฉืชื ื ืงืืืืจื, ืชืืฆืืืช ืืคืื ืฉืื ืืช ืืืงืฆืช ืืืื ืฉื ืืฆืื ืขืืืจ ืืฉืชื ื ืืกืคืจื.
ืืืื ืืืฉืชื ื ืืงืืืืจื ืืื
ืืืืืจ, ืืืงืื ืืืฆืื ืืช ืืืืืฆืข, ืืืื ืืืื ืืืืงืกืืืื, ืกืคืจืืืช ืคืจืืคืืื ืืคื ืืืช ืืฆืื ืืช ืืกืคืจ ืืืืชืืช. ืื Sex
- ืืฉืชื ื ืืื ืืจื, ืขืจืืื ืืืืฆืืื ืขื ืืื ืฉืชื ืืืืงืืช.
ืื ืืชื ืืืื ืืืืื ืงืื ืืืื ื, ืืืื ืืขื ืืื ืืืชื ืืื ืืืืืง ืกืคืจืืืช ืคืจืืคืืื ืืคื ืืืช ืืืฉืืช ืืช ืืืืืื ืืืื. ืืืจืจ ืขื ืื, ืืืชืืฉื ืืขืืืื ืฉืงืื ืืกืคืจืืื ืคืชืื ืืืืื ื-GitHub, ืื ืื ืื ืงืฉื. ืืืืืื ืฉืื ื ืื ืืขืจืืฅ ืืืื ืฉื ืฉืืืืฉ ืืงืืคืกืืืช ืฉืืืจืืช ืืคืจืืืงืืื ืฉืื, ืืกืชืืืชื ืขื ืงืื ืืืงืืจ ืฉื ืืกืคืจืืื. ืืืืืื, ืื ื ืจืื ืืื ืื ืื ืืขืืืื ืืฉืชื ืื ืืกืคืจืืื, ืืืืืฆื ืขื ืืื ืืคืื ืงืฆืื
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)
ืืืจืืช ืฉืงืืข ืงืื ืื ื ืจืื ืื ืืืื ืืืืจืื, ืืื ืืืขืฉื ืคืฉืื ืืืื ืืืื ื. ืืขื ืืื ืืื ืฉืืงืื ืืืงืืจ ืฉื ืืกืคืจืืื ืืฉ ืคืื ืงืฆืื ืฉืงืืืขืช ืืช ืกืืื ืืืฉืชื ืื. ืื ืืชืืจืจ ืฉืืกืคืจืืื ื ืชืงืื ืืืฉืชื ื ืืกืคืจื, ืืคืื ืงืฆืื ืืขืื ืชืืฆื ืืช ืืืืืื ืฉืืืงื ื. ืคืื ืงืฆืื ืื ืืฉืชืืฉืช ืืคืขืืืืช ืคื ืื ืกืื ืืจืืืืช ืืขืืืื ืขื ืืืืืืงืืื ืืกืื Series
, ืืื series.mean()
. ืชืืฆืืืช ืืืืฉืื ืืืืืกื ืืช ืืืืืื stats
. ืืืกืืืืจืืืช ื ืืฆืจืืช ืืืืฆืขืืช ืืจืกื ืืืชืืืช ืฉื ืืคืื ืงืฆืื matplotlib.pyplot.hist
. ืืืชืืื ื ืืขืื ืืืืืื ืฉืืคืื ืงืฆืื ืืืืื ืืขืืื ืขื ืกืืืื ืฉืื ืื ืฉื ืืขืจืื ื ืชืื ืื.
ืืืื ืืชืื ืื ืชืื ื ืืืื ื ืืงืจื
ืืืืจ ืชืืฆืืืช ืื ืืชืื ืฉื ืืืฉืชื ืื, ืคืจืืคืื ืคื ืืืช, ืืงืืข ืืชืืืื, ืืฆืื ืืช ืืืจืืฆืืช ืืืชืื ืฉื ืคืืจืกืื ืืกืคืืจืื.
ืืืจืืฆืช ืืชืื ืคืืจืกืื
ืืืืืช ืืฆืืจื, ืชืืื, ืืฉืืจืช ืืงืื ืฉืืคืขืืื ืืช ืืคืงืช ืืืื, ืืืืืืจ ืืช ืืืื ืืืงืืืจืื ืฉื ืขืจืื ืืกืฃ ืืืฉืืฉืื ืืขืช ืืืฉืื ืืืชืื. ืขื ืืื ืื, ืืชื ืืืื ืืฆืืื ืืืื ืืืืง ืืชืื ื ืืฉื ืืฉืื ืื ืืชืื ืฉืื.
ืืืกืืฃ, ืืื ืืคืจืืคืื ืฉื ืืคื ืืืช, ืืกืขืืฃ ืืืืืื, ืืฆืื, ืืืืืื, ื ืชืื ืฉื ืืงื ืืชืืืืช ืืขืจื ืื ืชืื ืื. ืืืฉื ืื ืขืืืื ืืืืืื ืืืคืชืขืืช ืื ื ืขืืืืช, ืฉืื ืืชืฆืคืืืช ืืจืืฉืื ืืช ืขืฉืืืืช ืืืืฆื ืืืื ืฉืืื ื ืืฉืงืฃ ืืช ืืืืคืืื ืื ืฉื ืืขืจื ืื ืชืื ืื ืืืื.
ืืืง ืืืืื ื ืชืื ืื ืืืืืื ืื ืืืงืื
ืืชืืฆืื ืืื, ืื ื ืื ืืืืืฅ ืืฉืื ืื ืืกืขืืฃ ืืืืจืื ืืื. ืืืงืื ืืืช, ืขืืืฃ ืืืฉืชืืฉ ืืคืงืืื df.sample(5)
, ืฉืืืืจ ืืืงืจืื 5 ืชืฆืคืืืช ืืืขืจื ืื ืชืื ืื.
ืชืืฆืืืช ืฉื
ืืกืืืื, ืกืคืจืืืช ืืคืจืืคืืืื ืฉื ืืคื ืืืช ืืขื ืืงื ืืื ืืืกื ืืื ืืืืืืช ืฉืืืืฉืืืช ืฉืืืื ืฉืืืืฉืืืช ืืืงืจืื ืฉืืื ืืชื ืฆืจืื ืืงืื ืืืืืจืืช ืืืฉื ืืก ืขื ืื ืชืื ืื ืื ืืืขืืืจ ืืื ื ืืชืื ืืืืืขืื ื ืืืืฉืื. ืืืงืืื, ืขืืืื ืืืืชืืช ืขื ื ืชืื ืื, ืชืื ืืชืืฉืืืช ืืชืืื ืืชืื, ืืชืืฆืขืช, ืืื ืืื ืฉืืืืฉ ืืคืจืืคืืื ืคื ืืืช, ืืืืคื ืืื ื.
ืื ืืชื ืจืืฆื ืืืกืชืื ืืื ื ืจืื ืื ื ืืชืื ื ืชืื ื ืืืืืขืื ืืืืืจืช Jupyter ืืืช, ืชืกืชืื ืขื
ืงืืจืืื ืืงืจืื! ืืืื ืืชืืืืื ืื ืชื ืืขืจืื ื ืชืื ืื ืืืฉืื?
ืืงืืจ: www.habr.com