áá±áá¬á¡ááœá²á¡áá áºáá áºáá¯áá²á· á¡áá¯ááºáá¯ááºáá²á·á¡áá« ááááá¯á¶ážáá¯ááºáááŸá¬á á¡á²áá«ááᯠáá¬ážáááºááá¯á·áá«áá²á áá«ááá¯áá¯ááºááá¯á·á á¥ááá¬á ááááºážááŸááºááœá±á áá°ááá¯á·áá²á· á¡áá»áá¯ážá¡á á¬ážááœá±á áááºáá¶áá²á· áááºááá¯ážááœá±áá²á· á¡ááœá¬á¡áá±ážááœá±ááᯠááŸá¬ááœá±ááŒá®áž áá»á±á¬ááºáá¯á¶ážáá±áá²á· áááºááá¯ážá¡áá±á¡ááœááºááá¯áááºáž ááŸá¬ááœá±ááá¯á· ááá¯áá«áááºá
áááºáá«á á¬ááŒáá·áºááá¯ááºááẠááŸá¬ááœá±áá±ážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ (EDA) áá¯ááºáá±á¬ááºáááºá¡ááœáẠá¡áá¯á¶ážáááºáá±á¬áááááá¬áá»á¬ážá áœá¬ááᯠáá»áœááºá¯ááºááá¯á·á¡á¬áž áá±ážáá«áááºá ááá¯á·áá±á¬áº áááºážááá¯á·ááᯠá¡áá¯á¶ážáááŒá¯áá®á áááºááẠáá»á¬ážáá±á¬á¡á¬ážááŒáá·áº df.describe() áá²á·ááá¯á·áá±á¬ áá±áá¯áá»áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŒáá·áº á áááºááẠááá¯á¡ááºáááºá ááá¯á·áá¬ááœááºá ááá¯ááá¯á·áá±á¬áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá០áá¶á·ááá¯ážáá±ážááá·áºá áœááºážáááºáá»á¬ážááẠá¡ááá·áºá¡áááºááŸáááŒá®áž EDA áá¯ááºáá±á¬ááºááá·áºá¡áá« áááºááá·áºáá±áá¬á¡ááœá²ááŸáá·áºáááᯠáá¯ááºáá±á¬ááºáááºá¡ááœáẠáááŠážá¡ááá·áºáá»á¬ážááẠá¡ááœááºáááºáá°áá±á·ááŸááááºááᯠáááááŒá¯ááá·áºáááºá
ááá±á·áá»áœááºá¯ááºááá¯á·áá¯ááºáá±áá±áá±á¬á¡ááŒá±á¬ááºážá¡áá¬ááá¯áá±ážáá¬ážáá°ááẠáááºááá²áá²áá¯ááºáá±á¬ááºááŸá¯áá»á¬ážááááááºáááºááá¯ááºááŒá±á¬ááºážááŒá±á¬áááºá ááá¯á·ááŒá±á¬áá·áº á
á°ážá
ááºážáá±á·áá¬ááŒááºážááá¯ááºáᬠá¡áá»ááºá¡áááºááœá²ááŒááºážá
áááºááŒá¬ááŸá¯ááᯠáá»ááºááŒááºáááá±á¬ááºá
áœá¬ áá¯ááºáá±á¬ááºááá¯ááºá
á±ááá·áº áááááá¬áá»á¬ážááᯠááŸá¬ááœá±áá¬ááœáẠá
á¬ááŒáá·áºááá¯ááºááᯠááœá±á·ááŸááá²á·áááºá . áááºážáá¡áá¯ááºáááááºáá»á¬ážááᯠáá®ážááŒá¬ážá¡ááœáŸááºážááááºážá¡áá»áá¯á·áá¯á¶á
á¶ááŒáá·áº áá±á¬áºááŒááŒááºážááá¯ááºáá±á¬áºáááºáž áááºážááá¯á·ááŸáá·áº ááá¯ááá¯áá®ážáááºá
áœá¬áá¯ááºáá±á¬ááºááŒááºážáááŒá¯áá® áááºáááá¬ážáááá·áº á¡áá»ááºá¡áááºá¡áá»á¬ážá
á¯áá«ááŸááá±á¬ ááœá²ááŒááºážá
áááºááŒá¬áá¬ážáá±á¬áá±áá¬ááŸáá·áºáááºáááºáá±á¬ á¡áá»ááºá¡áááºá¡áá»á¬ážá
á¯áá«áááºáá±á¬ áá»áŸááá±á¬á¡áá±ážá
ááẠHTML á¡á
á®áááºáá¶á
á¬áá¯á¶á
á¶ááŒáá·áº áá±á¬áºááŒáá¬ážáá«áááºá
á€áá±áá¬ááœáẠáá»áœááºá¯ááºááá¯á·ááẠááá°áá¬á¡ááŒá
ẠTitanic dataset ááá¯á¡áá¯á¶ážááŒá¯á pandas-profiling á
á¬ááŒáá·áºááá¯ááºááá¯á¡áá¯á¶ážááŒá¯ááŒááºážáá¡áá±ážá
áááºá¡áá»ááºá¡áááºáá»á¬ážááá¯ááŒáá·áºááŸá¯áá«áááºá
áááºáá«áá»á¬ážááŸáá·áºá¡áá° á á°ážá ááºážáá±á·áá¬áá±ážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŒááºážá
áá±áá¬á¡áá»áá¯ážá¡á á¬áž á¡áá»áá¯ážáá»áá¯ážááŸáá·áº áááºááá¯ážáá»á¬áž áá»á±á¬ááºáá¯á¶ážáá±ááŒááºážááŒá±á¬áá·áº ááá¯ááºáááºážáá Ạáá±áá¬á¡ááœá²ááœáẠáááºáá«áá¯á¶ááœááºážááŒááºážááᯠá ááºážáááºááẠáá¯á¶ážááŒááºáá²á·áááºá áá±áá¬ááᯠáááá·áºá ááºááá±ážááá·áº ááá á¹á áá»á¬ážááœáẠáááºáá«áá¯á¶ááœááºážááŒááºážááẠá¡áá°ážá áááºáááºá á¬ážááœááºáá±á¬ááºážááŒá®áž áááºážáá¡ááºá¹áá«áááºáá»á¬ážáá±á«áº áá°áááºá áááºáá¶áá¯ááºáá±á¬ááºááẠááá¯á¡ááºáááºáᯠáá»áœááºá¯ááºáá¯á¶ááŒááºáá«áááºá ááá¯ááá¯á·áá±á¬ áá¯ááºáááºážá ááºáá»á¬ážááᯠá¡á±á¬ááºááŒááºá áœá¬ áá¯ááºáá±á¬ááºááá¯ááºáááºá áááºááá·áºáá±áá¬ááœáẠá áááºááááºááŸáá·áº áááºááá·áºá¡áá¬ááᯠá¡á¬áá¯á¶á áá¯ááºááááºááᯠááááẠááá¯á¡ááºáá«áááºá á€áá±áá¬ááœáẠáááºáá«áá¯á¶ááœááºážááŒááºážááŸá¬ á¡áá¯á¶ážáááºáá«áááºá
ááááŠážá áœá¬á áá»áœááºá¯ááºááá¯á·ááẠáá±áá¬ááᯠáááºááœááºážááŒá®áž ááá¯ááºáá±á¬áºááááºážááááºážáá»á¬ážááᯠááá°ááẠáááºáá«áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áááº-
# ОЌпПÑÑ ÐœÐµÐŸÐ±Ñ
ПЎОЌÑÑ
пакеÑПв
import pandas as pd
import pandas_profiling
import numpy as np
# ОЌпПÑÑ ÐŽÐ°ÐœÐœÑÑ
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# вÑÑОÑлеМОе пПказаÑелей ПпОÑаÑелÑМПй ÑÑаÑОÑÑОкО
df.describe()á€áá¯ááºá¡ááá¯á¡ááœá¬ááᯠá¡áá¯á¶ážááŒá¯ááŒá®ážáá±á¬ááºá á¡á±á¬ááºáá«áá¯á¶ááœáẠááŒáá¬ážááá·áºá¡áá¬ááᯠáááºáááŸááááºááŒá áºáááºá

á
á¶áááºáá«áááááá¬áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯á áááŸááá±á¬ áá±á¬áºááŒáá»ááºá
á¬áááºážááá¬áž
á€áá±áá¬ááœáẠá¡áá¯á¶ážáááºáá±á¬ á¡áá»ááºá¡áááºáá»á¬ážá
áœá¬ááŸááá±á¬áºáááºážá áááºá
á
áºáá±ážáá±áá±á¬ á¡áá»ááºá¡áááºááŸáá·áº áááºáááºá ááááá¯ááá»áŸááᯠáááºážááẠááá·áºá¡á¬áž ááŒá±á¬ááŒáááºááá¯ááºáá«á á¥ááá¬á¡á¬ážááŒáá·áºá áá±áá¬áá±á¬ááºá ááœá²á·á
ááºážáá¯á¶áᯠáááºáá°áááá¯ááºáááºá DataFrameááá ááá¯ááºážááŸááááºá áááºážááᯠá¡áááºááŒá¯ááá«áá áááááºá¡ááœááºá¡á
á¬ážááᯠáá¯á¶ážááŒááºááẠá¡ááŒá¬ážáá¯ááºááá¯ááºážáá
áºáᯠááá¯á¡ááºáá«áááºá á€ááœááºáá»ááºááŸá¯áá»á¬ážááẠá¡áá°ážá¡á¬ážááŒáá·áº á¡áááºážá¡ááŒá
áº-á¡áá¯á¶ážááááºáá±á¬áºáááºážá áááºážááá¯á·ááᯠá¡áááºáááŒáẠáááºáá«áááºáá« ááŒá¯áá¯ááºááŒááºážááẠáá±áá¬ááᯠááŸááºážáá¯ááºáá¬ááœáẠááá¯áá±á¬ááºážááá·áº á¡áá»áááºááŒá¯ááºážááŒááºážááᯠáááœá²áááœá± ááŒá
áºáá±á«áºá
á±áá«áááºá
Pandas-profiling ááŒáá·áº á á°ážá ááºážáá±á·áá¬ááŒááºážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŒááºážá
ááᯠpandas-profiling ááᯠá¡áá¯á¶ážááŒá¯á á¡áá¬ážáá°áá¯ááºááŒáá«á áá¯á·á
pandas_profiling.ProfileReport(df)á¡áááºáá« áá¯ááºáá»ááºážááᯠáááºáááºááŒááºážááŒáá·áº áá±áá¬ááŸá¬ááœá±ááŸá¯á áááºááá áºáá»á¬ážááŸáá·áºá¡áá° á¡á á®áááºáá¶á á¬ááᯠáá¯ááºáá±ážáááºááŒá áºáááºá á¡áááºáá±á¬áºááŒáá« áá¯ááºááẠááœá±á·ááŸáááá·áºáá±áá¬ááᯠáá¯ááºááœáŸááºáá±ážáááºááŒá áºááŒá®ážá á¥ááá¬á¡á¬ážááŒáá·áº áá áºá á¯á¶áá áºáŠážá¡á¬áž áááºááŒáááá¯ááºááá·áº HTML ááá¯ááºááᯠáááºáá¯ááºáá±ážááá¯ááºáááºá
á¡á á®áááºáá¶á á¬á áááá¡ááá¯ááºážááœáẠáá±áá¬ááŸáá·áºáááºáááºáá±á¬ á¡ááŒá±áá¶á¡áá»ááºá¡áááºáá»á¬áž (ááŒáá·áºááŸá¯ááŸá¯á¡áá±á¡ááœááºá ááááºážááŸááºá¡áá±á¡ááœááºááŸáá·áº á¡ááŒá¬ážá¡áá¬áá»á¬áž) ááᯠáá¶á·ááá¯ážáá±ážááá·áº ááŒá¯á¶áá¯á¶áá¯á¶ážáááºáá»ááºááá¹ááá áºáᯠáá«áááºáááºááŒá áºáááºá áááºážááœáẠá¡áá°ážááááá¬ážááẠááá¯á¡ááºááá·áº áááºáááºáá»á¬ážááᯠáá±á·áá¬áá°á¡á¬áž ááááá±ážááá·áº ááááá±ážáá»ááºáá»á¬ážá á¬áááºážáááºáž áá«áááºáááºááŒá áºáááºá á€ááááá±ážáá»ááºáá»á¬ážááẠáá±áá¬ááŸááºážáááºážáá±áž á¡á¬ážáá¯ááºááŸá¯áá»á¬ážááᯠá¡á¬áá¯á¶á áá¯ááºáááá·áºáá±áá¬ááᯠáá²ááœááºá áá±ážááá¯ááºáááºá

ááá¹áá¡áá»ááºážáá»á¯ááºááᯠá¡á
á®áááºáá¶áá«á
ááááºážááŸááºáá»á¬ážááᯠá á°ážá ááºážáá±á·áá¬ááŒááºáž
á¡á á®áááºáá¶á á¬á ááŒá¯á¶áá¯á¶áá¯á¶ážáááºáá»ááºá¡ááá¯ááºážáá±á¬ááºááœááºá ááááºážááŸááºáá áºáá¯á á®ááŸáá·áºáááºáááºááá·áº á¡áá¯á¶ážáááºáá±á¬ á¡áá»ááºá¡áááºááᯠáááºááŸá¬ááœá±á·ááá¯ááºáá«áááºá áááºážááœááºá á¡ááŒá¬ážá¡áá¬áá»á¬ážáá²ááœááºá variable áá áºáá¯á á®á ááŒáá·áºááŒá°ážááŸá¯ááᯠáá±á¬áºááŒááá·áº ááá¬ážááœááºáááºáá»á¬áž áá«áááºáááºá

ááááºážááá¬ááºážááŒá±á¬ááºážáá²ááá¯ááºáá±á¬ á¡áááºá¡ááœááºááá¯ááºáᬠá¡áá»ááºá¡áááº
ááááºááá°áá¬á០áááºááœá±á·ááŒááºáááá·áºá¡ááá¯ááºážá pandas-profiling ááẠáá»áœááºá¯ááºááá¯á·á¡á¬áž á¡áá¯á¶ážáááºáá±á¬ á¡ááœáŸááºážááááºážáá»á¬ážááŒá
áºááá·áº áá¬ááá¯ááºááŸá¯ááºážááŸáá·áº áá»á±á¬ááºáá¯á¶ážáá±áá±á¬áááºááá¯ážáá»á¬ážá¡ááŒáẠáá»áœááºá¯ááºááá¯á·ááœá±á·áá°ážááŒá®ážáá¬áž áá±á¬áºááŒáá¬ážáá±á¬ á
á¬áááºážááá¬ážáá»á¬ážáá²á·ááá¯á· á¡áá¯á¶ážáááºáá±á¬ á¡ááœáŸááºážááááºážá¡áá»áá¯á·ááᯠáá±ážáá«áááºá ááááºážá Age â ááẠááááºážááá¬ááºážááááºážááœá²áá
áºáá¯ááŒá
áºááŒá®áž áááºážáááŒáá·áºááŒá°ážááŸá¯ááᯠáá
áºá
ááá¯ááááºáá¯á¶á
á¶ááŒáá·áº ááŒááºáá±á¬ááºááŒááºážááŒáá·áº áá»áœááºá¯ááºááá¯á·ááœáẠááŸááºáááºáá±á¬ ááŸáá·áºááŒá¬ážáá¬ážáá±á¬ ááŒáá·áºáá±ááŸá¯ááŸááááºáᯠáá±á¬ááºáá»ááºáá»ááá¯ááºá
á±áá«áááºá
categorical variable ááᯠá ááºážá á¬ážáá±á¬á¡áá«á ááááºáááºááá¯ážáá»á¬ážááẠááááºážááá¬ááºážááááºážááŸááºá¡ááœáẠááœá±á·ááŸáááá·áºá¡áá¬áá»á¬ážááŸáá·áº á¡áááºážáááºááœá¬ááŒá¬ážáá«áááºá

categorical variable Sex á¡ááŒá±á¬ááºáž á¡áá»ááºá¡áááº
ááá¯ááá¯áááºááŸá¬á áá»ááºážáá»áŸá á¡áááá·áºáá¯á¶ážááŸáá·áº á¡ááŒáá·áºáá¯á¶ážááᯠááŸá¬ááá·áºá¡á
á¬áž áááºáá«áá»á¬áž áá±ážááœááºážááá·áº á
á¬ááŒáá·áºááá¯ááºááœáẠá¡áááºážá¡áá±á¡ááœááºááᯠááœá±á·ááŸááá²á·áááºá ááááºážá Sex â binary variable áá
áºáá¯á áááºážááááºááá¯ážáá»á¬ážááᯠclass ááŸá
áºáá¯ááŒáá·áº ááá¯ááºá
á¬ážááŒá¯áááºá
á¡áááºá áááºááẠáá»áœááºá¯ááºáá²á·ááá¯á·ááŒá áºááŒá®áž áá¯ááºááᯠáá°ážááœááŒááºážá¡á¬áž ááŸá áºáááºáá«áá áááºáá«áá»á¬áž-áá¯á¶ááœááºážááŒááºážááá¯ááºáᬠá€áááºááá áºáá»á¬ážááᯠá¡ááá¡áá» ááœááºáá»ááºáá¯á¶ááᯠáááºá áááºáááºá á¬ážáá±áááºá á á¬ááŒáá·áºááá¯ááºááá¯ááºááẠááœáá·áºáááºážáááºážááŒá áºááŒá áºááŒá®áž GitHub ááœáẠáááá¯ááºáááºáᯠáá°áááŒááºážááŒáá·áº ááŸá¬ááœá±áááºááŸá¬ áááºáá²áááºááá¯ááºá áá»áœááºá¯ááºááẠáá»áœááºá¯ááºáááá±á¬áá»ááºáá»á¬ážááœáẠ"á¡áááºáá±á¬ááºáá±áá¹áá¬áá»á¬áž" ááᯠá¡áá¯á¶ážááŒá¯ááá·áº áááááºáááºááŒá®ážááá¯ááºáá±á¬ááŒá±á¬áá·áº á á¬ááŒáá·áºááá¯ááºá á¡áááºážá¡ááŒá áºáá¯ááºááᯠááŒáá·áºáá²á·áá«áááºá á¥ááá¬á¡á¬ážááŒáá·áºá á€ááœááºá ááááºážááá¬ááºážááááºážááŸááºáá»á¬ážááᯠá á®áá¶áá±á¬ááºááœááºááá·áº ááá¹ááá¬ážááẠáá¯ááºáá±á¬ááºáá»ááºá¡á¬ážááŒáá·áº ááá¯ááºá á¬ážááŒá¯ááá·áº áá¯á¶á á¶ááŒá áºáááºá :
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name) á€áá¯ááºá¡ááá¯á¡ááœá¬ááẠááŒá®ážáá¬ážááŒá®áž ááŸá¯ááºááœá±ážáá¯á¶áá±á«ááºáá±á¬áºáááºáž á¡ááŸááºáááẠáá¬ážáááºááẠá¡ááœááºááœááºáá°áá«áááºá áá»áœááºá¯ááºááá¯á·ááŒá±á¬áá±ááá·áºá¡áá¬ááŸá¬ á
á¬ááŒáá·áºááá¯ááºá¡áááºážá¡ááŒá
áºáá¯ááºááœáẠááááºážááŸááºá¡áá»áá¯ážá¡á
á¬ážáá»á¬ážááᯠáá¯á¶ážááŒááºáá±ážááá·áº áá¯ááºáá±á¬ááºáá»ááºáá
áºáá¯áá«ááŸááááºá á
á¬ááŒáá·áºááá¯ááºááœáẠááááºážááá¬ááºážááááºážááŸááºáá
áºáá¯ááœá±á·áá«áá á¡áááºáá±á¬áºááŒáá«áá¯ááºáá±á¬ááºáá»ááºááẠáá»áœááºá¯ááºááá¯á·ááŒáá·áºááŸá¯áá±ááá·áº ááœáŸááºááááºážáá»á¬ážááᯠááœá±á·ááŸááááºááŒá
áºáááºá á€áá¯ááºáá±á¬ááºáá»ááºááẠá¡áá»áá¯ážá¡á
á¬ážáá¡áá¬ááá¹áá¯áá»á¬ážááŸáá·áº áá¯ááºáá±á¬ááºáááºá¡ááœáẠá
á¶áááºáá«áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áááºá SeriesááŒáá¯ááºáááºá series.mean(). ááœááºáá»ááºááŸá¯ááááºáá»á¬ážááᯠá¡áááá¬ááºááœáẠááááºážáááºážáá¬ážáááºá stats. áá
áºá
ááá¯ááááºáá»á¬ážááᯠáá¯ááºáá±á¬ááºáá»ááºá ááá¯ááºáá»á±á¬áá®ááœá±ááŒá
áºáá±á¬ áá¬ážááŸááºážááᯠá¡áá¯á¶ážááŒá¯á ááœá²á·á
ááºážáá¬ážáááºá matplotlib.pyplot.hist. ááá¯ááºáá»á±á¬áá®ááœá±ááŒá
áºá¡á±á¬áẠáá±á¬ááºááœááºááŒááºážááẠááá°áá®áá±á¬ áá±áá¬á¡ááœá²áá»á¬ážááŸáá·áºá¡áá° áá¯ááºáá±á¬ááºááá¯ááºá
á±ááẠáááºááœááºáá«áááºá
áááºá ááºááœáŸááºážááááºážáá»á¬ážááŸáá·áº áá±á·áá¬áá¬ážáá±á¬ á¡áá»ááºá¡ááẠááá°áá¬áá»á¬áž
ááááºážááŸááºáá»á¬ážááᯠááá¯ááºážááŒá¬ážá áááºááŒá¬ááŒá®ážáá±á¬ááºá áááºáá«áááá¯ááá¯ááºážááẠáááºá ááºáááºááœááºááŸá¯ááá¹áááœáẠPearson ááŸáá·áº Spearman áááºá ááºááŸá¯áááºááá áºáá»á¬ážááᯠáá¯ááºááœáŸááºáááºááŒá áºáááºá

Pearson áááºá
ááºáááºááá
áº
ááá¯á¡ááºáá«áá á¡á á®áááºáá¶á á¬áá¯ááºáá¯ááºááŒááºážááᯠá¡á áá»áá¯ážááá·áº áá¯ááºáá»ááºážááœáẠáááºá ááºááœááºáá»ááºááŸá¯á¡ááœáẠáá¶áá«ážáá±á«ááºáááºááá¯ážáá»á¬ážááᯠáááºáááºááŸááºááá¯ááºáááºá ááá¯ááá¯á·ááŒá¯áá¯ááºááŒááºážááŒáá·áºá áááºáááœá²ááŒááºážá áááºááŒá¬ááŸá¯á¡ááœáẠá¡áá±ážááŒá®ážáááºáᯠáá°áááá·áº áááºá ááºááá¯ááºáá¯á¶ááŸá¯ááᯠáááºááŸááºááá¯ááºáááºá
áá±á¬ááºáá¯á¶ážááœááºá ááá°áá¬á¡á±á¬ááºááœááºá pandas-profiling á¡á á®áááºáá¶á á¬ááẠdataset áá¡á ááŸáá°áá¬ážáá±á¬áá±áá¬ááá°áá¬ááá¯ááŒááááºá áááá¡ááŒáááºáá±á·áá¬ááœá±á·ááŸááá»ááºá¡áááºážáááºááẠáá±áá¬á¡ááœá²áá áºáá¯áá¯á¶ážááááá±áááá¹ááá¬áá»á¬ážááá¯áááºáááºááŒááºážáááŸááá±á¬ááá°áá¬áá áºáá¯ááŒá áºáá±á¬ááŒá±á¬áá·áºá á€áá»ááºážáááºááŸá¯ááẠáááŸá áºááŒáá¯á·ááœááºá¡á¶á·ááŒááœááºáá»á¬ážááá¯ááŒá áºáá±á«áºá á±ááá¯ááºáááºá

á
á
áºáá±ážááŸá¯áá±áá¬ááá°áá¬áá«ááŸááá±á¬ á¡ááá¯ááºáž
ááááºá¡áá±áá²á· áá®áá±á¬ááºáá¯á¶ážá¡ááá¯ááºážááᯠá¡á¬áá¯á¶á
áá¯ááºááá¯á· á¡ááŒá¶ááŒá¯ááá¯áá«áááºá á¡á²áá®á¡á
á¬ážá command ááá¯áá¯á¶ážáá¬á ááá¯áá±á¬ááºážáá«áááºá df.sample(5)áá±áá¬á¡á
á¯á¶á០áá±á·áá¬ááœá±á·ááŸááá»áẠ5 áá¯ááᯠáá»áááºážááœá±ážáá»ááºáá«áááºá
ááááºáá»á¬ážááá¯
á¡áááºáá±á¬áºááŒáá«ááá¯á·ááᯠá¡áá»ááºážáá»á¯á¶á·áááºá áááºáá«áá¯á¶ááœááºážá á¬ááŒáá·áºááá¯ááºááẠáá±áá¬áááŒááºážáááºážáá±á¬á¡ááŒá¶áá¬ááºááᯠáá»ááºááŒááºá áœá¬áááẠááá¯á·ááá¯áẠáá±áá¬á áá±á¬ááºááŸááºážááŸá¯ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ááá¯ááºáᬠá¡á á®áááºáá¶á á¬áá áºá á±á¬ááºááᯠáá áºá á¯á¶áá áºáŠážáá¶ áá±ážááá¯á·ááá¯ááá·áºá¡áá«ááœáẠá¡áá¯á¶ážáááºááá·áº á¡áá¯á¶ážáááºááá·áºá¡ááºá¹áá«áááºá¡áá»áá¯á·ááᯠááœá²ááŒááºážá áááºááŒá¬áá°á¡á¬áž áá¶á·ááá¯ážáá±ážáá«áááºá áá áºáá»áááºáááºážááŸá¬áááºá áááºážáá¡ááºá¹áá«áááºáá»á¬ážááᯠááá·áºááœááºážá ááºážá á¬ážáᬠáá±áá¬ááŸáá·áº á¡ááŸááºááááºá¡áá¯ááºáá¯ááºááŒááºážááẠpandas-profiling ááᯠááá¯ááºááá¯ááºá¡áá¯á¶ážáááŒá¯áá²áá²á·ááá¯á· áá¯ááºáá±á¬ááºáá«áááºá
Jupyter notebook áá áºáá¯áááºážááœáẠáá±áá¬áááá¹áá¶ááœá²ááŒááºážá áááºááŒá¬ááŸá¯á¡á¬ážáá¯á¶áž áááºááá¯á·áááºáá¯á¶ááŸááááºááᯠáááºááŒáá·áºááŸá¯ááá¯áá«á ááŒáá·áºááŸá¯ááá¯ááºáá«á nbviewer ááŒáá·áº áááºáá®ážáá¬ážáá±á¬ áá»áœááºá¯ááºá ááá±á¬áá»ááºá ááŸáá·áº áááºááá¯ááºáá±á¬áá¯ááºááᯠGitHub ááá¯ááŸá±á¬ááºáá¬áá±áá¬áá»á¬ážááœáẠááœá±á·ááŸáááá¯ááºáááºá
áá»á áºáááºááá«áá±á¬á á¬áááºáá°áá»á¬áž! áá±áá¬á¡ááœá²á¡áá áºáá»á¬ážááᯠááœá²ááŒááºážá áááºááŒá¬ááá·áºá¡áá« áááºááá·áºáá±áá¬ááœáẠá áááºááááºážá
source: www.habr.com
