áá±áá¬á¡ááœá²á¡áá áºáá áºáá¯ááŸáá·áº á áááºáá¯ááºáá±á¬ááºááá·áºá¡áá« áááá¡ááá·áºááŸá¬ áááºážááᯠáá¬ážáááºáááºááŒá áºáááºá ááá¯ááá¯á·áá¯ááºáá±á¬ááºáááºá á¥ááá¬á¡á¬ážááŒáá·áºá ááááºážááŸááºáá»á¬ážá áááºážááá¯á·áá¡áá»áá¯ážá¡á á¬ážáá»á¬ážá áááºáá¶áá¬ážáá±á¬ áááºááá¯ážáá»á¬ážá á¡ááœá¬á¡áá±ážáá»á¬ážááᯠááŸá¬ááœá±áááºááŸáá·áº áá»á±á¬ááºáá¯á¶ážáá±áá±á¬ áááºááá¯ážáá»á¬áž á¡áá±á¡ááœááºááᯠááŸá¬ááœá±ááẠááá¯á¡ááºáááºá
áááºáá«á á¬ááŒáá·áºááá¯ááºááẠááŸá¬ááœá±áá±ážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ (EDA) áá¯ááºáá±á¬ááºáááºá¡ááœáẠá¡áá¯á¶ážáááºáá±á¬áááááá¬áá»á¬ážá áœá¬ááᯠáá»áœááºá¯ááºááá¯á·á¡á¬áž áá±ážáá«áááºá ááá¯á·áá±á¬áº áááºážááá¯á·ááᯠá¡áá¯á¶ážáááŒá¯áá®á áááºááẠáá»á¬ážáá±á¬á¡á¬ážááŒáá·áº df.describe() áá²á·ááá¯á·áá±á¬ áá±áá¯áá»áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááŒáá·áº á áááºááẠááá¯á¡ááºáá«áááºá ááá¯á·áá¬ááœááºá ááá¯ááá¯á·áá±á¬áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážá០áá¶á·ááá¯ážáá±ážááá·áºá áœááºážáááºáá»á¬ážááẠá¡ááá·áºá¡áááºááŸáááŒá®áž EDA áá¯ááºáá±á¬ááºááá·áºá¡áá« áááºááá·áºáá±áá¬á¡á á¯á¶ááŸáá·áºáááᯠáá¯ááºáá±á¬ááºááŒááºážá áááŠážá¡ááá·áºáá»á¬ážááẠáá áºáá¯ááŸáá·áºáá áºáᯠá¡ááœááºáááŒá¬áááá°áá®ááŒáááºááᯠáááááŒá¯ááá·áºáááºá
ááá±á·áá»áœááºá¯ááºááá¯á·áá¯ááºáá±áá±áá±á¬á¡ááŒá±á¬ááºážá¡áá¬ááá¯áá±ážáá¬ážáá°ááẠáááºááá²áá²áá¯ááºáá±á¬ááºááŸá¯áá»á¬ážááá¯áá¯ááºáá±á¬ááºááá·áºáááááºáááºááá¯ááºááŒá±á¬ááºážááŒá±á¬áááºá ááááºá¡áá±ááŒáá·áº á
á°ážá
ááºážáá±á·áá¬ááŸá¯áá±áá¬ááœá²ááŒááºážá
áááºááŒá¬ááŸá¯ááᯠáá»ááºááŒááºáááá±á¬ááºá
áœá¬áá¯ááºáá±á¬ááºááẠáááááá¬áá»á¬ážááᯠááŸá¬ááœá±áá¬ááœáẠá
á¬ááŒáá·áºááá¯ááºááᯠááœá±á·ááŸááá²á·áááºá
á€áá±áá¬ááœáẠáá»áœááºá¯ááºááá¯á·ááẠááá°áá¬á¡ááŒá
ẠTitanic dataset ááá¯á¡áá¯á¶ážááŒá¯á pandas-profiling á
á¬ááŒáá·áºááá¯ááºááá¯á¡áá¯á¶ážááŒá¯ááŒááºážáá¡ááºá¹áá«áááºáá»á¬ážááá¯ááŒáá·áºááŸá¯áá«áááºá
áááºáá«áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯á á á°ážá ááºážáá±á·áá¬ááŒááºážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŒááºážá
áááºážááœááºáá«ááŸááá±á¬ áá±áá¬á¡áá»áá¯ážá¡á á¬ážá¡áá»áá¯ážáá»áá¯ážááŸáá·áº áááºážááœááºáá»á±á¬ááºáá¯á¶ážáá±áá±á¬áááºááá¯ážáá»á¬ážááŸááá±ááŒááºážááŒá±á¬áá·áº ááá¯ááºáááºážáá áºáá±áá¬á¡ááœá²ááœáẠáááºáá«áá¯á¶ááœááºážááŒááºážááᯠá ááºážáááºááẠáá¯á¶ážááŒááºáá²á·áááºá áá±áá¬ááᯠáááá·áºá ááºááá±ážááá·áº ááá á¹á áá»á¬ážááœáẠáááºáá«áá¯á¶ááœááºážááá·áº á á¬ááŒáá·áºááá¯ááºááẠá¡áá°ážá áááºáááºá á¬ážááœááºáá±á¬ááºážááŒá®áž áááºážáááá¹ááá¬áá»á¬ážáá±á«áº áá°áááºá áááºáááºáá¯ááºáá±á¬ááºááẠááá¯á¡ááºáááºáᯠáá»áœááºá¯ááºáá¯á¶ááŒááºáá«áááºá ááá¯ááá¯á·áá±á¬ áá¯ááºáááºážá ááºááᯠá¡á±á¬ááºááŒááºá áœá¬ áá¯ááºáá±á¬ááºááá¯ááºáááºá áááºááá·áºáá±áá¬ááœáẠá áááºááááºááŸáá·áº áááºááá·áºá¡áá¬ááᯠá¡á¬áá¯á¶á áá¯ááºááááºááᯠááááẠááá¯á¡ááºáá«áááºá á€áá±áá¬ááœáẠáááºáá«áá¯á¶ááœááºážááŒááºážá áœááºážáááºáá»á¬áž á¡áá¯á¶ážáááºáá¬áá«áááºá
ááááŠážá áœá¬á áá»áœááºá¯ááºááá¯á·ááẠáá±áá¬ááᯠáááºááœááºážááŒá®áž ááá¯ááºáá±á¬áºááááºážááááºážá á¬áááºážá¡ááºážáá»á¬ážááᯠááá°ááẠáááºáá«áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áá«áááºá
# ОЌпПÑÑ ÐœÐµÐŸÐ±Ñ
ПЎОЌÑÑ
пакеÑПв
import pandas as pd
import pandas_profiling
import numpy as np
# ОЌпПÑÑ ÐŽÐ°ÐœÐœÑÑ
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# вÑÑОÑлеМОе пПказаÑелей ПпОÑаÑелÑМПй ÑÑаÑОÑÑОкО
df.describe()
á€áá¯ááºá¡ááá¯ááºážá¡á ááᯠáá¯ááºáá±á¬ááºááŒá®ážáá±á¬ááºá á¡á±á¬ááºáá«áá¯á¶ááœáẠááŒáá¬ážááá·áºá¡áá¬ááᯠáááºáááŸááááºááŒá áºáááºá
á
á¶áááºáá«áááááá¬áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯á áááŸááá±á¬ áá±á¬áºááŒáá»ááºá
á¬áááºážááá¬áž
á€áá±áá¬ááœáẠá¡áá¯á¶ážáááºáá±á¬ á¡áá»ááºá¡áááºáá»á¬ážá
áœá¬ááŸááá±á¬áºáááºáž áááºážááœáẠáá±á·áá¬ááááŸáááá¯ááá·áº á¡áá»ááºá¡áááºáá»á¬ážááŸáá·áº áááºáááºá á
áááºáááºá
á¬ážááœááºá¡áá¬á¡á¬ážáá¯á¶áž ááá«áááºáá«á á¥ááá¬á¡á¬ážááŒáá·áºá áá±áá¬áá±á¬ááºáá
áºáá¯ááœááºá áááºáá±á¬ááºáá¯á¶áá
áºáá¯ááŸááᯠáá°áááá¯ááºáááºá DataFrame
ááá ááá¯ááºážááŸááááºá áááºážááá¯á
á
áºáá±ážáááºááá¯á¡ááºáá«áá frame áá¡ááœááºá¡á
á¬ážááá¯áá¯á¶ážááŒááºáááºá¡ááŒá¬ážáá¯ááºáá
áºááŒá±á¬ááºážááá¯á¡ááºáááºá á€ááœááºáá»ááºááŸá¯áá»á¬ážááẠá¡áá°ážá¡á¬ážááŒáá·áº á¡áááºážá¡ááŒá
áº-á¡áá±ážá¡ááŒááºáá¬ážááŒááºážáááŸááá±á¬áºáááºážá áááºážááá¯á·ááᯠá¡áá»áááºááá¯ááºážááŒááºáá¯ááºááŒááºážááẠáá±áá¬ááᯠááá·áºááŸááºážáá±ážááŒá¯áá¯ááºáá¬ááœáẠááá¯ááá¯áá±á¬ááºážááœááºá
áœá¬áá¯á¶ážá
áœá²ááá¯ááºááá·áºá¡áá»áááºááᯠááŒá¯ááºážáá®ážááŸá¯ááŒá
áºá
á±áá«áááºá
pandas-profiling ááá¯á¡áá¯á¶ážááŒá¯á á á°ážá ááºážáá±á·áá¬ááŒááºážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŒááºážá
ááᯠpandas-profiling ááᯠá¡áá¯á¶ážááŒá¯á á¡áá¬ážáá°áá¯ááºááŒáá«á áá¯á·á
pandas_profiling.ProfileReport(df)
á¡áááºáá±á¬áºááŒáá« áá¯ááºáá»ááºážááᯠá¡áá±á¬ááºá¡áááºáá±á¬áºááŒááºážááŒáá·áº ááŸá¬ááœá±áá±ážáá±áá¬ááœá²ááŒááºážá áááºááŒá¬ááŸá¯ á¡ááœáŸááºážáá»á¬ážáá«ááŸááá±á¬ á¡á á®áááºáá¶á á¬ááᯠáá¯ááºáá±ážáá«áááºá á¡áááºáá±á¬áºááŒáá« áá¯ááºááẠááœá±á·ááŸáááá·áºáá±áá¬ááᯠáá¯ááºááœáŸááºáá±ážáááºááŒá áºááŒá®ážá á¥ááá¬á¡á¬ážááŒáá·áº áá áºá á¯á¶áá áºáŠážá¡á¬áž áááºááŒáááá¯ááºááá·áº HTML ááá¯ááºááᯠáááºáá¯ááºáá±ážááá¯ááºáááºá
á¡á á®áááºáá¶á á¬á áááá¡ááá¯ááºážááœáẠáá±áá¬ááŸáá·áºáááºáááºáá±á¬ á¡ááŒá±áá¶á¡áá»ááºá¡áááºáá»á¬ážááᯠáá±ážáá±á¬ááºááá·áº ááŒá¯á¶áá¯á¶áá¯á¶ážáááºáá»ááºá¡ááá¯ááºáž (áá±á·áá¬ááœá±á·ááŸááá»ááºá¡áá±á¡ááœááºá ááááºážááŸááºá¡áá±á¡ááœááºá á áááº) áá«áááºáááºá á¡áá°ážááá¯ááŒá¯áááá·áºá¡áá¬áá»á¬ážááᯠááœá²ááŒááºážá áááºááŒá¬áá°á¡á¬áž á¡áááá±ážááá·áº ááááá±ážáá»ááºáá»á¬ážá á¬áááºážáááºáž áá«áááºáááºááŒá áºáááºá á€ááááá±ážáá»ááºáá»á¬ážááẠááá·áºáá±áá¬ááŸááºážáááºážáá±áž á¡á¬ážáá¯ááºááŸá¯áá»á¬ážááᯠáááºá¡á¬áá¯á¶á áá¯ááºááá¯ááºááá·áºáá±áá¬ááᯠáá²ááœááºá áá±ážááá¯ááºáá«áááºá
ááŒá¯á¶áá¯á¶áá¯á¶ážáááºáá»áẠááá¹á
Exploratory Variable Analysis
á¡á á®áááºáá¶á á¬á ááŒá¯á¶áá¯á¶áá¯á¶ážáááºáá»áẠááá¹áá¡á±á¬ááºááœáẠááááºážááŸááºáá áºáá¯á á®á á¡áá¯á¶ážáááºáá±á¬ á¡áá»ááºá¡áááºááᯠáááºááŸá¬ááœá±á·ááá¯ááºáá«áááºá áááºážááá¯á·ááœááºá á¡ááŒá¬ážá¡áá¬áá»á¬ážáá²ááœáẠááááºážááŸááºáá áºáá¯á á®á ááŒáá·áºááŒá°ážááŸá¯ááᯠáá±á¬áºááŒááá·áº ááá¬ážááœááºáááºáá»á¬áž áá«áááºáááºá
Age Numeric Variable á¡ááŒá±á¬ááºáž
ááááºááá°áá¬á០áááºááœá±á·ááŒááºááá¯ááºáááºá¡ááá¯ááºážá pandas-profiling ááẠáá»áœááºá¯ááºááá¯á·á¡á¬áž á¡áá¯á¶ážáááºáá±á¬ á¡ááœáŸááºážááááºážáá»á¬ážááŒá
áºááá·áº áá¬ááá¯ááºááŸá¯ááºážááŸáá·áº áá»á±á¬ááºáá¯á¶ážáá±áá±á¬ áááºááá¯ážá¡áá±á¡ááœááºá¡ááŒáẠáá»áœááºá¯ááºááá¯á·ááŒááºáá¬ážááŒá®ážááŒá
áºááá·áº áá±á¬áºááŒáá»ááºá
á¬áááºážá¡ááºážááá¯ááºáᬠá¡á
á®á¡áá¶áá»á¬ážáá²á·ááá¯á· á¡áá¯á¶ážáááºáá±á¬ á¡ááœáŸááºážááááºážáá»á¬ážááᯠáá±ážáá«áááºá áá¬ááŒá
áºááá¯á·áá²ááá¯áá±á¬á· Age
ááááºážááá¬ááºážááááºážááœá²áá
áºáá¯ááŒá
áºááŒá®ážá áááºážáááŒáá·áºááŒá°ážááŸá¯ááᯠá¡áá¯ááºá
ááá¯ááááºáá¯á¶á
á¶ááŒáá·áº ááŒááºáá±á¬ááºááŒááºážááŒáá·áº áá»áœááºá¯ááºááá¯á·ááœáẠááŒáá·áºáá±ááŸá¯á¡á¬áž áá¬áááºááá¯á·á
á±á¬ááºážááœá¬ážááŒá±á¬ááºáž áá±á¬ááºáá»ááºáá»ááá¯ááºá
á±áá«áááºá
categorical variable ááá¯á ááºážá á¬ážáá±á¬á¡áá«á ááœááºááááºááááºáá»á¬ážááẠááááºážááá¬ááºážááááºážááŸááºáá áºáá¯á¡ááœáẠááœá±á·ááŸáááá·áºá¡áá¬áá»á¬ážááŸáá·áº á¡áááºážáááºááœá¬ááŒá¬ážáá«áááºá
Sex categorical variable á¡ááŒá±á¬ááºáž
ááá¯ááá¯áááºááŸá¬á áá»ááºážáá»áŸá á¡áááá·áºáá¯á¶ážááŸáá·áº á¡ááŒáá·áºáá¯á¶ážááᯠááŸá¬ááœá±áááá·áºá¡á
á¬áž áááºáá«áá»á¬áž-áá±á¬áºááœáŸááºážááá·áº á
á¬ááŒáá·áºááá¯ááºááœáẠá¡áááºážá¡áá±á¡ááœááºááᯠááœá±á·ááŸááá²á·áááºá áá¬ááŒá
áºááá¯á·áá²ááá¯áá±á¬á· Sex
â binary variable áá
áºáá¯á áááºážááááºááá¯ážáá»á¬ážááᯠclass ááŸá
áºáá¯ááŒáá·áº ááá¯ááºá
á¬ážááŒá¯áááºá
áá»áœááºá¯ááºáá²á·ááá¯á· áá¯ááºááᯠáááºážá
á
áºááá¯áá«áá áááºáá«áá»á¬áž-áá¯á¶ááœááºážá
á¬ááŒáá·áºááá¯ááºá០á€áááºááá
áºáá»á¬ážááᯠá¡ááá¡áá» ááœááºáá»ááºáá¯á¶ááᯠáááºá
áááºáááºá
á¬ážáá±áááºá á
á¬ááŒáá·áºááá¯ááºáá¯ááºááá¯ááœáá·áºááŒá®áž GitHub ááœááºáááŸáááá¯ááºáá±á¬ááŒá±á¬áá·áºáááºážááá¯ááŸá¬ááœá±ááœá±á·ááŸááááºááááºáá²áá«á áá»áœááºá¯ááºááẠáá»áœááºá¯ááºáááá±á¬áá»ááºáá»á¬ážááœáẠá¡áááºáá±á¬ááºáá±áá¹áá¬áá»á¬ážááᯠá¡áá¯á¶ážááŒá¯ááá·áº áááááºáááºááŒá®ážááá¯ááºáá±á¬ááŒá±á¬áá·áºá á
á¬ááŒáá·áºááá¯ááºá á¡áááºážá¡ááŒá
áºáá¯ááºááᯠááŒáá·áºáá²á·áá«áááºá á¥ááá¬á¡á¬ážááŒáá·áºá á€áááºááŸá¬ ááááºážááá¬ááºážááááºážááŸááºáá»á¬ážááᯠáá¯ááºáá±á¬ááºááŒááºážá¡ááœáẠááá¹ááá¬ážááẠáá¯ááºáá±á¬ááºáá»ááºá¡á¬ážááŒáá·áº ááá¯ááºá
á¬ážááŒá¯ááá·áº áá¯á¶á
á¶ááŒá
áºáááºá
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)
á€áá¯ááºá¡ááá¯ááºážá¡á
ááẠá¡ááœááºááŒá®ážáá¬ážááŒá®áž ááŸá¯ááºááœá±ážáá¯á¶áá±á«ááºááá¯ááºáá±á¬áºáááºáž á¡ááŸááºááááºáá¬ážáááºááẠá¡ááœááºááá¯ážááŸááºážáá«áááºá á¡áááá¡áá»ááºááŸá¬ library á source code ááœáẠvariable á¡áá»áá¯ážá¡á
á¬ážáá»á¬ážááᯠáá¯á¶ážááŒááºáá±ážááá·áº function áá
áºáá¯ááŸááááºá áá
áºáá»á
áºááá¯ááºááœáẠááááºážááá¬ááºážááŒá±á¬ááºážáá²ááŸá¯áá
áºáá¯ááœá±á·áá«áá á¡áááºáá±á¬áºááŒáá«áá¯ááºáá±á¬ááºáá»ááºááẠáá»áœááºá¯ááºááá¯á·ááŒáá·áºááŸá¯áá±ááá·áº áááºááá
áºáá»á¬ážááᯠááœá±á·ááŸááááºááŒá
áºáááºá á€áá¯ááºáá±á¬ááºáá»ááºááẠá¡áá»áá¯ážá¡á
á¬áž á¡áá¬ááá¹áá¯áá»á¬ážááŸáá·áº áá¯ááºáá±á¬ááºáááºá¡ááœáẠá
á¶áááºáá« áá¯ááºáá±á¬ááºáá»ááºáá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áááºá Series
ááŒáá¯ááºáááºá series.mean()
. ááœááºáá»ááºááŸá¯ááááºáá»á¬ážááᯠá¡áááá¬ááºááœáẠááááºážáááºážáá¬ážáááºá stats
. áá¯ááºáá±á¬ááºáá»ááºá ááá¯ááºáá»á±á¬áá®ááœá±ááŸááá±á¬ áá¬ážááŸááºážááᯠá¡áá¯á¶ážááŒá¯á áá
áºá
ááá¯ááááºáá»á¬ážááᯠáá¯ááºáá±ážáá«áááºá matplotlib.pyplot.hist
. ááá¯ááºáá»á±á¬áá®ááœá±ááŒá
áºá¡á±á¬ááºáá¯ááºáá±á¬ááºááŒááºážááẠááá°áá®áá±á¬áá±áá¬á¡ááœá²áá»á¬ážááŸáá·áºá¡áá° áá¯ááºáá±á¬ááºááá¯ááºá
á±áááºá¡ááœáẠáááºááœááºáá«áááºá
áááºá ááºááœáŸááºážááááºážáá»á¬ážááŸáá·áº ááá°áá¬á¡áá»ááºá¡áááºáá»á¬ážááᯠáá±á·áá¬áá²á·áááºá
ááááºážááŸááºáá»á¬ážááᯠááœá²ááŒááºážá áááºááŒá¬ááŒááºážá ááááºáá»á¬ážááŒá®ážáá±á¬ááºá áááºá ááºáááºááœáŸááºááŸá¯ááá¹áááœáẠPearson ááŸáá·áº Spearman áááºá ááºááŸá¯áááºááá áºáá»á¬ážááᯠááŒááá«áááºá
Pearson áááºá
ááºáááºááá
áº
ááá¯á¡ááºáá«áá á¡á á®áááºáá¶á á¬á áá»áá¯ážáááºááᯠá¡á áá»áá¯ážáá±ážááá·áº áá¯ááºáá»ááºážááœáẠáááºá ááºááŸá¯ááᯠááœááºáá»ááºáá¬ááœáẠá¡áá¯á¶ážááŒá¯ááá·áº áá¶áá«ážáá¯á¶áááºááá¯ážáá»á¬ážá á¡ááœáŸááºážááááºážáá»á¬ážááᯠáááºááŸááºááá¯ááºáááºá ááá¯ááá¯á·ááŒá¯áá¯ááºááŒááºážááŒáá·áºá áááºáááœá²ááŒááºážá áááºááŒá¬ááŸá¯á¡ááœáẠá¡áá±ážááŒá®ážáá±á¬áááºá ááºáááºááœááºááŸá¯á¡á¬áž áááºááá·áºá¡ááºá¡á¬ážááᯠáááºááŸááºááá¯ááºááááºážá
áá±á¬ááºáá¯á¶ážááœááºá ááá°áá¬ááá¹áááœááºá áááºáá«ááá¯á¶ááœááºážááŒááºážá¡á á®áááºáá¶á á¬ááẠáá±áá¬á¡á á¯á¶áá¡á ááŸáá°áá¬ážáá±á¬áá±áá¬á¡ááá¯ááºážáá áºáá¯ááᯠááá°áá¬á¡ááŒá áºááŒááááºá á€áá»ááºážáááºááŸá¯ááẠáá±áá¬á¡á á¯áá áºáá¯áá¯á¶ážá áááá±áááá¹ááá¬áá»á¬ážááᯠáááºáááºááŒááºážáááŸááá±á¬ ááá°áá¬áá áºáá¯ááᯠááá¯ááºá á¬ážááŒá¯ááá¯ááºáá±á¬ááŒá±á¬áá·áºá á€áá»ááºážáááºááŸá¯ááẠáááŸá áºááŒáá¯á·ááœááºá¡á¶á·ááŒááœááºáá»á¬ážááᯠááŒá áºáá±á«áºá á±ááá¯ááºáááºá
áá±á·áá¬ááŸá¯á¡á±á¬ááºááœáẠááá°áá¬á¡áá»ááºá¡áááºáá»á¬ážáá«ááŸááá±á¬ á¡ááá¯ááºáž
ááááºá¡áá±áá²á· áá®áá±á¬ááºáá¯á¶ážá¡ááá¯ááºážááᯠá¡á¬áá¯á¶á
áá¯ááºááá¯á· á¡ááŒá¶ááŒá¯ááá¯áá«áááºá á¡á²áá®á¡á
á¬ážá command ááá¯áá¯á¶ážáá¬á ááá¯áá±á¬ááºážáá«áááºá df.sample(5)
áá±áá¬á¡á
á¯á¶á០áá±á·áá¬ááœá±á·ááŸááá»áẠ5 áá¯ááᯠáá»áááºážááœá±ážáá»ááºáá«áááºá
ááááºáá»á¬ážááá¯
á¡áá»ááºážáá»á¯ááºááŒá±á¬ááá»áŸáẠáááºáá«áá»á¬ážáá¯á¶ááœááºážááá·áºá á¬ááŒáá·áºááá¯ááºááẠáá±áá¬ááᯠá¡ááŒááºážáá»ááºážá¡ááŒá¶áá¬ááºááá°ááẠááá¯á·ááá¯áẠáá áºá á¯á¶áá áºáŠážáᶠáá¬ááºáááºáá¬ááºááœá±ážááœá²ááŒááºážá áááºááŒá¬ááŸá¯á¡á á®áááºáá¶á á¬áá±ážááá¯á·ááẠááá¯á¡ááºááá·áºááá á¹á áá»á¬ážááœáẠá¡áá¯á¶ážáááºááá·áº á¡áá¯á¶ážáááºáá±á¬á áœááºážáááºá¡áá»áá¯á·ááᯠáá±ážáá«áááºá áá áºáá»áááºáááºážááŸá¬áááºá áááºážáá¡ááºá¹áá«áááºáá»á¬ážááᯠááá·áºááœááºážá ááºážá á¬ážáᬠáá±áá¬ááŸáá·áº áááºááœá±á·áá¯ááºáá±á¬ááºááŒááºážááẠpandas-profiling ááᯠááá¯ááºááá¯ááºá¡áá¯á¶ážáááŒá¯áá²áá²á·ááá¯á· áá¯ááºáá±á¬ááºáá«áááºá
Jupyter ááŸááºá
á¯á
á¬á¡á¯ááºáá
áºá¡á¯ááºááŸá¬ áá±á¬ááºááŸááºážáá±ážáá±áá¬ááœá²ááŒááºážá
áááºááŒá¬ááŸá¯á¡á¬ážáá¯á¶ážá áááºááá¯áá¯á¶á
á¶áá²ááá¯áá¬ááᯠáá±á·áá¬ááŒáá·áºáá»ááºáááºááá¯áááºáá±á¬á· áá±á·áá¬ááŒáá·áºááá¯ááºáá«á
áá»á áºáááºááá«áá±á¬á á¬áááºáá°áá»á¬áž! áá±áá¬á¡ááœá²á¡áá áºáá»á¬ážááᯠáááºááá±á ááŒá®áž ááœá²ááŒááºážá áááºááŒá¬áá«ááá²á
source: www.habr.com