د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ

لومړی ګام کله چې د نوي ډیټا سیټ سره کار پیل کول د دې پوهیدل دي. د دې کولو لپاره، تاسو اړتیا لرئ، د بیلګې په توګه، د متغیرونو لخوا منل شوي ارزښتونو سلسلې ومومئ، د دوی ډولونه، او همدارنګه د ورک شوي ارزښتونو شمیر معلوم کړئ.

د پانډاس کتابتون موږ ته د اکتشافي معلوماتو تحلیل (EDA) ترسره کولو لپاره ډیری ګټور اوزار چمتو کوي. مګر مخکې لدې چې تاسو یې وکاروئ ، تاسو معمولا اړتیا لرئ د نورو عمومي افعالو سره پیل وکړئ لکه df.describe(). په هرصورت، دا باید په پام کې ونیول شي چې د ورته دندو لخوا چمتو شوي وړتیاوې محدود دي، او د هر ډول ډیټا سیټونو سره د کار کولو لومړنۍ مرحلې کله چې EDA ترسره کوي ډیری وختونه یو بل سره ورته وي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ

د هغه موادو لیکوال چې موږ یې نن خپروو وايي چې هغه د تکراري کړنو د ترسره کولو مینه وال نه دی. د پایلې په توګه، د وسیلو په لټه کې چې په چټکه او اغیزمنه توګه د سپړنې ډاټا تحلیل ترسره کړي، هغه کتابتون وموند. pandas-profiling. د دې کار پایلې د ځانګړو انفرادي شاخصونو په بڼه نه دي څرګند شوي، مګر د کافي تفصيلي HTML راپور په بڼه چې د تحلیل شوي ډیټا په اړه ډیری معلومات لري چې تاسو اړتیا لرئ د دې سره نږدې کار کولو پیل کولو دمخه پوه شئ.

دلته به موږ د مثال په توګه د ټایټانیک ډیټاسیټ په کارولو سره د پانډاس پروفایل کتابتون کارولو ځانګړتیاوې وګورو.

د پانډا په کارولو سره د سپړنې ډاټا تحلیل

ما پریکړه وکړه چې د ټایټانیک ډیټاسیټ کې د پانډاس پروفایل کولو سره تجربه وکړم د ډیټا مختلف ډولونو له امله چې پدې کې شتون لري او د ورک شوي ارزښتونو شتون. زه باور لرم چې د پانډاس پروفایل کتابتون په ځانګړي توګه په هغه قضیو کې په زړه پوري دی چیرې چې ډیټا لاهم پاکه شوې نه وي او د دې ځانګړتیاو پراساس نور پروسس کولو ته اړتیا لري. د دې لپاره چې دا ډول پروسس په بریالیتوب سره ترسره شي، تاسو اړتیا لرئ پوه شئ چې چیرته پیل کړئ او څه ته پاملرنه وکړئ. دا هغه ځای دی چې د پانډا پروفایل کولو وړتیاوې په لاس کې راځي.

لومړی، موږ ډاټا واردوو او د توضیحي احصایو ترلاسه کولو لپاره پانډا کاروو:

# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np

# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')

# вычисление показателей описательной статистики
df.describe()

د دې کوډ د پلي کولو وروسته، تاسو به هغه څه ترلاسه کړئ چې په لاندې شکل کې ښودل شوي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
تشریحي احصایې د معیاري پانډا وسیلو په کارولو سره ترلاسه شوي

که څه هم دلته ډیر ګټور معلومات شتون لري، دا ټول هغه څه نلري چې د مطالعې لاندې معلوماتو په اړه پوهیدل به په زړه پوري وي. د مثال په توګه، یو څوک فکر کولی شي چې د ډیټا چوکاټ کې، په جوړښت کې DataFrame891 کرښې شتون لري. که دا د چک کولو اړتیا وي، نو د چوکاټ اندازه معلومولو لپاره د کوډ بله کرښه اړینه ده. پداسې حال کې چې دا محاسبې په ځانګړې توګه د سرچینې په توګه نه دي، د دوی هر وخت تکرار کول د وخت ضایع کول دي چې ممکن د ډیټا پاکولو لپاره ښه مصرف شي.

د پانډا پروفایل کولو په کارولو سره د سپړنې ډاټا تحلیل

اوس راځئ چې د پانډا پروفایل کولو په کارولو سره ورته کار وکړو:

pandas_profiling.ProfileReport(df)

د کوډ پورتنۍ کرښې اجرا کول به د سپړنې ډیټا تحلیل شاخصونو سره یو راپور رامینځته کړي. پورته ښودل شوی کوډ به موندل شوي ډاټا تولید کړي، مګر تاسو کولی شئ دا د HTML فایل تولید کړئ چې تاسو کولی شئ یو چا ته وښایئ، د بیلګې په توګه.

د راپور لومړۍ برخه به د کتنې برخه ولري، د معلوماتو په اړه لومړني معلومات وړاندې کوي (د کتنو شمیر، د تغیراتو شمیر، او نور). دا به د خبرتیاو لیست هم ولري، د شیانو شنونکي ته خبر ورکوي چې ځانګړې پاملرنه وکړي. دا خبرتیاوې کولی شي نښې چمتو کړي چیرې چې تاسو کولی شئ د خپلو معلوماتو پاکولو هڅو تمرکز وکړئ.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
د عمومي راپور برخه

سپړنې متغیر تحلیل

د راپور د کتنې برخې لاندې تاسو کولی شئ د هر متغیر په اړه ګټور معلومات ومومئ. پدې کې د نورو شیانو په مینځ کې، کوچني چارټونه شامل دي چې د هر متغیر ویش بیانوي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
د عمر عددي تغیر په اړه

لکه څنګه چې تاسو د تیر مثال څخه لیدلی شئ، د پانډاس پروفایل کول موږ ته ډیری ګټور شاخصونه راکوي، لکه د ورک شوي ارزښتونو فیصده او شمیر، او همدارنګه د توضیحي احصایې اقدامات چې موږ دمخه لیدلي دي. ځکه Age یو شمیري متغیر دی، د هسټوګرام په بڼه د دې ویش لیدل موږ ته اجازه راکوي چې دې پایلې ته ورسوو چې موږ ښي خوا ته توزیع لرو.

کله چې د کټګوري متغیر په پام کې نیولو سره، د محصول پایلې یو څه توپیر لري چې د عددي متغیر لپاره موندل شوي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
د جنس کټګوري متغیر په اړه

د مثال په توګه، د اوسط، لږترلږه او اعظمي موندلو پر ځای، د پانډاس پروفایل کتابتون د ټولګیو شمیر وموند. ځکه Sex - یو بائنری متغیر، ارزښتونه یې د دوو ټولګیو لخوا استازیتوب کیږي.

که تاسو غواړئ د کوډ معاینه وکړئ لکه زه یې کوم، تاسو ممکن لیوالتیا ولرئ چې د پانډا پروفایل کتابتون دا میټریکونه څنګه محاسبه کوي. د دې په اړه موندل، د دې لپاره چې د کتابتون کوډ خلاص دی او په GitHub کې شتون لري، دومره ستونزمن نه دی. څرنګه چې زه په خپلو پروژو کې د تور بکسونو کارولو لوی پرستار نه یم، ما د کتابتون سرچینې کوډ ته یو نظر واخیست. د مثال په توګه، دا هغه څه دي چې د شمیرو متغیرونو پروسس کولو میکانیزم داسې ښکاري چې د فنکشن لخوا استازیتوب کیږي تشریح_ شمیری_1d:

def describe_numeric_1d(series, **kwargs):
    """Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
    Also create histograms (mini an full) of its distribution.
    Parameters
    ----------
    series : Series
        The variable to describe.
    Returns
    -------
    Series
        The description of the variable as a Series with index being stats keys.
    """
    # Format a number as a percentage. For example 0.25 will be turned to 25%.
    _percentile_format = "{:.0%}"
    stats = dict()
    stats['type'] = base.TYPE_NUM
    stats['mean'] = series.mean()
    stats['std'] = series.std()
    stats['variance'] = series.var()
    stats['min'] = series.min()
    stats['max'] = series.max()
    stats['range'] = stats['max'] - stats['min']
    # To avoid to compute it several times
    _series_no_na = series.dropna()
    for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
        # The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
        stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
    stats['iqr'] = stats['75%'] - stats['25%']
    stats['kurtosis'] = series.kurt()
    stats['skewness'] = series.skew()
    stats['sum'] = series.sum()
    stats['mad'] = series.mad()
    stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
    stats['n_zeros'] = (len(series) - np.count_nonzero(series))
    stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
    # Histograms
    stats['histogram'] = histogram(series, **kwargs)
    stats['mini_histogram'] = mini_histogram(series, **kwargs)
    return pd.Series(stats, name=series.name)

که څه هم د کوډ دا ټوټه کیدای شي خورا لوی او پیچلي ښکاري، دا په حقیقت کې پوهیدل خورا ساده دي. خبره دا ده چې د کتابتون د سرچینې کوډ کې یو فنکشن شتون لري چې د متغیرونو ډولونه ټاکي. که دا معلومه شي چې کتابتون د عددي تغیر سره مخ شوی، پورتني فعالیت به هغه میټریکونه ومومي چې موږ یې ګورو. دا فنکشن د ډول ډول شیانو سره کار کولو لپاره معیاري پانډا عملیات کاروي Seriesلکه series.mean(). د محاسبې پایلې په لغت کې زیرمه شوي stats. هسټوګرامونه د فنکشن د تطبیق شوي نسخې په کارولو سره رامینځته شوي matplotlib.pyplot.hist. تطابق د دې ډاډ ترلاسه کول دي چې فعالیت کولی شي د ډیټا سیټونو مختلف ډولونو سره کار وکړي.

د ارتباط شاخصونه او د نمونې ډاټا مطالعه شوې

د متغیرونو د تحلیل پایلو وروسته، د پانډا پروفایل کول، د اړیکو برخه کې، د پییرسن او سپیرمن ارتباط میټریکونه به ښکاره کړي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
د پییرسن ارتباط میټرکس

که اړتیا وي، تاسو کولی شئ، د کوډ په لیکه کې چې د راپور تولید پیلوي، د حد ارزښتونو شاخصونه تنظیم کړئ کله چې د ارتباط محاسبه کول کارول کیږي. د دې کولو په واسطه، تاسو کولی شئ مشخص کړئ چې ستاسو د تحلیل لپاره د ارتباط کوم ځواک مهم ګڼل کیږي.

په نهایت کې ، د پانډاس پروفایل کولو راپور ، د نمونې برخه کې ، د مثال په توګه د ډیټا یوه برخه د ډیټا سیټ له پیل څخه اخیستل شوې. دا طریقه کولی شي د ناخوښۍ حیرانتیا لامل شي، ځکه چې لومړی څو کتنې کیدای شي د نمونې استازیتوب وکړي چې د ټول ډیټا سیټ ځانګړتیاوې نه منعکس کوي.

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ
هغه برخه چې د مطالعې لاندې نمونې ډاټا لري

د پایلې په توګه، زه وړاندیز نه کوم چې دې وروستۍ برخې ته پام وکړئ. پرځای یې، دا غوره ده چې کمانډ وکاروئ df.sample(5)، کوم چې به په تصادفي ډول د ډیټا سیټ څخه 5 مشاهدې غوره کړي.

پایلې

د لنډیز کولو لپاره ، د پانډاس پروفایل کتابتون شنونکي ته ځینې ګټور وړتیاوې ورکوي چې په هغه قضیو کې به ګټور وي چیرې چې تاسو اړتیا لرئ ژر تر ژره د ډیټا دقیق نظر ترلاسه کړئ یا یو چا ته د استخباراتي تحلیل راپور ورکړئ. په ورته وخت کې ، د ډیټا سره ریښتیني کار ، د دې ځانګړتیاو په پام کې نیولو سره ، په لاسي ډول د پانډا پروفایل کولو کارولو پرته ترسره کیږي.

که تاسو غواړئ یو نظر وګورئ چې د ټولو استخباراتو ډیټا تحلیل په یو جوپیټر نوټ بوک کې څه ډول ښکاري ، یو نظر وګورئ دا زما پروژه د nbviewer په کارولو سره رامینځته شوې. او په دا تاسو کولی شئ ورته کوډ د GitHub ذخیره کې ومومئ.

ګرانو لوستونکو! تاسو د نوي ډیټا سیټونو تحلیل چیرته پیل کوئ؟

د پانډاس پروفایل کتابتون په کارولو سره د سپړنې ډیټا تحلیل ګړندی کړئ

سرچینه: www.habr.com

Add a comment