Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan

Is e a’ chiad cheum nuair a thòisicheas tu ag obair le seata dàta ùr a thuigsinn. Gus seo a dhèanamh, feumaidh tu, mar eisimpleir, faighinn a-mach na raointean de luachan ris an gabh na caochladairean, na seòrsaichean aca, agus cuideachd faighinn a-mach mun àireamh de luachan a tha a dhìth.

Tha leabharlann pandathan a’ toirt dhuinn mòran innealan feumail airson mion-sgrùdadh dàta rannsachail (EDA) a dhèanamh. Ach mus cleachd thu iad, mar as trice feumaidh tu tòiseachadh le gnìomhan nas fharsainge leithid df.describe(). Ach, bu chòir a thoirt fa-near gu bheil na comasan a tha air an toirt seachad leis na gnìomhan sin cuingealaichte, agus gu tric bidh na ciad ìrean de bhith ag obair le seataichean dàta sam bith nuair a bhios iad a’ coileanadh EDA glè choltach ri chèile.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan

Tha ùghdar an stuth a tha sinn a 'foillseachadh an-diugh ag ràdh nach eil e dèidheil air a bhith a' coileanadh ghnìomhan ath-aithris. Mar thoradh air an sin, a 'lorg innealan gus mion-sgrùdadh dàta rannsachaidh a dhèanamh gu luath agus gu h-èifeachdach, lorg e an leabharlann pandathan-pròifil. Tha toraidhean na h-obrach aige air an cur an cèill chan ann ann an cruth comharran fa leth sònraichte, ach ann an cruth aithisg HTML gu math mionaideach anns a bheil a’ mhòr-chuid den fhiosrachadh mun dàta sgrùdaichte a dh ’fhaodadh a bhith agad mus tòisich thu ag obair nas dlùithe leis.

An seo seallaidh sinn ri feartan cleachdadh an leabharlainn pròifil pandathan a’ cleachdadh an stòr-dàta Titanic mar eisimpleir.

Mion-sgrùdadh dàta rannsachail a’ cleachdadh pandathan

Cho-dhùin mi deuchainn a dhèanamh air pròifil pandathan air an stòr-dàta Titanic air sgàth na diofar sheòrsaichean dàta a th’ ann agus làthaireachd luachan a tha a dhìth ann. Tha mi a’ creidsinn gu bheil an leabharlann pròifil pandathan gu sònraichte inntinneach ann an cùisean far nach deach an dàta a ghlanadh fhathast agus gu bheil feum air tuilleadh giollachd a rèir am feartan. Gus an leithid de ghiollachd a choileanadh gu soirbheachail, feumaidh fios a bhith agad càite an tòisich thu agus dè a bu chòir aire a thoirt dha. Seo far a bheil comasan pròifil pandathan a’ tighinn gu feum.

An toiseach, bidh sinn a’ toirt a-steach an dàta agus a’ cleachdadh pandathan gus staitistig tuairisgeulach fhaighinn:

# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np

# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')

# вычисление показателей описательной статистики
df.describe()

Às deidh dhut am pìos còd seo a chuir an gnìomh, gheibh thu na tha air a shealltainn anns an fhigear a leanas.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Staitistig tuairisgeulach air fhaighinn a’ cleachdadh innealan pandathan àbhaisteach

Ged a tha tòrr fiosrachaidh feumail an seo, chan eil a h-uile dad ann a bhiodh inntinneach fios a bhith agad mun dàta a tha fo sgrùdadh. Mar eisimpleir, dh’ fhaodadh neach gabhail ris ann am frèam dàta, ann an structar DataFrame, tha 891 sreath ann. Ma tha feum air seo a sgrùdadh, tha feum air loidhne eile de chòd gus meud an fhrèam a dhearbhadh. Ged nach eil na h-àireamhaidhean sin gu sònraichte dian air goireasan, tha ath-aithris fad na h-ùine gu bhith a’ caitheamh ùine a dh’ fhaodadh a bhith air a chaitheamh nas fheàrr a’ glanadh an dàta.

Mion-sgrùdadh dàta rannsachail a’ cleachdadh pròifil pandathan

A-nis dèanamaid an aon rud le bhith a’ cleachdadh pròifil pandathan:

pandas_profiling.ProfileReport(df)

Le bhith a’ coileanadh na loidhne chòd gu h-àrd, cruthaichidh sinn aithisg le comharran mion-sgrùdadh dàta rannsachail. Bheir an còd a chithear gu h-àrd a-mach an dàta a chaidh a lorg, ach faodaidh tu an toradh a dhèanamh na fhaidhle HTML as urrainn dhut a shealltainn do chuideigin, mar eisimpleir.

Anns a’ chiad phàirt den aithisg bidh earrann Ath-shealladh, a’ toirt seachad fiosrachadh bunaiteach mun dàta (àireamh de bheachdan, àireamh caochladairean, msaa). Bidh liosta de rabhaidhean ann cuideachd, a’ cur fios chun mhion-sgrùdair mu rudan air am bu chòir aire shònraichte a thoirt. Faodaidh na rabhaidhean sin sanasan a thoirt seachad a thaobh far an urrainn dhut na h-oidhirpean glanadh dàta agad a chuimseachadh.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Earrann tuairisgeul geàrr-chunntas

Mion-sgrùdadh caochlaideach rannsachail

Fon earrann Ath-shealladh den aithisg gheibh thu fiosrachadh feumail mu gach caochladair. Tha iad a’ toirt a-steach, am measg rudan eile, clàran beaga a’ toirt cunntas air cuairteachadh gach caochladair.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Mun Chaochlaideach Àireamhach Aois

Mar a chì thu bhon eisimpleir roimhe, tha pròifil pandathan a’ toirt dhuinn grunn chomharran feumail, leithid an àireamh sa cheud agus an àireamh de luachan a tha a dhìth, a bharrachd air na ceumannan staitistig tuairisgeulach a chunnaic sinn mu thràth. Air sgàth Age 'S e caochladair àireamhach a th' ann, tha fradharc air a chuairteachadh ann an riochd histogram a' leigeil leinn co-dhùnadh gu bheil sgaoileadh againn air a chòmhdach air an taobh dheas.

Nuair a thathar a’ beachdachadh air caochladair gnèitheach, tha na toraidhean toraidh beagan eadar-dhealaichte bhon fheadhainn a lorgar airson caochladair àireamhach.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Mu dheidhinn an caochladair gnèitheach gnè

Is e sin, an àite a bhith a’ lorg a’ chuibheasachd, as ìsle agus as àirde, lorg an leabharlann pandathan an àireamh de chlasaichean. Air sgàth Sex - caochladair binary, tha na luachan aige air an riochdachadh le dà chlas.

Ma tha thu airson còd a sgrùdadh mar a nì mi, is dòcha gum biodh ùidh agad ann an dìreach mar a bhios an leabharlann ìomhaigh pandathan a’ tomhas na meatrach sin. Chan eil e cho doirbh faighinn a-mach mu dheidhinn seo, leis gu bheil còd an leabharlainn fosgailte agus ri fhaighinn air GitHub. Leis nach eil mi dèidheil air bogsaichean dubha a chleachdadh anns na pròiseactan agam, thug mi sùil air còd stòr an leabharlainn. Mar eisimpleir, is e seo cò ris a tha an dòigh airson caochladairean àireamhach a ghiullachd coltach, air a riochdachadh leis a’ ghnìomh tuairisgeul_àireamhach_1d:

def describe_numeric_1d(series, **kwargs):
    """Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
    Also create histograms (mini an full) of its distribution.
    Parameters
    ----------
    series : Series
        The variable to describe.
    Returns
    -------
    Series
        The description of the variable as a Series with index being stats keys.
    """
    # Format a number as a percentage. For example 0.25 will be turned to 25%.
    _percentile_format = "{:.0%}"
    stats = dict()
    stats['type'] = base.TYPE_NUM
    stats['mean'] = series.mean()
    stats['std'] = series.std()
    stats['variance'] = series.var()
    stats['min'] = series.min()
    stats['max'] = series.max()
    stats['range'] = stats['max'] - stats['min']
    # To avoid to compute it several times
    _series_no_na = series.dropna()
    for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
        # The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
        stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
    stats['iqr'] = stats['75%'] - stats['25%']
    stats['kurtosis'] = series.kurt()
    stats['skewness'] = series.skew()
    stats['sum'] = series.sum()
    stats['mad'] = series.mad()
    stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
    stats['n_zeros'] = (len(series) - np.count_nonzero(series))
    stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
    # Histograms
    stats['histogram'] = histogram(series, **kwargs)
    stats['mini_histogram'] = mini_histogram(series, **kwargs)
    return pd.Series(stats, name=series.name)

Ged a dh ’fhaodadh gum bi am pìos còd seo gu math mòr agus iom-fhillte, tha e gu math sìmplidh a thuigsinn. Is e a’ phuing gu bheil gnìomh ann an còd stòr an leabharlainn a bhios a’ dearbhadh na seòrsaichean caochladairean. Ma thionndaidh e a-mach gu bheil an leabharlann air coinneachadh ri caochladair àireamhach, lorgaidh an gnìomh gu h-àrd na meatrach air an robh sinn a’ coimhead. Bidh an gnìomh seo a’ cleachdadh gnìomhachd pandathan àbhaisteach airson a bhith ag obair le stuthan de sheòrsa Series, coltach series.mean(). Tha toraidhean àireamhachaidh air an stòradh ann am faclair stats. Bithear a’ cruthachadh histograman a’ cleachdadh dreach atharraichte den ghnìomh matplotlib.pyplot.hist. Tha atharrachadh ag amas air dèanamh cinnteach gun urrainn don ghnìomh obrachadh le diofar sheòrsaichean de sheataichean dàta.

Comharran co-dhàimh agus dàta sampall air a sgrùdadh

Às deidh toraidhean mion-sgrùdadh nan caochladairean, seallaidh pròifil pandathan, anns an roinn Correlations, matrices co-dhàimh Pearson agus Spearman.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Matrix co-dhàimh Pearson

Ma tha feum air, faodaidh tu, anns an loidhne chòd a bhrosnaicheas gineadh na h-aithisge, na comharran luachan stairsneach a chleachdadh nuair a thathar a’ tomhas a’ cho-dhàimh a shuidheachadh. Le bhith a’ dèanamh seo, faodaidh tu sònrachadh dè an neart co-dhàimh a thathas a’ meas cudromach airson do mhion-sgrùdadh.

Mu dheireadh, tha an aithisg pròifil pandathan, anns an earrann Sampall, a’ taisbeanadh, mar eisimpleir, pìos dàta a chaidh a thogail bho thoiseach an t-seata dàta. Faodaidh an dòigh-obrach seo leantainn gu iongnadh mì-thlachdmhor, oir is dòcha gu bheil a’ chiad beagan bheachdan a ’riochdachadh sampall nach eil a’ nochdadh feartan an t-seata dàta gu lèir.

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan
Earrann anns a bheil sampall dàta fo sgrùdadh

Mar thoradh air an sin, chan eil mi a’ moladh aire a thoirt don roinn mu dheireadh seo. An àite sin, tha e nas fheàrr an àithne a chleachdadh df.sample(5), a thaghas air thuaiream 5 beachdan bhon t-seata dàta.

Builean

Gus geàrr-chunntas a dhèanamh, tha an leabharlann pandathan a’ toirt cuid de chomasan feumail don mhion-sgrùdair a thig gu feum ann an cùisean far am feum thu gu sgiobalta beachd garbh fhaighinn air an dàta no aithisg anailis fiosrachaidh a thoirt do chuideigin. Aig an aon àm, thathar a 'dèanamh fìor obair le dàta, a' toirt aire do na feartan aige, mar gun a bhith a 'cleachdadh pandathan-pròifil, le làimh.

Ma tha thu airson sùil a thoirt air cò ris a tha mion-sgrùdadh dàta fiosrachaidh coltach ann an aon leabhar notaichean Jupyter, thoir sùil air seo chruthaich am pròiseact agam a’ cleachdadh nbviewer. Agus anns seo Gheibh thu an còd co-fhreagarrach ann an stòran GitHub.

Luchd leughaidh! Càite an tòisich thu a’ dèanamh anailis air seataichean dàta ùra?

Luathaich mion-sgrùdadh dàta rannsachail a’ cleachdadh leabharlann ìomhaigh pandathan

Source: www.habr.com

Cuir beachd ann