Is e a’ chiad cheum nuair a thòisicheas tu ag obair le seata dàta ùr a thuigsinn. Gus seo a dhèanamh, feumaidh tu, mar eisimpleir, faighinn a-mach na raointean de luachan ris an gabh na caochladairean, na seòrsaichean aca, agus cuideachd faighinn a-mach mun àireamh de luachan a tha a dhìth.
Tha leabharlann pandathan a’ toirt dhuinn mòran innealan feumail airson mion-sgrùdadh dàta rannsachail (EDA) a dhèanamh. Ach mus cleachd thu iad, mar as trice feumaidh tu tòiseachadh le gnìomhan nas fharsainge leithid df.describe(). Ach, bu chòir a thoirt fa-near gu bheil na comasan a tha air an toirt seachad leis na gnìomhan sin cuingealaichte, agus gu tric bidh na ciad ìrean de bhith ag obair le seataichean dàta sam bith nuair a bhios iad a’ coileanadh EDA glè choltach ri chèile.
Tha ùghdar an stuth a tha sinn a 'foillseachadh an-diugh ag ràdh nach eil e dèidheil air a bhith a' coileanadh ghnìomhan ath-aithris. Mar thoradh air an sin, a 'lorg innealan gus mion-sgrùdadh dàta rannsachaidh a dhèanamh gu luath agus gu h-èifeachdach, lorg e an leabharlann
An seo seallaidh sinn ri feartan cleachdadh an leabharlainn pròifil pandathan a’ cleachdadh an stòr-dàta Titanic mar eisimpleir.
Mion-sgrùdadh dàta rannsachail a’ cleachdadh pandathan
Cho-dhùin mi deuchainn a dhèanamh air pròifil pandathan air an stòr-dàta Titanic air sgàth na diofar sheòrsaichean dàta a th’ ann agus làthaireachd luachan a tha a dhìth ann. Tha mi a’ creidsinn gu bheil an leabharlann pròifil pandathan gu sònraichte inntinneach ann an cùisean far nach deach an dàta a ghlanadh fhathast agus gu bheil feum air tuilleadh giollachd a rèir am feartan. Gus an leithid de ghiollachd a choileanadh gu soirbheachail, feumaidh fios a bhith agad càite an tòisich thu agus dè a bu chòir aire a thoirt dha. Seo far a bheil comasan pròifil pandathan a’ tighinn gu feum.
An toiseach, bidh sinn a’ toirt a-steach an dàta agus a’ cleachdadh pandathan gus staitistig tuairisgeulach fhaighinn:
# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np
# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# вычисление показателей описательной статистики
df.describe()
Às deidh dhut am pìos còd seo a chuir an gnìomh, gheibh thu na tha air a shealltainn anns an fhigear a leanas.
Staitistig tuairisgeulach air fhaighinn a’ cleachdadh innealan pandathan àbhaisteach
Ged a tha tòrr fiosrachaidh feumail an seo, chan eil a h-uile dad ann a bhiodh inntinneach fios a bhith agad mun dàta a tha fo sgrùdadh. Mar eisimpleir, dh’ fhaodadh neach gabhail ris ann am frèam dàta, ann an structar DataFrame
, tha 891 sreath ann. Ma tha feum air seo a sgrùdadh, tha feum air loidhne eile de chòd gus meud an fhrèam a dhearbhadh. Ged nach eil na h-àireamhaidhean sin gu sònraichte dian air goireasan, tha ath-aithris fad na h-ùine gu bhith a’ caitheamh ùine a dh’ fhaodadh a bhith air a chaitheamh nas fheàrr a’ glanadh an dàta.
Mion-sgrùdadh dàta rannsachail a’ cleachdadh pròifil pandathan
A-nis dèanamaid an aon rud le bhith a’ cleachdadh pròifil pandathan:
pandas_profiling.ProfileReport(df)
Le bhith a’ coileanadh na loidhne chòd gu h-àrd, cruthaichidh sinn aithisg le comharran mion-sgrùdadh dàta rannsachail. Bheir an còd a chithear gu h-àrd a-mach an dàta a chaidh a lorg, ach faodaidh tu an toradh a dhèanamh na fhaidhle HTML as urrainn dhut a shealltainn do chuideigin, mar eisimpleir.
Anns a’ chiad phàirt den aithisg bidh earrann Ath-shealladh, a’ toirt seachad fiosrachadh bunaiteach mun dàta (àireamh de bheachdan, àireamh caochladairean, msaa). Bidh liosta de rabhaidhean ann cuideachd, a’ cur fios chun mhion-sgrùdair mu rudan air am bu chòir aire shònraichte a thoirt. Faodaidh na rabhaidhean sin sanasan a thoirt seachad a thaobh far an urrainn dhut na h-oidhirpean glanadh dàta agad a chuimseachadh.
Earrann tuairisgeul geàrr-chunntas
Mion-sgrùdadh caochlaideach rannsachail
Fon earrann Ath-shealladh den aithisg gheibh thu fiosrachadh feumail mu gach caochladair. Tha iad a’ toirt a-steach, am measg rudan eile, clàran beaga a’ toirt cunntas air cuairteachadh gach caochladair.
Mun Chaochlaideach Àireamhach Aois
Mar a chì thu bhon eisimpleir roimhe, tha pròifil pandathan a’ toirt dhuinn grunn chomharran feumail, leithid an àireamh sa cheud agus an àireamh de luachan a tha a dhìth, a bharrachd air na ceumannan staitistig tuairisgeulach a chunnaic sinn mu thràth. Air sgàth Age
'S e caochladair àireamhach a th' ann, tha fradharc air a chuairteachadh ann an riochd histogram a' leigeil leinn co-dhùnadh gu bheil sgaoileadh againn air a chòmhdach air an taobh dheas.
Nuair a thathar a’ beachdachadh air caochladair gnèitheach, tha na toraidhean toraidh beagan eadar-dhealaichte bhon fheadhainn a lorgar airson caochladair àireamhach.
Mu dheidhinn an caochladair gnèitheach gnè
Is e sin, an àite a bhith a’ lorg a’ chuibheasachd, as ìsle agus as àirde, lorg an leabharlann pandathan an àireamh de chlasaichean. Air sgàth Sex
- caochladair binary, tha na luachan aige air an riochdachadh le dà chlas.
Ma tha thu airson còd a sgrùdadh mar a nì mi, is dòcha gum biodh ùidh agad ann an dìreach mar a bhios an leabharlann ìomhaigh pandathan a’ tomhas na meatrach sin. Chan eil e cho doirbh faighinn a-mach mu dheidhinn seo, leis gu bheil còd an leabharlainn fosgailte agus ri fhaighinn air GitHub. Leis nach eil mi dèidheil air bogsaichean dubha a chleachdadh anns na pròiseactan agam, thug mi sùil air còd stòr an leabharlainn. Mar eisimpleir, is e seo cò ris a tha an dòigh airson caochladairean àireamhach a ghiullachd coltach, air a riochdachadh leis a’ ghnìomh
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)
Ged a dh ’fhaodadh gum bi am pìos còd seo gu math mòr agus iom-fhillte, tha e gu math sìmplidh a thuigsinn. Is e a’ phuing gu bheil gnìomh ann an còd stòr an leabharlainn a bhios a’ dearbhadh na seòrsaichean caochladairean. Ma thionndaidh e a-mach gu bheil an leabharlann air coinneachadh ri caochladair àireamhach, lorgaidh an gnìomh gu h-àrd na meatrach air an robh sinn a’ coimhead. Bidh an gnìomh seo a’ cleachdadh gnìomhachd pandathan àbhaisteach airson a bhith ag obair le stuthan de sheòrsa Series
, coltach series.mean()
. Tha toraidhean àireamhachaidh air an stòradh ann am faclair stats
. Bithear a’ cruthachadh histograman a’ cleachdadh dreach atharraichte den ghnìomh matplotlib.pyplot.hist
. Tha atharrachadh ag amas air dèanamh cinnteach gun urrainn don ghnìomh obrachadh le diofar sheòrsaichean de sheataichean dàta.
Comharran co-dhàimh agus dàta sampall air a sgrùdadh
Às deidh toraidhean mion-sgrùdadh nan caochladairean, seallaidh pròifil pandathan, anns an roinn Correlations, matrices co-dhàimh Pearson agus Spearman.
Matrix co-dhàimh Pearson
Ma tha feum air, faodaidh tu, anns an loidhne chòd a bhrosnaicheas gineadh na h-aithisge, na comharran luachan stairsneach a chleachdadh nuair a thathar a’ tomhas a’ cho-dhàimh a shuidheachadh. Le bhith a’ dèanamh seo, faodaidh tu sònrachadh dè an neart co-dhàimh a thathas a’ meas cudromach airson do mhion-sgrùdadh.
Mu dheireadh, tha an aithisg pròifil pandathan, anns an earrann Sampall, a’ taisbeanadh, mar eisimpleir, pìos dàta a chaidh a thogail bho thoiseach an t-seata dàta. Faodaidh an dòigh-obrach seo leantainn gu iongnadh mì-thlachdmhor, oir is dòcha gu bheil a’ chiad beagan bheachdan a ’riochdachadh sampall nach eil a’ nochdadh feartan an t-seata dàta gu lèir.
Earrann anns a bheil sampall dàta fo sgrùdadh
Mar thoradh air an sin, chan eil mi a’ moladh aire a thoirt don roinn mu dheireadh seo. An àite sin, tha e nas fheàrr an àithne a chleachdadh df.sample(5)
, a thaghas air thuaiream 5 beachdan bhon t-seata dàta.
Builean
Gus geàrr-chunntas a dhèanamh, tha an leabharlann pandathan a’ toirt cuid de chomasan feumail don mhion-sgrùdair a thig gu feum ann an cùisean far am feum thu gu sgiobalta beachd garbh fhaighinn air an dàta no aithisg anailis fiosrachaidh a thoirt do chuideigin. Aig an aon àm, thathar a 'dèanamh fìor obair le dàta, a' toirt aire do na feartan aige, mar gun a bhith a 'cleachdadh pandathan-pròifil, le làimh.
Ma tha thu airson sùil a thoirt air cò ris a tha mion-sgrùdadh dàta fiosrachaidh coltach ann an aon leabhar notaichean Jupyter, thoir sùil air
Luchd leughaidh! Càite an tòisich thu a’ dèanamh anailis air seataichean dàta ùra?
Source: www.habr.com