рдЕрд╣реЛ рд╣рд╛рдмреНрд░!
рдЖрдЬ рдЖрдкрдг Python рдордзреНрдпреЗ рдбреЗрдЯрд╛ рдЧреНрд░реБрдкрд┐рдВрдЧ рдЖрдгрд┐ рд╡реНрд╣рд┐рдЬреНрдпреБрдЕрд▓рд╛рдЗрдЬ рдХрд░рдгреНрдпрд╛рд╕рд╛рдареА рдЯреВрд▓реНрд╕ рд╡рд╛рдкрд░рдгреНрдпрд╛рдЪреНрдпрд╛ рдХреМрд╢рд▓реНрдпрд╛рд╡рд░ рдХрд╛рдо рдХрд░реВ. рдкреНрд░рджрд╛рди рдордзреНрдпреЗ
рдкрд░рдВрдкрд░реЗрдиреБрд╕рд╛рд░, рд╕реБрд░реБрд╡рд╛рддреАрд▓рд╛, рдзреНрдпреЗрдпреЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░реВрдпрд╛:
- рд▓рд┐рдВрдЧ рдЖрдгрд┐ рд╡рд░реНрд╖рд╛рдиреБрд╕рд╛рд░ рдбреЗрдЯрд╛ рдЧрдЯ рдХрд░рд╛ рдЖрдгрд┐ рджреЛрдиреНрд╣реА рд▓рд┐рдВрдЧрд╛рдВрдЪреНрдпрд╛ рдЬрдиреНрдорджрд░рд╛рдЪреНрдпрд╛ рдПрдХреВрдг рдЧрддрд┐рд╢реАрд▓рддреЗрдЪреА рдХрд▓реНрдкрдирд╛ рдХрд░рд╛;
- рдЖрддрд╛рдкрд░реНрдпрдВрддрдЪреА рд╕рд░реНрд╡рд╛рдд рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рд╡реЗ рд╢реЛрдзрд╛;
- рдбреЗрдЯрд╛рдордзреАрд▓ рд╕рдВрдкреВрд░реНрдг рдХрд╛рд▓рд╛рд╡рдзреА 10 рднрд╛рдЧрд╛рдВрдордзреНрдпреЗ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рд╛ рдЖрдгрд┐ рдкреНрд░рддреНрдпреЗрдХрд╛рд╕рд╛рдареА, рдкреНрд░рддреНрдпреЗрдХ рд▓рд┐рдВрдЧрд╛рдЪреЗ рд╕рд░реНрд╡рд╛рдд рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рд╡ рд╢реЛрдзрд╛. рд╕рд╛рдкрдбрд▓реЗрд▓реНрдпрд╛ рдкреНрд░рддреНрдпреЗрдХ рдирд╛рд╡рд╛рд╕рд╛рдареА, рддреНрдпрд╛рдЪреНрдпрд╛ рдЧрддрд┐рд╢реАрд▓рддреЗрдЪреА рд╕рд░реНрд╡ рдХрд╛рд│ рдХрд▓реНрдкрдирд╛ рдХрд░рд╛;
- рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖рд╛рд╕рд╛рдареА, 50% рд▓реЛрдХрд╛рдВрдирд╛ рдХрд┐рддреА рдирд╛рд╡реЗ рд╕рдорд╛рд╡рд┐рд╖реНрдЯ рдЖрд╣реЗрдд рдпрд╛рдЪреА рдЧрдгрдирд╛ рдХрд░рд╛ рдЖрдгрд┐ рдХрд▓реНрдкрдирд╛ рдХрд░рд╛ (рдЖрдореНрд╣реА рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖рд╛рд╕рд╛рдареА рдирд╛рд╡рд╛рдВрдЪреА рд╡рд┐рд╡рд┐рдзрддрд╛ рдкрд╛рд╣реВ);
- рд╕рдВрдкреВрд░реНрдг рдордзреНрдпрд╛рдВрддрд░рд╛рддреВрди 4 рд╡рд░реНрд╖реЗ рдирд┐рд╡рдбрд╛ рдЖрдгрд┐ рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖рд╛рд╕рд╛рдареА рдирд╛рд╡рд╛рдЪреНрдпрд╛ рдкрд╣рд┐рд▓реНрдпрд╛ рдЕрдХреНрд╖рд░рд╛рдиреЗ рдЖрдгрд┐ рдирд╛рд╡рд╛рдЪреНрдпрд╛ рд╢реЗрд╡рдЯрдЪреНрдпрд╛ рдЕрдХреНрд╖рд░рд╛рджреНрд╡рд╛рд░реЗ рд╡рд┐рддрд░рдг рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рд╛;
- рдЕрдиреЗрдХ рдкреНрд░рд╕рд┐рджреНрдз рд▓реЛрдХрд╛рдВрдЪреА (рдЕрдзреНрдпрдХреНрд╖, рдЧрд╛рдпрдХ, рдЕрднрд┐рдиреЗрддреЗ, рдЪрд┐рддреНрд░рдкрдЯрд╛рддреАрд▓ рдкрд╛рддреНрд░) рдпрд╛рджреА рдмрдирд╡рд╛ рдЖрдгрд┐ рдирд╛рд╡рд╛рдВрдЪреНрдпрд╛ рдЧрддрд┐рд╢реАрд▓рддреЗрд╡рд░ рддреНрдпрд╛рдВрдЪреНрдпрд╛ рдкреНрд░рднрд╛рд╡рд╛рдЪреЗ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рд╛. рд╡реНрд╣рд┐рдЬреНрдпреБрдЕрд▓рд╛рдпрдЭреЗрд╢рди рддрдпрд╛рд░ рдХрд░рд╛.
рд╢рдмреНрдж рдХрдореА, рдХреЛрдб рдЬрд╛рд╕реНрдд!
рдЖрдгрд┐, рдЪрд▓рд╛ рдЬрд╛рдКрдпрд╛.
рд▓рд┐рдВрдЧ рдЖрдгрд┐ рд╡рд░реНрд╖рд╛рдиреБрд╕рд╛рд░ рдбреЗрдЯрд╛ рдЧрдЯрдмрджреНрдз рдХрд░реВ рдЖрдгрд┐ рджреЛрдиреНрд╣реА рд▓рд┐рдВрдЧрд╛рдВрдЪреНрдпрд╛ рдЬрдиреНрдорджрд░рд╛рдЪреНрдпрд╛ рдПрдХреВрдг рдЧрддрд┐рд╢реАрд▓рддреЗрдЪреА рдХрд▓реНрдкрдирд╛ рдХрд░реВрдпрд╛:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
years = np.arange(1880, 2011, 3)
datalist = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/babynames/yob{year}.txt'
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe.assign(year=year))
result = pd.concat(dataframes)
sex = result.groupby('sex')
births_men = sex.get_group('M').groupby('year', as_index=False)
births_women = sex.get_group('F').groupby('year', as_index=False)
births_men_list = births_men.aggregate(np.sum)['count'].tolist()
births_women_list = births_women.aggregate(np.sum)['count'].tolist()
fig, ax = plt.subplots()
fig.set_size_inches(25,15)
index = np.arange(len(years))
stolb1 = ax.bar(index, births_men_list, 0.4, color='c', label='╨Ь╤Г╨╢╤З╨╕╨╜╤Л')
stolb2 = ax.bar(index + 0.4, births_women_list, 0.4, alpha=0.8, color='r', label='╨Ц╨╡╨╜╤Й╨╕╨╜╤Л')
ax.set_title('╨а╨╛╨╢╨┤╨░╨╡╨╝╨╛╤Б╤В╤М ╨┐╨╛ ╨┐╨╛╨╗╤Г ╨╕ ╨│╨╛╨┤╨░╨╝')
ax.set_xlabel('╨У╨╛╨┤╨░')
ax.set_ylabel('╨а╨╛╨╢╨┤╨░╨╡╨╝╨╛╤Б╤В╤М')
ax.set_xticklabels(years)
ax.set_xticks(index + 0.4)
ax.legend(loc=9)
fig.tight_layout()
plt.show()
рдЪрд▓рд╛ рдЗрддрд┐рд╣рд╛рд╕рд╛рддреАрд▓ рд╕рд░реНрд╡рд╛рдд рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рд╡реЗ рд╢реЛрдзреВрдпрд╛:
years = np.arange(1880, 2011)
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe)
result = pd.concat(dataframes)
names = result.groupby('name', as_index=False).sum().sort_values('count', ascending=False)
names.head(10)
рдЪрд▓рд╛ рдбреЗрдЯрд╛рдордзреАрд▓ рд╕рдВрдкреВрд░реНрдг рдХрд╛рд▓рд╛рд╡рдзреА 10 рднрд╛рдЧрд╛рдВрдордзреНрдпреЗ рд╡рд┐рднрд╛рдЧреВ рдпрд╛ рдЖрдгрд┐ рдкреНрд░рддреНрдпреЗрдХрд╛рд╕рд╛рдареА рдЖрдореНрд╣рд╛рд▓рд╛ рдкреНрд░рддреНрдпреЗрдХ рд▓рд┐рдВрдЧрд╛рдЪреЗ рд╕рд░реНрд╡рд╛рдд рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рд╡ рд╕рд╛рдкрдбреЗрд▓. рд╕рд╛рдкрдбрд▓реЗрд▓реНрдпрд╛ рдкреНрд░рддреНрдпреЗрдХ рдирд╛рд╡рд╛рд╕рд╛рдареА, рдЖрдореНрд╣реА рддреНрдпрд╛рдЪреНрдпрд╛ рдЧрддрд┐рд╢реАрд▓рддреЗрдЪреА рдХрд▓реНрдкрдирд╛ рдХрд░рддреЛ:
years = np.arange(1880, 2011)
part_size = int((years[years.size - 1] - years[0]) / 10) + 1
parts = {}
def GetPart(year):
return int((year - years[0]) / part_size)
for year in years:
index = GetPart(year)
r = years[0] + part_size * index, min(years[years.size - 1], years[0] + part_size * (index + 1))
parts[index] = str(r[0]) + '-' + str(r[1])
dataframe_parts = []
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframe_parts.append(dataframe.assign(years=parts[GetPart(year)]))
dataframes.append(dataframe.assign(year=year))
result_parts = pd.concat(dataframe_parts)
result = pd.concat(dataframes)
result_parts_sums = result_parts.groupby(['years', 'sex', 'name'], as_index=False).sum()
result_parts_names = result_parts_sums.iloc[result_parts_sums.groupby(['years', 'sex'], as_index=False).apply(lambda x: x['count'].idxmax())]
result_sums = result.groupby(['year', 'sex', 'name'], as_index=False).sum()
for groupName, groupLabels in result_parts_names.groupby(['name', 'sex']).groups.items():
group = result_sums.groupby(['name', 'sex']).get_group(groupName)
fig, ax = plt.subplots(1, 1, figsize=(18,10))
ax.set_xlabel('╨У╨╛╨┤╨░')
ax.set_ylabel('╨а╨╛╨╢╨┤╨░╨╡╨╝╨╛╤Б╤В╤М')
label = group['name']
ax.plot(group['year'], group['count'], label=label.aggregate(np.max), color='b', ls='-')
ax.legend(loc=9, fontsize=11)
plt.show()
рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖рд╛рд╕рд╛рдареА, рдЖрдореНрд╣реА 50% рд▓реЛрдХрд╛рдВрдирд╛ рдХрд┐рддреА рдирд╛рд╡реЗ рд╕рдорд╛рд╡рд┐рд╖реНрдЯ рдХрд░рддрд╛рдд рдпрд╛рдЪреА рдЧрдгрдирд╛ рдХрд░рддреЛ рдЖрдгрд┐ рдпрд╛ рдбреЗрдЯрд╛рдЪреА рдХрд▓реНрдкрдирд╛ рдХрд░рддреЛ:
dataframe = pd.DataFrame({'year': [], 'count': []})
years = np.arange(1880, 2011)
for year in years:
dataset = datalist.format(year=year)
csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
names = csv.groupby('name', as_index=False).aggregate(np.sum)
names['sum'] = names.sum()['count']
names['percent'] = names['count'] / names['sum'] * 100
names = names.sort_values(['percent'], ascending=False)
names['cum_perc'] = names['percent'].cumsum()
names_filtered = names[names['cum_perc'] <= 50]
dataframe = dataframe.append(pd.DataFrame({'year': [year], 'count': [names_filtered.shape[0]]}))
fig, ax1 = plt.subplots(1, 1, figsize=(22,13))
ax1.set_xlabel('╨У╨╛╨┤╨░', fontsize = 12)
ax1.set_ylabel('╨а╨░╨╖╨╜╨╛╨╛╨▒╤А╨░╨╖╨╕╨╡ ╨╕╨╝╨╡╨╜', fontsize = 12)
ax1.plot(dataframe['year'], dataframe['count'], color='r', ls='-')
ax1.legend(loc=9, fontsize=12)
plt.show()
рдЪрд▓рд╛ рд╕рдВрдкреВрд░реНрдг рдордзреНрдпрд╛рдВрддрд░рд╛рддреВрди 4 рд╡рд░реНрд╖реЗ рдирд┐рд╡рдбрд╛ рдЖрдгрд┐ рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖рд╛рд╕рд╛рдареА рдирд╛рд╡рд╛рддреАрд▓ рдкрд╣рд┐рд▓реНрдпрд╛ рдЕрдХреНрд╖рд░рд╛рдиреЗ рдЖрдгрд┐ рдирд╛рд╡рд╛рдЪреНрдпрд╛ рд╢реЗрд╡рдЯрдЪреНрдпрд╛ рдЕрдХреНрд╖рд░рд╛рдиреЗ рд╡рд┐рддрд░рдг рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░реВрдпрд╛:
from string import ascii_lowercase, ascii_uppercase
fig_first, ax_first = plt.subplots(1, 1, figsize=(14,10))
fig_last, ax_last = plt.subplots(1, 1, figsize=(14,10))
index = np.arange(len(ascii_uppercase))
years = [1944, 1978, 1991, 2003]
colors = ['r', 'g', 'b', 'y']
n = 0
for year in years:
dataset = datalist.format(year=year)
csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
names = csv.groupby('name', as_index=False).aggregate(np.sum)
count = names.shape[0]
dataframe = pd.DataFrame({'letter': [], 'frequency_first': [], 'frequency_last': []})
for letter in ascii_uppercase:
countFirst = (names[names.name.str.startswith(letter)].count()['count'])
countLast = (names[names.name.str.endswith(letter.lower())].count()['count'])
dataframe = dataframe.append(pd.DataFrame({
'letter': [letter],
'frequency_first': [countFirst / count * 100],
'frequency_last': [countLast / count * 100]}))
ax_first.bar(index + 0.3 * n, dataframe['frequency_first'], 0.3, alpha=0.5, color=colors[n], label=year)
ax_last.bar(index + bar_width * n, dataframe['frequency_last'], 0.3, alpha=0.5, color=colors[n], label=year)
n += 1
ax_first.set_xlabel('╨С╤Г╨║╨▓╨░ ╨░╨╗╤Д╨░╨▓╨╕╤В╨░')
ax_first.set_ylabel('╨з╨░╤Б╤В╨╛╤В╨░, %')
ax_first.set_title('╨Я╨╡╤А╨▓╨░╤П ╨▒╤Г╨║╨▓╨░ ╨▓ ╨╕╨╝╨╡╨╜╨╕')
ax_first.set_xticks(index)
ax_first.set_xticklabels(ascii_uppercase)
ax_first.legend()
ax_last.set_xlabel('╨С╤Г╨║╨▓╨░ ╨░╨╗╤Д╨░╨▓╨╕╤В╨░')
ax_last.set_ylabel('╨з╨░╤Б╤В╨╛╤В╨░, %')
ax_last.set_title('╨Я╨╛╤Б╨╗╨╡╨┤╨╜╤П╤П ╨▒╤Г╨║╨▓╨░ ╨▓ ╨╕╨╝╨╡╨╜╨╕')
ax_last.set_xticks(index)
ax_last.set_xticklabels(ascii_uppercase)
ax_last.legend()
fig_first.tight_layout()
fig_last.tight_layout()
plt.show()
рдЪрд▓рд╛ рдЕрдиреЗрдХ рдкреНрд░рд╕рд┐рджреНрдз рд▓реЛрдХрд╛рдВрдЪреА (рдЕрдзреНрдпрдХреНрд╖, рдЧрд╛рдпрдХ, рдЕрднрд┐рдиреЗрддреЗ, рдЪрд┐рддреНрд░рдкрдЯрд╛рддреАрд▓ рдкрд╛рддреНрд░) рдпрд╛рджреА рдмрдирд╡реВ рдЖрдгрд┐ рдирд╛рд╡рд╛рдВрдЪреНрдпрд╛ рдЧрддрд┐рд╢реАрд▓рддреЗрд╡рд░ рддреНрдпрд╛рдВрдЪреНрдпрд╛ рдкреНрд░рднрд╛рд╡рд╛рдЪреЗ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░реВрдпрд╛:
celebrities = {'Frank': 'M', 'Britney': 'F', 'Madonna': 'F', 'Bob': 'M'}
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe.assign(year=year))
result = pd.concat(dataframes)
for celebrity, sex in celebrities.items():
names = result[result.name == celebrity]
dataframe = names[names.sex == sex]
fig, ax = plt.subplots(1, 1, figsize=(16,8))
ax.set_xlabel('╨У╨╛╨┤╨░', fontsize = 10)
ax.set_ylabel('╨а╨╛╨╢╨┤╨░╨╡╨╝╨╛╤Б╤В╤М', fontsize = 10)
ax.plot(dataframe['year'], dataframe['count'], label=celebrity, color='r', ls='-')
ax.legend(loc=9, fontsize=12)
plt.show()
рдкреНрд░рд╢рд┐рдХреНрд╖рдгрд╛рд╕рд╛рдареА, рдирд╛рд╡рд╛рдВрдЪреНрдпрд╛ рдЧрддрд┐рд╢реАрд▓рддреЗрд╡рд░ рддреНрдпрд╛рдВрдЪреНрдпрд╛ рдкреНрд░рднрд╛рд╡рд╛рдЪреЗ рд╕реНрдкрд╖реНрдЯрдкрдгреЗ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдгреНрдпрд╛рд╕рд╛рдареА рдЖрдкрдг рд╢реЗрд╡рдЯрдЪреНрдпрд╛ рдЙрджрд╛рд╣рд░рдгрд╛рд╡рд░реВрди рд╡реНрд╣рд┐рдЬреНрдпреБрдЕрд▓рд╛рдпрдЭреЗрд╢рдирдордзреНрдпреЗ рд╕реЗрд▓рд┐рдмреНрд░рд┐рдЯреАрдВрдЪрд╛ рдЬреАрд╡рди рдХрд╛рд▓рд╛рд╡рдзреА рдЬреЛрдбреВ рд╢рдХрддрд╛.
рдпрд╛рд╕рд╣, рдЖрдордЪреА рд╕рд░реНрд╡ рдЙрджреНрджрд┐рд╖реНрдЯреЗ рд╕рд╛рдзреНрдп рдЖрдгрд┐ рдкреВрд░реНрдг рдЭрд╛рд▓реА. рдЖрдореНрд╣реА Python рдордзреНрдпреЗ рдбреЗрдЯрд╛ рдЧреНрд░реБрдкрд┐рдВрдЧ рдЖрдгрд┐ рд╡реНрд╣рд┐рдЬреНрдпреБрдЕрд▓рд╛рдЗрдЬ рдХрд░рдгреНрдпрд╛рд╕рд╛рдареА рдЯреВрд▓реНрд╕ рд╡рд╛рдкрд░рдгреНрдпрд╛рдЪреЗ рдХреМрд╢рд▓реНрдп рд╡рд┐рдХрд╕рд┐рдд рдХреЗрд▓реЗ рдЖрд╣реЗ рдЖрдгрд┐ рдЖрдореНрд╣реА рдбреЗрдЯрд╛рд╕рд╣ рдХрд╛рд░реНрдп рдХрд░рдгреЗ рд╕реБрд░реВ рдареЗрд╡реВ. рдкреНрд░рддреНрдпреЗрдХрдЬрдг рд╕реНрд╡рдд: рддрдпрд╛рд░, рд╡реНрд╣рд┐рдЬреНрдпреБрдЕрд▓рд╛рдЗрдЬреНрдб рдбреЗрдЯрд╛рд╡рд░ рдЖрдзрд╛рд░рд┐рдд рдирд┐рд╖реНрдХрд░реНрд╖ рдХрд╛рдвреВ рд╢рдХрддреЛ.
рдкреНрд░рддреНрдпреЗрдХрд╛рд▓рд╛ рдЬреНрдЮрд╛рди!
рд╕реНрддреНрд░реЛрдд: www.habr.com