Π₯Π΅Ρ Π₯Π°Π±Ρ!
ΠΠ°Π½Π°Ρ ΡΠ΅ΠΌΠΎ ΡΠ°Π΄ΠΈΡΠΈ Π½Π° Π²Π΅ΡΡΠΈΠ½ΠΈ ΠΊΠΎΡΠΈΡΡΠ΅ΡΠ° Π°Π»Π°ΡΠ° Π·Π° Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠ°ΡΡΠΎΠ½Ρ. Π£ ΠΏΡΠ΅Π΄Π²ΠΈΡΠ΅Π½ΠΎΠΌ
ΠΠΎ ΡΡΠ°Π΄ΠΈΡΠΈΡΠΈ, Π½Π° ΠΏΠΎΡΠ΅ΡΠΊΡ Π΄Π΅ΡΠΈΠ½ΠΈΡΠ΅ΠΌΠΎ ΡΠΈΡΠ΅Π²Π΅:
- ΠΡΡΠΏΠΈΡΠ°ΡΠΈ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ ΠΏΠΎ ΠΏΠΎΠ»Ρ ΠΈ Π³ΠΎΠ΄ΠΈΠ½ΠΈ ΠΈ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·ΠΎΠ²Π°ΡΠΈ ΡΠΊΡΠΏΠ½Ρ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ Π½Π°ΡΠ°Π»ΠΈΡΠ΅ΡΠ° ΠΎΠ±Π° ΠΏΠΎΠ»Π°;
- ΠΡΠΎΠ½Π°ΡΠΈΡΠ΅ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠ° ΠΈΠΌΠ΅Π½Π° ΡΠ²ΠΈΡ Π²ΡΠ΅ΠΌΠ΅Π½Π°;
- ΠΠΎΠ΄Π΅Π»ΠΈΡΠ΅ ΡΠ΅ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½ΡΠΊΠΈ ΠΏΠ΅ΡΠΈΠΎΠ΄ Ρ ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Π½Π° 10 Π΄Π΅Π»ΠΎΠ²Π° ΠΈ Π·Π° ΡΠ²Π°ΠΊΠΈ ΠΏΡΠΎΠ½Π°ΡΠΈΡΠ΅ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠ΅ ΠΈΠΌΠ΅ ΡΠ²Π°ΠΊΠΎΠ³ ΠΏΠΎΠ»Π°. ΠΠ° ΡΠ²Π°ΠΊΠΎ ΠΏΡΠΎΠ½Π°ΡΠ΅Π½ΠΎ ΠΈΠΌΠ΅ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΡΡΡΠ΅ ΡΠ΅Π³ΠΎΠ²Ρ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ ΡΠΎΠΊΠΎΠΌ ΡΠΈΡΠ°Π²ΠΎΠ³ Π²ΡΠ΅ΠΌΠ΅Π½Π°;
- ΠΠ° ΡΠ²Π°ΠΊΡ Π³ΠΎΠ΄ΠΈΠ½Ρ ΠΈΠ·ΡΠ°ΡΡΠ½Π°ΡΡΠ΅ ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΈΠΌΠ΅Π½Π° ΠΏΠΎΠΊΡΠΈΠ²Π° 50% ΡΡΠ΄ΠΈ ΠΈ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΡΡΡΠ΅ (Π²ΠΈΠ΄Π΅ΡΠ΅ΠΌΠΎ ΡΠ°Π·Π½ΠΎΠ»ΠΈΠΊΠΎΡΡ ΠΈΠΌΠ΅Π½Π° Π·Π° ΡΠ²Π°ΠΊΡ Π³ΠΎΠ΄ΠΈΠ½Ρ);
- ΠΠ·Π°Π±Π΅ΡΠΈΡΠ΅ 4 Π³ΠΎΠ΄ΠΈΠ½Π΅ ΠΈΠ· ΡΠ΅Π»ΠΎΠ³ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»Π° ΠΈ Π·Π° ΡΠ²Π°ΠΊΡ Π³ΠΎΠ΄ΠΈΠ½Ρ ΠΏΡΠΈΠΊΠ°ΠΆΠΈΡΠ΅ Π΄ΠΈΡΡΡΠΈΠ±ΡΡΠΈΡΡ ΠΏΠΎ ΠΏΡΠ²ΠΎΠΌ ΡΠ»ΠΎΠ²Ρ Ρ ΠΈΠΌΠ΅Π½Ρ ΠΈ ΠΏΠΎ ΠΏΠΎΡΠ»Π΅Π΄ΡΠ΅ΠΌ ΡΠ»ΠΎΠ²Ρ Ρ Π½Π°Π·ΠΈΠ²Ρ;
- ΠΠ°ΠΏΡΠ°Π²ΠΈΡΠ΅ ΡΠΏΠΈΡΠ°ΠΊ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΏΠΎΠ·Π½Π°ΡΠΈΡ Π»ΠΈΡΠ½ΠΎΡΡΠΈ (ΠΏΡΠ΅Π΄ΡΠ΅Π΄Π½ΠΈΠΊΠ°, ΠΏΠ΅Π²Π°ΡΠ°, Π³Π»ΡΠΌΠ°ΡΠ°, ΡΠΈΠ»ΠΌΡΠΊΠΈΡ Π»ΠΈΠΊΠΎΠ²Π°) ΠΈ ΠΏΡΠΎΡΠ΅Π½ΠΈΡΠ΅ ΡΠΈΡ ΠΎΠ² ΡΡΠΈΡΠ°Ρ Π½Π° Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ ΠΈΠΌΠ΅Π½Π°. ΠΠ°ΠΏΡΠ°Π²ΠΈΡΠ΅ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΡ.
ΠΠ°ΡΠ΅ ΡΠ΅ΡΠΈ, Π²ΠΈΡΠ΅ ΠΊΠΎΠ΄Π°!
Π₯Π°ΡΠ΄Π΅ Π΄Π° Π³ΡΡΠΏΠΈΡΠ΅ΠΌΠΎ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅ ΠΏΠΎ ΠΏΠΎΠ»Ρ ΠΈ Π³ΠΎΠ΄ΠΈΠ½ΠΈ ΠΈ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·ΡΡΠ΅ΠΌΠΎ ΡΠΊΡΠΏΠ½Ρ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ Π½Π°ΡΠ°Π»ΠΈΡΠ΅ΡΠ° ΠΎΠ±Π° ΠΏΠΎΠ»Π°:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
years = np.arange(1880, 2011, 3)
datalist = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/babynames/yob{year}.txt'
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe.assign(year=year))
result = pd.concat(dataframes)
sex = result.groupby('sex')
births_men = sex.get_group('M').groupby('year', as_index=False)
births_women = sex.get_group('F').groupby('year', as_index=False)
births_men_list = births_men.aggregate(np.sum)['count'].tolist()
births_women_list = births_women.aggregate(np.sum)['count'].tolist()
fig, ax = plt.subplots()
fig.set_size_inches(25,15)
index = np.arange(len(years))
stolb1 = ax.bar(index, births_men_list, 0.4, color='c', label='ΠΡΠΆΡΠΈΠ½Ρ')
stolb2 = ax.bar(index + 0.4, births_women_list, 0.4, alpha=0.8, color='r', label='ΠΠ΅Π½ΡΠΈΠ½Ρ')
ax.set_title('Π ΠΎΠΆΠ΄Π°Π΅ΠΌΠΎΡΡΡ ΠΏΠΎ ΠΏΠΎΠ»Ρ ΠΈ Π³ΠΎΠ΄Π°ΠΌ')
ax.set_xlabel('ΠΠΎΠ΄Π°')
ax.set_ylabel('Π ΠΎΠΆΠ΄Π°Π΅ΠΌΠΎΡΡΡ')
ax.set_xticklabels(years)
ax.set_xticks(index + 0.4)
ax.legend(loc=9)
fig.tight_layout()
plt.show()
Π₯Π°ΡΠ΄Π΅ Π΄Π° ΠΏΡΠΎΠ½Π°ΡΠ΅ΠΌΠΎ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠ° ΠΈΠΌΠ΅Π½Π° Ρ ΠΈΡΡΠΎΡΠΈΡΠΈ:
years = np.arange(1880, 2011)
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe)
result = pd.concat(dataframes)
names = result.groupby('name', as_index=False).sum().sort_values('count', ascending=False)
names.head(10)
ΠΠΎΠ΄Π΅Π»ΠΈΠΌΠΎ ΡΠ΅ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½ΡΠΊΠΈ ΠΏΠ΅ΡΠΈΠΎΠ΄ Ρ ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ° Π½Π° 10 Π΄Π΅Π»ΠΎΠ²Π° ΠΈ Π·Π° ΡΠ²Π°ΠΊΠΈ ΡΠ΅ΠΌΠΎ ΠΏΡΠΎΠ½Π°ΡΠΈ Π½Π°ΡΠΏΠΎΠΏΡΠ»Π°ΡΠ½ΠΈΡΠ΅ ΠΈΠΌΠ΅ ΡΠ²Π°ΠΊΠΎΠ³ ΠΏΠΎΠ»Π°. ΠΠ° ΡΠ²Π°ΠΊΠΎ ΠΏΡΠΎΠ½Π°ΡΠ΅Π½ΠΎ ΠΈΠΌΠ΅ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΡΡΠ΅ΠΌΠΎ ΡΠ΅Π³ΠΎΠ²Ρ Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ ΡΠΎΠΊΠΎΠΌ ΡΠΈΡΠ°Π²ΠΎΠ³ Π²ΡΠ΅ΠΌΠ΅Π½Π°:
years = np.arange(1880, 2011)
part_size = int((years[years.size - 1] - years[0]) / 10) + 1
parts = {}
def GetPart(year):
return int((year - years[0]) / part_size)
for year in years:
index = GetPart(year)
r = years[0] + part_size * index, min(years[years.size - 1], years[0] + part_size * (index + 1))
parts[index] = str(r[0]) + '-' + str(r[1])
dataframe_parts = []
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframe_parts.append(dataframe.assign(years=parts[GetPart(year)]))
dataframes.append(dataframe.assign(year=year))
result_parts = pd.concat(dataframe_parts)
result = pd.concat(dataframes)
result_parts_sums = result_parts.groupby(['years', 'sex', 'name'], as_index=False).sum()
result_parts_names = result_parts_sums.iloc[result_parts_sums.groupby(['years', 'sex'], as_index=False).apply(lambda x: x['count'].idxmax())]
result_sums = result.groupby(['year', 'sex', 'name'], as_index=False).sum()
for groupName, groupLabels in result_parts_names.groupby(['name', 'sex']).groups.items():
group = result_sums.groupby(['name', 'sex']).get_group(groupName)
fig, ax = plt.subplots(1, 1, figsize=(18,10))
ax.set_xlabel('ΠΠΎΠ΄Π°')
ax.set_ylabel('Π ΠΎΠΆΠ΄Π°Π΅ΠΌΠΎΡΡΡ')
label = group['name']
ax.plot(group['year'], group['count'], label=label.aggregate(np.max), color='b', ls='-')
ax.legend(loc=9, fontsize=11)
plt.show()
ΠΠ° ΡΠ²Π°ΠΊΡ Π³ΠΎΠ΄ΠΈΠ½Ρ ΠΈΠ·ΡΠ°ΡΡΠ½Π°Π²Π°ΠΌΠΎ ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΈΠΌΠ΅Π½Π° ΠΏΠΎΠΊΡΠΈΠ²Π° 50% ΡΡΠ΄ΠΈ ΠΈ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΡΡΠ΅ΠΌΠΎ ΠΎΠ²Π΅ ΠΏΠΎΠ΄Π°ΡΠΊΠ΅:
dataframe = pd.DataFrame({'year': [], 'count': []})
years = np.arange(1880, 2011)
for year in years:
dataset = datalist.format(year=year)
csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
names = csv.groupby('name', as_index=False).aggregate(np.sum)
names['sum'] = names.sum()['count']
names['percent'] = names['count'] / names['sum'] * 100
names = names.sort_values(['percent'], ascending=False)
names['cum_perc'] = names['percent'].cumsum()
names_filtered = names[names['cum_perc'] <= 50]
dataframe = dataframe.append(pd.DataFrame({'year': [year], 'count': [names_filtered.shape[0]]}))
fig, ax1 = plt.subplots(1, 1, figsize=(22,13))
ax1.set_xlabel('ΠΠΎΠ΄Π°', fontsize = 12)
ax1.set_ylabel('Π Π°Π·Π½ΠΎΠΎΠ±ΡΠ°Π·ΠΈΠ΅ ΠΈΠΌΠ΅Π½', fontsize = 12)
ax1.plot(dataframe['year'], dataframe['count'], color='r', ls='-')
ax1.legend(loc=9, fontsize=12)
plt.show()
ΠΠ΄Π°Π±Π΅ΡΠΈΠΌΠΎ 4 Π³ΠΎΠ΄ΠΈΠ½Π΅ ΠΈΠ· ΡΠΈΡΠ°Π²ΠΎΠ³ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»Π° ΠΈ Π·Π° ΡΠ²Π°ΠΊΡ Π³ΠΎΠ΄ΠΈΠ½Ρ ΠΏΡΠΈΠΊΠ°ΠΆΠ΅ΠΌΠΎ Π΄ΠΈΡΡΡΠΈΠ±ΡΡΠΈΡΡ ΠΏΠΎ ΠΏΡΠ²ΠΎΠΌ ΡΠ»ΠΎΠ²Ρ Ρ ΠΈΠΌΠ΅Π½Ρ ΠΈ ΠΏΠΎ ΠΏΠΎΡΠ»Π΅Π΄ΡΠ΅ΠΌ ΡΠ»ΠΎΠ²Ρ Ρ ΠΈΠΌΠ΅Π½Ρ:
from string import ascii_lowercase, ascii_uppercase
fig_first, ax_first = plt.subplots(1, 1, figsize=(14,10))
fig_last, ax_last = plt.subplots(1, 1, figsize=(14,10))
index = np.arange(len(ascii_uppercase))
years = [1944, 1978, 1991, 2003]
colors = ['r', 'g', 'b', 'y']
n = 0
for year in years:
dataset = datalist.format(year=year)
csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
names = csv.groupby('name', as_index=False).aggregate(np.sum)
count = names.shape[0]
dataframe = pd.DataFrame({'letter': [], 'frequency_first': [], 'frequency_last': []})
for letter in ascii_uppercase:
countFirst = (names[names.name.str.startswith(letter)].count()['count'])
countLast = (names[names.name.str.endswith(letter.lower())].count()['count'])
dataframe = dataframe.append(pd.DataFrame({
'letter': [letter],
'frequency_first': [countFirst / count * 100],
'frequency_last': [countLast / count * 100]}))
ax_first.bar(index + 0.3 * n, dataframe['frequency_first'], 0.3, alpha=0.5, color=colors[n], label=year)
ax_last.bar(index + bar_width * n, dataframe['frequency_last'], 0.3, alpha=0.5, color=colors[n], label=year)
n += 1
ax_first.set_xlabel('ΠΡΠΊΠ²Π° Π°Π»ΡΠ°Π²ΠΈΡΠ°')
ax_first.set_ylabel('Π§Π°ΡΡΠΎΡΠ°, %')
ax_first.set_title('ΠΠ΅ΡΠ²Π°Ρ Π±ΡΠΊΠ²Π° Π² ΠΈΠΌΠ΅Π½ΠΈ')
ax_first.set_xticks(index)
ax_first.set_xticklabels(ascii_uppercase)
ax_first.legend()
ax_last.set_xlabel('ΠΡΠΊΠ²Π° Π°Π»ΡΠ°Π²ΠΈΡΠ°')
ax_last.set_ylabel('Π§Π°ΡΡΠΎΡΠ°, %')
ax_last.set_title('ΠΠΎΡΠ»Π΅Π΄Π½ΡΡ Π±ΡΠΊΠ²Π° Π² ΠΈΠΌΠ΅Π½ΠΈ')
ax_last.set_xticks(index)
ax_last.set_xticklabels(ascii_uppercase)
ax_last.legend()
fig_first.tight_layout()
fig_last.tight_layout()
plt.show()
Π₯Π°ΡΠ΄Π΅ Π΄Π° Π½Π°ΠΏΡΠ°Π²ΠΈΠΌΠΎ ΡΠΏΠΈΡΠ°ΠΊ Π½Π΅ΠΊΠΎΠ»ΠΈΠΊΠΎ ΠΏΠΎΠ·Π½Π°ΡΠΈΡ Π»ΠΈΡΠ½ΠΎΡΡΠΈ (ΠΏΡΠ΅Π΄ΡΠ΅Π΄Π½ΠΈΠΊΠ°, ΠΏΠ΅Π²Π°ΡΠ°, Π³Π»ΡΠΌΠ°ΡΠ°, ΡΠΈΠ»ΠΌΡΠΊΠΈΡ Π»ΠΈΠΊΠΎΠ²Π°) ΠΈ ΠΏΡΠΎΡΠ΅Π½ΠΈΠΌΠΎ ΡΠΈΡ ΠΎΠ² ΡΡΠΈΡΠ°Ρ Π½Π° Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ ΠΈΠΌΠ΅Π½Π°:
celebrities = {'Frank': 'M', 'Britney': 'F', 'Madonna': 'F', 'Bob': 'M'}
dataframes = []
for year in years:
dataset = datalist.format(year=year)
dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
dataframes.append(dataframe.assign(year=year))
result = pd.concat(dataframes)
for celebrity, sex in celebrities.items():
names = result[result.name == celebrity]
dataframe = names[names.sex == sex]
fig, ax = plt.subplots(1, 1, figsize=(16,8))
ax.set_xlabel('ΠΠΎΠ΄Π°', fontsize = 10)
ax.set_ylabel('Π ΠΎΠΆΠ΄Π°Π΅ΠΌΠΎΡΡΡ', fontsize = 10)
ax.plot(dataframe['year'], dataframe['count'], label=celebrity, color='r', ls='-')
ax.legend(loc=9, fontsize=12)
plt.show()
ΠΠ° ΠΎΠ±ΡΠΊΡ, Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΠΈ ΠΈΠ· ΠΏΠΎΡΠ»Π΅Π΄ΡΠ΅Π³ ΠΏΡΠΈΠΌΠ΅ΡΠ° ΠΌΠΎΠΆΠ΅ΡΠ΅ Π΄ΠΎΠ΄Π°ΡΠΈ ΠΆΠΈΠ²ΠΎΡΠ½ΠΈ ΠΏΠ΅ΡΠΈΠΎΠ΄ ΡΠ»Π°Π²Π½Π΅ Π»ΠΈΡΠ½ΠΎΡΡΠΈ ΠΊΠ°ΠΊΠΎ Π±ΠΈΡΡΠ΅ ΡΠ°ΡΠ½ΠΎ ΠΏΡΠΎΡΠ΅Π½ΠΈΠ»ΠΈ ΡΠΈΡ
ΠΎΠ² ΡΡΠΈΡΠ°Ρ Π½Π° Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡ ΠΈΠΌΠ΅Π½Π°.
ΠΠ²ΠΈΠΌ ΡΡ ΡΠ²ΠΈ Π½Π°ΡΠΈ ΡΠΈΡΠ΅Π²ΠΈ ΠΎΡΡΠ²Π°ΡΠ΅Π½ΠΈ ΠΈ ΠΈΡΠΏΡΡΠ΅Π½ΠΈ. Π Π°Π·Π²ΠΈΠ»ΠΈ ΡΠΌΠΎ Π²Π΅ΡΡΠΈΠ½Ρ ΠΊΠΎΡΠΈΡΡΠ΅ΡΠ° Π°Π»Π°ΡΠ° Π·Π° Π³ΡΡΠΏΠΈΡΠ°ΡΠ΅ ΠΈ Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·Π°ΡΠΈΡΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ° Ρ ΠΠΈΡΡ ΠΎΠ½-Ρ ΠΈ Π½Π°ΡΡΠ°Π²ΠΈΡΠ΅ΠΌΠΎ Π΄Π° ΡΠ°Π΄ΠΈΠΌΠΎ ΡΠ° ΠΏΠΎΠ΄Π°ΡΠΈΠΌΠ°. Π‘Π²Π°ΠΊΠΎ ΠΌΠΎΠΆΠ΅ ΡΠ°ΠΌ Π΄Π° ΠΈΠ·Π²Π΅Π΄Π΅ Π·Π°ΠΊΡΡΡΠΊΠ΅ Π½Π° ΠΎΡΠ½ΠΎΠ²Ρ Π³ΠΎΡΠΎΠ²ΠΈΡ , Π²ΠΈΠ·ΡΠ΅Π»ΠΈΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠΎΠ΄Π°ΡΠ°ΠΊΠ°.
ΠΠ½Π°ΡΠ΅ ΡΠ²ΠΈΠΌΠ°!
ΠΠ·Π²ΠΎΡ: Π²Π²Π².Ρ
Π°Π±Ρ.ΡΠΎΠΌ