แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒฐแƒ”แƒ˜ แƒฐแƒแƒ‘แƒ !

แƒ“แƒฆแƒ”แƒก แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ— แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒ˜แƒœแƒกแƒขแƒ แƒฃแƒ›แƒ”แƒœแƒขแƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ”. แƒ›แƒแƒฌแƒแƒ“แƒ”แƒ‘แƒฃแƒšแƒจแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜ Github-แƒ–แƒ” แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ•แƒแƒแƒœแƒแƒšแƒ˜แƒ–แƒแƒ— แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜แƒ›แƒ” แƒ›แƒแƒฎแƒแƒกแƒ˜แƒแƒ—แƒ”แƒ‘แƒ”แƒšแƒ˜ แƒ“แƒ แƒจแƒ”แƒ•แƒฅแƒ›แƒœแƒแƒ— แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜.

แƒขแƒ แƒแƒ“แƒ˜แƒชแƒ˜แƒ˜แƒก แƒ›แƒ˜แƒฎแƒ”แƒ“แƒ•แƒ˜แƒ—, แƒ“แƒแƒกแƒแƒฌแƒงแƒ˜แƒกแƒจแƒ˜ แƒ’แƒแƒœแƒ•แƒกแƒแƒ–แƒฆแƒ•แƒ แƒแƒ— แƒ›แƒ˜แƒ–แƒœแƒ”แƒ‘แƒ˜:

  • แƒ“แƒแƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒ“แƒ แƒฌแƒšแƒ˜แƒก แƒ›แƒ˜แƒฎแƒ”แƒ“แƒ•แƒ˜แƒ— แƒ“แƒ แƒฌแƒแƒ แƒ›แƒแƒ˜แƒ“แƒ’แƒ˜แƒœแƒ”แƒ— แƒแƒ แƒ˜แƒ•แƒ” แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒจแƒแƒ‘แƒแƒ“แƒแƒ‘แƒ˜แƒก แƒกแƒแƒ”แƒ แƒ—แƒ แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒ;
  • แƒ˜แƒžแƒแƒ•แƒœแƒ”แƒ— แƒงแƒ•แƒ”แƒšแƒ แƒ“แƒ แƒแƒ˜แƒก แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒžแƒแƒžแƒฃแƒšแƒแƒ แƒฃแƒšแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜;
  • แƒ“แƒแƒงแƒแƒ•แƒ˜แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ›แƒ—แƒ”แƒšแƒ˜ แƒžแƒ”แƒ แƒ˜แƒแƒ“แƒ˜ 10 แƒœแƒแƒฌแƒ˜แƒšแƒแƒ“ แƒ“แƒ แƒ˜แƒžแƒแƒ•แƒ”แƒ— แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒžแƒแƒžแƒฃแƒšแƒแƒ แƒฃแƒšแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜. แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒœแƒแƒžแƒแƒ•แƒœแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒฌแƒแƒ แƒ›แƒแƒ˜แƒ“แƒ’แƒ˜แƒœแƒ”แƒ— แƒ›แƒ˜แƒกแƒ˜ แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒ แƒงแƒ•แƒ”แƒšแƒ แƒ“แƒ แƒแƒ˜แƒก แƒ’แƒแƒœแƒ›แƒแƒ•แƒšแƒแƒ‘แƒแƒจแƒ˜;
  • แƒงแƒแƒ•แƒ”แƒšแƒ˜ แƒฌแƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก แƒ’แƒแƒ›แƒแƒ—แƒ•แƒแƒšแƒ”แƒ— แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜ แƒ›แƒแƒ˜แƒชแƒแƒ•แƒก แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒก 50%-แƒก แƒ“แƒ แƒฌแƒแƒ แƒ›แƒแƒ˜แƒ“แƒ’แƒ˜แƒœแƒ”แƒ— (แƒฉแƒ•แƒ”แƒœ แƒ“แƒแƒ•แƒ˜แƒœแƒแƒฎแƒแƒ•แƒ— แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ›แƒ แƒแƒ•แƒแƒšแƒคแƒ”แƒ แƒแƒ•แƒœแƒ”แƒ‘แƒแƒก แƒงแƒแƒ•แƒ”แƒšแƒ˜ แƒฌแƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก);
  • แƒแƒ˜แƒ แƒฉแƒ˜แƒ”แƒ— 4 แƒฌแƒ”แƒšแƒ˜ แƒ›แƒ—แƒ”แƒšแƒ˜ แƒ˜แƒœแƒขแƒ”แƒ แƒ•แƒแƒšแƒ˜แƒ“แƒแƒœ แƒ“แƒ แƒแƒฉแƒ•แƒ”แƒœแƒ”แƒ— แƒงแƒแƒ•แƒ”แƒšแƒ˜ แƒฌแƒšแƒ˜แƒก แƒ’แƒแƒœแƒแƒฌแƒ˜แƒšแƒ”แƒ‘แƒ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒก แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒแƒกแƒแƒ”แƒ‘แƒ˜แƒ— แƒ“แƒ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒก แƒ‘แƒแƒšแƒ แƒแƒกแƒแƒ”แƒ‘แƒ˜แƒ—;
  • แƒจแƒ”แƒแƒ“แƒ’แƒ˜แƒœแƒ”แƒ— แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜แƒ›แƒ” แƒชแƒœแƒแƒ‘แƒ˜แƒšแƒ˜ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜แƒก แƒกแƒ˜แƒ (แƒžแƒ แƒ”แƒ–แƒ˜แƒ“แƒ”แƒœแƒขแƒ”แƒ‘แƒ˜, แƒ›แƒแƒ›แƒฆแƒ”แƒ แƒšแƒ”แƒ‘แƒ˜, แƒ›แƒกแƒแƒฎแƒ˜แƒแƒ‘แƒ”แƒ‘แƒ˜, แƒ™แƒ˜แƒœแƒแƒ’แƒ›แƒ˜แƒ แƒ”แƒ‘แƒ˜) แƒ“แƒ แƒจแƒ”แƒแƒคแƒแƒกแƒ”แƒ— แƒ›แƒแƒ—แƒ˜ แƒ’แƒแƒ•แƒšแƒ”แƒœแƒ แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒแƒ–แƒ”. แƒจแƒ”แƒฅแƒ›แƒ”แƒœแƒ˜แƒ— แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ.

แƒœแƒแƒ™แƒšแƒ”แƒ‘แƒ˜ แƒกแƒ˜แƒขแƒงแƒ•แƒ, แƒ›แƒ”แƒขแƒ˜ แƒ™แƒแƒ“แƒ˜!

แƒ“แƒ, แƒฌแƒแƒ•แƒ˜แƒ“แƒ”แƒ—.

แƒ›แƒแƒ“แƒ˜แƒ— แƒ“แƒแƒ•แƒแƒฏแƒ’แƒฃแƒคแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒ“แƒ แƒฌแƒšแƒ˜แƒก แƒ›แƒ˜แƒฎแƒ”แƒ“แƒ•แƒ˜แƒ— แƒ“แƒ แƒฌแƒแƒ แƒ›แƒแƒ•แƒ˜แƒ“แƒ’แƒ˜แƒœแƒแƒ— แƒแƒ แƒ˜แƒ•แƒ” แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒจแƒแƒ‘แƒแƒ“แƒแƒ‘แƒ˜แƒก แƒกแƒแƒ”แƒ แƒ—แƒ แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒ:

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt

years = np.arange(1880, 2011, 3)
datalist = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/babynames/yob{year}.txt'
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe.assign(year=year))

result = pd.concat(dataframes)
sex = result.groupby('sex')
births_men = sex.get_group('M').groupby('year', as_index=False)
births_women = sex.get_group('F').groupby('year', as_index=False)
births_men_list = births_men.aggregate(np.sum)['count'].tolist()
births_women_list = births_women.aggregate(np.sum)['count'].tolist()

fig, ax = plt.subplots()
fig.set_size_inches(25,15)

index = np.arange(len(years))
stolb1 = ax.bar(index, births_men_list, 0.4, color='c', label='ะœัƒะถั‡ะธะฝั‹')
stolb2 = ax.bar(index + 0.4, births_women_list, 0.4, alpha=0.8, color='r', label='ะ–ะตะฝั‰ะธะฝั‹')

ax.set_title('ะ ะพะถะดะฐะตะผะพัั‚ัŒ ะฟะพ ะฟะพะปัƒ ะธ ะณะพะดะฐะผ')
ax.set_xlabel('ะ“ะพะดะฐ')
ax.set_ylabel('ะ ะพะถะดะฐะตะผะพัั‚ัŒ')
ax.set_xticklabels(years)
ax.set_xticks(index + 0.4)
ax.legend(loc=9)

fig.tight_layout()
plt.show()

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒ›แƒแƒ“แƒ˜ แƒ•แƒ˜แƒžแƒแƒ•แƒแƒ— แƒ˜แƒกแƒขแƒแƒ แƒ˜แƒแƒจแƒ˜ แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒžแƒแƒžแƒฃแƒšแƒแƒ แƒฃแƒšแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜:

years = np.arange(1880, 2011)

dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe)

result = pd.concat(dataframes)
names = result.groupby('name', as_index=False).sum().sort_values('count', ascending=False)
names.head(10)

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ•แƒงแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ›แƒ—แƒ”แƒšแƒ˜ แƒžแƒ”แƒ แƒ˜แƒแƒ“แƒ˜ 10 แƒœแƒแƒฌแƒ˜แƒšแƒแƒ“ แƒ“แƒ แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก แƒ•แƒ˜แƒžแƒแƒ•แƒแƒ— แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒžแƒแƒžแƒฃแƒšแƒแƒ แƒฃแƒš แƒกแƒแƒฎแƒ”แƒšแƒก. แƒœแƒแƒžแƒแƒ•แƒœแƒ˜ แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒฃแƒ แƒแƒ“ แƒ•แƒฎแƒ•แƒ“แƒ”แƒ‘แƒ˜แƒ— แƒ›แƒ˜แƒก แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒแƒก แƒงแƒ•แƒ”แƒšแƒ แƒ“แƒ แƒแƒ˜แƒก แƒ’แƒแƒœแƒ›แƒแƒ•แƒšแƒแƒ‘แƒแƒจแƒ˜:

years = np.arange(1880, 2011)
part_size = int((years[years.size - 1] - years[0]) / 10) + 1
parts = {}
def GetPart(year):
    return int((year - years[0]) / part_size)
for year in years:
    index = GetPart(year)
    r = years[0] + part_size * index, min(years[years.size - 1], years[0] + part_size * (index + 1))
    parts[index] = str(r[0]) + '-' + str(r[1])

dataframe_parts = []
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframe_parts.append(dataframe.assign(years=parts[GetPart(year)]))
    dataframes.append(dataframe.assign(year=year))
    
result_parts = pd.concat(dataframe_parts)
result = pd.concat(dataframes)

result_parts_sums = result_parts.groupby(['years', 'sex', 'name'], as_index=False).sum()
result_parts_names = result_parts_sums.iloc[result_parts_sums.groupby(['years', 'sex'], as_index=False).apply(lambda x: x['count'].idxmax())]
result_sums = result.groupby(['year', 'sex', 'name'], as_index=False).sum()

for groupName, groupLabels in result_parts_names.groupby(['name', 'sex']).groups.items():
    group = result_sums.groupby(['name', 'sex']).get_group(groupName)
    fig, ax = plt.subplots(1, 1, figsize=(18,10))

    ax.set_xlabel('ะ“ะพะดะฐ')
    ax.set_ylabel('ะ ะพะถะดะฐะตะผะพัั‚ัŒ')
    label = group['name']
    ax.plot(group['year'], group['count'], label=label.aggregate(np.max), color='b', ls='-')
    ax.legend(loc=9, fontsize=11)

    plt.show()

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒงแƒแƒ•แƒ”แƒšแƒ˜ แƒฌแƒšแƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒแƒœแƒ’แƒแƒ แƒ˜แƒจแƒ”แƒ‘แƒ— แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜ แƒ›แƒแƒ˜แƒชแƒแƒ•แƒก แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒก 50% -แƒก แƒ“แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒฃแƒ แƒแƒ“ แƒฌแƒแƒ แƒ›แƒแƒ•แƒ˜แƒ“แƒ’แƒ”แƒœแƒ— แƒแƒ› แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก:

dataframe = pd.DataFrame({'year': [], 'count': []})
years = np.arange(1880, 2011)
for year in years:
    dataset = datalist.format(year=year)
    csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    names = csv.groupby('name', as_index=False).aggregate(np.sum)
    names['sum'] = names.sum()['count']
    names['percent'] = names['count'] / names['sum'] * 100
    names = names.sort_values(['percent'], ascending=False)
    names['cum_perc'] = names['percent'].cumsum()
    names_filtered = names[names['cum_perc'] <= 50]
    dataframe = dataframe.append(pd.DataFrame({'year': [year], 'count': [names_filtered.shape[0]]}))

fig, ax1 = plt.subplots(1, 1, figsize=(22,13))
ax1.set_xlabel('ะ“ะพะดะฐ', fontsize = 12)
ax1.set_ylabel('ะ ะฐะทะฝะพะพะฑั€ะฐะทะธะต ะธะผะตะฝ', fontsize = 12)
ax1.plot(dataframe['year'], dataframe['count'], color='r', ls='-')
ax1.legend(loc=9, fontsize=12)

plt.show()

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒ›แƒแƒ“แƒ˜แƒ— แƒแƒ•แƒ˜แƒ แƒฉแƒ˜แƒแƒ— 4 แƒฌแƒ”แƒšแƒ˜ แƒ›แƒ—แƒ”แƒšแƒ˜ แƒ˜แƒœแƒขแƒ”แƒ แƒ•แƒแƒšแƒ˜แƒ“แƒแƒœ แƒ“แƒ แƒ’แƒแƒ›แƒแƒ•แƒแƒ•แƒšแƒ˜แƒœแƒแƒ— แƒงแƒแƒ•แƒ”แƒšแƒ˜ แƒฌแƒšแƒ˜แƒก แƒ’แƒแƒœแƒแƒฌแƒ˜แƒšแƒ”แƒ‘แƒ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒก แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒแƒกแƒแƒ”แƒ‘แƒ˜แƒ— แƒ“แƒ แƒกแƒแƒฎแƒ”แƒšแƒ˜แƒก แƒ‘แƒแƒšแƒ แƒแƒกแƒแƒ”แƒ‘แƒ˜แƒ—:

from string import ascii_lowercase, ascii_uppercase

fig_first, ax_first = plt.subplots(1, 1, figsize=(14,10))
fig_last, ax_last = plt.subplots(1, 1, figsize=(14,10))

index = np.arange(len(ascii_uppercase))
years = [1944, 1978, 1991, 2003]
colors = ['r', 'g', 'b', 'y']
n = 0
for year in years:
    dataset = datalist.format(year=year)
    csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    names = csv.groupby('name', as_index=False).aggregate(np.sum)
    count = names.shape[0]

    dataframe = pd.DataFrame({'letter': [], 'frequency_first': [], 'frequency_last': []})
    for letter in ascii_uppercase:
        countFirst = (names[names.name.str.startswith(letter)].count()['count'])
        countLast = (names[names.name.str.endswith(letter.lower())].count()['count'])

        dataframe = dataframe.append(pd.DataFrame({
            'letter': [letter],
            'frequency_first': [countFirst / count * 100],
            'frequency_last': [countLast / count * 100]}))

    ax_first.bar(index + 0.3 * n, dataframe['frequency_first'], 0.3, alpha=0.5, color=colors[n], label=year)
    ax_last.bar(index + bar_width * n, dataframe['frequency_last'], 0.3, alpha=0.5, color=colors[n], label=year)
    n += 1

ax_first.set_xlabel('ะ‘ัƒะบะฒะฐ ะฐะปั„ะฐะฒะธั‚ะฐ')
ax_first.set_ylabel('ะงะฐัั‚ะพั‚ะฐ, %')
ax_first.set_title('ะŸะตั€ะฒะฐั ะฑัƒะบะฒะฐ ะฒ ะธะผะตะฝะธ')
ax_first.set_xticks(index)
ax_first.set_xticklabels(ascii_uppercase)
ax_first.legend()

ax_last.set_xlabel('ะ‘ัƒะบะฒะฐ ะฐะปั„ะฐะฒะธั‚ะฐ')
ax_last.set_ylabel('ะงะฐัั‚ะพั‚ะฐ, %')
ax_last.set_title('ะŸะพัะปะตะดะฝัั ะฑัƒะบะฒะฐ ะฒ ะธะผะตะฝะธ')
ax_last.set_xticks(index)
ax_last.set_xticklabels(ascii_uppercase)
ax_last.legend()

fig_first.tight_layout()
fig_last.tight_layout()

plt.show()

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒ›แƒแƒ“แƒ˜แƒ— แƒจแƒ”แƒ•แƒแƒ“แƒ’แƒ˜แƒœแƒแƒ— แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜แƒ›แƒ” แƒชแƒœแƒแƒ‘แƒ˜แƒšแƒ˜ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜แƒก แƒกแƒ˜แƒ (แƒžแƒ แƒ”แƒ–แƒ˜แƒ“แƒ”แƒœแƒขแƒ”แƒ‘แƒ˜, แƒ›แƒแƒ›แƒฆแƒ”แƒ แƒšแƒ”แƒ‘แƒ˜, แƒ›แƒกแƒแƒฎแƒ˜แƒแƒ‘แƒ”แƒ‘แƒ˜, แƒ™แƒ˜แƒœแƒแƒ’แƒ›แƒ˜แƒ แƒ”แƒ‘แƒ˜) แƒ“แƒ แƒจแƒ”แƒ•แƒแƒคแƒแƒกแƒแƒ— แƒ›แƒแƒ—แƒ˜ แƒ’แƒแƒ•แƒšแƒ”แƒœแƒ แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒแƒ–แƒ”:

celebrities = {'Frank': 'M', 'Britney': 'F', 'Madonna': 'F', 'Bob': 'M'}
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe.assign(year=year))

result = pd.concat(dataframes)

for celebrity, sex in celebrities.items():
    names = result[result.name == celebrity]
    dataframe = names[names.sex == sex]
    fig, ax = plt.subplots(1, 1, figsize=(16,8))

    ax.set_xlabel('ะ“ะพะดะฐ', fontsize = 10)
    ax.set_ylabel('ะ ะพะถะดะฐะตะผะพัั‚ัŒ', fontsize = 10)
    ax.plot(dataframe['year'], dataframe['count'], label=celebrity, color='r', ls='-')
    ax.legend(loc=9, fontsize=12)
        
    plt.show()

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ–แƒ” แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ

แƒขแƒ แƒ”แƒœแƒ˜แƒœแƒ’แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒจแƒ”แƒ’แƒ˜แƒซแƒšแƒ˜แƒแƒ— แƒ“แƒแƒแƒ›แƒแƒขแƒแƒ— แƒชแƒœแƒแƒ‘แƒ˜แƒšแƒ˜ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜แƒก แƒชแƒฎแƒแƒ•แƒ แƒ”แƒ‘แƒ˜แƒก แƒžแƒ”แƒ แƒ˜แƒแƒ“แƒ˜ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒแƒก แƒ‘แƒแƒšแƒ แƒ›แƒแƒ’แƒแƒšแƒ˜แƒ—แƒ˜แƒ“แƒแƒœ, แƒ แƒแƒ—แƒ แƒœแƒแƒ—แƒšแƒแƒ“ แƒจแƒ”แƒแƒคแƒแƒกแƒแƒ— แƒ›แƒแƒ—แƒ˜ แƒ’แƒแƒ•แƒšแƒ”แƒœแƒ แƒกแƒแƒฎแƒ”แƒšแƒ”แƒ‘แƒ˜แƒก แƒ“แƒ˜แƒœแƒแƒ›แƒ˜แƒ™แƒแƒ–แƒ”.

แƒแƒ›แƒ˜แƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒงแƒ•แƒ”แƒšแƒ แƒ›แƒ˜แƒ–แƒแƒœแƒ˜ แƒ›แƒ˜แƒฆแƒฌแƒ”แƒฃแƒšแƒ˜ แƒ“แƒ แƒแƒกแƒ แƒฃแƒšแƒ“แƒ. แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ— แƒžแƒ˜แƒ—แƒแƒœแƒจแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ“แƒแƒฏแƒ’แƒฃแƒคแƒ”แƒ‘แƒ˜แƒกแƒ แƒ“แƒ แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒแƒชแƒ˜แƒ˜แƒก แƒ˜แƒœแƒกแƒขแƒ แƒฃแƒ›แƒ”แƒœแƒขแƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒงแƒ”แƒœแƒ”แƒ‘แƒ˜แƒก แƒฃแƒœแƒแƒ แƒ˜ แƒ“แƒ แƒ’แƒแƒ•แƒแƒ’แƒ แƒซแƒ”แƒšแƒ”แƒ‘แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ—แƒแƒœ แƒ›แƒฃแƒจแƒแƒแƒ‘แƒแƒก. แƒงแƒ•แƒ”แƒšแƒแƒก แƒจแƒ”แƒฃแƒซแƒšแƒ˜แƒ แƒ“แƒแƒกแƒ™แƒ•แƒœแƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ แƒ›แƒ–แƒ, แƒ•แƒ˜แƒ–แƒฃแƒแƒšแƒ˜แƒ–แƒ”แƒ‘แƒฃแƒš แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ–แƒ” แƒ“แƒแƒงแƒ แƒ“แƒœแƒแƒ‘แƒ˜แƒ—.

แƒชแƒแƒ“แƒœแƒ แƒงแƒ•แƒ”แƒšแƒแƒก!

แƒฌแƒงแƒแƒ แƒ: www.habr.com

แƒแƒฎแƒแƒšแƒ˜ แƒ™แƒแƒ›แƒ”แƒœแƒขแƒแƒ แƒ˜แƒก แƒ“แƒแƒ›แƒแƒขแƒ”แƒ‘แƒ