பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

ஹே ஹப்ர்!

இன்று நாம் பைத்தானில் தரவைக் குழுவாக்குவதற்கும் காட்சிப்படுத்துவதற்கும் கருவிகளைப் பயன்படுத்தும் திறனைப் பற்றி செயல்படுவோம். வழங்கியதில் Github இல் தரவுத்தொகுப்பு பல குணாதிசயங்களை பகுப்பாய்வு செய்து, காட்சிப்படுத்தல்களின் தொகுப்பை உருவாக்குவோம்.

பாரம்பரியத்தின் படி, ஆரம்பத்தில், இலக்குகளை வரையறுப்போம்:

  • பாலினம் மற்றும் ஆண்டு அடிப்படையில் தரவைக் குழுவாக்கி, இரு பாலினரின் பிறப்பு விகிதத்தின் ஒட்டுமொத்த இயக்கவியலைக் காட்சிப்படுத்தவும்;
  • எல்லா காலத்திலும் மிகவும் பிரபலமான பெயர்களைக் கண்டறியவும்;
  • தரவுகளில் உள்ள முழு நேரத்தையும் 10 பகுதிகளாகப் பிரித்து ஒவ்வொன்றிற்கும், ஒவ்வொரு பாலினத்தின் மிகவும் பிரபலமான பெயரைக் கண்டறியவும். காணப்படும் ஒவ்வொரு பெயருக்கும், எல்லா நேரத்திலும் அதன் இயக்கவியலைக் காட்சிப்படுத்தவும்;
  • ஒவ்வொரு ஆண்டும், எத்தனை பெயர்கள் 50% மக்களை உள்ளடக்கியது என்பதைக் கணக்கிட்டு, காட்சிப்படுத்துங்கள் (ஒவ்வொரு வருடத்திற்கும் பல்வேறு பெயர்களைப் பார்ப்போம்);
  • முழு இடைவெளியில் இருந்து 4 வருடங்களைத் தேர்ந்தெடுத்து, ஒவ்வொரு ஆண்டும் பெயரின் முதல் எழுத்திலும் பெயரின் கடைசி எழுத்திலும் விநியோகத்தைக் காண்பிக்கவும்;
  • பல பிரபலமான நபர்களின் (ஜனாதிபதிகள், பாடகர்கள், நடிகர்கள், திரைப்பட கதாபாத்திரங்கள்) பட்டியலை உருவாக்கி, பெயர்களின் இயக்கவியலில் அவர்களின் செல்வாக்கை மதிப்பிடுங்கள். காட்சிப்படுத்தலை உருவாக்குங்கள்.

குறைவான வார்த்தைகள், அதிக குறியீடு!

மேலும், போகலாம்.

பாலினம் மற்றும் ஆண்டு அடிப்படையில் தரவைத் தொகுத்து, இரு பாலினரின் பிறப்பு விகிதத்தின் ஒட்டுமொத்த இயக்கவியலைக் காட்சிப்படுத்துவோம்:

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt

years = np.arange(1880, 2011, 3)
datalist = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/babynames/yob{year}.txt'
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe.assign(year=year))

result = pd.concat(dataframes)
sex = result.groupby('sex')
births_men = sex.get_group('M').groupby('year', as_index=False)
births_women = sex.get_group('F').groupby('year', as_index=False)
births_men_list = births_men.aggregate(np.sum)['count'].tolist()
births_women_list = births_women.aggregate(np.sum)['count'].tolist()

fig, ax = plt.subplots()
fig.set_size_inches(25,15)

index = np.arange(len(years))
stolb1 = ax.bar(index, births_men_list, 0.4, color='c', label='Мужчины')
stolb2 = ax.bar(index + 0.4, births_women_list, 0.4, alpha=0.8, color='r', label='Женщины')

ax.set_title('Рождаемость по полу и годам')
ax.set_xlabel('Года')
ax.set_ylabel('Рождаемость')
ax.set_xticklabels(years)
ax.set_xticks(index + 0.4)
ax.legend(loc=9)

fig.tight_layout()
plt.show()

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

வரலாற்றில் மிகவும் பிரபலமான பெயர்களைக் கண்டுபிடிப்போம்:

years = np.arange(1880, 2011)

dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe)

result = pd.concat(dataframes)
names = result.groupby('name', as_index=False).sum().sort_values('count', ascending=False)
names.head(10)

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

தரவுகளில் உள்ள முழு நேரத்தையும் 10 பகுதிகளாகப் பிரிப்போம், ஒவ்வொன்றிற்கும் ஒவ்வொரு பாலினத்தின் மிகவும் பிரபலமான பெயரைக் கண்டுபிடிப்போம். காணப்படும் ஒவ்வொரு பெயருக்கும், அதன் இயக்கவியலை எல்லா நேரத்திலும் காட்சிப்படுத்துகிறோம்:

years = np.arange(1880, 2011)
part_size = int((years[years.size - 1] - years[0]) / 10) + 1
parts = {}
def GetPart(year):
    return int((year - years[0]) / part_size)
for year in years:
    index = GetPart(year)
    r = years[0] + part_size * index, min(years[years.size - 1], years[0] + part_size * (index + 1))
    parts[index] = str(r[0]) + '-' + str(r[1])

dataframe_parts = []
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframe_parts.append(dataframe.assign(years=parts[GetPart(year)]))
    dataframes.append(dataframe.assign(year=year))
    
result_parts = pd.concat(dataframe_parts)
result = pd.concat(dataframes)

result_parts_sums = result_parts.groupby(['years', 'sex', 'name'], as_index=False).sum()
result_parts_names = result_parts_sums.iloc[result_parts_sums.groupby(['years', 'sex'], as_index=False).apply(lambda x: x['count'].idxmax())]
result_sums = result.groupby(['year', 'sex', 'name'], as_index=False).sum()

for groupName, groupLabels in result_parts_names.groupby(['name', 'sex']).groups.items():
    group = result_sums.groupby(['name', 'sex']).get_group(groupName)
    fig, ax = plt.subplots(1, 1, figsize=(18,10))

    ax.set_xlabel('Года')
    ax.set_ylabel('Рождаемость')
    label = group['name']
    ax.plot(group['year'], group['count'], label=label.aggregate(np.max), color='b', ls='-')
    ax.legend(loc=9, fontsize=11)

    plt.show()

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

ஒவ்வொரு ஆண்டும், 50% நபர்களை உள்ளடக்கிய பெயர்களின் எண்ணிக்கையைக் கணக்கிட்டு இந்தத் தரவைக் காட்சிப்படுத்துகிறோம்:

dataframe = pd.DataFrame({'year': [], 'count': []})
years = np.arange(1880, 2011)
for year in years:
    dataset = datalist.format(year=year)
    csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    names = csv.groupby('name', as_index=False).aggregate(np.sum)
    names['sum'] = names.sum()['count']
    names['percent'] = names['count'] / names['sum'] * 100
    names = names.sort_values(['percent'], ascending=False)
    names['cum_perc'] = names['percent'].cumsum()
    names_filtered = names[names['cum_perc'] <= 50]
    dataframe = dataframe.append(pd.DataFrame({'year': [year], 'count': [names_filtered.shape[0]]}))

fig, ax1 = plt.subplots(1, 1, figsize=(22,13))
ax1.set_xlabel('Года', fontsize = 12)
ax1.set_ylabel('Разнообразие имен', fontsize = 12)
ax1.plot(dataframe['year'], dataframe['count'], color='r', ls='-')
ax1.legend(loc=9, fontsize=12)

plt.show()

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

முழு இடைவெளியிலிருந்து 4 வருடங்களைத் தேர்ந்தெடுத்து, ஒவ்வொரு ஆண்டும் பெயரின் முதல் எழுத்திலும் பெயரின் கடைசி எழுத்திலும் விநியோகத்தைக் காண்பிப்போம்:

from string import ascii_lowercase, ascii_uppercase

fig_first, ax_first = plt.subplots(1, 1, figsize=(14,10))
fig_last, ax_last = plt.subplots(1, 1, figsize=(14,10))

index = np.arange(len(ascii_uppercase))
years = [1944, 1978, 1991, 2003]
colors = ['r', 'g', 'b', 'y']
n = 0
for year in years:
    dataset = datalist.format(year=year)
    csv = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    names = csv.groupby('name', as_index=False).aggregate(np.sum)
    count = names.shape[0]

    dataframe = pd.DataFrame({'letter': [], 'frequency_first': [], 'frequency_last': []})
    for letter in ascii_uppercase:
        countFirst = (names[names.name.str.startswith(letter)].count()['count'])
        countLast = (names[names.name.str.endswith(letter.lower())].count()['count'])

        dataframe = dataframe.append(pd.DataFrame({
            'letter': [letter],
            'frequency_first': [countFirst / count * 100],
            'frequency_last': [countLast / count * 100]}))

    ax_first.bar(index + 0.3 * n, dataframe['frequency_first'], 0.3, alpha=0.5, color=colors[n], label=year)
    ax_last.bar(index + bar_width * n, dataframe['frequency_last'], 0.3, alpha=0.5, color=colors[n], label=year)
    n += 1

ax_first.set_xlabel('Буква алфавита')
ax_first.set_ylabel('Частота, %')
ax_first.set_title('Первая буква в имени')
ax_first.set_xticks(index)
ax_first.set_xticklabels(ascii_uppercase)
ax_first.legend()

ax_last.set_xlabel('Буква алфавита')
ax_last.set_ylabel('Частота, %')
ax_last.set_title('Последняя буква в имени')
ax_last.set_xticks(index)
ax_last.set_xticklabels(ascii_uppercase)
ax_last.legend()

fig_first.tight_layout()
fig_last.tight_layout()

plt.show()

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பல பிரபலமான நபர்களின் (ஜனாதிபதிகள், பாடகர்கள், நடிகர்கள், திரைப்பட கதாபாத்திரங்கள்) பட்டியலை உருவாக்கி, பெயர்களின் இயக்கவியலில் அவர்களின் செல்வாக்கை மதிப்பீடு செய்வோம்:

celebrities = {'Frank': 'M', 'Britney': 'F', 'Madonna': 'F', 'Bob': 'M'}
dataframes = []
for year in years:
    dataset = datalist.format(year=year)
    dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count'])
    dataframes.append(dataframe.assign(year=year))

result = pd.concat(dataframes)

for celebrity, sex in celebrities.items():
    names = result[result.name == celebrity]
    dataframe = names[names.sex == sex]
    fig, ax = plt.subplots(1, 1, figsize=(16,8))

    ax.set_xlabel('Года', fontsize = 10)
    ax.set_ylabel('Рождаемость', fontsize = 10)
    ax.plot(dataframe['year'], dataframe['count'], label=celebrity, color='r', ls='-')
    ax.legend(loc=9, fontsize=12)
        
    plt.show()

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பைத்தானில் குழுவாக்கம் மற்றும் தரவு காட்சிப்படுத்தல் ஆகியவற்றைப் பயன்படுத்துவதற்கான திறமையில் பணிபுரிதல்

பயிற்சிக்காக, பெயர்களின் இயக்கவியலில் அவர்களின் செல்வாக்கை தெளிவாக மதிப்பிடுவதற்காக, கடைசி எடுத்துக்காட்டில் இருந்து காட்சிப்படுத்தலில் பிரபலங்களின் வாழ்நாள் காலத்தை நீங்கள் சேர்க்கலாம்.

இதன் மூலம், எங்கள் இலக்குகள் அனைத்தும் அடையப்பட்டு நிறைவேற்றப்பட்டன. பைத்தானில் தரவைக் குழுவாக்குவதற்கும் காட்சிப்படுத்துவதற்கும் கருவிகளைப் பயன்படுத்தும் திறனை நாங்கள் வளர்த்துள்ளோம், மேலும் நாங்கள் தரவுகளுடன் தொடர்ந்து பணியாற்றுவோம். ஆயத்த, காட்சிப்படுத்தப்பட்ட தரவுகளின் அடிப்படையில் அனைவரும் முடிவுகளை எடுக்க முடியும்.

அனைவருக்கும் அறிவு!

ஆதாரம்: www.habr.com

கருத்தைச் சேர்