ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

ஹே ஹப்ர்.

இந்த கட்டுரை மதிப்பீட்டின் தர்க்கரீதியான தொடர்ச்சியாகும் 2018க்கான சிறந்த ஹப்ர் கட்டுரைகள். ஆண்டு இன்னும் முடிவடையவில்லை என்றாலும், உங்களுக்குத் தெரிந்தபடி, கோடையில் விதிகளில் மாற்றங்கள் இருந்தன, அதன்படி, இது எதையாவது பாதிக்கிறதா என்பதைப் பார்ப்பது சுவாரஸ்யமாக இருந்தது.

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

உண்மையான புள்ளிவிவரங்களுடன் கூடுதலாக, கட்டுரைகளின் புதுப்பிக்கப்பட்ட மதிப்பீடும், அது எவ்வாறு செயல்படுகிறது என்பதில் ஆர்வமுள்ளவர்களுக்கு சில மூலக் குறியீடும் வழங்கப்படும்.

என்ன நடந்தது என்பதில் ஆர்வமுள்ளவர்களுக்கு, தொடர்ச்சி குறைகிறது. தளத்தின் பிரிவுகளின் விரிவான பகுப்பாய்வில் ஆர்வமுள்ளவர்களும் பார்க்கலாம் அடுத்த பகுதி.

ரா தரவு

இந்த மதிப்பீடு அதிகாரப்பூர்வமற்றது, மேலும் என்னிடம் எந்த உள் தகவலும் இல்லை. உங்கள் உலாவியின் முகவரிப் பட்டியைப் பார்ப்பதன் மூலம் நீங்கள் எளிதாகப் பார்க்க முடியும், Habré இல் உள்ள அனைத்து கட்டுரைகளும் தொடர்ச்சியான எண்களைக் கொண்டுள்ளன. பின்னர் இது நுட்பத்தின் விஷயம், ஒரு வரிசையில் உள்ள அனைத்து கட்டுரைகளையும் ஒரு சுழற்சியில் (ஒரு நூலில் மற்றும் இடைநிறுத்தங்களுடன், சேவையகத்தை ஏற்றாமல் இருக்க) படிப்போம். பைத்தானில் உள்ள ஒரு எளிய பாகுபடுத்தி மூலம் மதிப்புகள் பெறப்பட்டன (ஆதாரங்கள் உள்ளன இங்கே) மற்றும் இது போன்ற ஒரு csv கோப்பில் சேமிக்கப்பட்டது:

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

செயலாக்க

பாகுபடுத்துவதற்கு நாம் Python, Pandas மற்றும் Matplotlib ஐப் பயன்படுத்துவோம். புள்ளி விவரங்களில் ஆர்வம் இல்லாதவர்கள் இந்தப் பகுதியைத் தவிர்த்துவிட்டு நேரடியாக கட்டுரைகளுக்குச் செல்லலாம்.

முதலில் நீங்கள் தரவுத்தொகுப்பை நினைவகத்தில் ஏற்றி, விரும்பிய ஆண்டிற்கான தரவைத் தேர்ந்தெடுக்க வேண்டும்.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

இந்த ஆண்டு (இது இன்னும் முடிக்கப்படவில்லை என்றாலும்) எழுதும் நேரத்தில், 12715 கட்டுரைகள் வெளியிடப்பட்டுள்ளன. ஒப்பிடுகையில், 2018-ம் ஆண்டு முழுவதும் - 15904. பொதுவாக, நிறைய - இது ஒரு நாளைக்கு சுமார் 43 கட்டுரைகள் (இது நேர்மறையான மதிப்பீட்டில் மட்டுமே; எதிர்மறையாக அல்லது நீக்கப்பட்ட மொத்த கட்டுரைகள் எத்தனை பதிவிறக்கம் செய்யப்படுகின்றன என்பதை ஒருவர் மட்டுமே யூகிக்க முடியும். அல்லது அடையாளங்காட்டிகளுக்கு இடையே உள்ள இடைவெளிகளிலிருந்து தோராயமாக மதிப்பிடவும்).

தரவுத்தொகுப்பிலிருந்து தேவையான புலங்களைத் தேர்ந்தெடுப்போம். அளவீடுகளாக, பார்வைகளின் எண்ணிக்கை, கருத்துகள், மதிப்பீட்டு மதிப்புகள் மற்றும் புக்மார்க்குகளின் எண்ணிக்கையைப் பயன்படுத்துவோம்.

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

இப்போது தரவுத்தொகுப்பில் தரவு சேர்க்கப்பட்டுள்ளது, அதை நாம் பயன்படுத்தலாம். நாளுக்கு நாள் தரவுகளை தொகுத்து சராசரி மதிப்புகளை எடுத்துக் கொள்வோம்.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

இப்போது சுவாரஸ்யமான பகுதி என்னவென்றால், நாம் வரைபடங்களைப் பார்க்கலாம்.

2019 இல் Habré பற்றிய வெளியீடுகளின் எண்ணிக்கையைப் பார்ப்போம்.

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

முடிவு சுவாரஸ்யமானது. நீங்கள் பார்க்க முடியும் என, Habr ஆண்டு முழுவதும் ஒரு சிறிய "sausage" உள்ளது. காரணம் தெரியவில்லை.

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

ஒப்பிடுகையில், 2018 கொஞ்சம் மென்மையாகத் தெரிகிறது:

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

பொதுவாக, வரைபடத்தில் 2019 இல் வெளியிடப்பட்ட கட்டுரைகளின் எண்ணிக்கையில் கடுமையான குறைவை நான் காணவில்லை. மேலும், மாறாக, கோடையில் இருந்து சற்று கூட அதிகரித்துள்ளதாக தெரிகிறது.

ஆனால் அடுத்த இரண்டு வரைபடங்கள் என்னை இன்னும் கொஞ்சம் தாழ்த்துகின்றன.

ஒரு கட்டுரைக்கான பார்வைகளின் சராசரி எண்ணிக்கை:

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

ஒரு கட்டுரைக்கான சராசரி மதிப்பீடு:

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

நீங்கள் பார்க்க முடியும் என, ஆண்டு முழுவதும் பார்வைகளின் சராசரி எண்ணிக்கை சிறிது குறைகிறது. புதிய கட்டுரைகள் இன்னும் தேடுபொறிகளால் குறியிடப்படவில்லை, மேலும் அவை அடிக்கடி காணப்படவில்லை என்பதன் மூலம் இதை விளக்கலாம். ஆனால் ஒரு கட்டுரைக்கான சராசரி மதிப்பீட்டின் சரிவு இன்னும் புரிந்துகொள்ள முடியாதது. வாசகர்களுக்கு பல கட்டுரைகளைப் பார்க்க நேரமில்லை அல்லது மதிப்பீடுகளில் கவனம் செலுத்துவதில்லை என்ற உணர்வு. ஆசிரியர் வெகுமதி திட்டத்தின் பார்வையில், இந்த போக்கு மிகவும் விரும்பத்தகாதது.

மூலம், இது 2018 இல் நடக்கவில்லை, மேலும் அட்டவணை அதிகமாகவோ அல்லது குறைவாகவோ உள்ளது.

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: ஹப்ர் எப்படி கீக்டைம்கள் இல்லாமல் வாழ்கிறார்

பொதுவாக, வள உரிமையாளர்கள் சிந்திக்க ஏதாவது வேண்டும்.

ஆனால் சோகமான விஷயங்களைப் பற்றி பேச வேண்டாம். பொதுவாக, ஹப்ர் "உயிர் பிழைத்தார்" என்று நாம் கூறலாம் கோடை மாற்றங்கள் மிகவும் வெற்றிகரமாக, மேலும் தளத்தில் உள்ள கட்டுரைகளின் எண்ணிக்கை குறையவில்லை.

மதிப்பீடு

இப்போது, ​​உண்மையில், மதிப்பீடு. இதில் இறங்கியவர்களுக்கு வாழ்த்துக்கள். மதிப்பீடு அதிகாரப்பூர்வமற்றது என்பதை மீண்டும் உங்களுக்கு நினைவூட்டுகிறேன், ஒருவேளை நான் எதையாவது தவறவிட்டேன், சில கட்டுரைகள் கண்டிப்பாக இங்கே இருக்க வேண்டும், ஆனால் அது இல்லை, எழுதுங்கள், நான் அதை கைமுறையாக சேர்ப்பேன். மதிப்பீட்டாக, நான் கணக்கிடப்பட்ட அளவீடுகளைப் பயன்படுத்துகிறேன், இது மிகவும் சுவாரஸ்யமாக மாறியது.

பார்வைகளின் எண்ணிக்கையின் அடிப்படையில் சிறந்த கட்டுரைகள்

பார்வை விகிதத்திற்கு மதிப்பீட்டின் அடிப்படையில் சிறந்த கட்டுரைகள்

கருத்துகள் மற்றும் பார்வைகள் விகிதம் மூலம் சிறந்த கட்டுரைகள்

மிகவும் சர்ச்சைக்குரிய கட்டுரைகள்

மதிப்பீட்டின் அடிப்படையில் சிறந்த கட்டுரைகள்

புக்மார்க்குகளின் எண்ணிக்கையின் அடிப்படையில் சிறந்த கட்டுரைகள்

புக்மார்க்குகள் மற்றும் பார்வைகளின் விகிதத்தின் அடிப்படையில் மேலே

கருத்துகளின் எண்ணிக்கையின் அடிப்படையில் சிறந்த கட்டுரைகள்

இறுதியாக, கடைசி விருப்பமின்மைகளின் எண்ணிக்கையின்படி ஆன்டிடாப்

அச்சச்சோ. என்னிடம் இன்னும் சில சுவாரஸ்யமான தேர்வுகள் உள்ளன, ஆனால் நான் வாசகர்களுக்கு சலிப்படைய மாட்டேன்.

முடிவுக்கு

மதிப்பீட்டை உருவாக்கும்போது, ​​​​சுவாரஸ்யமாகத் தோன்றிய இரண்டு புள்ளிகளுக்கு நான் கவனம் செலுத்தினேன்.

முதலாவதாக, மேலே உள்ளவற்றில் 60% "கீக்டைம்ஸ்" வகையின் கட்டுரைகள். அடுத்த ஆண்டு அவை குறைவாக இருக்குமா, பீர், விண்வெளி, மருத்துவம் போன்றவற்றைப் பற்றிய கட்டுரைகள் இல்லாமல் ஹப்ர் எப்படி இருக்கும் என்பது எனக்குத் தெரியாது. நிச்சயமாக, வாசகர்கள் எதையாவது இழக்க நேரிடும். பார்க்கலாம்.

இரண்டாவதாக, சிறந்த புக்மார்க்குகள் எதிர்பாராத விதமாக உயர் தரமாக மாறியது. இது உளவியல் ரீதியில் புரிந்துகொள்ளக்கூடியது, வாசகர்கள் மதிப்பீட்டில் கவனம் செலுத்த மாட்டார்கள், ஆனால் கட்டுரை என்றால் தேவை, பின்னர் அது உங்கள் புக்மார்க்குகளில் சேர்க்கப்படும். பயனுள்ள மற்றும் தீவிரமான கட்டுரைகளின் மிகப்பெரிய செறிவு இங்கே உள்ளது. ஹப்ரேயில் இந்த குறிப்பிட்ட வகை கட்டுரைகளை அதிகரிக்க விரும்பினால், தள உரிமையாளர்கள் புக்மார்க்குகளின் எண்ணிக்கைக்கும் வெகுமதி திட்டத்திற்கும் இடையிலான தொடர்பை எப்படியாவது சிந்திக்க வேண்டும் என்று நினைக்கிறேன்.

இந்த மாதிரி ஏதாவது. இது தகவல் தரும் என்று நம்புகிறேன்.

கட்டுரைகளின் பட்டியல் நீண்டதாக மாறியது, அது சிறந்ததாக இருக்கலாம். அனைவரும் படிக்க மகிழ்ச்சி.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்