Habrastatistics: jinsi Habr anaishi bila geektimes

Habari Habr.

Makala haya ni mwendelezo wa kimantiki wa ukadiriaji Nakala bora zaidi za Habr za 2018. Na ingawa mwaka haujaisha, kama unavyojua, katika msimu wa joto kulikuwa na mabadiliko katika sheria, ipasavyo, ikawa ya kufurahisha kuona ikiwa hii iliathiri chochote.

Habrastatistics: jinsi Habr anaishi bila geektimes

Kando na takwimu halisi, ukadiriaji uliosasishwa wa makala utatolewa, pamoja na baadhi ya msimbo wa chanzo kwa wale wanaovutiwa na jinsi inavyofanya kazi.

Kwa wale ambao wana nia ya kile kilichotokea, kuendelea ni chini ya kukata. Wale ambao wana nia ya uchambuzi wa kina zaidi wa sehemu za tovuti wanaweza pia kuangalia sehemu inayofuata.

Data Chanzo

Ukadiriaji huu sio rasmi, na sina habari yoyote ya ndani. Kama unavyoweza kuona kwa kuangalia upau wa anwani wa kivinjari chako, makala yote kuhusu HabrΓ© yana nambari zinazoendelea. Kisha ni suala la mbinu, tunasoma tu makala zote mfululizo katika mzunguko (katika thread moja na kwa pause, ili si kupakia seva). Thamani zenyewe zilipatikana na mchanganuzi rahisi katika Python (vyanzo vinapatikana hapa) na kuhifadhiwa katika faili ya csv kitu kama hiki:

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ΠΎΡ‚Π²Π΅Ρ‚Π½Ρ‹ΠΉ ΡƒΠ΄Π°Ρ€, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π΄Ρ€Π΅Π²Π½Π΅Π΅ Π·Π»ΠΎ Π½Π΅ΠΏΠΎΠ±Π΅Π΄ΠΈΠΌΠΎ",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"Π’ NASA испытали систСму Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ³ΠΎ управлСния ΠΎΠ΄Π½ΠΎΠ³ΠΎ микроспутника Π΄Ρ€ΡƒΠ³ΠΈΠΌ",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

Matayarisho

Kwa uchanganuzi tutatumia Python, Pandas na Matplotlib. Wale ambao hawana nia ya takwimu wanaweza kuruka sehemu hii na kwenda moja kwa moja kwenye makala.

Kwanza unahitaji kupakia hifadhidata kwenye kumbukumbu na uchague data ya mwaka unaotaka.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

Inabadilika kuwa mwaka huu (ingawa bado haujakamilika) wakati wa kuandika, nakala 12715 zimechapishwa. Kwa kulinganisha, kwa mwaka mzima wa 2018 - 15904. Kwa ujumla, mengi - hii ni kuhusu makala 43 kwa siku (na hii ni tu na rating chanya; ni nakala ngapi za jumla zinazopakuliwa ambazo zilikwenda hasi au zilifutwa, mtu anaweza tu nadhani. au takribani kukadiria kutoka kwa mapengo kati ya vitambulisho).

Wacha tuchague sehemu zinazohitajika kutoka kwa seti ya data. Kama vipimo tutatumia idadi ya maoni, maoni, thamani za ukadiriaji na idadi ya vialamisho.

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

Sasa data imeongezwa kwenye mkusanyiko wa data na tunaweza kuitumia. Wacha tupange data kwa siku na tuchukue maadili ya wastani.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

Sasa sehemu ya kuvutia ni kwamba tunaweza kuangalia grafu.

Wacha tuangalie idadi ya machapisho kuhusu Habre mnamo 2019.

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

Matokeo yake ni ya kuvutia. Kama unavyoona, Habr amekuwa "soseji" kidogo kwa mwaka mzima. Sijui sababu.

Habrastatistics: jinsi Habr anaishi bila geektimes

Kwa kulinganisha, 2018 inaonekana laini kidogo:

Habrastatistics: jinsi Habr anaishi bila geektimes

Kwa ujumla, sikuona kupungua kwa idadi ya nakala zilizochapishwa mnamo 2019 kwenye grafu. Aidha, kinyume chake, inaonekana hata imeongezeka kidogo tangu majira ya joto.

Lakini grafu mbili zifuatazo zinanifadhaisha zaidi.

Wastani wa idadi ya kutazamwa kwa kila makala:

Habrastatistics: jinsi Habr anaishi bila geektimes

Wastani wa ukadiriaji kwa kila makala:

Habrastatistics: jinsi Habr anaishi bila geektimes

Kama unavyoona, wastani wa idadi ya maoni hupungua kidogo mwaka mzima. Hii inaweza kuelezewa na ukweli kwamba nakala mpya bado hazijaorodheshwa na injini za utaftaji, na hazipatikani mara nyingi. Lakini kushuka kwa wastani wa ukadiriaji kwa kila kifungu hakueleweki zaidi. Hisia ni kwamba wasomaji hawana wakati wa kutazama nakala nyingi au hawazingatii makadirio. Kwa mtazamo wa mpango wa tuzo ya mwandishi, hali hii haifai sana.

Kwa njia, hii haikutokea mwaka wa 2018, na ratiba ni zaidi au chini hata.

Habrastatistics: jinsi Habr anaishi bila geektimes

Kwa ujumla, wamiliki wa rasilimali wana kitu cha kufikiria.

Lakini tusiongee mambo ya kusikitisha. Kwa ujumla, tunaweza kusema kwamba Habr "alinusurika" mabadiliko ya majira ya joto kwa mafanikio kabisa, na idadi ya vifungu kwenye tovuti haikupungua.

Upimaji

Sasa, kwa kweli, rating. Hongera kwa walioingia humo. Acha nikukumbushe tena kwamba ukadiriaji sio rasmi, labda nimekosa kitu, na ikiwa nakala fulani inapaswa kuwa hapa, lakini sivyo, andika, nitaiongeza kwa mikono. Kama ukadiriaji, ninatumia vipimo vilivyokokotwa, ambavyo nadhani vilinivutia sana.

Makala ya juu kwa idadi ya maoni

Makala maarufu kwa uwiano wa kukadiria kwa maoni

Makala ya juu kwa uwiano wa maoni na maoni

Makala yenye utata zaidi

Makala maarufu kwa kukadiria

Makala maarufu kulingana na idadi ya alamisho

Juu kwa uwiano wa alamisho kwa maoni

Makala ya juu kwa idadi ya maoni

Na hatimaye, ya mwisho Antitop kwa idadi ya zisizopendwa

Ugh. Nina chaguzi chache zaidi za kupendeza, lakini sitawachosha wasomaji.

Hitimisho

Wakati wa kuunda ukadiriaji, nilizingatia vidokezo viwili ambavyo vilionekana kupendeza.

Kwanza, 60% ya juu ni makala ya aina ya "geektimes". Ikiwa kutakuwa na wachache wao mwaka ujao, na jinsi Habr atakavyoonekana bila makala kuhusu bia, nafasi, dawa, nk, sijui. Bila shaka, wasomaji watapoteza kitu. Hebu tuone.

Pili, alamisho za juu ziligeuka kuwa za hali ya juu bila kutarajia. Hii inaeleweka kisaikolojia; wasomaji wanaweza wasizingatie ukadiriaji, lakini ikiwa nakala hiyo hitaji, basi itaongezwa kwa alamisho zako. Na hapa kuna mkusanyiko mkubwa zaidi wa vifungu muhimu na vizito. Nadhani wamiliki wa tovuti wanapaswa kufikiria kwa njia fulani uhusiano kati ya idadi ya alamisho na mpango wa zawadi ikiwa wanataka kuongeza aina hii ya makala hapa kwenye Habre.

Kitu kama hiki. Natumaini ilikuwa taarifa.

Orodha ya vifungu iligeuka kuwa ndefu, vizuri, labda ni bora zaidi. Furaha kusoma kila mtu.

Chanzo: mapenzi.com

Kuongeza maoni