Habrastatistics: sut mae Habr yn byw heb amserau geek

Hei Habr.

Mae'r erthygl hon yn barhad rhesymegol o'r sgôr Yr erthyglau Habr gorau ar gyfer 2018. Ac er nad yw'r flwyddyn drosodd eto, fel y gwyddoch, yn yr haf bu newidiadau yn y rheolau, yn unol â hynny, daeth yn ddiddorol gweld a oedd hyn yn effeithio ar unrhyw beth.

Habrastatistics: sut mae Habr yn byw heb amserau geek

Yn ogystal â'r ystadegau gwirioneddol, darperir sgôr erthyglau wedi'u diweddaru, yn ogystal â rhywfaint o god ffynhonnell ar gyfer y rhai sydd â diddordeb yn sut mae'n gweithio.

I'r rhai sydd â diddordeb yn yr hyn a ddigwyddodd, mae'r parhad o dan y toriad. Gall y rhai sydd â diddordeb mewn dadansoddiad manylach o adrannau o'r wefan edrych hefyd rhan nesaf.

Data crai

Mae'r sgôr hon yn answyddogol, ac nid oes gennyf unrhyw wybodaeth fewnol. Fel y gallwch weld yn hawdd trwy edrych ar far cyfeiriad eich porwr, mae gan bob erthygl ar Habré rifo parhaus. Yna mae'n fater o dechneg, yn syml rydym yn darllen yr holl erthyglau yn olynol mewn cylch (mewn un edefyn a gyda seibiau, er mwyn peidio â llwytho'r gweinydd). Cafwyd y gwerthoedd eu hunain trwy ddosberthwr syml yn Python (mae ffynonellau ar gael yma) a'i gadw mewn ffeil csv rhywbeth fel hyn:

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

prosesu

Ar gyfer dosrannu byddwn yn defnyddio Python, Pandas a Matplotlib. Gall y rhai nad oes ganddynt ddiddordeb mewn ystadegau hepgor y rhan hon a mynd yn syth at yr erthyglau.

Yn gyntaf mae angen i chi lwytho'r set ddata i'r cof a dewis data ar gyfer y flwyddyn a ddymunir.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

Mae'n ymddangos bod eleni (er nad yw wedi'i orffen eto) ar adeg ysgrifennu'r adroddiad hwn, bod 12715 o erthyglau wedi'u cyhoeddi. Er mwyn cymharu, ar gyfer y cyfan 2018 - 15904. Yn gyffredinol, mae llawer - mae hyn tua 43 erthyglau y dydd (a dim ond gyda sgôr gadarnhaol yw hyn; faint o erthyglau cyfanswm yn cael eu llwytho i lawr a aeth negyddol neu eu dileu, gall un ond dyfalu neu amcangyfrif yn fras o'r bylchau ymhlith dynodwyr).

Gadewch i ni ddewis y meysydd angenrheidiol o'r set ddata. Fel metrigau byddwn yn defnyddio nifer y golygfeydd, sylwadau, gwerthoedd graddio a nifer y nodau tudalen.

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

Nawr mae'r data wedi'i ychwanegu at y set ddata a gallwn ei ddefnyddio. Gadewch i ni grwpio'r data fesul dydd a chymryd y gwerthoedd cyfartalog.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

Nawr y rhan ddiddorol yw y gallwn edrych ar y graffiau.

Edrychwn ar nifer y cyhoeddiadau ar Habré yn 2019.

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

Mae'r canlyniad yn ddiddorol. Fel y gwelwch, mae Habr wedi bod yn dipyn o “selsig” trwy gydol y flwyddyn. Nid wyf yn gwybod y rheswm.

Habrastatistics: sut mae Habr yn byw heb amserau geek

Er mwyn cymharu, mae 2018 yn edrych ychydig yn llyfnach:

Habrastatistics: sut mae Habr yn byw heb amserau geek

Yn gyffredinol, ni welais unrhyw ostyngiad aruthrol yn nifer yr erthyglau cyhoeddedig yn 2019 ar y graff. Ar ben hynny, i'r gwrthwyneb, mae'n ymddangos ei fod hyd yn oed wedi cynyddu ychydig ers yr haf.

Ond mae'r ddau graff nesaf yn fy mhoeni ychydig yn fwy.

Nifer cyfartalog y golygfeydd fesul erthygl:

Habrastatistics: sut mae Habr yn byw heb amserau geek

Sgôr gyfartalog fesul erthygl:

Habrastatistics: sut mae Habr yn byw heb amserau geek

Fel y gwelwch, mae nifer cyfartalog y golygfeydd yn gostwng ychydig yn ystod y flwyddyn. Gellir esbonio hyn gan y ffaith nad yw erthyglau newydd wedi'u mynegeio gan beiriannau chwilio eto, ac nid ydynt i'w cael mor aml. Ond mae'r gostyngiad yn y sgôr gyfartalog fesul erthygl yn fwy annealladwy. Y teimlad yw nad oes gan ddarllenwyr amser i edrych trwy gymaint o erthyglau neu nad ydyn nhw'n talu sylw i'r graddfeydd. O safbwynt y rhaglen wobrwyo awduron, mae'r duedd hon yn annymunol iawn.

Gyda llaw, ni ddigwyddodd hyn yn 2018, ac mae'r amserlen fwy neu lai yn gyfartal.

Habrastatistics: sut mae Habr yn byw heb amserau geek

Yn gyffredinol, mae gan berchnogion adnoddau rywbeth i feddwl amdano.

Ond gadewch i ni beidio â siarad am bethau trist. Yn gyffredinol, gallwn ddweud bod Habr wedi "goroesi" newidiadau'r haf yn eithaf llwyddiannus, ac ni ostyngodd nifer yr erthyglau ar y wefan.

Rating

Nawr, mewn gwirionedd, y sgôr. Llongyfarchiadau i'r rhai a ddaeth i mewn iddo. Gadewch imi eich atgoffa unwaith eto bod y sgôr yn answyddogol, efallai fy mod wedi colli rhywbeth, ac os dylai rhyw erthygl fod yma yn bendant, ond nid yw, ysgrifennwch, fe'i ychwanegaf â llaw. Fel sgôr, rwy'n defnyddio metrigau wedi'u cyfrifo, a oedd yn eithaf diddorol yn fy marn i.

Erthyglau gorau yn ôl nifer y golygfeydd

Erthyglau gorau yn ôl sgôr i gymhareb golygfeydd

Erthyglau gorau yn ôl cymhareb sylwadau i safbwyntiau

Top erthyglau mwyaf dadleuol

Erthyglau gorau yn ôl sgôr

Erthyglau gorau yn ôl nifer y nodau tudalen

Brig yn ôl cymhareb nodau tudalen i olygfeydd

Erthyglau gorau yn ôl nifer y sylwadau

Ac yn olaf, yr un olaf Antitop yn ôl nifer y cas bethau

Ych. Mae gen i ychydig o ddetholiadau mwy diddorol, ond ni fyddaf yn diflasu ar y darllenwyr.

Casgliad

Wrth lunio'r sgôr, rhoddais sylw i ddau bwynt a oedd yn ymddangos yn ddiddorol.

Yn gyntaf, mae 60% o'r goreuon yn erthyglau o'r genre “geektimes”. Wn i ddim a fydd llai ohonynt y flwyddyn nesaf, a sut olwg fydd ar Habr heb erthyglau am gwrw, gofod, meddyginiaeth, ac ati. Yn bendant, bydd darllenwyr yn colli rhywbeth. Gawn ni weld.

Yn ail, roedd y nodau tudalen uchaf o ansawdd annisgwyl o uchel. Mae hyn yn seicolegol ddealladwy; efallai na fydd darllenwyr yn talu sylw i'r sgôr, ond os yw'r erthygl angen, yna bydd yn cael ei ychwanegu at eich nodau tudalen. A dyma'n union y crynhoad mwyaf o erthyglau defnyddiol a difrifol. Rwy'n meddwl y dylai perchnogion y wefan rywsut feddwl am y cysylltiad rhwng nifer y nodau tudalen a'r rhaglen wobrwyo os ydyn nhw am gynyddu'r categori penodol hwn o erthyglau yma ar Habré.

Rhywbeth fel hyn. Rwy'n gobeithio ei fod yn addysgiadol.

Trodd y rhestr o erthyglau allan i fod yn hir, wel, mae'n debyg er gwell. Darllen hapus pawb.

Ffynhonnell: hab.com

Ychwanegu sylw