Habrastatistics: conas a mhaireann Habr gan amanna geek

Hey Habr.

Is leanúint loighciúil den rátáil é an t-alt seo Na hailt Habr is fearr do 2018. Agus cé nach bhfuil an bhliain thart fós, mar is eol duit, i rith an tsamhraidh bhí athruithe ar na rialacha, dá réir sin, bhí sé suimiúil a fheiceáil an raibh tionchar aige seo ar rud ar bith.

Habrastatistics: conas a mhaireann Habr gan amanna geek

I dteannta leis na staitisticí iarbhír, cuirfear rátáil nuashonraithe ar earraí ar fáil, chomh maith le roinnt cód foinse dóibh siúd ar spéis leo an chaoi a n-oibríonn sé.

Dóibh siúd a bhfuil suim acu sa mhéid a tharla, tá an leanúint faoin gearrtha. Is féidir leo siúd a bhfuil suim acu in anailís níos mionsonraithe ar ailt den láithreán breathnú freisin an chéad chuid eile.

Sonraí tosaigh

Tá an rátáil seo neamhoifigiúil, agus níl aon fhaisnéis chos istigh agam. Mar is féidir leat a fheiceáil go héasca trí bhreathnú ar bharra seoltaí do bhrabhsálaí, tá uimhriú leanúnach ag gach alt ar Habré. Ansin is ceist teicníochta é, níl le déanamh againn ach na hailt go léir a léamh i ndiaidh a chéile i dtimthriall (i snáithe amháin agus le sosanna, ionas nach gcuirfí an freastalaí ar aghaidh). Fuarthas na luachanna iad féin trí pharsálaí simplí i Python (tá foinsí ar fáil anseo) agus rud éigin mar seo a shábháil i gcomhad csv:

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

Próiseáil

Le haghaidh parsála úsáidfimid Python, Pandas agus Matplotlib. Is féidir leo siúd nach bhfuil suim acu i staitisticí an chuid seo a scipeáil agus dul díreach chuig na hailt.

Ar dtús ní mór duit an tacar sonraí a luchtú isteach i gcuimhne agus sonraí a roghnú don bhliain atá uait.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

Tharlaíonn sé go raibh 12715 alt foilsithe i mbliana (cé nach bhfuil sé críochnaithe fós). Mar chomparáid, don iomlán 2018 - 15904. Go ginearálta, go leor - tá sé seo thart ar 43 alt in aghaidh an lae (agus tá sé seo ach le rátáil dearfach; cé mhéad alt iomlán a íoslódáil a chuaigh diúltach nó a scriosadh, is féidir le duine ach buille faoi thuairim nó meastachán garbh ó na bearnaí i measc na n-aitheantóirí).

Roghnaigh muid na réimsí riachtanacha ón tacar sonraí. Mar mhéadracht úsáidfimid líon na dtuairimí, na dtuairimí, na luachanna rátála agus líon na leabharmharcanna.

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

Anois tá na sonraí curtha leis an tacar sonraí agus is féidir linn é a úsáid. Déanaimis na sonraí a ghrúpáil de réir an lae agus tógfaimid na meánluachanna.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

Anois is é an chuid suimiúil gur féidir linn breathnú ar na graif.

Breathnaímid ar líon na bhfoilseachán ar Habré in 2019.

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

Tá an toradh suimiúil. Mar a fheiceann tú, tá Habr ina “ispíní” beag i rith na bliana. Níl a fhios agam an chúis.

Habrastatistics: conas a mhaireann Habr gan amanna geek

Mar chomparáid, tá cuma beagán níos míne ar 2018:

Habrastatistics: conas a mhaireann Habr gan amanna geek

Go ginearálta, ní fhaca mé aon laghdú suntasach ar líon na n-alt a foilsíodh in 2019 ar an ngraf. Thairis sin, ar a mhalairt, is cosúil gur mhéadaigh sé beagán fiú ón samhradh.

Ach cuireann an chéad dá ghraf eile díom beagán níos mó.

Meánlíon tuairimí in aghaidh an ailt:

Habrastatistics: conas a mhaireann Habr gan amanna geek

Meánrátáil in aghaidh an ailt:

Habrastatistics: conas a mhaireann Habr gan amanna geek

Mar a fheiceann tú, tagann laghdú beag ar an meánlíon radharc i rith na bliana. Is féidir é seo a mhíniú toisc nach bhfuil ailt nua innéacsaithe fós ag innill chuardaigh, agus nach bhfaightear iad chomh minic sin. Ach tá an laghdú ar an meán-rátáil in aghaidh an ailt níos dothuigthe. Is é an mothú ná nach mbíonn am ag léitheoirí breathnú tríd an oiread sin altanna nó nach dtugann siad aird ar na rátálacha. Ó thaobh an chláir luach saothair údair, tá an treocht seo an-míthaitneamhach.

Dála an scéil, níor tharla sé seo i 2018, agus tá an sceideal níos mó nó níos lú fiú.

Habrastatistics: conas a mhaireann Habr gan amanna geek

Go ginearálta, tá rud éigin le smaoineamh ag úinéirí acmhainní.

Ach ná déanaimis labhairt faoi rudaí brónach. Go ginearálta, is féidir linn a rá gur "mhair" Habr go n-athraíonn an samhradh go rathúil, agus níor tháinig laghdú ar líon na n-alt ar an láithreán.

Rátáil

Anois, i ndáiríre, an rátáil. Comhghairdeachas leo siúd a chuaigh isteach ann. Lig dom a chur i gcuimhne duit arís go bhfuil an rátáil neamhoifigiúil, b'fhéidir gur chaill mé rud éigin, agus más cinnte gur cheart go mbeadh alt éigin anseo, ach níl sé, scríobh, cuirfidh mé é de láimh. Mar rátáil, úsáidim méadracht ríofa, rud a d'éirigh liom a bheith suimiúil go leor.

Na hailt is fearr de réir líon na dtuairimí

Na hailt is fearr de réir cóimheas rátála le tuairimí

Ailt is fearr de réir cóimheas tuairimí le tuairimí

Na hailt is conspóidí is fearr

Na hailt is fearr de réir rátála

Na hailt is fearr de réir líon na leabharmharcanna

Barr de réir cóimheas leabharmharcanna le radhairc

Na hailt is fearr de réir líon na dtuairimí

Agus ar deireadh, an ceann deireanach Antitop de réir líon na nithe nach dtaitníonn leo

Ugh. Tá cúpla rogha níos suimiúla agam, ach ní bheidh mé ag mealladh na léitheoirí.

Conclúid

Agus an rátáil á thógáil agam, thug mé aird ar dhá phointe a raibh cuma suimiúil orthu.

Ar an gcéad dul síos, is ailt den seánra “geektimes” iad 60% den bharr. Cibé an mbeidh níos lú acu an bhliain seo chugainn, agus an chuma a bheidh ar Habr gan ailt faoi bheoir, spás, leigheas, etc., níl a fhios agam. Cinnte, caillfidh léitheoirí rud éigin. Ligean ar a fheiceáil.

Ar an dara dul síos, tharla go raibh na leabharmharcanna is fearr ar ardchaighdeán gan choinne. Tá sé seo intuigthe go síceolaíoch; нужнР°, ansin cuirfear le do leabharmharcanna é. Agus tá anseo go beacht an tiúchan is mó d'earraí úsáideacha agus tromchúiseacha. Sílim gur cheart d’úinéirí an tsuímh smaoineamh ar bhealach éigin ar an gceangal idir líon na leabharmharcanna agus an clár luach saothair más mian leo cur leis an gcatagóir áirithe alt seo anseo ar Habré.

Rud éigin mar seo. Tá súil agam go raibh sé faisnéiseach.

Bhí liosta na n-alt fada, mar sin féin, is dócha gur fearr é. Léitheoireacht shona daoibh go léir.

Foinse: will.com

Add a comment