Habrastatistics: conas a mhaireann Habr gan amanna geek
Hey Habr.
Is leanúint loighciúil den rátáil é an t-alt seo Na hailt Habr is fearr do 2018. Agus cé nach bhfuil an bhliain thart fós, mar is eol duit, i rith an tsamhraidh bhí athruithe ar na rialacha, dá réir sin, bhí sé suimiúil a fheiceáil an raibh tionchar aige seo ar rud ar bith.
I dteannta leis na staitisticí iarbhír, cuirfear rátáil nuashonraithe ar earraí ar fáil, chomh maith le roinnt cód foinse dóibh siúd ar spéis leo an chaoi a n-oibríonn sé.
Dóibh siúd a bhfuil suim acu sa mhéid a tharla, tá an leanúint faoin gearrtha. Is féidir leo siúd a bhfuil suim acu in anailís níos mionsonraithe ar ailt den láithreán breathnú freisin an chéad chuid eile.
Sonraí tosaigh
Tá an rátáil seo neamhoifigiúil, agus níl aon fhaisnéis chos istigh agam. Mar is féidir leat a fheiceáil go héasca trí bhreathnú ar bharra seoltaí do bhrabhsálaí, tá uimhriú leanúnach ag gach alt ar Habré. Ansin is ceist teicníochta é, níl le déanamh againn ach na hailt go léir a léamh i ndiaidh a chéile i dtimthriall (i snáithe amháin agus le sosanna, ionas nach gcuirfí an freastalaí ar aghaidh). Fuarthas na luachanna iad féin trí pharsálaí simplí i Python (tá foinsí ar fáil anseo) agus rud éigin mar seo a shábháil i gcomhad csv:
2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7
Próiseáil
Le haghaidh parsála úsáidfimid Python, Pandas agus Matplotlib. Is féidir leo siúd nach bhfuil suim acu i staitisticí an chuid seo a scipeáil agus dul díreach chuig na hailt.
Ar dtús ní mór duit an tacar sonraí a luchtú isteach i gcuimhne agus sonraí a roghnú don bhliain atá uait.
import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters
df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]
print(df.shape)
Tharlaíonn sé go raibh 12715 alt foilsithe i mbliana (cé nach bhfuil sé críochnaithe fós). Mar chomparáid, don iomlán 2018 - 15904. Go ginearálta, go leor - tá sé seo thart ar 43 alt in aghaidh an lae (agus tá sé seo ach le rátáil dearfach; cé mhéad alt iomlán a íoslódáil a chuaigh diúltach nó a scriosadh, is féidir le duine ach buille faoi thuairim nó meastachán garbh ó na bearnaí i measc na n-aitheantóirí).
Roghnaigh muid na réimsí riachtanacha ón tacar sonraí. Mar mhéadracht úsáidfimid líon na dtuairimí, na dtuairimí, na luachanna rátála agus líon na leabharmharcanna.
def to_float(s):
# "bookmarks:22" => 22.0
num = ''.join(i for i in s if i.isdigit())
return float(num)
def to_int(s):
# "bookmarks:22" => 22
num = ''.join(i for i in s if i.isdigit())
return int(num)
def to_date(dt):
return dt.date()
date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)
df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down
Anois tá na sonraí curtha leis an tacar sonraí agus is féidir linn é a úsáid. Déanaimis na sonraí a ghrúpáil de réir an lae agus tógfaimid na meánluachanna.
Tá an toradh suimiúil. Mar a fheiceann tú, tá Habr ina “ispíní” beag i rith na bliana. Níl a fhios agam an chúis.
Mar chomparáid, tá cuma beagán níos míne ar 2018:
Go ginearálta, ní fhaca mé aon laghdú suntasach ar líon na n-alt a foilsíodh in 2019 ar an ngraf. Thairis sin, ar a mhalairt, is cosúil gur mhéadaigh sé beagán fiú ón samhradh.
Ach cuireann an chéad dá ghraf eile díom beagán níos mó.
Meánlíon tuairimí in aghaidh an ailt:
Meánrátáil in aghaidh an ailt:
Mar a fheiceann tú, tagann laghdú beag ar an meánlíon radharc i rith na bliana. Is féidir é seo a mhíniú toisc nach bhfuil ailt nua innéacsaithe fós ag innill chuardaigh, agus nach bhfaightear iad chomh minic sin. Ach tá an laghdú ar an meán-rátáil in aghaidh an ailt níos dothuigthe. Is é an mothú ná nach mbíonn am ag léitheoirí breathnú tríd an oiread sin altanna nó nach dtugann siad aird ar na rátálacha. Ó thaobh an chláir luach saothair údair, tá an treocht seo an-míthaitneamhach.
Dála an scéil, níor tharla sé seo i 2018, agus tá an sceideal níos mó nó níos lú fiú.
Go ginearálta, tá rud éigin le smaoineamh ag úinéirí acmhainní.
Ach ná déanaimis labhairt faoi rudaí brónach. Go ginearálta, is féidir linn a rá gur "mhair" Habr go n-athraíonn an samhradh go rathúil, agus níor tháinig laghdú ar líon na n-alt ar an láithreán.
Rátáil
Anois, i ndáiríre, an rátáil. Comhghairdeachas leo siúd a chuaigh isteach ann. Lig dom a chur i gcuimhne duit arís go bhfuil an rátáil neamhoifigiúil, b'fhéidir gur chaill mé rud éigin, agus más cinnte gur cheart go mbeadh alt éigin anseo, ach níl sé, scríobh, cuirfidh mé é de láimh. Mar rátáil, úsáidim méadracht ríofa, rud a d'éirigh liom a bheith suimiúil go leor.
Ugh. Tá cúpla rogha níos suimiúla agam, ach ní bheidh mé ag mealladh na léitheoirí.
Conclúid
Agus an rátáil á thógáil agam, thug mé aird ar dhá phointe a raibh cuma suimiúil orthu.
Ar an gcéad dul síos, is ailt den seánra “geektimes” iad 60% den bharr. Cibé an mbeidh níos lú acu an bhliain seo chugainn, agus an chuma a bheidh ar Habr gan ailt faoi bheoir, spás, leigheas, etc., níl a fhios agam. Cinnte, caillfidh léitheoirí rud éigin. Ligean ar a fheiceáil.
Ar an dara dul síos, tharla go raibh na leabharmharcanna is fearr ar ardchaighdeán gan choinne. Tá sé seo intuigthe go síceolaíoch; нужнР°, ansin cuirfear le do leabharmharcanna é. Agus tá anseo go beacht an tiúchan is mó d'earraí úsáideacha agus tromchúiseacha. Sílim gur cheart d’úinéirí an tsuímh smaoineamh ar bhealach éigin ar an gceangal idir líon na leabharmharcanna agus an clár luach saothair más mian leo cur leis an gcatagóir áirithe alt seo anseo ar Habré.
Rud éigin mar seo. Tá súil agam go raibh sé faisnéiseach.
Bhí liosta na n-alt fada, mar sin féin, is dócha gur fearr é. Léitheoireacht shona daoibh go léir.