Habrastatistics: sut mae Habr yn byw heb amserau geek
Hei Habr.
Mae'r erthygl hon yn barhad rhesymegol o'r sgôr Yr erthyglau Habr gorau ar gyfer 2018. Ac er nad yw'r flwyddyn drosodd eto, fel y gwyddoch, yn yr haf bu newidiadau yn y rheolau, yn unol â hynny, daeth yn ddiddorol gweld a oedd hyn yn effeithio ar unrhyw beth.
Yn ogystal â'r ystadegau gwirioneddol, darperir sgôr erthyglau wedi'u diweddaru, yn ogystal â rhywfaint o god ffynhonnell ar gyfer y rhai sydd â diddordeb yn sut mae'n gweithio.
I'r rhai sydd â diddordeb yn yr hyn a ddigwyddodd, mae'r parhad o dan y toriad. Gall y rhai sydd â diddordeb mewn dadansoddiad manylach o adrannau o'r wefan edrych hefyd rhan nesaf.
Data crai
Mae'r sgôr hon yn answyddogol, ac nid oes gennyf unrhyw wybodaeth fewnol. Fel y gallwch weld yn hawdd trwy edrych ar far cyfeiriad eich porwr, mae gan bob erthygl ar Habré rifo parhaus. Yna mae'n fater o dechneg, yn syml rydym yn darllen yr holl erthyglau yn olynol mewn cylch (mewn un edefyn a gyda seibiau, er mwyn peidio â llwytho'r gweinydd). Cafwyd y gwerthoedd eu hunain trwy ddosberthwr syml yn Python (mae ffynonellau ar gael yma) a'i gadw mewn ffeil csv rhywbeth fel hyn:
2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7
prosesu
Ar gyfer dosrannu byddwn yn defnyddio Python, Pandas a Matplotlib. Gall y rhai nad oes ganddynt ddiddordeb mewn ystadegau hepgor y rhan hon a mynd yn syth at yr erthyglau.
Yn gyntaf mae angen i chi lwytho'r set ddata i'r cof a dewis data ar gyfer y flwyddyn a ddymunir.
import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters
df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]
print(df.shape)
Mae'n ymddangos bod eleni (er nad yw wedi'i orffen eto) ar adeg ysgrifennu'r adroddiad hwn, bod 12715 o erthyglau wedi'u cyhoeddi. Er mwyn cymharu, ar gyfer y cyfan 2018 - 15904. Yn gyffredinol, mae llawer - mae hyn tua 43 erthyglau y dydd (a dim ond gyda sgôr gadarnhaol yw hyn; faint o erthyglau cyfanswm yn cael eu llwytho i lawr a aeth negyddol neu eu dileu, gall un ond dyfalu neu amcangyfrif yn fras o'r bylchau ymhlith dynodwyr).
Gadewch i ni ddewis y meysydd angenrheidiol o'r set ddata. Fel metrigau byddwn yn defnyddio nifer y golygfeydd, sylwadau, gwerthoedd graddio a nifer y nodau tudalen.
def to_float(s):
# "bookmarks:22" => 22.0
num = ''.join(i for i in s if i.isdigit())
return float(num)
def to_int(s):
# "bookmarks:22" => 22
num = ''.join(i for i in s if i.isdigit())
return int(num)
def to_date(dt):
return dt.date()
date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)
df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down
Nawr mae'r data wedi'i ychwanegu at y set ddata a gallwn ei ddefnyddio. Gadewch i ni grwpio'r data fesul dydd a chymryd y gwerthoedd cyfartalog.
Mae'r canlyniad yn ddiddorol. Fel y gwelwch, mae Habr wedi bod yn dipyn o “selsig” trwy gydol y flwyddyn. Nid wyf yn gwybod y rheswm.
Er mwyn cymharu, mae 2018 yn edrych ychydig yn llyfnach:
Yn gyffredinol, ni welais unrhyw ostyngiad aruthrol yn nifer yr erthyglau cyhoeddedig yn 2019 ar y graff. Ar ben hynny, i'r gwrthwyneb, mae'n ymddangos ei fod hyd yn oed wedi cynyddu ychydig ers yr haf.
Ond mae'r ddau graff nesaf yn fy mhoeni ychydig yn fwy.
Nifer cyfartalog y golygfeydd fesul erthygl:
Sgôr gyfartalog fesul erthygl:
Fel y gwelwch, mae nifer cyfartalog y golygfeydd yn gostwng ychydig yn ystod y flwyddyn. Gellir esbonio hyn gan y ffaith nad yw erthyglau newydd wedi'u mynegeio gan beiriannau chwilio eto, ac nid ydynt i'w cael mor aml. Ond mae'r gostyngiad yn y sgôr gyfartalog fesul erthygl yn fwy annealladwy. Y teimlad yw nad oes gan ddarllenwyr amser i edrych trwy gymaint o erthyglau neu nad ydyn nhw'n talu sylw i'r graddfeydd. O safbwynt y rhaglen wobrwyo awduron, mae'r duedd hon yn annymunol iawn.
Gyda llaw, ni ddigwyddodd hyn yn 2018, ac mae'r amserlen fwy neu lai yn gyfartal.
Yn gyffredinol, mae gan berchnogion adnoddau rywbeth i feddwl amdano.
Ond gadewch i ni beidio â siarad am bethau trist. Yn gyffredinol, gallwn ddweud bod Habr wedi "goroesi" newidiadau'r haf yn eithaf llwyddiannus, ac ni ostyngodd nifer yr erthyglau ar y wefan.
Rating
Nawr, mewn gwirionedd, y sgôr. Llongyfarchiadau i'r rhai a ddaeth i mewn iddo. Gadewch imi eich atgoffa unwaith eto bod y sgôr yn answyddogol, efallai fy mod wedi colli rhywbeth, ac os dylai rhyw erthygl fod yma yn bendant, ond nid yw, ysgrifennwch, fe'i ychwanegaf â llaw. Fel sgôr, rwy'n defnyddio metrigau wedi'u cyfrifo, a oedd yn eithaf diddorol yn fy marn i.
Ych. Mae gen i ychydig o ddetholiadau mwy diddorol, ond ni fyddaf yn diflasu ar y darllenwyr.
Casgliad
Wrth lunio'r sgôr, rhoddais sylw i ddau bwynt a oedd yn ymddangos yn ddiddorol.
Yn gyntaf, mae 60% o'r goreuon yn erthyglau o'r genre “geektimes”. Wn i ddim a fydd llai ohonynt y flwyddyn nesaf, a sut olwg fydd ar Habr heb erthyglau am gwrw, gofod, meddyginiaeth, ac ati. Yn bendant, bydd darllenwyr yn colli rhywbeth. Gawn ni weld.
Yn ail, roedd y nodau tudalen uchaf o ansawdd annisgwyl o uchel. Mae hyn yn seicolegol ddealladwy; efallai na fydd darllenwyr yn talu sylw i'r sgôr, ond os yw'r erthygl angen, yna bydd yn cael ei ychwanegu at eich nodau tudalen. A dyma'n union y crynhoad mwyaf o erthyglau defnyddiol a difrifol. Rwy'n meddwl y dylai perchnogion y wefan rywsut feddwl am y cysylltiad rhwng nifer y nodau tudalen a'r rhaglen wobrwyo os ydyn nhw am gynyddu'r categori penodol hwn o erthyglau yma ar Habré.
Rhywbeth fel hyn. Rwy'n gobeithio ei fod yn addysgiadol.
Trodd y rhestr o erthyglau allan i fod yn hir, wel, mae'n debyg er gwell. Darllen hapus pawb.