Habrastatistics: mar a tha Habr beò gun amannan geek

Hi Habr.

Tha an artaigil seo na leantainn loidsigeach den rangachadh Na h-artaigilean Habr as fheàrr airson 2018. Agus ged nach eil a 'bhliadhna seachad fhathast, mar a tha fios agad, as t-samhradh bha atharrachaidhean anns na riaghailtean, a rèir sin, dh'fhàs e inntinneach faicinn an tug seo buaidh air rud sam bith.

Habrastatistics: mar a tha Habr beò gun amannan geek

A bharrachd air an fhìor staitistig, thèid rangachadh ùraichte de artaigilean a thoirt seachad, a bharrachd air còd stòr dhaibhsan aig a bheil ùidh ann an mar a tha e ag obair.

Dhaibhsan aig a bheil ùidh anns na thachair, tha an leantainn fon ghearradh. Faodaidh an fheadhainn aig a bheil ùidh ann an sgrùdadh nas mionaidiche air earrannan den làrach coimhead cuideachd an ath phàirt.

Fiosrachadh cruaidh

Tha an rangachadh seo neo-oifigeil, agus chan eil fiosrachadh taobh a-staigh sam bith agam. Mar a chì thu gu furasta le bhith a’ coimhead air bàr seòlaidh do bhrobhsair, tha àireamhachadh leantainneach aig a h-uile artaigil air Habré. An uairsin tha e na chùis teignigeach, dìreach leugh sinn na h-artaigilean gu lèir ann an sreath ann an cearcall (ann an aon snàithlean agus le stadan, gus nach luchdaich sinn am frithealaiche). Chaidh na luachan fhèin fhaighinn le parser sìmplidh ann am Python (tha stòran rim faighinn an seo) agus air a shàbhaladh ann am faidhle csv rudeigin mar seo:

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

Pròiseas

Airson parsadh cleachdaidh sinn Python, Pandas agus Matplotlib. Faodaidh an fheadhainn aig nach eil ùidh ann an staitistig am pàirt seo a leum agus a dhol dìreach gu na h-artaigilean.

An toiseach feumaidh tu an stòr-dàta a luchdachadh gu cuimhne agus dàta a thaghadh airson na bliadhna a tha thu ag iarraidh.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

Tha e coltach gu bheil am-bliadhna (ged nach eil e deiseil fhathast) aig àm sgrìobhaidh, chaidh 12715 artaigilean fhoillseachadh. Airson coimeas a dhèanamh, airson an 2018 gu lèir - 15904. San fharsaingeachd, tòrr - tha seo timcheall air 43 artaigilean gach latha (agus chan eil seo ach le ìre adhartach; cia mheud artaigil iomlan a chaidh a luchdachadh sìos a chaidh àicheil no a chaidh a dhubhadh às, chan urrainn dhut ach tomhas no tuairmse tuairmseach bho na beàrnan am measg luchd-aithne).

Nach tagh sinn na raointean riatanach bhon stòr-dàta. Mar mheatrics cleachdaidh sinn an àireamh de bheachdan, bheachdan, luachan rangachadh agus an àireamh de chomharran-leabhair.

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

A-nis chaidh an dàta a chuir ris an t-seata dàta agus is urrainn dhuinn a chleachdadh. Nach cuir sinn an dàta còmhla gach latha agus gabhamaid na luachan cuibheasach.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

A-nis is e am pàirt inntinneach gun urrainn dhuinn coimhead air na grafaichean.

Bheir sinn sùil air an àireamh de fhoillseachaidhean air Habré ann an 2019.

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

Tha an toradh inntinneach. Mar a chì thu, tha Habr air a bhith na “isbean” fad na bliadhna. Chan eil fios agam air an adhbhar.

Habrastatistics: mar a tha Habr beò gun amannan geek

Airson coimeas a dhèanamh, tha 2018 a’ coimhead beagan nas socair:

Habrastatistics: mar a tha Habr beò gun amannan geek

San fharsaingeachd, chan fhaca mi lùghdachadh mòr sam bith anns an àireamh de artaigilean foillsichte ann an 2019 air a’ ghraf. A bharrachd air an sin, air an làimh eile, tha e coltach gu bheil e eadhon air àrdachadh beagan bhon t-samhradh.

Ach tha an ath dhà ghraf a’ toirt beagan a bharrachd orm.

Àireamh cuibheasach de bheachdan gach artaigil:

Habrastatistics: mar a tha Habr beò gun amannan geek

Ìre cuibheasach gach artaigil:

Habrastatistics: mar a tha Habr beò gun amannan geek

Mar a chì thu, bidh an àireamh chuibheasach de bheachdan a’ dol sìos beagan tron ​​bhliadhna. Faodar seo a mhìneachadh leis nach eil artaigilean ùra fhathast air an clàradh le einnseanan luirg, agus chan eil iad air an lorg cho tric. Ach tha an crìonadh ann an rangachadh cuibheasach gach artaigil nas do-chreidsinneach. Is e am faireachdainn gu bheil luchd-leughaidh dìreach nach eil ùine aca coimhead tro uimhir de artaigilean no nach toir iad aire do na rangachadh. Bho shealladh prògram duais an ùghdair, tha an gluasad seo gu math mì-thlachdmhor.

Co-dhiù, cha do thachair seo ann an 2018, agus tha an clàr-ama barrachd no nas lugha eadhon.

Habrastatistics: mar a tha Habr beò gun amannan geek

San fharsaingeachd, tha rudeigin aig luchd-seilbh ghoireasan ri smaoineachadh.

Ach na bitheamaid a’ bruidhinn air rudan brònach. Anns an fharsaingeachd, faodaidh sinn a ràdh gu bheil Habr "beò" as t-samhradh ag atharrachadh gu math soirbheachail, agus cha do lùghdaich an àireamh de artaigilean air an làrach.

Rangachadh

A-nis, gu dearbh, an rangachadh. Meal an naidheachd air an fheadhainn a fhuair a-steach ann. Leig leam do chuimhneachadh a-rithist gu bheil an rangachadh neo-oifigeil, is dòcha gun do chaill mi rudeigin, agus ma tha artaigil gu cinnteach bu chòir a bhith an seo, ach chan eil, sgrìobh, cuiridh mi ris le làimh e. Mar rangachadh, bidh mi a 'cleachdadh meatrach àireamhaichte, a tha mi a' smaoineachadh a bha gu math inntinneach.

Na h-artaigilean as fheàrr a rèir àireamh de bheachdan

Na h-artaigilean as fheàrr a rèir co-mheas rangachadh gu seallaidhean

Na h-artaigilean as fheàrr a rèir co-mheas bheachdan gu beachdan

Na h-artaigilean as connspaideach as fheàrr

Na h-artaigilean as fheàrr a rèir rangachadh

Na h-artaigilean as fheàrr a rèir àireamh nan comharran-leabhair

Top a rèir co-mheas de chomharran-leabhair gu seallaidhean

Na h-artaigilean as fheàrr a rèir àireamh bheachdan

Agus mu dheireadh, an tè mu dheireadh Antitop a rèir an àireamh de rudan nach toil leat

Ugh. Tha taghadh no dhà nas inntinniche agam, ach cha toir mi dragh don luchd-leughaidh.

co-dhùnadh

Nuair a bha mi a’ togail an rangachadh, thug mi aire do dhà phuing a bha coltas inntinneach.

An toiseach, tha 60% den fheadhainn as àirde nan artaigilean den ghnè “geektimes”. Am bi nas lugha dhiubh an ath-bhliadhna, agus cò ris a bhios Habr coltach às aonais artaigilean mu lionn, àite, cungaidh-leigheis, msaa, chan eil fhios agam. Gu cinnteach, caillidh luchd-leughaidh rudeigin. Chì sinn.

San dàrna h-àite, thionndaidh na comharran-leabhair as àirde gu bhith de chàileachd àrd ris nach robh dùil. Tha seo furasta a thuigsinn gu saidhgeòlach; is dòcha nach toir luchd-leughaidh aire don rangachadh, ach ma tha an artaigil нужна, an uairsin thèid a chur ris na comharran-leabhair agad. Agus is e seo dìreach an cruinneachadh as motha de artaigilean feumail agus dona. Tha mi a’ smaoineachadh gum bu chòir do shealbhadairean na làraich smaoineachadh air dòigh air choireigin air a’ cheangal eadar an àireamh de chomharran-leabhair agus am prògram dhuaisean ma tha iad airson an roinn shònraichte seo de artaigilean àrdachadh an seo air Habré.

Rud mar seo. Tha mi an dòchas gun robh e fiosrachail.

Thionndaidh an liosta artaigilean a-mach gu bhith fada, uill, is dòcha gu bheil e airson na b’ fheàrr. Deagh leughadh a h-uile duine.

Source: www.habr.com

Cuir beachd ann