Habrastatistics: analîzkirina şîroveyên xwendevanan

Silav Habr. LI beşa berê Popularîteya beşên cihêreng ên malperê hate analîz kirin, û di heman demê de pirs derket holê - çi dane dikarin ji şîroveyên li ser gotaran werin derxistin. Min jî xwest ku hîpotezek biceribînim, ku ez ê li jêr nîqaş bikim.
Habrastatistics: analîzkirina şîroveyên xwendevanan

Daneyên pir balkêş derketin; Di bin birîn de berdewam kir.

Komkirina daneyan

Ji bo analîzê, em ê daneyên îsal, 2019 bikar bînin, nemaze ji ber ku min berê navnîşek gotaran di forma csv de wergirtiye. Tiştê ku dimîne ev e ku em şîroveyan ji her gotarê derxînin, bi bextewarî ji bo me, ew li wir têne hilanîn, û hewce ne ku daxwazên zêde werin kirin.

Ji bo ronîkirina şîroveyên ji gotarekê, koda jêrîn bes e:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Ev rê dide me ku em navnîşek şîroveyan bistînin ku tiştek wusa xuya dike (navdêr ji ber sedemên nepenîtiyê hatine rakirin):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Wekî ku hûn dikarin bibînin, ji bo her şîroveyê em dikarin navê bikarhêner, tarîx, nirxandin û nivîsa rastîn bistînin. Ka em bibînin ka em dikarin ji vê yekê çi bistînin.

Bi awayê, di destpêkê de, ramana berhevkirina nirxan hinekî cûda bû - da ku bibînin ka bikarhêner çi nirxan didin. Mînakî, hûn dikarin li YouTube-ê binihêrin - tewra vîdyoya herî îdeal, tewra vîdyoyek ku ti agahdariya subjektîf nagire, bi tenê ji bo referansê an nûçeyek nûçeyê, hîn jî hejmarek kêmasiyan digire. Hîpotez ev bû ku bikarhêner hene ku, ji hêla klînîkî ve, ji her tiştî hez nakin, dibe ku serotonin di mêjî de an tiştek din de neyê hilberandin. Dibe ku mirov êdî ne hewce ye ku li ser Habré rûne, lê ji bo dermankirina depresyonê... Lê wekî ku derket, ez nikarim li vir kontrol bikim, ji ber ku ... navnîşa kesên ku nirxan dane di şîrove an gotarê de nayê tomarkirin. Belê, ev e, em ê bi daneyên heyî re bixebitin. Encam nirxek "berepaş" e - hûn dikarin bibînin ka kîjan nirxan _digirin_ ji hêla bikarhêneran ve. Ku, di prensîbê de, jî balkêş e.

Danasîn

Ji bo destpêkê, nerazîbûnek kevneşopî. Ev nirxandin, mîna hemî yên berê, ne fermî ye. Ez garantî nadim ku min li tu derê xeletî nekiriye. Ji bo kesên ku bi hûrguliyên teknîkî re eleqedar dibin, kodek berfirehtir tê peyda kirin di beşa berê de.

Ji ber vê yekê em dest pê bikin. Şîroveyên vê salê, 2019 (ku hîn neqediyaye), ji bo analîzê hatin girtin. Di dema nivîsandinê de, bikarhêneran nivîsand 448533 comments, mezinahiya pelê csv e 288 MB. Hêzdar, bandorker.

Dema nivîsandinê

Werin em şîroveyan bi saetan kom bikin, rojên hefteyê û dawiya hefteyê ji hev cuda bikin.

Habrastatistics: analîzkirina şîroveyên xwendevanan

Li vir em ne bi nirxên teqez, lê bi yên nisbî re eleqedar dibin. Ger hûn tenê "wek ku ye" binêrin, wê hingê ew derdikeve holêоPiraniya şîroveyan di demjimêrên xebatê de ji 10 heta 18 hatine nivîsandin 😉 Ji hêla din ve, li vir deverên demjimêr nayên hesibandin, ji ber vê yekê pirs hîn vekirî ye.

Ka em li belavkirina şîroveyan li seranserê salê binêrin:

Habrastatistics: analîzkirina şîroveyên xwendevanan

Lê dîsa jî ew di rojên hefteyê de bi zelalî dizivire - periyodîka heftane bi zelalî xuya ye, ji ber vê yekê em dikarin bi pêbaweriyek pir zêde bibêjin ku mirov Habrê ji kar dixwînin û şîrove dikin (lê ev ne diyar e).

Bi awayê, ramanek hebû ku meriv hîpotezê biceribîne ka gelo hejmara kêman an plusên hatine wergirtin ji roj an dema rojê cûda ye, lê ne gengaz bû ku têkiliyek were dîtin - dema ku nirx hate dayîn nayê xilas kirin, û tu têkiliya rasterast bi dema şîroveyê re tune.

Bikarhêner

Bê guman, ez hejmara rastîn a bikarhênerên li ser malperê nizanim. Lê yên ku îsal bi kêmî ve şîroveyek hiştine bi qasî wan derketiye holê Mirovên 25000.

Grafika hejmara peyamên ku ji hêla bikarhêneran ve têne hiştin pir balkêş xuya dike:

Habrastatistics: analîzkirina şîroveyên xwendevanan

Di destpêkê de min bi xwe bawer nekir, lê xuya bû ku xeletiyek tune. 5% bikarhêneran 60% ji peyaman dihêlin. 10% - 74% ji hemî peyaman (ya ku, ez ji we re bînim bîra we, îsal, 450 hezar). Pirrjimar bi tenê malper dixwînin, şîroveyan pir kêm kêm dihêlin, an jî wan qet nahêlin (ew, bi xwezayî, di navnîşa min de nebûn).

Rêjeyên

Ka em biçin beşa paşîn û herî kêfxweş a statîstîkê - nirxan. Ji ber sedemên nepenîtiyê, ez ê paşnavên tam ên bikarhêneran nadim, kî bixwaze, ez difikirim, dê xwe nas bike.

Bi hejmara comments ji bo vê salê, 5 jorîn ji hêla VoXXXX (3377 şîrove), 0xdXXXXX (3286 şîrove), strXXXX (3043 şîrove), AmXXXX (2897 şîrove) û khXXXX (2748 şîrove) têne dagir kirin.

Bi hejmara feydeyên wergirtî, 5 top ji hêla amXXXX (1395 şîrove, nirxandin +3231/-309), tvXXX (1544 şîrove, nirx +3231/-97), WhuXXXX (921 şîrove, nirxandin +2288/-13), MTXXXX (1328 şîrove,) +1383 /-7) û amaXXXX (736 şîrove, nirxandin +1340/-16).

Bi rating erênî mutleq (çi kes şîroveya bi neyînî nirxandin) serê jorê tê dagîr kirin Milfgard и Boomburum. Wek îstîsna, ez paşnavên wan bi tevahî pêşkêş dikim, ez difikirim ku ew heq dikin.

Aliyên kêm jî balkêş in. Top by hejmara minuses komkirin ji bo vê salê ew ji hêla siXX (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) û nicXXXXX (456 pluses, 487 minuses) ve têne dagir kirin. Lê wekî ku hûn dibînin, van bikarhêneran têra xwe şîroveyên erênî hene. Lê li gor mutleq minus Antîtopîk vladXXXX (55 şîrove, 84 kêm, 0 pluss), ekoXX (77 şîrove, 92 minuse, 1 plus) û iMXXX (225 şîrove, 205 minuse, 12 pluss) vedigire.

encamê

Min nekarî her tiştê plansazkirî hesab bikim, lê ez hêvî dikim ku ew balkêş bû.

Wekî ku hûn dikarin bibînin, tewra danûstendinek bi jimarek piçûk a zeviyan jî dikare daneyên balkêş ji bo analîzê peyda bike. Ji avakirina "ewrê peyvan" bigire heya analîza nivîsê hîn jî gelek tişt hene ku meriv lê bikole. Ger encamên balkêş derkevin holê, dê bên weşandin.

Source: www.habr.com

Add a comment