Habrastatistics: irakurleen iruzkinak aztertzea

Kaixo Habr. IN aurreko zatia Gunearen hainbat atalen ospea aztertu zen, eta, aldi berean, galdera sortu zen: artikuluen iruzkinetatik zer datu atera daitezkeen. Hipotesi bat ere probatu nahi nuen, jarraian eztabaidatuko dudana.
Habrastatistics: irakurleen iruzkinak aztertzea

Datuak nahiko interesgarriak izan ziren, gainera, iruzkintzaileen “mini-balorazio” txiki bat sortzea lortu genuen. Ebaki azpian jarraitu.

Datu bilketa

Aztertzeko, aurtengo, 2019ko datuak erabiliko ditugu, batez ere dagoeneko jaso dudalako artikuluen zerrenda csv formatuan. Artikulu bakoitzetik iruzkinak ateratzea besterik ez da geratzen, zorionez guretzat, bertan gordetzen dira, eta ez da eskaera gehigarririk egin behar;

Artikulu bateko iruzkinak nabarmentzeko, honako kodea nahikoa da:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Honek honelako itxura duten iruzkinen zerrenda lor dezakegu (pribatutasun arrazoiengatik ezizenak kendu dira):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Ikus dezakezunez, iruzkin bakoitzeko erabiltzaile izena, data, balorazioa eta benetako testua lor ditzakegu. Ea zer atera dezakegun honetatik.

Bide batez, hasiera batean, balorazioak biltzeko ideia apur bat ezberdina zen - erabiltzaileek zer balorazio ematen duten ikusteko. Esate baterako, YouTube-ra begiratu dezakezu; bideorik idealenak ere, informazio subjektiborik ez duen bideo batek ere, erreferentzia hutsa edo albiste-ohar baterako, desabantaila kopuru jakin bat irabazten du. Hipotesia zen badirela klinikoki hutsez dena batere gustatzen ez zaien erabiltzaileak, agian serotonina ez da garunean edo beste zerbait sortzen. Agian pertsona batek ez du gehiago Habré gainean eseri behar, depresioa tratatzeko baizik... Baina ondorioztatu denez, ezin dut hemen egiaztatu, zeren... balorazioak eman dituztenen zerrenda ez da iruzkinean edo artikuluan gordetzen. Tira, hau da, eskura ditugun datuekin lan egingo dugu. Emaitza "alderantzizko" balorazioa da - erabiltzaileek _jasotzen_ duten balorazioak ikus ditzakezu. Hori ere, printzipioz, interesgarria da.

Prozesatzeko

Hasteko, ezeztapen tradizionala. Balorazio hau, aurreko guztiak bezala, ez-ofiziala da. Ez dut ziurtatzen inon akatsik egin ez dudanik. Xehetasun teknikoetan interesa dutenentzat, kode zehatzagoa eskaintzen da aurreko zatian.

Beraz, has gaitezen. Aurtengo, 2019ko iruzkinak (oraindik amaitu ez dena), aztertzeko hartu ziren. Idazteko unean, erabiltzaileek idatzi zuten 448533 комментария, csv fitxategiaren tamaina da 288 MB. Indartsua, ikusgarria.

Idazteko ordua

Talde ditzagun iruzkinak orduka, astegunak eta asteburuak bereizita banatuz.

Habrastatistics: irakurleen iruzkinak aztertzea

Hemen ez zaizkigu balio absolutuak interesatzen, erlatiboak baizik. "Den bezala" ikusten baduzu, horixe daоIruzkin gehienak 10etatik 18etara lanorduetan idatzi ziren 😉 Bestalde, hemen ordu-eremuak ez dira kontuan hartzen, beraz galdera zabalik dago oraindik.

Ikus dezagun urtean zehar iruzkinen banaketa:

Habrastatistics: irakurleen iruzkinak aztertzea

Eta, hala ere, biraka egiten du; lanegunetan argi ikusten da gorakada - asteko aldizkakotasuna argi ikusten da, beraz, nahiko konfiantza handiz esan dezakegu jendea lanetik irakurtzen eta iruzkintzen ari dela (baina hori ez da ziur).

Bide batez, jasotako minus edo plusen kopurua eguneko edo orduarekiko desberdina den hipotesia probatzeko ideia zegoen, baina ezin izan zen erlaziorik aurkitu - balorazioa eman zen ordua ez da gordetzen, eta ez dago zuzeneko loturarik iruzkinaren orduarekin.

Kide

Jakina, ez dakit guneko erabiltzaile kopuru zehatza. Baina aurten gutxienez iruzkin bat utzi dutenak gutxi gorabehera izan dira 25000 pertsonak.

Erabiltzaileek utzitako mezu kopuruaren grafikoak nahiko interesgarria dirudi:

Habrastatistics: irakurleen iruzkinak aztertzea

Hasieran ez nuen nik uste, baina akatsik ez zegoela zirudien. Erabiltzaileen %5ek mezuen %60 uzten dute. Mezu guztien % 10 - % 74 (horietatik, gogorarazten dizut aurten, 450 mila). Gehienek gunea irakurri besterik ez dute egiten, iruzkinak oso gutxitan utziz, edo batere utzi gabe (horiek, jakina, ez zeuden nire zerrendan sartuta).

Ratings

Goazen estatistiken azken eta dibertigarrienera: balorazioak. Pribatutasun arrazoiengatik, ez ditut erabiltzaileen goitizen osoa emango, nahi duenak, nire ustez, bere burua ezagutuko duela.

On iruzkin kopurua aurten, lehen 5ak VoXXXX (3377 iruzkin), 0xdXXXX (3286 iruzkin), strXXXX (3043 iruzkin), AmXXXX (2897 iruzkin) eta khXXXX (2748 iruzkin) dira.

On jasotako onura kopurua, goiko 5ak amXXXX (1395 iruzkin, balorazio +3231/-309), tvXXXX (1544 iruzkin, balorazio +3231/-97), WhuXXXX (921 iruzkin, balorazio +2288/-13), MTXXXX (1328 iruzkin, +1383 /-7) eta amaXXXX (736 iruzkin, balorazioa +1340/-16).

On balorazio positiboa absolutua (Inor ere ez negatiboki baloratutako iruzkina) goiko aldea okupatuta dago Milfgard и Boomburum. Salbuespen gisa, haien goitizenak osorik aurkezten ditut, merezi dutela uste dut.

Alde txarrak ere interesgarriak dira. Gora bildutako minus kopurua aurtengorako siXX (473 plus, 699 minus), khXX (1915 plus, 573 minus) eta nicXXXXX (456 plus, 487 minus) hartzen dituzte. Baina ikusten duzunez, erabiltzaile hauek nahikoa iruzkin positibo dituzte. Baina arabera ken absolutua Antitopikoak vladXXXX (55 iruzkin, 84 min, 0 plus), ekoXXXX (77 iruzkin, 92 min, 1 plus) eta iMXXXX (225 iruzkin, 205 min, 12 plus).

Ondorioa

Ezin izan nuen aurreikusitako guztia kalkulatu, baina espero dut interesgarria izatea.

Ikus dezakezunez, eremu kopuru txikia duen datu-multzo batek ere analisirako datu interesgarriak eman ditzake. Asko dago oraindik sakontzeko, “hitz hodeia” eraikitzetik testuen azterketara arte. Emaitza interesgarriren bat ateratzen bada, argitaratuko dira.

Iturria: www.habr.com

Gehitu iruzkin berria