Habraštatistika: analýza komentárov čitateľov

Ahoj Habr. IN predchádzajúca časť Analyzovala sa popularita rôznych sekcií stránky a zároveň vyvstala otázka - aké údaje možno získať z komentárov k článkom. Chcel som otestovať aj jednu hypotézu, ktorú rozoberiem nižšie.
Habraštatistika: analýza komentárov čitateľov

Údaje sa ukázali byť celkom zaujímavé, podarilo sa nám vytvoriť aj malý „mini-rating“ komentátorov. Pokračovanie pod rezom.

Zber dát

Na analýzu použijeme údaje za tento rok 2019, najmä preto, že som už dostal zoznam článkov vo forme csv. Zostáva len extrahovať komentáre z každého článku, našťastie pre nás sú tam uložené a nie sú potrebné žiadne ďalšie požiadavky.

Na zvýraznenie komentárov k článku postačuje nasledujúci kód:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

To nám umožňuje získať zoznam komentárov, ktorý vyzerá asi takto (prezývky odstránené z dôvodu ochrany osobných údajov):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Ako vidíte, pre každý komentár môžeme získať meno používateľa, dátum, hodnotenie a skutočný text. Pozrime sa, čo z toho môžeme získať.

Mimochodom, spočiatku bola myšlienka zhromažďovania hodnotení trochu iná - aby ste videli, aké hodnotenia dávajú používatelia. Môžete sa napríklad pozrieť na YouTube – aj to najideálnejšie video, dokonca aj video, ktoré nenesie žiadnu subjektívnu informáciu, čisto pre referenciu alebo tlačovú správu, stále získava určitý počet mínusov. Hypotéza bola, že existujú užívatelia, ktorým čisto klinicky vôbec všetko nechutí, možno sa serotonín nevytvára v mozgu alebo niečo iné. Možno už človek nepotrebuje sedieť na Habrého, ale liečiť depresiu... Ale ako sa ukázalo, tu to nemôžem skontrolovať, lebo... zoznam tých, ktorí dali hodnotenia, sa neukladá do komentára ani do článku. To znamená, že budeme pracovať s dostupnými údajmi. Výsledkom je „obrátené“ hodnotenie – môžete vidieť, aké hodnotenia _dostávajú_ používatelia. Čo je v princípe tiež zaujímavé.

spracovanie

Na začiatok tradičné odmietnutie zodpovednosti. Toto hodnotenie, rovnako ako všetky predchádzajúce, je neoficiálne. Nezaručujem, že som nikde neurobil chybu. Pre záujemcov o technické detaily je poskytnutý podrobnejší kód v predchádzajúcej časti.

Tak poďme na to. Komentáre za tento rok 2019 (ktorý sa ešte neskončil) boli prijaté na analýzu. V čase písania písali používatelia 448533 комментария, veľkosť súboru csv je 288 MB. Silný, pôsobivý.

Čas písania

Zoskupujme komentáre podľa hodín, pričom oddelene rozdeľme pracovné dni a víkendy.

Habraštatistika: analýza komentárov čitateľov

Tu nás nezaujímajú absolútne hodnoty, ale relatívne. Ak sa na to pozriete „tak, ako to je“, ukáže sa, že ánoоVäčšina komentárov bola napísaná v pracovnom čase od 10 do 18 😉 Na druhej strane sa tu neberú do úvahy časové pásma, takže otázka je stále otvorená.

Pozrime sa na rozloženie komentárov počas roka:

Habraštatistika: analýza komentárov čitateľov

A predsa sa točí, nápor je zreteľne viditeľný počas pracovných dní - týždenná periodicita je jasne viditeľná, takže môžeme s pomerne vysokou istotou povedať, že ľudia čítajú a komentujú Habra z práce (nie je to však isté).

Mimochodom, vznikol nápad otestovať hypotézu, či sa počet získaných mínusov alebo plusov líši od dňa alebo času dňa, ale nepodarilo sa nájsť súvislosť - neukladá sa čas pridelenia hodnotenia a neexistuje priama súvislosť s časom komentára.

Členovia

Samozrejme, nepoznám presný počet používateľov na stránke. Ale tí, ktorí tento rok zanechali aspoň jeden komentár, sa ukázali byť približne 25000 ľudia.

Graf počtu správ zanechaných používateľmi vyzerá celkom zaujímavo:

Habraštatistika: analýza komentárov čitateľov

Najprv som tomu sám neveril, ale zdalo sa, že nejde o žiadnu chybu. 5 % používateľov zanecháva 60 % správ. 10 % - 74 % všetkých správ (z toho, dovoľte mi pripomenúť, tento rok 450 tisíc). Väčšina si stránku jednoducho prečíta, komentáre zanecháva len veľmi zriedkavo alebo ich vôbec neopúšťa (tie, prirodzene, neboli zahrnuté v mojom zozname).

Hodnotenie

Prejdime k poslednej a najzábavnejšej časti štatistík – hodnoteniam. Z dôvodu ochrany súkromia neuvediem úplné nicky užívateľov, kto chce, myslím, že sa pozná.

Na počet komentárov pre tento rok top 5 obsadili VoXXXX (3377 komentárov), 0xdXXXX (3286 komentárov), strXXXX (3043 komentárov), AmXXXX (2897 komentárov) a khXXXX (2748 komentárov).

Na počet prijatých výhod, top 5 obsadili amXXXX (1395 komentárov, hodnotenia +3231/-309), tvXXXX (1544 komentárov, hodnotenia +3231/-97), WhuXXXX (921 komentárov, hodnotenia +2288/-13), MTXXXX (1328 komentárov, +1383 /-7) a amaXXXX (736 komentárov, hodnotenie +1340/-16).

Na absolútne kladné hodnotenie (akýkoľvek negatívne hodnotený komentár) v hornej časti je obsadený Milfgard и Boomburum. Výnimkou uvádzam ich prezývky v plnom znení, myslím, že si to zaslúžia.

Zaujímavé sú aj mínusy. Najlepšie podľa počet nazbieraných mínusov pre tento rok ich obsadzujú siXX (473 plusov, 699 mínusov), khXX (1915 plusov, 573 mínusov) a nicXXXXX (456 plusov, 487 mínusov). Ale ako vidíte, títo používatelia majú dosť pozitívnych komentárov. Ale podľa absolútne mínus Antitopic obsahuje vladXXXX (55 komentárov, 84 mínusov, 0 plusov), ekoXXXX (77 komentárov, 92 mínusov, 1 plus) a iMXXXX (225 komentárov, 205 mínusov, 12 plusov).

Záver

Nepodarilo sa mi spočítať všetko plánované, ale dúfam, že to bolo zaujímavé.

Ako vidíte, aj množina údajov s takým malým počtom polí môže poskytnúť zaujímavé údaje na analýzu. Stále je toho veľa, do čoho treba kopať, od budovania „slovného mraku“ až po analýzu textu. Ak sa objavia nejaké zaujímavé výsledky, budú zverejnené.

Zdroj: hab.com

Pridať komentár