Habrastatisztika: olvasói megjegyzések elemzése

Szia Habr! BAN BEN előző rész Elemezték az oldal különböző részeinek népszerűségét, és egyúttal felmerült a kérdés - milyen adatok nyerhetők ki a cikkekhez fűzött megjegyzésekből. Egy hipotézist is szerettem volna tesztelni, amelyet az alábbiakban tárgyalok.
Habrastatisztika: olvasói megjegyzések elemzése

Az adatok elég érdekesnek bizonyultak, a kommentelőkből egy kis „miniminősítést” is sikerült alkotnunk. Folytatás a vágás alatt.

Adatgyűjtés

Az elemzéshez az idei, 2019-es év adatait fogjuk felhasználni, főleg, hogy már kaptam egy cikklistát csv formátumban. Már csak a megjegyzéseket kell kiszedni az egyes cikkekből, szerencsére ott vannak tárolva, és nem kell további kéréseket benyújtani.

A cikk megjegyzéseinek kiemeléséhez elegendő a következő kód:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Ez lehetővé teszi számunkra, hogy megkapjuk a hozzá hasonló megjegyzések listáját (a beceneveket adatvédelmi okokból eltávolítjuk):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Mint látható, minden megjegyzéshez megkapjuk a felhasználónevet, dátumot, értékelést és a tényleges szöveget. Lássuk, mit kaphatunk ebből.

Mellesleg, kezdetben az értékelések összegyűjtésének ötlete egy kicsit más volt - hogy megnézzük, milyen értékeléseket adnak a felhasználók. Például megnézheti a YouTube-ot – még a legideálisabb videó is, még egy olyan videó is, amely nem tartalmaz semmilyen szubjektív információt, pusztán referenciaként vagy sajtóközleményként, még mindig kap bizonyos számú mínuszt. A hipotézis az volt, hogy vannak olyan felhasználók, akiknek pusztán klinikailag egyáltalán nem tetszik minden, talán nem termelődik az agyban a szerotonin vagy valami más. Lehet, hogy az embernek már nem Habrén kell ülnie, hanem a depresszió kezelésére... De mint kiderült, ezt itt nem tudom ellenőrizni, mert... az értékelést adók listája nem kerül mentésre a kommentben vagy a cikkben. Nos, a rendelkezésre álló adatokkal fogunk dolgozni. Az eredmény egy „fordított” értékelés – láthatja, milyen értékeléseket _kapnak_ a felhasználók. Ami elvileg szintén érdekes.

Feldolgozás

Először is egy hagyományos felelősségkizárás. Ez a minősítés, mint az összes korábbi, nem hivatalos. Nem garantálom, hogy sehol nem hibáztam. A műszaki részletek iránt érdeklődők számára részletesebb kódot adunk az előző részben.

Tehát kezdjük. Az idei, 2019-es évre vonatkozó megjegyzéseket (ami még nem ért véget) elemzésre vettük. A cikk írásakor a felhasználók írtak 448533 комментария, a csv fájl mérete 288 MB. Erőteljes, lenyűgöző.

Az írás ideje

Csoportosítsuk a megjegyzéseket óra szerint, külön osztva a hétköznapokat és a hétvégéket.

Habrastatisztika: olvasói megjegyzések elemzése

Itt nem az abszolút értékek érdekelnek, hanem a relatívak. Ha csak úgy nézed, „ahogy van”, akkor kiderülоA legtöbb kommentet munkaidőben írták 10-18-ig 😉 Másrészt itt nem számolnak az időzónák, így a kérdés továbbra is nyitott.

Nézzük a hozzászólások megoszlását az év során:

Habrastatisztika: olvasói megjegyzések elemzése

És mégis forog, jól látható a túlfeszültség a hétköznapokon - jól látható a heti gyakoriság, így elég nagy biztonsággal kijelenthetjük, hogy az emberek a munkából olvasnak és kommentálnak Habr-t (de ez nem biztos).

Volt egyébként ötlet tesztelni azt a hipotézist, hogy a kapott mínuszok vagy pluszok száma eltér-e a naptól vagy a napszaktól, de nem sikerült összefüggést találni - a minősítés időpontja nem kerül mentésre, ill. nincs közvetlen kapcsolat a megjegyzés idejével.

Tagok

Természetesen nem tudom az oldal felhasználóinak pontos számát. De azok, akik legalább egy megjegyzést hagytak ebben az évben, hozzávetőlegesnek bizonyultak 25000 emberek.

A felhasználók által hagyott üzenetek számának grafikonja meglehetősen érdekesnek tűnik:

Habrastatisztika: olvasói megjegyzések elemzése

Először magam sem hittem el, de úgy tűnt, nincs hiba. A felhasználók 5%-a hagyja el az üzenetek 60%-át. Az összes üzenet 10-74%-a (ebből, hadd emlékeztessem, idén 450 ezer). A többség egyszerűen elolvassa az oldalt, nagyon ritkán, vagy egyáltalán nem hagy megjegyzést (ezek természetesen nem szerepeltek a listámon).

Értékelés

Térjünk át a statisztika utolsó és legszórakoztatóbb részére – az értékelésekre. Adatvédelmi okokból nem adom meg a felhasználók teljes becenevét, aki akarja, az szerintem felismeri magát.

On hozzászólások száma ebben az évben az első 5-öt a VoXXXX (3377 megjegyzés), 0xdXXXX (3286 megjegyzés), strXXXX (3043 megjegyzés), AmXXXX (2897 megjegyzés) és khXXXX (2748 megjegyzés) foglalja el.

On kapott juttatások száma, az első 5-öt az amXXXX (1395 megjegyzés, értékelés +3231/-309), tvXXXX (1544 megjegyzés, értékelés +3231/-97), WhuXXXX (921 megjegyzés, értékelés +2288/-13), MTXXXX (1328 megjegyzés, +1383 /-7) és amaXXXX (736 megjegyzés, értékelés +1340/-16).

On abszolút pozitív értékelés (senki negatív értékelésű megjegyzés) a felső tetejét foglalja el Milfgard и Boomburum. Kivételként teljes egészében bemutatom a beceneveiket, szerintem megérdemlik.

A hátrányok is érdekesek. Felülről begyűjtött mínuszok száma idénre a siXX (473 plusz, 699 mínusz), a khXX (1915 plusz, 573 mínusz) és a nicXXXXX (456 plusz, 487 mínusz) foglalja el őket. De amint látja, ezeknek a felhasználóknak elég pozitív megjegyzései vannak. De aszerint abszolút mínusz Az antitéma tartalmazza a vladXXXX (55 megjegyzés, 84 mínusz, 0 plusz), ekoXXXX (77 megjegyzés, 92 mínusz, 1 plusz) és iMXXXX (225 megjegyzés, 205 mínusz, 12 plusz).

Következtetés

Nem tudtam minden tervezettet kiszámolni, de remélem érdekes volt.

Mint látható, még egy ilyen kis számú mezőt tartalmazó adatkészlet is érdekes adatokat szolgáltathat az elemzéshez. A „szófelhő” építésétől a szövegelemzésig még sok mindent kell ásni. Ha érdekes eredmények születnek, közzétesszük.

Forrás: will.com

Hozzászólás