Habrastatistics: окурмандардын комментарийлерин талдоо

Салам Хабр. IN мурунку бөлүгү Сайттын ар кандай бөлүмдөрүнүн популярдуулугу талдоого алынып, ошол эле учурда суроо туулат - макалалар боюнча комментарийлерден кандай маалыматтарды алууга болот. Мен дагы бир гипотезаны сынап көргүм келди, аны төмөндө талкуулайм.
Habrastatistics: окурмандардын комментарийлерин талдоо

Маалыматтар абдан кызыктуу болуп чыкты, биз ошондой эле комментаторлордун чакан “мини-рейтингин” түзө алдык. Кесиптин астында уланды.

Маалымат чогултуу

Талдоо үчүн биз ушул жылдын, 2019-жылдын маалыматтарын колдонобуз, айрыкча мен csv түрүндө макалалардын тизмесин алгандыктан. Ар бир макаладан комментарийлерди алуу гана калды, алар биз үчүн сакталып турат жана кошумча суроо талап кылынбайт.

Макаладагы комментарийлерди бөлүп көрсөтүү үчүн төмөнкү код жетиштүү:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Бул бизге ушуга окшош жорумдардын тизмесин алууга мүмкүндүк берет (купуялыктын себептеринен улам алынып салынган лакаптар):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Көрүнүп тургандай, ар бир комментарий үчүн биз колдонуучунун атын, датасын, рейтингин жана чыныгы текстти ала алабыз. Келгиле, мындан эмне ала аларыбызды карап көрөлү.

Баса, алгач рейтингдерди чогултуу идеясы бир аз башкача болгон - колдонуучулар кандай баа бергенин көрүү үчүн. Мисалы, сиз YouTubeдан карасаңыз болот - ал тургай эң идеалдуу видео, ал тургай, эч кандай субъективдүү маалыматты камтыбаган видео, жалаң маалымдама же жаңылык үчүн, дагы эле белгилүү бир сандагы минустарга ээ. Гипотеза боюнча, таза клиникалык жактан бардыгын жактырбаган колдонуучулар бар, балким, серотонин мээде же башка бир нерседе өндүрүлбөйт. Балким, бир адам мындан ары Habré отурууга керек эмес, бирок депрессияны дарылоо үчүн ... Бирок, белгилүү болгондой, мен бул жерде текшере албайм, анткени ... баа бергендердин тизмеси комментарийде же макалада сакталган эмес. Ооба, башкача айтканда, биз колдо болгон маалыматтар менен иштейбиз. Натыйжада "кайтарым" рейтинг - колдонуучулар кандай рейтингдерди _аларын көрө аласыз. Бул, негизинен, кызыктуу.

кайра иштетүү

Баштоо үчүн, салттуу баш тартуу. Бул рейтинг, бардык мурункулардай эле, расмий эмес. Мен эч жерде ката кетирген эмесмин деп кепилдик бере албайм. Техникалык деталдарга кызыккандар үчүн деталдуу код берилген мурунку бөлүгүндө.

Ошентип, баштайлы. Үстүбүздөгү 2019-жыл үчүн комментарийлер (ал бүтө элек) талдоо үчүн алынды. Жазуу учурунда колдонуучулар жазышкан 448533 комментарий, csv файлынын өлчөмү болуп саналат 288MB. Күчтүү, таасирдүү.

Жазуу убактысы

Иш күндөрү жана дем алыш күндөрүн өзүнчө бөлүп, комментарийлерди саат боюнча топтойлу.

Habrastatistics: окурмандардын комментарийлерин талдоо

Бул жерде бизди абсолюттук баалуулуктар эмес, салыштырмалуу баалуулуктар кызыктырат. Эгер сиз жөн гана "болгондой" карап көрсөңүз, анда ушундай болотоКомментарийлердин көбү жумуш убактысында 10дон 18ге чейин жазылган 😉 Ал эми бул жерде саат алкактары эске алынбагандыктан, суроо ачык бойдон калууда.

Келгиле, жыл бою комментарийлердин бөлүштүрүлүшүн карап көрөлү:

Habrastatistics: окурмандардын комментарийлерин талдоо

Ал эми иш күндөрүндө көтөрүлүү айкын көрүнүп турат - жумалык мезгилдүүлүк ачык көрүнүп турат, ошондуктан биз адамдар Хабрды жумуштан окуп, комментарий берип жатышат деп ишенимдүү айта алабыз (бирок бул так эмес).

Айтмакчы, алынган минустардын же плюстордун саны күндүн же күндүн убактысынан айырмаланабы деген гипотезаны сынап көрүү идеясы бар болчу, бирок байланышты табуу мүмкүн болгон жок - рейтинг берилген убакыт сакталган эмес жана комментарий убактысы менен түздөн-түз байланышы жок.

колдонуучулар

Албетте, мен сайтта колдонуучулардын так санын билбейм. Бирок быйыл жок дегенде бир комментарий калтыргандар болжолдуу болуп чыкты 25000 эл.

Колдонуучулар калтырган билдирүүлөрдүн санынын графиги абдан кызыктуу көрүнөт:

Habrastatistics: окурмандардын комментарийлерин талдоо

Башында мен өзүм ишенген жокмун, бирок ката жоктой сезилди. Колдонуучулардын 5% билдирүүлөрдүн 60% калтырышат. Бардык билдирүүлөрдүн 10% - 74% (анын ичинен эскертип коёюн, быйыл 450 миң). Көпчүлүк жөн гана сайтты окушат, комментарийлерди сейрек калтырышат же такыр калтырышпайт (булар, албетте, менин тизмеме кирген эмес).

Рейтинг

Келгиле, статистиканын акыркы жана эң кызыктуу бөлүгүнө – рейтингдерге өтөбүз. Купуялык үчүн колдонуучулардын лакаптарын толук бербейм, менимче, ким кааласа, өздөрүн тааныйт.

боюнча комментарийлердин саны бул жыл үчүн эң мыкты 5ти VoXXXX (3377 комментарий), 0xdXXXXX (3286 комментарий), strXXXX (3043 комментарий), AmXXXX (2897 комментарий) жана khXXXX (2748 комментарий) ээлеген.

боюнча алынган пайдалардын саны, топ 5ти amXXXX (1395 комментарий, рейтинг +3231/-309), tvXXXX (1544 комментарий, рейтинг +3231/-97), WhuXXXX (921 комментарий, рейтинг +2288/-13), MTXXXX (1328 комментарий, +1383 /-7) жана amaXXXX (736 комментарий, рейтинг +1340/-16).

боюнча абсолюттук оң баа (эч ким терс бааланган комментарий) үстүнкү бөлүгүн ээлейт Милфгард и Boomburum. Мен алардын лакаптарын өзгөчө келтирем, алар татыктуу деп ойлойм.

Кемчиликтери да кызыктуу. Жогорку чогултулган минустардын саны бул жылы siXX (473 плюс, 699 минус), khXX (1915 плюс, 573 минус) жана nicXXXXX (456 плюс, 487 минус) ээлейт. Бирок өзүңүздөр көрүп тургандай, бул колдонуучулардын позитивдүү комментарийлери жетиштүү. Бирок ылайык абсолюттук минус Антитопка vladXXXX (55 комментарий, 84 минус, 0 плюс), ekoXXXX (77 комментарий, 92 минус, 1 плюс) жана iMXXXX (225 комментарий, 205 минус, 12 плюс) кирет.

жыйынтыктоо

Мен пландаштырылган нерселердин баарын эсептей алган жокмун, бирок кызыктуу болду деп үмүттөнөм.

Көрүнүп тургандай, мындай аз сандагы талаалар менен маалымат топтому да талдоо үчүн кызыктуу маалыматтарды бере алат. "Сөз булутун" куруудан баштап, текстти талдоого чейин дагы деле көп нерсе бар. Эгерде кандайдыр бир кызыктуу жыйынтыктар чыкса, алар жарыяланат.

Source: www.habr.com

Комментарий кошуу