නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение иили по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.

Самое забавное в такой ситуации это то,что люди, глубоко поражённые синдромом в-интернете-кто-то-неправ, зачастую тратят чёртову прорву времени и нервов чтобы සම්පූර්ණයෙන්ම නොමිලේ доказать другому такому же поражённому, что уж он-то ровно это же самое делает за деньги или по приказу. Вы ищите тут логику? Её нет. Это интернет, детка.

Возьмём один из относительно свежих срачей о предполагаемой территориальной дискриминации на Гитлабе. С момента публикации статьи прошло 4 дня и, разумеется, обсуждение давным давно съехало от изначально заявленной темы за тридевять земель. Звучат такие фразы:

Реальный человек не сможет ничего противопоставить профессиональному комментатору на подписке…

Пользователь (такой-то) тратит просто нереальное количество времени на комментарии…
При этом его активность не имеет паттернов которые обычно присущи обычному пользователю...

p.s. но это навело меня на мысль написать парсер-анализатор таких комментаторов ) С показанием активности по часам, количеством времени в день, в неделю и т.п… Хорошая тема для статье)

Так, стоп. А какие такие паттерны «обычно присущи обычному пользователю»? Автора этой фразы в той теме, к сожалению, уже транклюкировали, так что придётся идти наугад.

Вопрос, который я хочу поставить пред ваши ясны очи, следующий — возможно ли вообще методами статистики хоть сколь-нибудь надёжно выделить эти самые паттерны так, чтобы создать формальный классификатор, отличающий комментаторов казуальных от профессиональных? Представьте себе — «по данным хабра-ботометра вы с вероятностью 76% являетесь кремлеботом». Это будет намного круче кармических рейдов друг на друга.
К сожалению, моих компетенций не хватит на то, чтобы даже предположить, в какую сторону копать для решения такой задачи. Тем не менее, за вчерашний вечер я сколхозил «на коленке» небольшой примитивный парсер, который (благо страницы с комментариями открыты даже для неавторизованных посетителей) пока что делает две вещи — а) собирает у заданного юзернейма статистику всех его комментариев (пока что просто time-stamp) и складывает в базу MySQL; б) рисует временную диаграмму, отмечая на ней взятые из этой базы события отправки комментария. Даже без какого-то мудрёного анализа получилось довольно забавно. Вот так выглядит диаграмма моих комментариев. Пояснения — под ней. Лучше всего её рассматривать в отдельном окне на масштабе в 100% и больше.

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

По горизонтальной оси — время, каждый пиксель равен одной минуте, цена серых делений равна одному часу, вся горизонтальная линия равна одним суткам. Сутки идут снизу вверх вдоль вертикальной оси, цена деления на ней — 365 суток.

Ничего особенно интересного в моей диаграмме нет. Видно, что я люблю поспать по 7-8 часов, часто ложусь за полночь, и иногда устраиваю многочасовые марафоны комментирования, и что активность за последний год превышает или примерно равна таковой за предыдущие пять лет.
Или вот товарищ gecube три с половиной года хранил обет молчания, а потом как прорвало…

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

Диаграмма активности типичного хабракомментатора выглядит приблизительно таким образом (это QtRoS)

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

Отчётливая «сонная лощина» слева где-то в европейской ночи и неспешное комментирование во время светового дня, возможно с перерывами на пол-года.

Но не все диаграммы такие скучные! Как вам, например, такое:

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

За два с небольшим года наш коллега, видимо, переучил свои биоритмы спать с европейской ночи куда-то под Срединно-Атлантический хребет, причём равномерно и постепенно, а потом ещё два года потратил, чтобы вернуться к берегам Португалии. Пешком шёл? Вплавь? Я не могу придумать правдоподобных объяснений… Первые три часа бодрствования комменты летят как из пулемёта, а под конец дня уже так, раз в часик заглянул, что там делается да и всё.

Это был, кстати, 0xd34df00d.

А вот ещё загадка:

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

Четыре с половиной года коллега продержался без единого комментария — видать тренировался где-то в тайных монастырях, как не спать потом сутками, судя по тому, сколько комментов отправлено в «сонной лощине».

Но вот самое тут интересное — это аномалия в 16-м часу, которая длится более трёх лет и в последний год постепенно затухает. Перекур? Выгуливание собаки? Пробежка? Что ещё может оторвать хабровчанина от ленты комментариев в разгар рабочего дня с такой ежедневной предопределённостью? Я раздолбай и лентяй, не могу себе представить подобной самодисциплины, которую может себе позволить уважаемый khim.

Наконец, последняя диаграмма для подумать:

නගරය නින්දට වැටේ, Khabrovsk පදිංචිකරුවන් අවදි වේ

На ней вообще нет чётко выраженной «сонной лощины». Только еле-еле угадывается видимое превышение количества комментов, отправленных после полудня над отправленными до.

Со всей комсомольской строгостью призываю уважаемого MTyrz разоружиться перед партией и честно признаться, сколько бабушек, дедушек, внучек, жучек и мышек рулят вашим аккаунтом и строчат комменты.

И под занавес коварный вопрос — может ли кому-то это всё быть интересно настолько, что захочется развить код парсера иили получить дамп базы или доступ ней и так далее? Мои собственные познания в дата-майнинге и в методах визуализации данных едва ли превышают общую эрудицию. Что-то более умное и интересное, чем эти простенькие диаграммки я вряд-ли придумаю. Если кто-то заинтересовался, пишите мне в телеграм (ник в профиле).

Спасибо!

UPD. Выложил исходники на GitHub.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න