Місто засинає, прокидаються хабрівчани

Якщо кількість коментарів під статтею стрімким домкратом наближається до 1000, будьте впевнені — незалежно від заявленої автором теми всередині вирує срач: вогнища займання політоти, оточені диванними експертами з усіх питань, психіатричні діагнози на відстані по аватарці та нікнейму, переходи на особистості їдкість яких перевищує таку у крові ксеноморфів, і, звичайно ж, обов'язкова в таких випадках страва - взаємні звинувачення в тому, що ваш візаві з вами дискутує виключно за винагороду або за обов'язком служби. Яка, мабуть, і небезпечна і важка, і здавалося б не видно, а тридцять срібняків на дорозі не валяються.

Найкумедніше в такій ситуації це те,що люди, глибоко вражені синдромом в-інтернеті-хто-то-неправий, часто витрачають чортову прорву часу та нервів абсолютно безкоштовно довести іншому такому ж ураженому, що він-то рівно це саме робить за гроші чи за наказом. Ви шукаєте тут логіку? Її немає. Це інтернет, дитинко.

Візьмемо один із щодо свіжих срачів про ймовірну територіальну дискримінацію на Гітлабі. З моменту публікації статті минуло 4 дні і, зрозуміло, обговорення давно з'їхало від заявленої теми за тридев'ять земель. Звучать такі фрази:

Реальна людина не зможе нічого протиставити професійному коментатору на підписці.

Користувач (такийсь) витрачає просто нереальну кількість часу на коментарі.
При цьому його активність не має патернів, які зазвичай притаманні звичайному користувачу....

ps але це навело мене на думку написати парсер-аналізатор таких коментаторів ) З показом активності по годинах, кількістю часу на день, тиждень і т.п.

Так, стоп. А які такі патерни «зазвичай притаманні звичайному користувачеві»? Автора цієї фрази в тій темі, на жаль, уже транклюкували, так що доведеться йти навмання.

Питання, яке я хочу поставити перед вашими зрозумілими очима, наступне — чи можливо взагалі методами статистики хоч якось надійно виділити ці самі патерни так, щоб створити формальний класифікатор, який відрізняє коментаторів казуальних від професійних? Уявіть собі - "за даними хабра-ботометра ви з ймовірністю 76% є кремлеботом". Це буде набагато крутіше кармічних рейдів один на одного.
На жаль, моїх компетенцій не вистачить на те, щоб припустити, в який бік копати для вирішення такого завдання. Тим не менш, за вчорашній вечір я сколгоспив «на коліні» невеликий примітивний парсер, який (благо сторінки з коментарями відкриті навіть для неавторизованих відвідувачів) поки що робить дві речі — а) збирає у заданого користувача статистику всіх його коментарів (поки що просто time -stamp) і становить основу MySQL; б) малює тимчасову діаграму, наголошуючи на ній взяті з цієї бази події відправлення коментаря. Навіть без якогось складного аналізу вийшло досить кумедно. Отак виглядає діаграма моїх коментарів. Пояснення – під нею. Найкраще її розглядати в окремому вікні на масштабі 100% і більше.

Місто засинає, прокидаються хабрівчани

По горизонтальній осі - час, кожен піксель дорівнює одній хвилині, ціна сірих поділок дорівнює одній годині, вся горизонтальна лінія дорівнює одній добі. Доба йде знизу вгору вздовж вертикальної осі, ціна поділу на ній - 365 діб.

Нічого особливо цікавого у моїй діаграмі немає. Видно, що я люблю поспати по 7-8 годин, часто лягаю за північ, і іноді влаштовую багатогодинні марафони коментування, і що активність за останній рік перевищує або приблизно така дорівнює за попередні п'ять років.
Або ось товариш gecube три з половиною роки зберігав обітницю мовчання, а потім як прорвало...

Місто засинає, прокидаються хабрівчани

Діаграма активності типового хабракоментатора виглядає приблизно так (це QtRoS)

Місто засинає, прокидаються хабрівчани

Виразна «сонна лощина» ліворуч десь у європейській ночі та неспішне коментування під час світлового дня, можливо з перервами на півроку.

Але не всі діаграми такі нудні! Як вам, наприклад, таке:

Місто засинає, прокидаються хабрівчани

За два з невеликим роки наш колега, мабуть, перевчив свої біоритми спати з європейської ночі кудись під Серединно-Атлантичний хребет, причому рівномірно та поступово, а потім ще два роки витратив, щоб повернутися до берегів Португалії. Пішки йшов? Вплав? Я не можу придумати правдоподібних пояснень ... Перші три години неспання коментарі летять як з кулемету, а під кінець дня вже так, раз на годину зазирнув, що там робиться і все.

Це був, до речі, 0xd34df00d.

А ось ще загадка:

Місто засинає, прокидаються хабрівчани

Чотири з половиною роки колега протримався без жодного коментаря — мабуть, тренувався десь у таємних монастирях, як не спати потім цілодобово, судячи з того, скільки коментів відправлено в «сонній лощині».

Але найцікавіше — це аномалія о 16-й годині, яка триває більше трьох років і в останній рік поступово згасає. Перекур? Вигулювання собаки? Пробіжка? Що ще може відірвати хабровчанина від стрічки коментарів у розпал робочого дня з такою щоденною обумовленістю? Я роздовбай і ледар, не можу собі уявити подібної самодисципліни, яку може собі дозволити шановний khim.

Нарешті, остання діаграма подумати:

Місто засинає, прокидаються хабрівчани

На ній взагалі немає чітко вираженої «сонної лощини». Тільки ледве вгадується видиме перевищення кількості коментів, відправлених після полудня над відправленими до.

З усією комсомольською строгістю закликаю шановного MTyrz роззброїтися перед партією і чесно зізнатися, скільки бабусь, дідусів, онучок, жучок і мишок керують вашим акаунтом і пишуть коментарі.

І під завісу підступне питання — чи може комусь це все бути цікаво настільки, що захочеться розвинути код парсера чи отримати дамп бази чи доступ до неї і так далі? Мої власні знання в дата-майнінгу та методах візуалізації даних навряд чи перевищують загальну ерудицію. Щось розумніше і цікавіше, ніж ці простенькі діаграми, я навряд чи придумаю. Якщо хтось зацікавився, пишіть мені телеграм (нік у профілі).

Дякуємо за увагу!

UPD. Виклав вихідники на GitHub.

Джерело: habr.com

Додати коментар або відгук