Про дива хабростатистики

І раніше помічав дивну поведінку рейтингів, але останнім часом дива виявилася надто наочно. І я вирішив дослідити проблему доступними мені науковими методами, а саме проаналізувати динаміку плюсування-мінусування. Раптом привиділося?

Програміст я ще той, але дуже елементарні речі робити вмію. Ось і закодив простеньку утилітку, що збирає статистику з панелей хабрівського посту: плюси, мінуси, перегляди, закладки та інше.

Про дива хабростатистики

Статистика виводиться в графіки, після вивчення яких вдалося виявити ще пару несподіванок, дрібніших. Але про все по порядку.

Дивність 1.
З неї, власне, розпочалося моє статистичне дослідження.

Мені здалося дивним, що перші години після опублікування деяких моїх постів вони різко йшли в мінус, потім обнулялися і врешті-решт заробляли очікуваний плюс. З чого б це?

Я якраз збирався опублікувати чергову посаду – у двох частинах. Його і вирішив статистичним препаруванням.

Опублікував першу частину. Одночасно запустив утиліту і взявся чекати на результат. На жаль, уночі – у той час, поки я дрих, – програма припинила збирання відомостей через допущений баг. На ранок я виправив помилку, але статистика виявилася за неповну добу. Втім, тенденції очевидні й за відпрацьований час.

Дані наводяться за перші 14 годин із моменту опублікування, інтервал між вимірами 10 хвилин.

Про дива хабростатистики

Очі не обдурили: більшість мінусів припадає на першу годину існування посту. Спочатку піст різко пішов у мінус, потім виправився. Ось цифри, за якими збудований графік:

Про дива хабростатистики

І це при тому, що перегляди зростають плавно!

Про дива хабростатистики

Щаблі, що йдуть із тисячних значень, пояснюються тим, що в хабрівській панелі починаються скорочення: точної кількості переглядів взяти ні звідки (напевно, можна було взяти зі сторонніх сервісів, але ними я не користувався).

Я в статистиці не спец, але подібний розподіл мінусів анормально, наскільки розумію?!

Ось дивіться, закладки розподілені за реєстраційним періодом більш-менш рівномірно:

Про дива хабростатистики

Коментарі – також рівномірно:

Про дива хабростатистики

Спостерігаються сплески активності та пасивності, але вони розподілені за періодом: коментування то згасає, то відновлюється.

Те саме з передплатниками – має місце рівномірне незначне збільшення:

Про дива хабростатистики

Карма за звітний період не змінилася – її не наводжу. А рейтинг обчислюється Хабром, наводити його немає сенсу.

Всі показники змінюються пропорційно до кількості переглядів, і тільки з мінусами відбувається негаразд: спалах озлоблення припадає на першу годину з початку публікації. Те саме спостерігалося з моїми попередніми постами. Але якщо раніше це були, як кажуть, особисті враження, то тепер їх підтвердила реєстрація.

На мою суто нубську думку, подібний розподіл означає: на сайті сидять кілька користувачів, які цілеспрямовано переглядають свіжі посади, що публікуються, і деякі з постів - виходячи з відомої тільки їм потреби - мінусують. Пишу «деякі з постів», бо помічав цей ефект не лише у своїх публікацій. У всіх випадках ефект виражений, інакше я просто не звернув би на нього уваги.

Я маю чотири версії, чому так відбувається.

Версія 1. Психічне збочення. Хворі люди спеціально чатують на неприємних їм авторів і мінусують, з метою нашкодити.

У цю версію я не вірю.

Версія 2. Психологічний ефект Який – я не знаю. Ну чому читачі спочатку дружно мінусують пост, а потім не менш дружно плюсують? Мінусують як нетематичний, а плюсують після того, як поціновувачі прекрасного опиняються здебільшого? Не знаю не знаю.

Якщо серед читачів є психологи, нехай скажуть своє вагоме слово.

Версія 3. Діють служиві. Навіщо їх начальству пригнічувати хабрівські пости – Бог звістка. Втім, служиві є не лише в нашій вітчизні. Хто їх зрозуміє, русофобів?

Версія 4. Комбінований вплив раніше вказаних факторів.

Цілком уявно.

Як би там не було, зменшити кількість переглядів мінусаторам вдається. Я не знайомий з правилами виведення хабровських постів у топ, не знаю навіть, оприлюднені ці алгоритми чи ні, але для мене очевидно: раннє мінусування не дає постам, що піддаються остракізму, виходити в топи – точніше, затримує потрапляння туди, що у свою чергу значно, в рази, зменшує кількість переглядів.

Наскільки розумію, дієвих способів боротьби із цим злом не існує. Єдиний спосіб – саме голосування. Тільки в такому випадку можна встановити, з яких профілів йде періодичне відстеження та мінусування свіжих постів. Однак, іменне голосування на Хабрі відсутнє (вірніше, не оприлюднюється).

Але не все так просто.

Як я сказав, матеріал, що препарується, публікувався частинами. Після публікації другої частини я очікував подібної картини: з вихідним виходом у мінус і наступним – у плюс. Проте, ефект виявився значно згладженішим: піст у мінус не виходив.

На час публікації другої частини баг був виправлений, тому дані наводяться за добу:

Про дива хабростатистики

Звідки взялося згладжування, мені не відомо. Можливо, через публікацію в суботу (мінусатори щосуботи не працюють?) або через те, що це закінчення раніше опублікованого матеріалу.

Втім, розподіл мінусів все одно нерівномірний: усі мінуси припадають на першу половину реєстраційного періоду, і мінусування закінчується набагато раніше за плюсування. У той же час перегляди розподілені за періодом точно як минулого разу – рівномірно:

Про дива хабростатистики

Стрибок, що стався близько трьох пополудні – це не секретні матеріали. Просто на годину у мене відрубався інтернет. Утиліта не могла з'єднатися із сайтом.

Про дива хабростатистики

Решта – абсолютно стандартно.

Закладки:

Про дива хабростатистики

Коментарі: як і минулого разу, періоди активності чергуються з періодами мовчання.

Про дива хабростатистики

Карма. Зафіксовано збільшення на пару одиниць - само собою, не одночасне:

Про дива хабростатистики

І передплатники. Загальна кількість залишилася незмінною (мабуть, охочі підписалися під час публікації першої частини). Тільки близько першої години пополудні відбулася поодинока флуктуація: хтось відписався – можливо, помилково, – але тут же підписався знову. Якщо це була інша людина, відбулася компенсація: загальна кількість передплатників не змінилася.

Про дива хабростатистики

Отже, показники посту поводяться зрозумілим та передбачуваним чином. Усі показники, крім мінусів. Оскільки я не бачу очевидної причини для цього, то я знаходжу мінусаторський пік як мінімум дивним.

Дивність 2.
Іноді кількість переглядів зменшується (що, зрозуміло, неможливо), але незабаром повертається в нормальний стан.

Відстежив випадково, під час налагодження програми, коли функцію експорту-імпорту ще не було прироблено, тому на графіку відповідний зигзаг відсутній. Можете повірити на слово – цей ефект спостерігався двічі. Декілька тисяч переглядів, раптово кількість переглядів зменшується на пару сотень, хвилин через 10-20 відновлюється до попереднього рівня (без урахування природного збільшення).

Із цим дуже просто: баг на сайті. І думати нема чого.

Дивність 3.
Ось що здалося мені набагато дивнішим, ніж волюнтаристський перший і технічний другий ефект. Плюси трапляються не поодиноко, з рівномірним розподілом за періодом, а блоками. Але ж плюсування - не коментар, коли за питанням природно слідує відповідь, вони акт індивідуальний!

Придивіться на вище опубліковані графіки результату: блоки помітні.

Знаючі люди кивнули мені на розподіл Пуассона, але самостійно підрахувати можливість я не в змозі. Якщо ви здатні, підраховуйте. Для мене і так очевидно, що кількість здвоєних плюсів набагато перевищує норму.

Ось цифрові дані з плюсів першої частини посту. На графіці показано кількість плюсів, що припадають на поодинокі, подвоєні та потроєні позиції у загальній кількості виставлених оцінок. Як говорилося раніше, інтервал вимірів становить 10 хвилин.

Про дива хабростатистики

З 30 тикань у 84 клітини у дві клітини тицьнули тричі. Ну, не знаю, наскільки це відповідає теорії ймовірності.

Дані з другої частини посту (оскільки період вимірювань більш тривалий, скорочую його за тривалістю першої частини, для порівнянності):

Про дива хабростатистики

Між іншим, тут із потрійним сусідить за часом один із поодиноких плюсів, тобто в якісь 20 хвилин спостерігався сплеск плюсування (поставлено плюсів 29 % від загальної їхньої кількості). І це відбувалося не в перші хвилини опублікування.

Співвідношення між одиничними, подвоєними та потроєними позиціями приблизно те саме, що для першої частини. А зменшення частки оцінок у вимірах пояснюється тим, що оцінки виставлялися рідше. Виміри проводились, але плюсів не фіксувалося.

Цей ефект блокового плюсування я ніяк не можу пояснити, тобто взагалі ніяк. Для мінусів подібна «блочна» поведінка начебто не характерна.

Випромінювачі добра посилають навіювання порційно, то вмикаючись, то вимикаючись? Хе-хе-хе…

PS
Якщо у кого виникне бажання проаналізувати статистику постів досконалішими методами або перевірити арифметику, файли з вихідними даними тут:
yadi.cz/d/iN4SL6tzsGEQxw

Не наполягаю на своїх сумнівах - можливо, я не правий, тим більше що в статистиці нихт бельмес. Сподіваюся, що коментарі професійних статистиків, психологів та інших зацікавлених користувачів прояснять здивування.

Дякую за увагу.

Джерело: habr.com

Додати коментар або відгук