За необичностите на хабростатистиката

Сум забележал чудно однесување во рејтингот и порано, но неодамна чудноста стана премногу очигледна. И решив да го истражам проблемот користејќи ги научните методи што ми се достапни, имено: да ја анализирам динамиката на плус-минус. Дали одеднаш замисливте?

Сè уште сум програмер, но можам да правам многу основни работи. Затоа, кодирав едноставна алатка која собира статистика од панелите на постот Хабров: добрите, лошите страни, погледите, обележувачите итн.

За необичностите на хабростатистиката

Статистиката е прикажана во графикони, откако ги проучувавме, успеавме да откриеме уште неколку изненадувања, помали. Но, прво прво.

Чудност 1.
Тука всушност започна моето статистичко истражување.

Ми се чинеше чудно што во првите часови по објавувањето на некои мои објави тие нагло отидоа во негатива, потоа отидоа на нула и на крајот го заработија очекуваниот плус. Зошто се случи тоа?

Само што требаше да објавам уште еден пост - во два дела. Решив да го подложам на статистичка анализа.

Објавен првиот дел. Во исто време, ја започнав алатката и почнав да го чекам резултатот. За жал, ноќе - додека спиев - програмата престана да собира информации поради грешка. Следното утро ја исправив грешката, но статистиката се покажа дека е помалку од еден ден. Сепак, трендовите се очигледни и за одработеното време.

Податоците се обезбедени за првите 14 часа од моментот на објавување, интервалот помеѓу мерењата е 10 минути.

За необичностите на хабростатистиката

Очите не нè измамија: повеќето од минусите се случуваат во првиот час од постоењето на постот. Отпрвин постот отиде во негативна територија, а потоа се опорави. Еве ги броевите што се користат за исцртување на графикот:

За необичностите на хабростатистиката

И ова и покрај фактот што прегледите непречено се зголемуваат!

За необичностите на хабростатистиката

Чекорите кои започнуваат од илјадити вредности се објаснуваат со фактот дека кратенките започнуваат во панелот Хабров: нема каде да се добие точниот број на прегледи (веројатно можеше да се преземе од услуги од трети страни, но јас не ги користев ).

Не сум експерт за статистика, но таквата распределба на минуси е ненормална, колку што разбрав?!

Видете, обележувачите се распределени повеќе или помалку рамномерно во текот на периодот на регистрација:

За необичностите на хабростатистиката

Коментарите исто така се рамномерно распоредени:

За необичностите на хабростатистиката

Има изливи на активност и пасивност, но тие исто така се дистрибуираат низ периодот: коментирањето или избледува или продолжува.

Истото со претплатниците - има еднообразно мало зголемување:

За необичностите на хабростатистиката

Кармата не се промени во текот на извештајниот период - не ја цитирам. А рејтингот го пресметува Хабр, нема поента да го набројувам.

Сите показатели се менуваат пропорционално со бројот на прегледи, а само со минусите нешто не е во ред: изливот на гнев се јавува во првиот час од почетокот на објавувањето. Истото се случи и со моите претходни постови. Но, ако порано ова беа, така да се каже, лични впечатоци, сега тие се потврдуваат со регистрација.

Според мое чисто необично мислење, таквата дистрибуција значи: има неколку корисници на страницата кои намерно ги прегледуваат најновите објавени објави и гласаат против некои од објавите - врз основа на потребата што им е позната само на нив. Пишувам „некои од објавите“ затоа што го забележав овој ефект не само во моите публикации. Во сите случаи, ефектот е изразен, инаку едноставно немаше да обрнам внимание на тоа.

Имам четири верзии зошто тоа се случува.

Верзија 1. Ментална перверзија. Болните луѓе намерно внимаваат на авторите што им се непријатни и ги омаловажуваат, со цел да им наштетат.

Не верувам во оваа верзија.

Верзија 2. Психолошки ефект. Која - не знам. Па, зошто читателите прво едногласно го минираат постот, а потоа не помалку едногласно го изгласаат? Дали се минус како нетематски, но плус откако познавачите на убавината ќе се најдат во мнозинство? Не знам.

Ако има психолози меѓу читателите нека го кажат своето.

Верзија 3. Слугите глумат. Зошто нивните газди да шират гниење на позициите на Хабров? Господ знае. Сепак, има војници не само кај нас. Кој ќе ги разбере русофоби?!

Верзија 4. Комбинирани ефекти од претходно споменатите фактори.

Сосема може да се замисли.

Како и да е, минусите успеваат да го намалат бројот на прегледи. Не сум запознаен со правилата за носење на објавите на Хабров на врвот, дури и не знам дали овие алгоритми се објавени или не, но очигледно ми е: раниот минус не дозволува острацираните објави да стигнат до врвот - поточно, го одложува стигнувањето до таму, што пак значително, во моменти, го намалува бројот на прегледи.

Колку што разбрав, нема ефективни начини за борба против ова зло. Единствениот начин е лично гласање. Само во овој случај можете да утврдите кои профили периодично ги следат и минус најновите објави. Сепак, нема лично гласање за Хабре (или подобро, не се објавува јавно).

Но, не е толку едноставно.

Како што кажав, расчленетиот материјал беше објавен во делови. По објавувањето на вториот дел, очекував слична слика: со почетниот излез во минус, а последователниот во плус. Сепак, ефектот се покажа како многу поизмазен: постот не се претвори во минус.

До објавувањето на вториот дел, грешката беше поправена, па податоците се дадени дневно:

За необичностите на хабростатистиката

Не знам од каде е измазнувањето. Можеби затоа што е објавено во сабота (не гласаат против гласовите во сабота?) или затоа што ова е крајот на претходно објавениот материјал.

Сепак, распределбата на минусите е сè уште нерамна: сите минуси се случуваат во првата половина од периодот на регистрација, а минусите завршуваат многу порано од плус. Во исто време, прегледите се распределуваат во текот на периодот точно како и минатиот пат - рамномерно:

За необичностите на хабростатистиката

Спајкот што се случи околу три попладне не е класифициран материјал. Интернетот ми снема само еден час. Алатката не можеше да се поврзе на страницата.

За необичностите на хабростатистиката

Сè друго е сосема стандардно.

Обележувачи:

За необичностите на хабростатистиката

Коментари: како и минатиот пат, периодите на активност се менуваат со периоди на тишина.

За необичностите на хабростатистиката

Карма. Забележано е зголемување за неколку единици - се разбира, не истовремено:

За необичностите на хабростатистиката

И претплатници. Вкупниот број остана непроменет (очигледно, заинтересираните се пријавија кога беше објавен првиот дел). Само околу еден часот попладне имаше една флуктуација: некој се откажал - можеби по грешка - но веднаш повторно се пријавил. Ако се работи за друго лице, настана компензација: вкупниот број на претплатници не се промени.

За необичностите на хабростатистиката

Значи, метриката за објавување се однесува на јасен и предвидлив начин. Сите индикатори, освен минусите. Бидејќи не гледам очигледна причина за ова, сметам дека врвот на минус е барем чуден.

Чудност 2.
Понекогаш бројот на прегледи се намалува (што, се разбира, е невозможно), но наскоро се враќа во нормала.

Случајно го следев, додека ја дебагирав програмата, кога сè уште не беше прикачена функцијата за извоз-увоз, па на графикот недостасува соодветниот цик-цак. Може да ми го земете зборот - овој ефект беше забележан двапати. Неколку илјади прегледи, одеднаш бројот на прегледи се намалува за неколку стотици, по 10-20 минути се враќа на претходното ниво (без да се земе предвид природниот прираст).

Ова е прилично едноставно: грешка на страницата. И нема што да се размислува.

Чудност 3.
Ова е она што ми се чинеше многу почудно од волунтаристичките први и технички втори ефекти. Плусите не се случуваат поединечно, со униформа распределба во текот на периодот, туку во блокови. Но додавањето не е коментар, кога на прашање природно следи одговор, тоа се индивидуален чин!

Погледнете ги подетално графиконите со резултати објавени погоре: блоковите се забележливи.

Упатените луѓе ми кимнаа со главата за распределбата на Поасон, но јас не можам сам да ја пресметам веројатноста. Ако сте во можност, направете математика. Веќе ми е очигледно дека бројот на двојни плус далеку ја надминува нормата.

Еве ги дигиталните податоци за предностите на првиот дел од објавата. Графиконот го прикажува бројот на предности за единечни, двојни и тројни позиции во вкупниот број дадени оценки. Како што споменавме порано, интервалот на мерење е 10 минути.

За необичностите на хабростатистиката

Од 30 ѕиркања во 84 ќелии, две ќелии се боцкаа три пати. Па, не знам колку ова кореспондира со теоријата на веројатност...

Податоци за вториот дел од објавата (бидејќи периодот на мерење е подолг, го скратувам според времетраењето на првиот дел, заради споредливост):

За необичностите на хабростатистиката

Патем, овде еден од единечните плус е во временска непосредна близина на тројниот, односно за некои 20 минути имаше наплив на плус (29% од нивниот вкупен број беа плус). И тоа не се случи во првите минути од објавувањето.

Односот помеѓу единечни, двојни и тројни позиции е приближно ист како и за првиот дел. А намалувањето на учеството на оценките во мерењата се објаснува со тоа што оценките се давале поретко. Беа преземени мерења, но не беа забележани предности.

Не можам да го објаснам овој блок плус ефект на кој било начин, односно воопшто. За лошите страни, таквото „блокирачко“ однесување се чини дека не е типично.

Дали емитери на добрина испраќаат предлози во серии, вклучување и исклучување? Хехехехе...

PS
Ако некој би сакал да анализира статистика за објавување користејќи понапредни методи или да ја провери аритметиката, датотеките со изворните податоци се тука:
yadi.sk/d/iN4SL6tzsGEQxw

Не инсистирам на моите сомнежи - можеби грешам, особено затоа што статистиката е мрачна. Се надевам дека коментарите на професионалните статистичари, психолози и други заинтересирани корисници ќе ја разјаснат конфузијата што настана.

Ви благодариме за вашето внимание.

Извор: www.habr.com

Додадете коментар