Despre ciudateniile habrostatisticii

Am observat un comportament ciudat în evaluări, dar recent ciudățenia a devenit prea evidentă. Și am decis să investighez problema folosind metodele științifice disponibile, și anume: să analizez dinamica plus-minus. Ți-ai imaginat brusc?

Sunt încă programator, dar pot face lucruri foarte elementare. Așa că am codificat un utilitar simplu care colectează statistici din panourile postării Khabrov: argumente pro, contra, vizualizări, marcaje etc.

Despre ciudateniile habrostatisticii

Statisticile sunt afișate în grafice, în urma studierii cărora am putut descoperi încă câteva surprize, mai mici. Dar mai întâi lucrurile.

Ciudățenia 1.
De aici a început cercetarea mea statistică.

Mi s-a părut ciudat că în primele ore după publicarea unora dintre postările mele au trecut brusc negativ, apoi au trecut la zero și în cele din urmă au câștigat plusul așteptat. De ce s-a întâmplat?

Eram pe punctul de a publica o altă postare - în două părți. Am decis să-l supun analizei statistice.

A publicat prima parte. În același timp, am lansat utilitarul și am început să aștept rezultatul. Din păcate, noaptea - în timp ce dormeam - programul a încetat să colecteze informații din cauza unui bug. A doua zi dimineața am corectat eroarea, dar statisticile s-au dovedit a fi pentru mai puțin de o zi. Totuși, tendințele sunt evidente și pentru timpul lucrat.

Datele sunt furnizate pentru primele 14 ore din momentul publicării, intervalul dintre măsurători este de 10 minute.

Despre ciudateniile habrostatisticii

Ochii nu ne-au înșelat: majoritatea minusurilor apar în prima oră de existență a postării. La început postul a intrat în teritoriu negativ, apoi și-a revenit. Iată numerele folosite pentru a reprezenta graficul:

Despre ciudateniile habrostatisticii

Și asta în ciuda faptului că vizualizările cresc fără probleme!

Despre ciudateniile habrostatisticii

Pașii pornind de la valorile al miilei sunt explicați prin faptul că abrevierile încep în panoul Khabrov: nu există de unde să obțineți numărul exact de vizualizări (probabil ar fi putut fi luat de la servicii terțe, dar nu le-am folosit ).

Nu sunt expert în statistică, dar o astfel de distribuție a minusurilor este anormală, din câte am înțeles?!

Uite, marcajele sunt distribuite mai mult sau mai puțin uniform pe perioada de înregistrare:

Despre ciudateniile habrostatisticii

Comentariile sunt, de asemenea, distribuite uniform:

Despre ciudateniile habrostatisticii

Există explozii de activitate și pasivitate, dar sunt și distribuite pe perioadă: comentariul fie se estompează, fie se reia.

La fel și cu abonații – există o ușoară creștere uniformă:

Despre ciudateniile habrostatisticii

Karma nu s-a schimbat în perioada de raportare - nu o citez. Iar ratingul este calculat de Habr, nu are rost să-l enumerați.

Toți indicatorii se schimbă proporțional cu numărul de vizualizări și doar cu minusurile ceva este în neregulă: izbucnirea de furie are loc în prima oră de la începerea publicării. Același lucru s-a întâmplat cu postările mele anterioare. Dar dacă mai devreme acestea erau, ca să spunem așa, impresii personale, acum se confirmă prin înregistrare.

În opinia mea pur noob, o astfel de distribuție înseamnă: există mai mulți utilizatori pe site care vizualizează intenționat cele mai recente postări publicate și votează negativ unele dintre postări - pe baza unei nevoi cunoscute doar de ei. Scriu „unele din postări” pentru că am observat acest efect nu numai în publicațiile mele. În toate cazurile, efectul este pronunțat, altfel pur și simplu nu i-aș fi acordat atenție.

Am patru versiuni ale motivului pentru care se întâmplă asta.

Versiunea 1. Perversiune mentală. Oamenii bolnavi veghează în mod deliberat autorii pe care îi consideră neplăcuți și îi votează negativ, cu scopul de a le face rău.

Nu cred in varianta asta.

Versiunea 2. Efect psihologic. Care - nu știu. Ei bine, de ce cititorii mai întâi în unanimitate minus postarea, apoi nu mai puțin o votează în unanimitate? Sunt minus ca non-tematic, dar plus după ce cunoscătorii de frumusețe se regăsesc în majoritate? Nu stiu.

Dacă printre cititori sunt psihologi, lăsați-i să-și spună cuvântul.

Versiunea 3. Servitorii acționează. De ce ar trebui șefii lor să răspândească putregaiul pe postările lui Khabrov? Dumnezeu știe. Cu toate acestea, există militari nu numai la noi. Cine îi va înțelege, rusofobii?!

Versiunea 4. Efectele combinate ale factorilor menționați anterior.

Destul de imaginabil.

Oricum ar fi, minuserii reușesc să reducă numărul de vizualizări. Nu sunt familiarizat cu regulile de aducere a postărilor lui Khabrov în vârf, nici nu știu dacă acești algoritmi au fost făcuți publici sau nu, dar pentru mine este evident: minusul timpuriu nu permite postărilor ostracizate să ajungă în vârf - mai exact, întârzie ajungerea acolo, ceea ce, la rândul său, reduce semnificativ, în timp, numărul de vizualizări.

Din câte am înțeles, nu există modalități eficiente de a combate acest rău. Singura cale este votul personal. Numai în acest caz puteți stabili ce profiluri sunt urmărite periodic și minus cele mai recente postări. Cu toate acestea, nu există un vot personal pentru Habré (sau, mai degrabă, nu este făcut public).

Dar nu totul este atât de simplu.

După cum am spus, materialul disecat a fost publicat pe părți. După publicarea celei de-a doua părți, mă așteptam la o imagine similară: cu ieșirea inițială în minus și cea ulterioară în plus. Cu toate acestea, efectul s-a dovedit a fi mult mai netezit: postarea nu s-a transformat într-un minus.

Până când a fost publicată a doua parte, eroarea fusese remediată, deci datele sunt date pe zi:

Despre ciudateniile habrostatisticii

Nu știu de unde a venit netezirea. Poate pentru că a fost publicat sâmbătă (voturile negative nu funcționează sâmbăta?) sau pentru că acesta este sfârșitul materialului publicat anterior.

Cu toate acestea, distribuția minusurilor este încă neuniformă: toate minusurile apar în prima jumătate a perioadei de înregistrare, iar minusul se termină mult mai devreme decât plus. În același timp, vizualizările sunt distribuite de-a lungul perioadei exact ca data trecută - uniform:

Despre ciudateniile habrostatisticii

Spike-ul care a avut loc în jurul orei trei după-amiaza nu este material clasificat. Mi s-a oprit internetul pentru o oră. Utilitarul nu s-a putut conecta la site.

Despre ciudateniile habrostatisticii

Orice altceva este complet standard.

Marcaje:

Despre ciudateniile habrostatisticii

Comentarii: ca și data trecută, perioadele de activitate alternează cu perioade de liniște.

Despre ciudateniile habrostatisticii

Karma. S-a înregistrat o creștere de câteva unități - desigur, nu simultan:

Despre ciudateniile habrostatisticii

Și abonații. Numărul total a rămas neschimbat (se pare că cei interesați s-au înscris când a fost publicată prima parte). În jurul orei unu după-amiaza a existat o singură fluctuație: cineva s-a dezabonat – poate din greșeală – dar s-a înscris imediat din nou. Dacă era o altă persoană, a avut loc compensarea: numărul total de abonați nu s-a modificat.

Despre ciudateniile habrostatisticii

Deci, valorile postare se comportă într-un mod clar și previzibil. Toți indicatorii, cu excepția minusurilor. Deoarece nu văd niciun motiv evident pentru asta, mi se pare că vârful minus este cel puțin ciudat.

Ciudățenia 2.
Uneori numărul de vizualizări scade (ceea ce, desigur, este imposibil), dar în curând revine la normal.

L-am urmărit întâmplător, în timp ce depanam programul, când funcția de export-import nu fusese încă atașată, așa că în grafic lipsește zigzagul corespunzător. Puteți să mă credeți pe cuvânt - acest efect a fost observat de două ori. Câteva mii de vizualizări, brusc numărul de vizualizări scade cu câteva sute, după 10-20 de minute este restabilit la nivelul anterior (fără a lua în considerare creșterea naturală).

Acest lucru este destul de simplu: un bug pe site. Și nu este nimic de gândit.

Ciudățenia 3.
Acesta este ceea ce mi s-a părut mult mai ciudat decât primul efect voluntarist și al doilea tehnic. Plusurile nu se întâmplă singure, cu o distribuție uniformă pe perioadă, ci în blocuri. Dar adăugarea nu este un comentariu, atunci când o întrebare este urmată în mod natural de un răspuns, ele sunt un act individual!

Aruncă o privire mai atentă la graficele rezultate publicate mai sus: blocurile sunt vizibile.

Oamenii cunoscători mi-au dat din cap cu privire la distribuția Poisson, dar nu sunt în stare să calculez singur probabilitatea. Dacă poți, fă calculul. Este deja evident pentru mine că numărul de plusuri duble depășește cu mult norma.

Iată datele digitale despre avantajele primei părți a postării. Graficul arată numărul de plusuri pentru pozițiile simple, duble și triple în numărul total de evaluări acordate. După cum am menționat mai devreme, intervalul de măsurare este de 10 minute.

Despre ciudateniile habrostatisticii

Din cele 30 de înțepături în 84 de celule, două celule au fost înțepate de trei ori. Ei bine, nu știu cât de mult corespunde asta cu teoria probabilității...

Date pentru a doua parte a postării (deoarece perioada de măsurare este mai lungă, o scurtez în funcție de durata primei părți, pentru comparabilitate):

Despre ciudateniile habrostatisticii

Apropo, aici unul dintre plusurile unice este adiacent în timp celui triplat, adică în aproximativ 20 de minute a avut loc o creștere a plusurilor (29% din numărul lor total au fost plusuri). Și acest lucru nu s-a întâmplat în primele minute de publicare.

Relația dintre pozițiile simple, duble și triple este aproximativ aceeași ca și pentru prima parte. Iar scăderea ponderii ratingurilor în măsurători se explică prin faptul că ratingurile au fost date mai rar. S-au făcut măsurători, dar nu au fost înregistrate avantaje.

Nu pot explica în niciun fel acest efect de blocare plus, adică deloc. Din contra, un astfel de comportament „blocat” nu pare a fi tipic.

Emițătorii de bunătate trimit sugestii în loturi, pornind și oprindu-se? Hehehehe...

PS
Dacă cineva dorește să analizeze statisticile postărilor folosind metode mai avansate sau să verifice aritmetica, fișierele cu datele sursă sunt aici:
yadi.sk/d/iN4SL6tzsGEQxw

Nu insist asupra îndoielilor mele - poate că greșesc, mai ales că statisticile sunt sumbre. Sper ca comentariile statisticienilor profesioniști, psihologilor și altor utilizatori interesați să clarifice confuzia care a apărut.

Vă mulțumesc pentru atenție.

Sursa: www.habr.com

Adauga un comentariu