Sulle stranezze dell'habrostatistica

Ho già notato un comportamento strano nelle valutazioni, ma recentemente la stranezza è diventata troppo evidente. E ho deciso di indagare il problema utilizzando i metodi scientifici a mia disposizione, vale a dire: analizzare la dinamica del più-meno. Hai improvvisamente immaginato?

Sono ancora un programmatore, ma posso fare cose molto basilari. Quindi ho codificato una semplice utility che raccoglie le statistiche dai pannelli del post di Khabrov: pro, contro, visualizzazioni, segnalibri, ecc.

Sulle stranezze dell'habrostatistica

Le statistiche sono visualizzate nei grafici, dopo averli studiati abbiamo potuto scoprire un altro paio di sorprese, più piccole. Ma prima le cose principali.

Stranezza 1.
È qui che è iniziata effettivamente la mia ricerca statistica.

Mi è sembrato strano che nelle prime ore dopo la pubblicazione di alcuni dei miei post siano diventati nettamente negativi, poi siano andati a zero e alla fine abbiano guadagnato il vantaggio atteso. Perchè è successo?

Stavo per pubblicare un altro post, in due parti. Ho deciso di sottoporlo ad analisi statistica.

Pubblicata la prima parte. Allo stesso tempo, ho avviato l'utilità e ho iniziato ad attendere il risultato. Purtroppo di notte, mentre dormivo, il programma ha smesso di raccogliere informazioni a causa di un bug. La mattina dopo ho corretto l'errore, ma le statistiche si sono rivelate inferiori a un giorno. Tuttavia, le tendenze sono evidenti anche per quanto riguarda il tempo lavorato.

I dati vengono forniti per le prime 14 ore dal momento della pubblicazione, l'intervallo tra le misurazioni è di 10 minuti.

Sulle stranezze dell'habrostatistica

Gli occhi non ci hanno ingannato: la maggior parte degli svantaggi si verificano nella prima ora di esistenza del post. Dapprima il post è andato in territorio negativo, poi si è ripreso. Ecco i numeri utilizzati per tracciare il grafico:

Sulle stranezze dell'habrostatistica

E questo nonostante il fatto che le visualizzazioni stiano aumentando senza intoppi!

Sulle stranezze dell'habrostatistica

I passaggi che partono dai valori millesimi si spiegano con il fatto che nel pannello Khabrov iniziano le abbreviazioni: non c'è nessun posto dove ottenere il numero esatto di visualizzazioni (probabilmente potrebbe essere stato preso da servizi di terze parti, ma non li ho usati ).

Non sono un esperto di statistica, ma una tale distribuzione degli svantaggi è anormale, per quanto ho capito?!

Guarda, i segnalibri sono distribuiti più o meno uniformemente durante il periodo di registrazione:

Sulle stranezze dell'habrostatistica

Anche i commenti sono distribuiti equamente:

Sulle stranezze dell'habrostatistica

Ci sono esplosioni di attività e passività, ma sono anche distribuite nel periodo: i commenti o svaniscono o riprendono.

Lo stesso con gli abbonati – c’è un leggero aumento uniforme:

Sulle stranezze dell'habrostatistica

Il karma non è cambiato durante il periodo di riferimento: non lo cito. E la valutazione è calcolata da Habr, non ha senso elencarla.

Tutti gli indicatori cambiano in proporzione al numero di visualizzazioni, e solo con gli svantaggi c'è qualcosa che non va: lo scoppio di rabbia avviene nella prima ora dall'inizio della pubblicazione. La stessa cosa è successa con i miei post precedenti. Ma se prima queste erano, per così dire, impressioni personali, ora sono confermate dalla registrazione.

Secondo la mia opinione puramente inesperta, una tale distribuzione significa: ci sono diversi utenti sul sito che visualizzano intenzionalmente gli ultimi post pubblicati e svalutano alcuni post, in base a un'esigenza nota solo a loro. Scrivo “alcuni dei post” perché ho notato questo effetto non solo nelle mie pubblicazioni. In tutti i casi, l'effetto è pronunciato, altrimenti semplicemente non ci avrei prestato attenzione.

Ho quattro versioni del perché questo accade.

Versione 1. Perversione mentale. Le persone malate vegliano deliberatamente sugli autori che trovano spiacevoli e li svalutano, con l'obiettivo di danneggiarli.

Non credo a questa versione.

Versione 2. Effetto psicologico. Quale... non lo so. Ebbene, perché i lettori prima sminuiscono all'unanimità il post e poi lo votano altrettanto all'unanimità a favore? Sono meno in quanto non tematici, ma più dopo che gli intenditori della bellezza si ritrovano nella maggioranza? Non lo so.

Se tra i lettori ci sono degli psicologi dicano la loro.

Versione 3. I servi stanno agendo. Perché i loro capi dovrebbero spargere marciume sui posti di Khabrov? Dio lo sa. Tuttavia, ci sono militari non solo nel nostro paese. Chi li capirà, russofobi?!

Versione 4. Effetti combinati dei fattori precedentemente menzionati.

Abbastanza immaginabile.

Comunque sia, i minuser riescono a ridurre il numero di visualizzazioni. Non ho familiarità con le regole per portare i post di Khabrov in cima, non so nemmeno se questi algoritmi siano stati resi pubblici o meno, ma per me è ovvio: il meno iniziale non consente ai post ostracizzati di raggiungere la cima - più precisamente, ritarda il raggiungimento di tale obiettivo, il che a sua volta riduce significativamente, nel tempo, il numero di visualizzazioni.

Per quanto ho capito, non esistono modi efficaci per combattere questo male. L’unica via è il voto personale. Solo in questo caso puoi stabilire quali profili monitorano periodicamente e meno gli ultimi post. Tuttavia, su Habré non esiste un voto personale (o meglio, non viene reso pubblico).

Ma non tutto è così semplice.

Come ho detto, il materiale sezionato è stato pubblicato in parti. Dopo la pubblicazione della seconda parte mi aspettavo un'immagine simile: con l'output iniziale in meno e quello successivo in più. Tuttavia, l'effetto si è rivelato molto più attenuato: il post non si è trasformato in un segno negativo.

Quando è stata pubblicata la seconda parte, il bug era stato corretto, quindi i dati vengono forniti per giorno:

Sulle stranezze dell'habrostatistica

Non so da dove provenga la levigatura. Forse perché è stato pubblicato sabato (i voti negativi non funzionano il sabato?) o perché questa è la fine del materiale pubblicato in precedenza.

Tuttavia, la distribuzione degli svantaggi non è ancora uniforme: tutti gli svantaggi si verificano nella prima metà del periodo di registrazione e il meno termina molto prima del positivo. Allo stesso tempo, le visualizzazioni vengono distribuite nel periodo esattamente come l'ultima volta, in modo uniforme:

Sulle stranezze dell'habrostatistica

Il picco avvenuto intorno alle tre del pomeriggio non è materiale classificato. La mia connessione Internet è andata via per un'ora. L'utilità non è riuscita a connettersi al sito.

Sulle stranezze dell'habrostatistica

Tutto il resto è completamente standard.

Segnalibri:

Sulle stranezze dell'habrostatistica

Commenti: come l'ultima volta, periodi di attività si alternano a periodi di silenzio.

Sulle stranezze dell'habrostatistica

Karma. Si è registrato un incremento di un paio di unità, ovviamente non simultaneo:

Sulle stranezze dell'habrostatistica

E abbonati. Il numero totale è rimasto invariato (a quanto pare gli interessati si sono iscritti quando è stata pubblicata la prima parte). Proprio verso l'una del pomeriggio si è verificata un'unica oscillazione: qualcuno si è cancellato, forse per errore, ma si è subito iscritto di nuovo. Se si trattava di una persona diversa, si verificava una compensazione: il numero totale degli abbonati non cambiava.

Sulle stranezze dell'habrostatistica

Pertanto, le metriche dei post si comportano in modo chiaro e prevedibile. Tutti gli indicatori, ad eccezione degli aspetti negativi. Poiché non vedo alcuna ragione ovvia per questo, trovo che il picco negativo sia quantomeno strano.

Stranezza 2.
A volte il numero di visualizzazioni diminuisce (il che, ovviamente, è impossibile), ma presto ritorna alla normalità.

L'ho tracciato per sbaglio, durante il debug del programma, quando la funzione di esportazione-importazione non era ancora stata allegata, quindi sul grafico mancava lo zigzag corrispondente. Puoi credermi sulla parola: questo effetto è stato osservato due volte. Diverse migliaia di visualizzazioni, improvvisamente il numero di visualizzazioni diminuisce di un paio di centinaia, dopo 10-20 minuti viene riportato al livello precedente (senza tener conto dell'aumento naturale).

Questo è abbastanza semplice: un bug sul sito. E non c'è niente a cui pensare.

Stranezza 3.
Questo è ciò che mi è sembrato molto più strano del primo effetto volontaristico e del secondo effetto tecnico. I plus non si verificano singolarmente, con una distribuzione uniforme nel periodo, ma a blocchi. Ma aggiungere non è un commento, quando una domanda è seguita naturalmente da una risposta, sono un atto individuale!

Osservate più da vicino i grafici dei risultati pubblicati sopra: i blocchi si notano.

Persone esperte mi hanno fatto cenno riguardo alla distribuzione di Poisson, ma non sono in grado di calcolare la probabilità da solo. Se puoi, fai i conti. Per me è già ovvio che il numero di doppi vantaggi supera di gran lunga la norma.

Ecco i dati digitali sui vantaggi della prima parte del post. Il grafico mostra il numero di più per le posizioni singole, doppie e triple nel numero totale di valutazioni fornite. Come accennato in precedenza, l'intervallo di misurazione è di 10 minuti.

Sulle stranezze dell'habrostatistica

Dei 30 colpi in 84 celle, due celle sono state colpite tre volte. Beh, non so quanto questo corrisponda alla teoria della probabilità...

Dati per la seconda parte del post (poiché il periodo di misurazione è più lungo, lo accorcio in base alla durata della prima parte, per comparabilità):

Sulle stranezze dell'habrostatistica

A proposito, qui uno dei singoli vantaggi è adiacente nel tempo a quello triplicato, cioè in circa 20 minuti si è verificato un aumento dei vantaggi (il 29% del loro numero totale erano vantaggi). E questo non è avvenuto nei primi minuti della pubblicazione.

Il rapporto tra le posizioni singola, doppia e tripla è approssimativamente lo stesso della prima parte. E la diminuzione della quota dei voti nelle misurazioni si spiega con il fatto che i voti sono stati dati meno frequentemente. Sono state effettuate misurazioni, ma non sono stati registrati vantaggi.

Non posso spiegare in alcun modo questo effetto blocco più, cioè per niente. D’altra parte, questo comportamento “a blocchi” non sembra essere tipico.

Gli emettitori di bontà inviano suggerimenti in batch, accendendosi e spegnendosi? Ehehehe...

PS
Se qualcuno volesse analizzare le statistiche dei post utilizzando metodi più avanzati o controllare l'aritmetica, i file con i dati di origine sono qui:
yadi.sk/d/iN4SL6tzsGEQxw

Non insisto sui miei dubbi, forse mi sbaglio, soprattutto perché le statistiche sono desolanti. Spero che i commenti di statistici professionisti, psicologi e altri utenti interessati chiariranno la confusione che si è creata.

Grazie per la vostra attenzione.

Fonte: habr.com

Aggiungi un commento