À propos des bizarreries de l'habrostatistique

J’ai déjà remarqué un comportement étrange dans les évaluations, mais récemment, l’étrangeté est devenue trop évidente. Et j'ai décidé d'étudier le problème en utilisant les méthodes scientifiques dont je disposais, à savoir : analyser la dynamique du plus-moins. Avez-vous soudainement imaginé ?

Je suis toujours programmeur, mais je peux faire des choses très basiques. J'ai donc codé un utilitaire simple qui collecte des statistiques à partir des panneaux du post Khabrov : avantages, inconvénients, vues, favoris, etc.

À propos des bizarreries de l'habrostatistique

Les statistiques sont affichées sous forme de graphiques, après étude desquelles nous avons pu découvrir quelques surprises supplémentaires, plus petites. Mais tout d’abord.

Étrangeté 1.
C’est là que mes recherches statistiques ont réellement commencé.

Il m'a semblé étrange que dans les premières heures qui ont suivi la publication de certains de mes articles, ils soient devenus fortement négatifs, puis soient passés à zéro et aient finalement obtenu le plus attendu. Pourquoi est-ce arrivé ?

J'étais sur le point de publier un autre article – en deux parties. J'ai décidé de le soumettre à une analyse statistique.

Publié la première partie. En même temps, j'ai lancé l'utilitaire et j'ai commencé à attendre le résultat. Malheureusement, la nuit – pendant que je dormais – le programme a cessé de collecter des informations à cause d'un bug. Le lendemain matin, j'ai corrigé l'erreur, mais les statistiques se sont avérées valables pour moins d'une journée. Mais les tendances sont également évidentes pour le temps travaillé.

Les données sont fournies pour les 14 premières heures à compter de la publication, l'intervalle entre les mesures est de 10 minutes.

À propos des bizarreries de l'habrostatistique

Les yeux ne nous ont pas trompés : la plupart des inconvénients surviennent dès la première heure d’existence du poste. Au début, le message est passé en territoire négatif, puis il s'est redressé. Voici les nombres utilisés pour tracer le graphique :

À propos des bizarreries de l'habrostatistique

Et ce malgré le fait que les vues augmentent doucement !

À propos des bizarreries de l'habrostatistique

Les étapes à partir des millièmes de valeurs s'expliquent par le fait que les abréviations commencent dans le panneau Khabrov : il n'y a nulle part où obtenir le nombre exact de vues (il aurait probablement pu provenir de services tiers, mais je ne les ai pas utilisés ).

Je ne suis pas un expert en statistiques, mais une telle répartition des inconvénients est anormale, d'après ce que je comprends ?!

Regardez, les marque-pages sont répartis plus ou moins uniformément sur la période d'inscription :

À propos des bizarreries de l'habrostatistique

Les commentaires sont également répartis de manière équitable :

À propos des bizarreries de l'habrostatistique

Il y a des sursauts d'activité et de passivité, mais ils sont aussi répartis dans la période : les commentaires s'estompent ou reprennent.

Idem pour les abonnés – il y a une légère augmentation uniforme :

À propos des bizarreries de l'habrostatistique

Le karma n'a pas changé au cours de la période considérée - je ne le cite pas. Et la note est calculée par Habr, cela ne sert à rien de la lister.

Tous les indicateurs changent proportionnellement au nombre de vues, et ce n'est qu'avec les inconvénients que quelque chose ne va pas : l'explosion de colère se produit dans la première heure suivant le début de la publication. La même chose s'est produite avec mes messages précédents. Mais si auparavant il s'agissait pour ainsi dire d'impressions personnelles, elles sont désormais confirmées par l'enregistrement.

À mon avis purement novice, une telle distribution signifie : il y a plusieurs utilisateurs sur le site qui consultent délibérément les derniers articles publiés et votent contre certains articles - en fonction d'un besoin connu d'eux seuls. J'écris «certains articles» parce que j'ai remarqué cet effet non seulement dans mes publications. Dans tous les cas, l’effet est prononcé, sinon je n’y aurais tout simplement pas prêté attention.

J'ai quatre versions expliquant pourquoi cela se produit.

Version 1. Perversion mentale. Les malades surveillent délibérément les auteurs qu'ils trouvent désagréables et les rejettent, dans le but de leur nuire.

Je ne crois pas à cette version.

Version 2. Effet psychologique. Lequel - je ne sais pas. Eh bien, pourquoi les lecteurs rejettent-ils d’abord le message à l’unanimité, puis le votent-ils non moins à l’unanimité ? Sont-ils moins car non thématiques, mais plus après que les connaisseurs de la beauté se retrouvent majoritaires ? Je ne sais pas.

S’il y a des psychologues parmi les lecteurs, qu’ils aient leur mot à dire.

Version 3. Les domestiques agissent. Pourquoi leurs patrons devraient-ils répandre la pourriture sur les postes de Khabrov ? Dieu le sait. Cependant, il n'y a pas que des militaires dans notre pays. Qui les comprendra, les Russophobes ?!

Version 4. Effets combinés des facteurs mentionnés précédemment.

Tout à fait imaginable.

Quoi qu'il en soit, les mineurs parviennent à réduire le nombre de vues. Je ne connais pas les règles pour amener les posts de Khabrov au sommet, je ne sais même pas si ces algorithmes ont été rendus publics ou non, mais c'est une évidence pour moi : le moins précoce ne permet pas aux posts ostracisés d'atteindre le sommet - plus précisément, cela retarde l’arrivée, ce qui à son tour réduit considérablement, parfois, le nombre de vues.

D’après ce que je comprends, il n’existe aucun moyen efficace de lutter contre ce fléau. Le seul moyen est le vote personnel. Ce n'est que dans ce cas que vous pourrez déterminer quels profils font l'objet d'un suivi périodique et moins les dernières publications. Cependant, il n’y a pas de vote personnel sur Habré (ou plutôt, il n’est pas rendu public).

Mais ce n'est pas si simple.

Comme je l'ai dit, le matériel disséqué a été publié en plusieurs parties. Après la publication de la deuxième partie, je m'attendais à une image similaire : avec le résultat initial en moins et le suivant en plus. Cependant, l'effet s'est avéré beaucoup plus atténué : le poste ne s'est pas transformé en moins.

Au moment de la publication de la deuxième partie, le bug avait été corrigé, les données sont donc données par jour :

À propos des bizarreries de l'habrostatistique

Je ne sais pas d'où vient le lissage. Peut-être parce qu'il a été publié samedi (les votes négatifs ne fonctionnent pas le samedi ?) ou parce que c'est la fin du matériel précédemment publié.

Cependant, la répartition des moins est encore inégale : tous les moins surviennent dans la première moitié de la période d'inscription, et le moins se termine beaucoup plus tôt que le plus. Dans le même temps, les vues sont réparties sur la période exactement comme la dernière fois - de manière égale :

À propos des bizarreries de l'habrostatistique

Le pic qui s’est produit vers trois heures de l’après-midi n’est pas un élément classifié. Ma connexion Internet vient de s'arrêter pendant une heure. L'utilitaire n'a pas pu se connecter au site.

À propos des bizarreries de l'habrostatistique

Tout le reste est complètement standard.

Signets :

À propos des bizarreries de l'habrostatistique

Commentaires : comme la dernière fois, des périodes d'activité alternent avec des périodes de silence.

À propos des bizarreries de l'habrostatistique

Karma. Une augmentation de quelques unités a été enregistrée - bien sûr, pas simultanée :

À propos des bizarreries de l'habrostatistique

Et les abonnés. Le nombre total est resté inchangé (apparemment, les personnes intéressées se sont inscrites dès la publication de la première partie). Vers une heure de l'après-midi, il y a eu une seule fluctuation : quelqu'un s'est désabonné - peut-être par erreur - mais s'est immédiatement réinscrit. S'il s'agissait d'une autre personne, une compensation avait lieu : le nombre total d'abonnés ne changeait pas.

À propos des bizarreries de l'habrostatistique

Ainsi, les métriques de publication se comportent de manière claire et prévisible. Tous les indicateurs sauf les inconvénients. Comme je ne vois aucune raison évidente à cela, je trouve le pic négatif pour le moins étrange.

Étrangeté 2.
Parfois, le nombre de vues diminue (ce qui est bien sûr impossible), mais revient vite à la normale.

Je l'ai suivi par accident, lors du débogage du programme, alors que la fonction export-import n'était pas encore attachée, donc le zigzag correspondant manque sur le graphique. Vous pouvez me croire sur parole : cet effet a été observé deux fois. Plusieurs milliers de vues, du coup le nombre de vues diminue de quelques centaines, après 10 à 20 minutes il revient à son niveau précédent (sans tenir compte de l'augmentation naturelle).

C'est bien simple : un bug sur le site. Et il n'y a rien à penser.

Étrangeté 3.
C’est ce qui m’a semblé bien plus étrange que les premiers effets volontaristes et les seconds effets techniques. Les avantages ne se produisent pas isolément, avec une répartition uniforme sur la période, mais par blocs. Mais ajouter n'est pas un commentaire, lorsqu'une question est naturellement suivie d'une réponse, c'est un acte individuel !

Regardez de plus près les graphiques de résultats publiés ci-dessus : les blocages sont visibles.

Des personnes bien informées m'ont fait signe de la tête à propos de la distribution de Poisson, mais je ne suis pas capable de calculer la probabilité par moi-même. Si vous en êtes capable, faites le calcul. Il est déjà évident pour moi que le nombre de doubles plus dépasse de loin la norme.

Voici les données numériques sur les avantages de la première partie du post. Le graphique montre le nombre d'avantages pour les positions simples, doubles et triples dans le nombre total de notes attribuées. Comme mentionné précédemment, l'intervalle de mesure est de 10 minutes.

À propos des bizarreries de l'habrostatistique

Sur les 30 piqûres dans 84 cellules, deux cellules ont été piquées trois fois. Bon, je ne sais pas dans quelle mesure cela correspond à la théorie des probabilités...

Données pour la deuxième partie du post (la période de mesure étant plus longue, je la raccourcis en fonction de la durée de la première partie, par souci de comparabilité) :

À propos des bizarreries de l'habrostatistique

À propos, ici, l'un des plus simples est adjacent dans le temps au triplé, c'est-à-dire qu'en 20 minutes environ, il y a eu une augmentation des plus (29% de leur nombre total étaient des plus). Et cela ne s’est pas produit dès les premières minutes de la publication.

La relation entre les positions simples, doubles et triples est à peu près la même que pour la première partie. Et la diminution de la part des notes dans les mesures s'explique par le fait que les notes ont été attribuées moins fréquemment. Des mesures ont été prises, mais aucun avantage n'a été enregistré.

Je ne peux en aucun cas expliquer cet effet de blocage, c'est-à-dire pas du tout. Par contre, un tel comportement « blocage » ne semble pas être typique.

Les émetteurs de bonté envoient-ils des suggestions par lots, en les allumant et en les éteignant ? Héhéhéhé...

PS
Si quelqu'un souhaite analyser les statistiques de publication à l'aide de méthodes plus avancées ou vérifier l'arithmétique, les fichiers contenant les données sources sont ici :
yadi.sk/d/iN4SL6tzsGEQxw

Je n’insiste pas sur mes doutes – peut-être que je me trompe, d’autant plus que les statistiques sont sombres. J'espère que les commentaires des statisticiens professionnels, des psychologues et d'autres utilisateurs intéressés clarifieront la confusion qui a surgi.

Je vous remercie de votre attention.

Source: habr.com

Ajouter un commentaire