Über die Kuriositäten der Habrostatistik

Mir ist schon früher ein merkwürdiges Verhalten bei Bewertungen aufgefallen, aber in letzter Zeit ist das Merkwürdige zu offensichtlich geworden. Und ich beschloss, das Problem mit den mir zur Verfügung stehenden wissenschaftlichen Methoden zu untersuchen, nämlich: die Dynamik von Plus-Minus zu analysieren. Hast du es dir plötzlich vorgestellt?

Ich bin immer noch Programmierer, aber ich kann sehr grundlegende Dinge tun. Deshalb habe ich ein einfaches Dienstprogramm programmiert, das Statistiken aus den Panels des Khabrov-Beitrags sammelt: Vor- und Nachteile, Ansichten, Lesezeichen usw.

Über die Kuriositäten der Habrostatistik

Die Statistiken werden in Diagrammen angezeigt, nach deren Untersuchung wir noch ein paar kleinere Überraschungen entdecken konnten. Aber das Wichtigste zuerst.

Fremdheit 1.
Hier begann eigentlich meine statistische Forschung.

Es kam mir seltsam vor, dass einige meiner Beiträge in den ersten Stunden nach der Veröffentlichung stark ins Negative gingen, dann auf Null gingen und schließlich das erwartete Plus erzielten. Warum ist das geschehen?

Ich war gerade dabei, einen weiteren Beitrag zu veröffentlichen – in zwei Teilen. Ich beschloss, ihn einer statistischen Analyse zu unterziehen.

Den ersten Teil veröffentlicht. Gleichzeitig startete ich das Dienstprogramm und begann auf das Ergebnis zu warten. Leider hörte das Programm nachts, während ich schlief, aufgrund eines Fehlers auf, Informationen zu sammeln. Am nächsten Morgen korrigierte ich den Fehler, aber es stellte sich heraus, dass die Statistiken weniger als einen Tag reichten. Aber auch bei der geleisteten Arbeitszeit sind Trends erkennbar.

Die Daten werden für die ersten 14 Stunden ab dem Zeitpunkt der Veröffentlichung bereitgestellt, der Abstand zwischen den Messungen beträgt 10 Minuten.

Über die Kuriositäten der Habrostatistik

Die Augen haben uns nicht getäuscht: Die meisten Minuspunkte treten in der ersten Stunde des Bestehens des Beitrags auf. Zunächst ging der Beitrag in den negativen Bereich, dann erholte er sich. Hier sind die Zahlen, die zum Zeichnen des Diagramms verwendet wurden:

Über die Kuriositäten der Habrostatistik

Und das, obwohl die Aufrufe stetig steigen!

Über die Kuriositäten der Habrostatistik

Die Schritte ab Tausendstelwerten erklären sich aus der Tatsache, dass Abkürzungen im Chabrov-Panel beginnen: Die genaue Anzahl der Aufrufe kann nirgendwo ermittelt werden (wahrscheinlich könnte sie von Diensten Dritter stammen, aber ich habe sie nicht verwendet). ).

Ich bin kein Experte für Statistik, aber eine solche Minusverteilung ist meines Wissens ungewöhnlich?!

Schauen Sie, die Lesezeichen verteilen sich mehr oder weniger gleichmäßig über den Registrierungszeitraum:

Über die Kuriositäten der Habrostatistik

Auch die Kommentare sind gleichmäßig verteilt:

Über die Kuriositäten der Habrostatistik

Es gibt Ausbrüche von Aktivität und Passivität, aber sie sind auch über den Zeitraum verteilt: Die Kommentierung lässt entweder nach oder wird wieder aufgenommen.

Das Gleiche gilt für die Abonnenten – es gibt einen einheitlichen leichten Anstieg:

Über die Kuriositäten der Habrostatistik

Das Karma hat sich im Berichtszeitraum nicht verändert – ich zitiere es nicht. Und die Bewertung wird von Habr berechnet, es macht keinen Sinn, sie aufzulisten.

Alle Indikatoren ändern sich proportional zur Anzahl der Aufrufe, und nur bei den Minuspunkten stimmt etwas nicht: Der Wutausbruch erfolgt in der ersten Stunde nach Beginn der Veröffentlichung. Das gleiche passierte mit meinen vorherigen Beiträgen. Waren es früher sozusagen persönliche Eindrücke, werden sie heute durch die Registrierung bestätigt.

Meiner reinen Noob-Meinung nach bedeutet eine solche Verteilung: Es gibt mehrere Benutzer auf der Website, die sich gezielt die zuletzt veröffentlichten Beiträge ansehen und einige der Beiträge ablehnen – basierend auf einem nur ihnen bekannten Bedürfnis. Ich schreibe „einige der Beiträge“, weil ich diesen Effekt nicht nur in meinen Veröffentlichungen bemerkt habe. In allen Fällen ist der Effekt ausgeprägt, sonst hätte ich einfach nicht darauf geachtet.

Ich habe vier Versionen, warum das passiert.

1-Version. Geistige Perversion. Kranke Menschen wachen bewusst über Autoren, die sie unangenehm finden, und stimmen sie ab, mit dem Ziel, ihnen zu schaden.

Ich glaube nicht an diese Version.

2-Version. Psychologische Wirkung. Welches – ich weiß es nicht. Nun, warum lehnen die Leser den Beitrag zunächst einstimmig ab und stimmen ihm dann nicht weniger einstimmig positiv zu? Sind sie minus, weil sie nicht thematisch sind, aber plus, weil sich Schönheitskenner in der Mehrheit wiederfinden? Ich weiß nicht ich weiß nicht.

Wenn sich unter den Lesern Psychologen befinden, lassen Sie sie zu Wort kommen.

3-Version. Die Diener handeln. Warum sollten ihre Chefs Chabrows Posten verderben? Gott weiß. Militärangehörige gibt es jedoch nicht nur in unserem Land. Wer wird sie verstehen, Russophobe?!

4-Version. Kombinierte Wirkung der zuvor genannten Faktoren.

Durchaus vorstellbar.

Wie dem auch sei, Minuspunkte schaffen es, die Anzahl der Aufrufe zu reduzieren. Ich kenne die Regeln, um Chabrovs Beiträge an die Spitze zu bringen, nicht, ich weiß nicht einmal, ob diese Algorithmen veröffentlicht wurden oder nicht, aber für mich ist es klar: Frühes Minus erlaubt nicht, dass geächtete Beiträge an die Spitze gelangen – Genauer gesagt, es verzögert die Anreise, was wiederum zeitweise die Anzahl der Aufrufe deutlich reduziert.

Soweit ich weiß, gibt es keine wirksamen Möglichkeiten, dieses Übel zu bekämpfen. Der einzige Weg ist die persönliche Abstimmung. Nur in diesem Fall können Sie feststellen, welche Profile regelmäßig verfolgt werden, und abzüglich der neuesten Beiträge. Es gibt jedoch keine persönliche Abstimmung über Habré (bzw. sie wird nicht veröffentlicht).

Aber nicht alles ist so einfach.

Wie gesagt, das sezierte Material wurde in Teilen veröffentlicht. Nach der Veröffentlichung des zweiten Teils erwartete ich ein ähnliches Bild: mit der ersten Ausgabe im Minus und der darauffolgenden im Plus. Allerdings stellte sich heraus, dass der Effekt viel geglätteter war: Der Beitrag wurde nicht zu einem Minus.

Zum Zeitpunkt der Veröffentlichung des zweiten Teils war der Fehler behoben, daher werden die Daten pro Tag angegeben:

Über die Kuriositäten der Habrostatistik

Ich weiß nicht, woher die Glättung kam. Vielleicht, weil es am Samstag veröffentlicht wurde (Downvotes funktionieren samstags nicht?) oder weil dies das Ende des zuvor veröffentlichten Materials ist.

Allerdings ist die Verteilung der Minuspunkte immer noch ungleichmäßig: Alle Minuspunkte fallen in der ersten Hälfte des Registrierungszeitraums an und Minuspunkte enden deutlich früher als Pluspunkte. Gleichzeitig verteilen sich die Aufrufe genau wie beim letzten Mal gleichmäßig über den Zeitraum:

Über die Kuriositäten der Habrostatistik

Der Anstieg, der gegen drei Uhr nachmittags auftrat, ist kein klassifiziertes Material. Mein Internet ist gerade für eine Stunde ausgefallen. Das Dienstprogramm konnte keine Verbindung zur Site herstellen.

Über die Kuriositäten der Habrostatistik

Alles andere ist völliger Standard.

Lesezeichen:

Über die Kuriositäten der Habrostatistik

Kommentare: Wie beim letzten Mal wechseln sich Phasen der Aktivität mit Phasen der Stille ab.

Über die Kuriositäten der Habrostatistik

Karma. Es wurde ein Anstieg um ein paar Einheiten verzeichnet – natürlich nicht gleichzeitig:

Über die Kuriositäten der Habrostatistik

Und Abonnenten. Die Gesamtzahl blieb unverändert (offenbar haben sich Interessenten bereits bei Veröffentlichung des ersten Teils angemeldet). Kurz nachmittags kam es zu einer einzigen Fluktuation: Jemand meldete sich – vielleicht aus Versehen – ab, meldete sich aber sofort wieder an. Handelte es sich um eine andere Person, erfolgte ein Ausgleich: Die Gesamtzahl der Abonnenten änderte sich nicht.

Über die Kuriositäten der Habrostatistik

Post-Metriken verhalten sich also klar und vorhersehbar. Alle Indikatoren, bis auf die Minuspunkte. Da ich dafür keinen ersichtlichen Grund sehe, finde ich den Minus-Peak zumindest seltsam.

Fremdheit 2.
Manchmal nimmt die Anzahl der Aufrufe ab (was natürlich unmöglich ist), normalisiert sich aber bald wieder.

Ich habe es versehentlich beim Debuggen des Programms verfolgt, als die Export-Import-Funktion noch nicht angehängt war, sodass der entsprechende Zickzack im Diagramm fehlt. Sie können mir beim Wort vertrauen – dieser Effekt wurde zweimal beobachtet. Mehrere tausend Aufrufe, plötzlich sinkt die Anzahl der Aufrufe um ein paar Hundert, nach 10-20 Minuten ist sie wieder auf dem vorherigen Niveau (ohne Berücksichtigung des natürlichen Anstiegs).

Das ist ganz einfach: ein Fehler auf der Website. Und es gibt nichts zu bedenken.

Fremdheit 3.
Das kam mir viel seltsamer vor als der voluntaristische erste und der technische zweite Effekt. Pluspunkte treten nicht einzeln und gleichmäßig über den Zeitraum verteilt auf, sondern in Blöcken. Aber das Hinzufügen ist kein Kommentar, wenn auf eine Frage natürlich eine Antwort folgt, handelt es sich um eine individuelle Handlung!

Schauen Sie sich die oben veröffentlichten Ergebnisgrafiken genauer an: Die Blöcke sind auffällig.

Sachkundige Leute nickten mir bezüglich der Poisson-Verteilung zu, aber ich bin nicht in der Lage, die Wahrscheinlichkeit selbst zu berechnen. Wenn Sie dazu in der Lage sind, rechnen Sie nach. Für mich ist bereits klar, dass die Zahl der Doppelpluspunkte weit über der Norm liegt.

Hier sind die digitalen Daten zu den Vorteilen des ersten Teils des Beitrags. Die Grafik zeigt die Anzahl der Pluspunkte für Einfach-, Doppel- und Dreifachpositionen in der Gesamtzahl der abgegebenen Bewertungen. Wie bereits erwähnt beträgt das Messintervall 10 Minuten.

Über die Kuriositäten der Habrostatistik

Von den 30 Stichen in 84 Zellen wurden zwei Zellen dreimal gestochen. Nun, ich weiß nicht, inwieweit das der Wahrscheinlichkeitstheorie entspricht ...

Daten zum zweiten Teil des Beitrags (da der Messzeitraum länger ist, kürze ich ihn zur Vergleichbarkeit entsprechend der Dauer des ersten Teils):

Über die Kuriositäten der Habrostatistik

Übrigens grenzt hier eines der einzelnen Pluspunkte zeitlich an das dreifache an, das heißt, in etwa 20 Minuten kam es zu einem Anstieg der Pluspunkte (29 % ihrer Gesamtzahl waren Pluspunkte). Und dies geschah nicht in den ersten Minuten der Veröffentlichung.

Das Verhältnis zwischen Einfach-, Doppel- und Dreifachpositionen ist ungefähr das gleiche wie beim ersten Teil. Und der Rückgang des Anteils der Bewertungen an den Messungen erklärt sich aus der Tatsache, dass Bewertungen seltener abgegeben wurden. Es wurden Messungen durchgeführt, es konnten jedoch keine Vorteile festgestellt werden.

Ich kann diesen Block-Plus-Effekt in keiner Weise, also überhaupt nicht, erklären. Für Kontrahenten scheint solch ein „blockiges“ Verhalten nicht typisch zu sein.

Senden die Emittenten des Guten stapelweise Vorschläge, die ein- und ausgeschaltet werden? Hehehehe...

PS
Wenn jemand Beitragsstatistiken mit fortgeschritteneren Methoden analysieren oder die Arithmetik überprüfen möchte, finden Sie hier die Dateien mit den Quelldaten:
yadi.sk/d/iN4SL6tzsGEQxw

Ich beharre nicht auf meinen Zweifeln – vielleicht irre ich mich, zumal die Statistiken düster sind. Ich hoffe, dass Kommentare von professionellen Statistikern, Psychologen und anderen interessierten Benutzern die entstandene Verwirrung klären werden.

Vielen Dank für Ihre Aufmerksamkeit.

Source: habr.com

Kommentar hinzufügen