Over de eigenaardigheden van de habrostatistiek

Ik heb al eerder vreemd gedrag in beoordelingen opgemerkt, maar de laatste tijd is het vreemde gedrag te duidelijk geworden. En ik besloot het probleem te onderzoeken met behulp van de wetenschappelijke methoden die tot mijn beschikking stonden, namelijk: de dynamiek van plus-minus analyseren. Stelde je het je ineens voor?

Ik ben nog steeds een programmeur, maar ik kan heel eenvoudige dingen doen. Dus codeerde ik een eenvoudig hulpprogramma dat statistieken verzamelt van de panelen van de Khabrov-post: voor- en nadelen, weergaven, bladwijzers, enz.

Over de eigenaardigheden van de habrostatistiek

De statistieken worden weergegeven in grafieken, na bestudering hebben we nog een paar kleinere verrassingen kunnen ontdekken. Maar eerst dingen eerst.

Vreemdheid 1.
Dit is waar mijn statistisch onderzoek eigenlijk begon.

Het leek mij vreemd dat ze in de eerste uren na de publicatie van sommige van mijn berichten scherp negatief werden, vervolgens naar nul gingen en uiteindelijk het verwachte pluspunt verdienden. Waarom gebeurde het?

Ik stond net op het punt nog een bericht te publiceren - in twee delen. Ik besloot hem aan een statistische analyse te onderwerpen.

Het eerste deel gepubliceerd. Tegelijkertijd lanceerde ik het hulpprogramma en begon op het resultaat te wachten. Helaas stopte het programma 's nachts - terwijl ik sliep - met het verzamelen van informatie vanwege een bug. De volgende ochtend corrigeerde ik de fout, maar de statistieken bleken minder dan een dag geldig te zijn. De trends zijn echter ook duidelijk zichtbaar voor de gewerkte tijd.

De gegevens worden verstrekt voor de eerste 14 uur vanaf het moment van publicatie, het interval tussen de metingen bedraagt ​​10 minuten.

Over de eigenaardigheden van de habrostatistiek

De ogen hebben ons niet bedrogen: de meeste minnen doen zich voor in het eerste uur van het bestaan ​​​​van de post. Aanvankelijk belandde de post in negatief terrein, maar herstelde zich daarna. Dit zijn de getallen die zijn gebruikt om de grafiek te plotten:

Over de eigenaardigheden van de habrostatistiek

En dit ondanks het feit dat de views vlot toenemen!

Over de eigenaardigheden van de habrostatistiek

De stappen vanaf duizendste waarden worden verklaard door het feit dat afkortingen beginnen in het Khabrov-paneel: er is nergens het exacte aantal views te krijgen (waarschijnlijk had het afkomstig kunnen zijn van services van derden, maar ik heb ze niet gebruikt ).

Ik ben geen expert in statistiek, maar zo’n verdeling van minnen is abnormaal, voor zover ik het begrijp?!

Kijk, de bladwijzers zijn min of meer gelijkmatig verdeeld over de inschrijvingsperiode:

Over de eigenaardigheden van de habrostatistiek

De reacties zijn ook gelijkmatig verdeeld:

Over de eigenaardigheden van de habrostatistiek

Er zijn uitbarstingen van activiteit en passiviteit, maar deze zijn ook verspreid over de periode: het commentaar vervaagt of wordt hervat.

Hetzelfde geldt voor abonnees – er is een uniforme lichte stijging:

Over de eigenaardigheden van de habrostatistiek

Karma is tijdens de verslagperiode niet veranderd – ik citeer het niet. En de beoordeling wordt berekend door Habr, het heeft geen zin om deze op te sommen.

Alle indicatoren veranderen evenredig met het aantal views, en alleen met de minnen is er iets mis: de woede-uitbarsting vindt plaats in het eerste uur vanaf het begin van de publicatie. Hetzelfde gebeurde met mijn eerdere berichten. Maar als dit eerder als het ware persoonlijke indrukken waren, worden ze nu bevestigd door registratie.

Naar mijn puur noob-mening betekent een dergelijke distributie het volgende: er zijn verschillende gebruikers op de site die doelbewust de laatst gepubliceerde berichten bekijken en een aantal berichten naar beneden stemmen - op basis van een behoefte die alleen zij kennen. Ik schrijf “enkele van de berichten” omdat ik dit effect niet alleen in mijn publicaties merkte. In alle gevallen is het effect uitgesproken, anders had ik er simpelweg geen aandacht aan besteed.

Ik heb vier versies van waarom dit gebeurt.

Versie 1. Geestelijke perversie. Zieke mensen waken bewust over auteurs die zij onaangenaam vinden en stemmen hen af, met als doel hen schade te berokkenen.

Ik geloof niet in deze versie.

Versie 2. Psychologisch effect. Welke - ik weet het niet. Waarom stemmen lezers eerst unaniem de post af, en stemmen er dan niet minder unaniem op? Zijn ze minus als niet-thematisch, maar plus nadat kenners van schoonheid in de meerderheid zijn? Ik weet het niet.

Als er psychologen onder de lezers zijn, laat hen dan hun zegje doen.

Versie 3. De bedienden zijn in actie. Waarom zouden hun bazen rotting op de posten van Khabrov moeten verspreiden? Er zijn echter niet alleen militairen in ons land. Wie zal ze begrijpen, Russofoben?!

Versie 4. Gecombineerde effecten van de eerder genoemde factoren.

Heel voorstelbaar.

Hoe het ook zij, minners slagen erin het aantal views te verminderen. Ik ben niet bekend met de regels om de berichten van Khabrov naar de top te brengen, ik weet niet eens of deze algoritmen openbaar zijn gemaakt of niet, maar het is mij duidelijk: vroege min staat niet toe dat uitgesloten berichten de top bereiken - preciezer: het vertraagt ​​het bereiken ervan, wat op zijn beurt op zijn beurt het aantal weergaven aanzienlijk vermindert.

Voor zover ik het begrijp, zijn er geen effectieve manieren om dit kwaad te bestrijden. De enige manier is persoonlijk stemmen. Alleen in dit geval kunt u vaststellen welke profielen periodiek worden bijgehouden en minus de laatste berichten. Er is echter geen persoonlijke stemming over Habré (of beter gezegd, het wordt niet openbaar gemaakt).

Maar niet alles is zo eenvoudig.

Zoals ik al zei, werd het ontlede materiaal in delen gepubliceerd. Na de publicatie van het tweede deel verwachtte ik een soortgelijk beeld: met de initiële uitvoer in de min en de daaropvolgende in de plus. Het effect bleek echter veel gladder te zijn: de post veranderde niet in een minpuntje.

Tegen de tijd dat het tweede deel werd gepubliceerd, was de bug opgelost, dus de gegevens worden per dag weergegeven:

Over de eigenaardigheden van de habrostatistiek

Ik weet niet waar het gladstrijken vandaan komt. Misschien omdat het op zaterdag is gepubliceerd (downvotes werken niet op zaterdag?) of omdat dit het einde is van eerder gepubliceerd materiaal.

De verdeling van de minnen is echter nog steeds ongelijk: alle minnen komen voor in de eerste helft van de registratieperiode en min eindigt veel eerder dan plus. Tegelijkertijd worden de weergaven precies zo verdeeld over de periode als de vorige keer: gelijkmatig:

Over de eigenaardigheden van de habrostatistiek

De piek die rond drie uur in de middag plaatsvond, is geen geclassificeerd materiaal. Mijn internet viel net een uur uit. Het hulpprogramma kan geen verbinding maken met de site.

Over de eigenaardigheden van de habrostatistiek

Al het overige is volledig standaard.

Bladwijzers:

Over de eigenaardigheden van de habrostatistiek

Opmerkingen: net als de vorige keer worden periodes van activiteit afgewisseld met periodes van stilte.

Over de eigenaardigheden van de habrostatistiek

Karma. Er werd een toename van een paar eenheden geregistreerd - uiteraard niet gelijktijdig:

Over de eigenaardigheden van de habrostatistiek

En abonnees. Het totaal aantal bleef ongewijzigd (blijkbaar hebben geïnteresseerden zich aangemeld toen het eerste deel verscheen). Zo rond één uur 's middags was er één enkele fluctuatie: iemand had zich - misschien per ongeluk - afgemeld, maar heeft zich meteen weer aangemeld. Als het een andere persoon was, vond er compensatie plaats: het totale aantal abonnees veranderde niet.

Over de eigenaardigheden van de habrostatistiek

Poststatistieken gedragen zich dus op een duidelijke en voorspelbare manier. Alle indicatoren, behalve de minnen. Omdat ik daar geen duidelijke reden voor zie, vind ik de minpiek op zijn minst vreemd.

Vreemdheid 2.
Soms neemt het aantal views af (wat uiteraard onmogelijk is), maar keert al snel terug naar normaal.

Ik heb het per ongeluk gevolgd tijdens het debuggen van het programma, terwijl de export-importfunctie nog niet was gekoppeld, dus de overeenkomstige zigzag ontbreekt in de grafiek. U kunt mij op mijn woord geloven: dit effect werd twee keer waargenomen. Enkele duizenden views, plotseling neemt het aantal views met een paar honderd af, na 10-20 minuten wordt het hersteld naar het vorige niveau (zonder rekening te houden met de natuurlijke toename).

Dit is vrij simpel: een bug op de site. En er is niets om over na te denken.

Vreemdheid 3.
Dit is wat mij veel vreemder leek dan de voluntaristische eerste en technische tweede effecten. Pluspunten gebeuren niet afzonderlijk, met een uniforme verdeling over de periode, maar in blokken. Maar toevoegen is geen commentaar; wanneer een vraag natuurlijk wordt gevolgd door een antwoord, is het een individuele handeling!

Bekijk de hierboven gepubliceerde resultaatgrafieken eens nader: de blokken zijn merkbaar.

Mensen met kennis van zaken knikten naar mij over de Poisson-verdeling, maar ik kan de waarschijnlijkheid niet zelf berekenen. Als je daartoe in staat bent, doe dan de wiskunde. Het is mij nu al duidelijk dat het aantal dubbele plussen ver boven de norm ligt.

Hier zijn de digitale gegevens over de voordelen van het eerste deel van de post. De grafiek toont het aantal plussen voor enkele, dubbele en drievoudige posities in het totaal aantal gegeven beoordelingen. Zoals eerder vermeld bedraagt ​​het meetinterval 10 minuten.

Over de eigenaardigheden van de habrostatistiek

Van de 30 porren in 84 cellen werden twee cellen driemaal geprikt. Nou, ik weet niet in hoeverre dit overeenkomt met de waarschijnlijkheidstheorie...

Gegevens voor het tweede deel van het bericht (aangezien de meetperiode langer is, verkort ik deze voor de vergelijkbaarheid op basis van de duur van het eerste deel):

Over de eigenaardigheden van de habrostatistiek

Trouwens, hier grenst een van de enkele plussen qua tijd aan de verdrievoudigde, dat wil zeggen, in ongeveer 20 minuten was er een stijging van het aantal plussen (29% van hun totale aantal waren plussen). En dit gebeurde niet in de eerste minuten van publicatie.

De verhouding tussen enkele, dubbele en driedubbele posities is ongeveer hetzelfde als bij het eerste deel. En de afname van het aandeel beoordelingen in metingen wordt verklaard doordat er minder vaak beoordelingen worden gegeven. Er zijn metingen verricht, maar er zijn geen voordelen geconstateerd.

Ik kan dit blok-plus-effect op geen enkele manier verklaren, dat wil zeggen helemaal niet. Voor de nadelen lijkt dergelijk “blokkerig” gedrag niet typisch te zijn.

Sturen de zenders van goedheid suggesties in batches, waarbij ze aan en uit gaan? Hehehe...

PS
Als iemand poststatistieken wil analyseren met behulp van geavanceerdere methoden of de rekenkunde wil controleren, zijn de bestanden met de brongegevens hier:
yadi.sk/d/iN4SL6tzsGEQxw

Ik blijf niet twijfelen – misschien heb ik het mis, vooral omdat de statistieken somber zijn. Ik hoop dat opmerkingen van professionele statistici, psychologen en andere geïnteresseerde gebruikers de ontstane verwarring zullen ophelderen.

Dank u voor uw aandacht.

Bron: www.habr.com

Voeg een reactie