Om raritetene til habrostatistikk

Jeg har lagt merke til merkelig oppførsel i rangeringer før, men nylig har merkeligheten blitt for tydelig. Og jeg bestemte meg for å undersøke problemet ved å bruke de vitenskapelige metodene som er tilgjengelige for meg, nemlig: å analysere dynamikken til pluss-minus. Innbilte du deg plutselig?

Jeg er fortsatt programmerer, men jeg kan gjøre helt grunnleggende ting. Så jeg kodet et enkelt verktøy som samler statistikk fra panelene i Khabrov-innlegget: fordeler, ulemper, visninger, bokmerker, etc.

Om raritetene til habrostatistikk

Statistikken vises i grafer, etter å ha studert som vi var i stand til å oppdage et par flere overraskelser, mindre. Men først ting først.

Merkelighet 1.
Det var her min statistiske forskning faktisk begynte.

Det virket rart for meg at de i løpet av de første timene etter publisering av noen av innleggene mine ble kraftig negative, deretter gikk de til null og til slutt fikk det forventede pluss. Hvorfor skjedde det?

Jeg skulle akkurat til å publisere et nytt innlegg – i to deler. Jeg bestemte meg for å utsette ham for statistisk analyse.

Publiserte første del. Samtidig startet jeg verktøyet og begynte å vente på resultatet. Dessverre, om natten - mens jeg sov - sluttet programmet å samle informasjon på grunn av en feil. Neste morgen rettet jeg feilen, men statistikken viste seg å være på under et døgn. Tendensene er imidlertid også åpenbare for arbeidstiden.

Dataene leveres for de første 14 timene fra publiseringsøyeblikket, intervallet mellom målingene er 10 minutter.

Om raritetene til habrostatistikk

Øynene lurte oss ikke: de fleste minusene oppstår i den første timen av innleggets eksistens. Først gikk innlegget inn i negativt territorium, så kom det seg. Her er tallene som brukes til å plotte grafen:

Om raritetene til habrostatistikk

Og dette til tross for at visningene øker jevnt!

Om raritetene til habrostatistikk

Trinnene som starter fra tusendelsverdier forklares av det faktum at forkortelser begynner i Khabrov-panelet: det er ingen steder å få det nøyaktige antallet visninger (sannsynligvis kunne det ha blitt hentet fra tredjepartstjenester, men jeg brukte dem ikke ).

Jeg er ingen ekspert på statistikk, men en slik fordeling av minuser er unormal, så vidt jeg forstår?!

Se, bokmerkene er fordelt mer eller mindre jevnt over registreringsperioden:

Om raritetene til habrostatistikk

Kommentarene er også jevnt fordelt:

Om raritetene til habrostatistikk

Det er utbrudd av aktivitet og passivitet, men de er også fordelt over perioden: kommentering enten blekner eller gjenopptas.

Det samme med abonnenter – det er en jevn liten økning:

Om raritetene til habrostatistikk

Karma endret seg ikke i løpet av rapporteringsperioden - jeg siterer det ikke. Og vurderingen er beregnet av Habr, det er ingen vits i å liste den opp.

Alle indikatorer endres i forhold til antall visninger, og bare med minusene er det noe galt: sinneutbruddet oppstår den første timen fra publiseringsstart. Det samme skjedde med mine tidligere innlegg. Men var dette tidligere så å si personlige inntrykk, nå bekreftes de ved registrering.

Etter min rene noob mening betyr en slik fordeling: det er flere brukere på siden som målrettet ser på de siste publiserte innleggene og nedstemmer noen av innleggene – basert på et behov som kun er kjent for dem. Jeg skriver "noen av innleggene" fordi jeg ikke bare la merke til denne effekten i publikasjonene mine. I alle tilfeller er effekten uttalt, ellers ville jeg rett og slett ikke ha lagt merke til det.

Jeg har fire versjoner av hvorfor dette skjer.

Versjon 1. Mental perversjon. Syke mennesker våker bevisst over forfattere de synes er ubehagelige og nedstemmer dem, med mål om å skade dem.

Jeg tror ikke på denne versjonen.

Versjon 2. Psykologisk effekt. Hvilken - jeg vet ikke. Vel, hvorfor minuserer leserne først enstemmig innlegget, for så ikke mindre enstemmig å stemme opp det? Er de minus som ikke-tematisk, men pluss etter skjønnhetskjennere finner seg i flertall? Jeg vet ikke.

Hvis det er psykologer blant leserne, la dem si sin mening.

Versjon 3. Tjenerne handler. Hvorfor skal sjefene deres spre råte på Khabrovs poster? Gud vet det. Imidlertid er det tjenestemenn ikke bare i vårt land. Hvem vil forstå dem, russofober?!

Versjon 4. Kombinerte effekter av de tidligere nevnte faktorene.

Ganske tenkelig.

Uansett, minusere klarer å redusere antall visninger. Jeg er ikke kjent med reglene for å bringe Khabrovs innlegg til toppen, jeg vet ikke engang om disse algoritmene har blitt offentliggjort eller ikke, men det er åpenbart for meg: tidlig minus tillater ikke utstøtte innlegg å nå toppen - mer presist, det forsinker å komme dit, noe som i sin tur reduserer antallet visninger betydelig.

Så vidt jeg forstår, finnes det ingen effektive måter å bekjempe denne ondskapen på. Den eneste måten er personlig stemmegivning. Bare i dette tilfellet kan du fastslå hvilke profiler som spores med jevne mellomrom og minus siste innlegg. Det er imidlertid ingen personlig stemmegivning på Habré (eller rettere sagt, den er ikke offentliggjort).

Men det er ikke så enkelt.

Det dissekerte materialet ble som sagt publisert i deler. Etter publiseringen av den andre delen forventet jeg et lignende bilde: med den første utgangen i minus og den påfølgende i pluss. Effekten viste seg imidlertid å være mye mer jevnet ut: innlegget ble ikke til et minus.

Da den andre delen ble publisert, var feilen rettet, så dataene er gitt per dag:

Om raritetene til habrostatistikk

Jeg vet ikke hvor utjevningen kom fra. Kanskje fordi det ble publisert på lørdag (nedstemmer fungerer ikke på lørdager?) eller fordi dette er slutten på tidligere publisert materiale.

Imidlertid er fordelingen av minuser fortsatt ujevn: alle minuser forekommer i første halvdel av registreringsperioden, og minus slutter mye tidligere enn pluss. Samtidig fordeler visningene seg over perioden nøyaktig som forrige gang – jevnt:

Om raritetene til habrostatistikk

Piggen som skjedde rundt tre på ettermiddagen er ikke hemmeligstemplet materiale. Internett gikk akkurat ut i en time. Verktøyet kunne ikke koble til nettstedet.

Om raritetene til habrostatistikk

Alt annet er helt standard.

Bokmerker:

Om raritetene til habrostatistikk

Kommentarer: som forrige gang veksler perioder med aktivitet med perioder med stillhet.

Om raritetene til habrostatistikk

Karma. En økning på et par enheter ble registrert - selvfølgelig ikke samtidig:

Om raritetene til habrostatistikk

Og abonnenter. Det totale antallet forble uendret (tilsynelatende meldte interesserte seg på da første del ble publisert). Like rundt klokken ett på ettermiddagen var det en enkelt svingning: Noen meldte seg av – kanskje ved en feil – men meldte seg umiddelbart på igjen. Hvis det var en annen person, skjedde kompensasjon: det totale antallet abonnenter ble ikke endret.

Om raritetene til habrostatistikk

Så postberegninger oppfører seg på en klar og forutsigbar måte. Alle indikatorer, bortsett fra minusene. Siden jeg ikke ser noen åpenbar grunn til dette, synes jeg minustoppen i det minste er merkelig.

Merkelighet 2.
Noen ganger synker antallet visninger (noe som selvfølgelig er umulig), men går snart tilbake til det normale.

Jeg sporet det ved et uhell, mens jeg feilsøkte programmet, da eksport-import-funksjonen ennå ikke var festet, så den tilsvarende sikksakk mangler på grafen. Du kan ta mitt ord for det - denne effekten ble observert to ganger. Flere tusen visninger, plutselig synker antallet visninger med et par hundre, etter 10-20 minutter er det gjenopprettet til forrige nivå (uten å ta hensyn til den naturlige økningen).

Dette er ganske enkelt: en feil på nettstedet. Og det er ingenting å tenke på.

Merkelighet 3.
Dette er det som virket mye merkeligere for meg enn de frivillige første og tekniske andre effektene. Plusser skjer ikke enkeltvis, med jevn fordeling over perioden, men i blokker. Men å legge til er ikke en kommentar, når et spørsmål naturlig følges av et svar, er det en individuell handling!

Ta en nærmere titt på resultatgrafene publisert ovenfor: blokkene er merkbare.

Kunnskapsrike folk nikket til meg om Poisson-fordelingen, men jeg klarer ikke å beregne sannsynligheten på egenhånd. Hvis du er i stand, gjør regnestykket. Det er allerede åpenbart for meg at antallet doble plusser langt overstiger normen.

Her er de digitale dataene om fordelene med første del av innlegget. Grafen viser antall plusser for enkelt-, dobbel- og trippelposisjoner i det totale antallet rangeringer som er gitt. Som nevnt tidligere er måleintervallet 10 minutter.

Om raritetene til habrostatistikk

Av de 30 stikkene i 84 celler, ble to celler stukket tre ganger. Vel, jeg vet ikke hvor mye dette tilsvarer sannsynlighetsteori...

Data for den andre delen av innlegget (siden måleperioden er lengre, forkorter jeg den i henhold til varigheten av den første delen, for sammenlignbarhet):

Om raritetene til habrostatistikk

Forresten, her er et av de enkle plussene ved siden av det tredoblede, det vil si at det på rundt 20 minutter var en økning i plusser (29 % av det totale antallet var plusser). Og dette skjedde ikke i de første minuttene av publiseringen.

Forholdet mellom enkelt-, dobbel- og trippelposisjoner er omtrent det samme som for første del. Og nedgangen i andelen vurderinger i målinger forklares med at vurderinger ble gitt sjeldnere. Målinger ble tatt, men ingen fordeler ble registrert.

Jeg kan ikke forklare denne blokk pluss-effekten på noen måte, det vil si ikke i det hele tatt. For ulemper, slik "blokkaktig" oppførsel ser ikke ut til å være typisk.

Sender utsendere av godhet forslag i grupper, skru av og på? Hehehehe...

PS
Hvis noen vil analysere poststatistikk med mer avanserte metoder eller sjekke aritmetikken, er filene med kildedataene her:
yadi.sk/d/iN4SL6tzsGEQxw

Jeg insisterer ikke på mine tvil - kanskje jeg tar feil, spesielt siden statistikken er dyster. Jeg håper at kommentarer fra profesjonelle statistikere, psykologer og andre interesserte brukere vil oppklare forvirringen som har oppstått.

Takk for oppmerksomheten.

Kilde: www.habr.com

Legg til en kommentar