O neobičnostima habrostatistike

Prije sam primijetio čudno ponašanje u ocjenama, ali nedavno je neobičnost postala previše očita. I odlučio sam istražiti problem koristeći znanstvene metode koje su mi bile dostupne, naime: analizirati dinamiku plus-minus. Jeste li se odjednom zamislili?

Još uvijek sam programer, ali mogu raditi vrlo osnovne stvari. Tako sam kodirao jednostavan uslužni program koji prikuplja statistiku s ploča Khabrov posta: prednosti, mane, pregledi, oznake itd.

O neobičnostima habrostatistike

Statistika je prikazana u grafikonima, nakon proučavanja kojih smo uspjeli otkriti još par iznenađenja, manjih. Ali prvo o svemu.

Neobičnost 1.
Ovdje je zapravo počelo moje statističko istraživanje.

Činilo mi se čudnim da su u prvim satima nakon objave nekih mojih postova naglo išli u minus, zatim išli na nulu i na kraju zaslužili očekivani plus. Zašto se to dogodilo?

Upravo sam namjeravao objaviti još jedan post - u dva dijela. Odlučio sam ga podvrgnuti statističkoj analizi.

Objavljen prvi dio. Istodobno sam pokrenuo uslužni program i počeo čekati rezultat. Nažalost, noću - dok sam spavao - program je prestao prikupljati informacije zbog greške. Sljedeće jutro sam ispravio grešku, ali pokazalo se da je statistika bila za manje od jednog dana. No, trendovi su očiti i za radno vrijeme.

Podaci se daju za prvih 14 sati od trenutka objave, interval između mjerenja je 10 minuta.

O neobičnostima habrostatistike

Oči nas nisu prevarile: većina minusa javlja se u prvih sat vremena postojanja objave. Prvo je objava otišla u negativno područje, a zatim se oporavila. Evo brojeva korištenih za iscrtavanje grafikona:

O neobičnostima habrostatistike

I to unatoč činjenici da pregledi glatko rastu!

O neobičnostima habrostatistike

Koraci koji počinju od tisućitih vrijednosti objašnjavaju se činjenicom da kratice počinju na ploči Khabrov: nigdje se ne može dobiti točan broj pregleda (vjerojatno je mogao biti uzet od usluga trećih strana, ali nisam ih koristio ).

Nisam stručnjak za statistiku, ali ovakva raspodjela minusa je nenormalna, koliko sam shvatio?!

Pogledajte, oznake su više-manje ravnomjerno raspoređene tijekom razdoblja registracije:

O neobičnostima habrostatistike

Komentari su također ravnomjerno raspoređeni:

O neobičnostima habrostatistike

Ima naleta aktivnosti i pasivnosti, ali i raspoređenih po vremenu: komentiranje ili blijedi ili se nastavlja.

Isto je i s pretplatnicima – ujednačen blagi porast:

O neobičnostima habrostatistike

Karma se nije promijenila tijekom izvještajnog razdoblja - ne navodim je. A ocjenu izračunava Habr, nema je smisla nabrajati.

Svi se pokazatelji mijenjaju proporcionalno broju pregleda, a jedino s minusima nešto nije u redu: izljev bijesa događa se u prvih sat vremena od početka objave. Ista stvar se dogodila s mojim prethodnim postovima. Ali ako su ranije to bili, da tako kažem, osobni dojmovi, sada su potvrđeni registracijom.

Po mom čisto noobskom mišljenju, takva distribucija znači: postoji nekoliko korisnika na stranici koji namjerno gledaju zadnje objavljene postove i glasaju protiv nekih postova - na temelju samo njima znane potrebe. Pišem “neke od postova” jer sam taj učinak primijetio ne samo u svojim publikacijama. U svim slučajevima učinak je izražen, inače jednostavno ne bih obraćao pozornost na to.

Imam četiri verzije zašto se to događa.

Verzija 1. Mentalna izopačenost. Bolesni ljudi namjerno paze na autore koje smatraju neugodnima i omalovažavaju ih, s ciljem da im naude.

Ne vjerujem u ovu verziju.

Verzija 2. Psihološki učinak. Koji - ne znam. Pa, zašto čitatelji prvo jednoglasno odbiju objavu, a zatim je ništa manje jednoglasno podrže? Jesu li minus kao netematski, ali plus nakon što se poznavatelji ljepote nalaze u većini? Ne znam.

Ako među čitateljima ima psihologa, neka kažu svoje.

Verzija 3. Sluge glume. Zašto bi njihovi šefovi širili trulež po Khabrovljevim mjestima? Bog zna. No, servisera nema samo u našoj zemlji. Tko će njih razumjeti, rusofobe?!

Verzija 4. Kombinirano djelovanje prethodno navedenih čimbenika.

Sasvim zamislivo.

Bilo kako bilo, minuseri uspijevaju smanjiti broj pregleda. Nisam upoznat s pravilima za dovođenje Khabrovljevih postova na vrh, ne znam čak ni jesu li ti algoritmi javno objavljeni ili ne, ali očito mi je: rani minus ne dopušta izopćenim postovima da dosegnu vrh - točnije, odgađa dolazak, što opet značajno, ponekad, smanjuje broj pregleda.

Koliko sam shvatio, ne postoje učinkoviti načini borbe protiv tog zla. Jedini način je osobno glasovanje. Samo u ovom slučaju možete utvrditi koji profili povremeno prate i minus najnovije objave. Međutim, na Habréu nema osobnog glasovanja (točnije, ne objavljuje se javno).

Ali nije sve tako jednostavno.

Kao što rekoh, secirani materijal objavljen je u dijelovima. Nakon objave drugog dijela očekivao sam sličnu sliku: s početnim rezultatom u minusu i sljedećim u plusu. Međutim, učinak se pokazao mnogo izglađenijim: post se nije pretvorio u minus.

Do objave drugog dijela greška je bila ispravljena, pa su podaci dati po danima:

O neobičnostima habrostatistike

Ne znam otkud glatkoća. Možda zato što je objavljen u subotu (glasovi protiv subotom ne rade?) ili zato što je ovo kraj prethodno objavljenog materijala.

No, raspodjela minusa još uvijek je neravnomjerna: svi minusi nastaju u prvoj polovici registracijskog roka, a minus prestaje znatno prije nego plus. U isto vrijeme, pregledi su raspoređeni kroz razdoblje točno kao i prošli put - ravnomjerno:

O neobičnostima habrostatistike

Skok koji se dogodio oko tri sata poslijepodne nije tajni materijal. Nestalo mi je interneta na sat vremena. Uslužni program se nije mogao povezati sa web mjestom.

O neobičnostima habrostatistike

Sve ostalo je potpuno standardno.

Oznake:

O neobičnostima habrostatistike

Komentari: kao i prošli put, razdoblja aktivnosti izmjenjuju se s razdobljima tišine.

O neobičnostima habrostatistike

karma. Zabilježeno je povećanje od par jedinica – naravno, ne istovremeno:

O neobičnostima habrostatistike

I pretplatnici. Ukupan broj ostao je nepromijenjen (navodno su se zainteresirani prijavili kad je objavljen prvi dio). Negdje oko jedan sat poslijepodne dogodila se jedna jedina fluktuacija: netko se odjavio - možda greškom - ali se odmah ponovno prijavio. Ako se radilo o drugoj osobi, dolazi do kompenzacije: ukupan broj pretplatnika nije se mijenjao.

O neobičnostima habrostatistike

Dakle, post metrika ponaša se na jasan i predvidljiv način. Svi pokazatelji, osim minusa. Budući da ne vidim očigledan razlog za to, smatram da je minus vrh u najmanju ruku čudan.

Neobičnost 2.
Ponekad se broj pregleda smanji (što je, naravno, nemoguće), ali se ubrzo vrati u normalu.

Pratio sam to slučajno, dok sam otklanjao pogreške u programu, kada funkcija izvoza i uvoza još nije bila priključena, pa na grafikonu nedostaje odgovarajući cik-cak. Možete mi vjerovati na riječ - ovaj učinak je uočen dva puta. Nekoliko tisuća pregleda, odjednom se broj pregleda smanji za nekoliko stotina, nakon 10-20 minuta vraća se na prethodnu razinu (bez uzimanja u obzir prirodnog prirasta).

Ovo je vrlo jednostavno: greška na stranici. I nema se što razmišljati.

Neobičnost 3.
To je ono što mi se činilo mnogo čudnijim od voluntarističkog prvog i tehničkog drugog učinka. Plusevi se ne događaju pojedinačno, s ravnomjernom raspodjelom u razdoblju, već u blokovima. Ali dodavanje nije komentar, kada pitanje prirodno prati odgovor, oni su individualni čin!

Pažljivije pogledajte gore objavljene grafikone rezultata: blokovi su uočljivi.

Upućeni ljudi su mi klimali glavom oko Poissonove distribucije, ali ja ne mogu sam izračunati vjerojatnost. Ako ste u mogućnosti, izračunajte. Već mi je očito da broj duplih pluseva daleko premašuje normu.

Evo digitalnih podataka o prednostima prvog dijela posta. Grafikon prikazuje broj pluseva za jednostruke, dvostruke i trostruke pozicije u ukupnom broju danih ocjena. Kao što je ranije spomenuto, interval mjerenja je 10 minuta.

O neobičnostima habrostatistike

Od 30 bockanja u 84 ćelije, dvije su ćelije bockane tri puta. Pa ne znam koliko ovo odgovara teoriji vjerojatnosti...

Podaci za drugi dio posta (s obzirom da je razdoblje mjerenja duže, skraćujem ga prema trajanju prvog dijela, radi usporedivosti):

O neobičnostima habrostatistike

Usput, ovdje je jedan od pojedinačnih pluseva vremenski susjedan trostrukom, odnosno za nekih 20 minuta došlo je do skoka u plusevima (29% njihovog ukupnog broja bili su plusevi). A to se nije dogodilo u prvim minutama objave.

Odnos jednostrukih, dvostrukih i trostrukih pozicija približno je isti kao i za prvi dio. A pad udjela ocjena u mjerenjima tumači se činjenicom da su se ocjene rjeđe davale. Obavljena su mjerenja, ali nisu zabilježene prednosti.

Taj block plus efekt nikako ne mogu objasniti, odnosno nikako. Za kontra, takvo "blokasto" ponašanje ne čini se tipičnim.

Šalju li emiteri dobrote sugestije u serijama, paleći se i gaseći? Hehehehe...

PS
Ako netko želi analizirati statistiku posta koristeći naprednije metode ili provjeriti aritmetiku, datoteke s izvornim podacima su ovdje:
yadi.sk/d/iN4SL6tzsGEQxw

Ne inzistiram na svojim sumnjama - možda sam u krivu, pogotovo jer je statistika sumorna. Nadam se da će komentari profesionalnih statističara, psihologa i drugih zainteresiranih korisnika razjasniti nastalu zabunu.

Hvala na pozornosti.

Izvor: www.habr.com

Dodajte komentar