O neobičnostima habrostatistike

Primjećivao sam i ranije čudno ponašanje u ocjenama, ali je u posljednje vrijeme ta neobičnost postala previše očigledna. I odlučio sam da istražim problem koristeći naučne metode koje su mi dostupne, a to su: da analiziram dinamiku plus-minus. Jeste li se odjednom zamislili?

Još uvijek sam programer, ali mogu raditi vrlo osnovne stvari. Stoga sam kodirao jednostavan uslužni program koji prikuplja statistiku s panela Khabrov posta: prednosti, nedostatke, prikazi, oznake itd.

O neobičnostima habrostatistike

Statistika je prikazana u grafikonima, nakon proučavanja kojih smo uspjeli otkriti još par iznenađenja, manjih. Ali prvo stvari.

Čudnost 1.
Tu je zapravo počelo moje statističko istraživanje.

Učinilo mi se čudnim da su u prvim satima nakon objavljivanja nekih mojih postova naglo išli u negativu, pa na nulu i na kraju zaradili očekivani plus. Zašto se to dogodilo?

Upravo sam htio objaviti još jedan post - u dva dijela. Odlučio sam da ga podvrgnem statističkoj analizi.

Objavljen prvi dio. Istovremeno sam pokrenuo uslužni program i počeo čekati rezultat. Nažalost, noću - dok sam spavao - program je prestao da prikuplja informacije zbog greške. Sledećeg jutra sam ispravio grešku, ali se pokazalo da je statistika bila za manje od jednog dana. Međutim, trendovi su očigledni i za vrijeme rada.

Podaci se daju za prvih 14 sati od trenutka objavljivanja, interval između mjerenja je 10 minuta.

O neobičnostima habrostatistike

Oči nas nisu prevarile: većina minusa javlja se u prvom satu postojanja posta. U početku je pošta ušla u negativnu teritoriju, a zatim se oporavila. Evo brojeva koji se koriste za crtanje grafikona:

O neobičnostima habrostatistike

I to uprkos činjenici da se broj gledanosti nesmetano povećava!

O neobičnostima habrostatistike

Koraci koji počinju od hiljaditih vrijednosti objašnjavaju se činjenicom da kratice počinju na Khabrov panelu: nema gdje dobiti tačan broj pregleda (vjerovatno je mogao biti preuzet od usluga trećih strana, ali ih nisam koristio ).

Nisam stručnjak za statistiku, ali ovakva raspodjela minusa je nenormalna, koliko ja razumijem?!

Gledajte, oznake su raspoređene manje-više ravnomjerno tokom perioda registracije:

O neobičnostima habrostatistike

Komentari su također ravnomjerno raspoređeni:

O neobičnostima habrostatistike

Ima naleta aktivnosti i pasivnosti, ali su takođe raspoređeni tokom perioda: komentarisanje ili nestaje ili se nastavlja.

Isto je i sa pretplatnicima – postoji ujednačen blagi porast:

O neobičnostima habrostatistike

Karma se nije promijenila tokom izvještajnog perioda - ne navodim je. A rejting izračunava Habr, nema smisla nabrajati ga.

Svi indikatori se mijenjaju proporcionalno broju pregleda, a samo sa minusima nešto nije u redu: izljev bijesa se javlja u prvih sat vremena od početka objave. Ista stvar se desila i sa mojim prethodnim postovima. Ali ako su ranije to bili, da tako kažem, lični utisci, sada su potvrđeni registracijom.

Po mom čisto noobskom mišljenju, takva distribucija znači: postoji nekoliko korisnika na stranici koji namjerno pregledavaju najnovije objavljene postove i omalovažavaju neke od postova - na osnovu samo njima znane potrebe. Pišem “neke od postova” jer sam ovaj efekat primijetio ne samo u svojim publikacijama. U svim slučajevima efekat je izražen, inače jednostavno ne bih obraćala pažnju na to.

Imam četiri verzije zašto se to dešava.

Verzija 1. Mentalna perverzija. Bolesni ljudi namjerno bdiju nad autorima koji im se ne sviđaju i omalovažavaju ih, s ciljem da im naškode.

Ne vjerujem u ovu verziju.

Verzija 2. Psihološki efekat. Koji - ne znam. Pa, zašto čitatelji prvo jednoglasno minusiraju objavu, a onda ništa manje jednoglasno glasaju? Jesu li minus kao netematski, ali plus nakon što se poznavaoci ljepote nalaze u većini? Ne znam.

Ako među čitaocima ima psihologa, neka kažu svoje.

Verzija 3. Sluge glume. Zašto bi njihovi šefovi širili trulež Habrovljevih postova? Međutim, vojnih lica nema samo u našoj zemlji. Ko će ih razumeti, rusofobi?!

Verzija 4. Kombinovani efekti prethodno navedenih faktora.

Sasvim zamislivo.

Kako god bilo, minuseri uspijevaju smanjiti broj pregleda. Nisam upoznat sa pravilima za dovođenje Khabrovljevih objava na vrh, ne znam ni da li su ovi algoritmi objavljeni ili ne, ali mi je očigledno: rani minus ne dozvoljava izopštenim objavama da dođu do vrha - tačnije, odlaže dolazak, što zauzvrat značajno, s vremenom, smanjuje broj pregleda.

Koliko sam shvatio, ne postoje efikasni načini za borbu protiv ovog zla. Jedini način je lično glasanje. Samo u ovom slučaju možete utvrditi koji profili se povremeno prate i minus najnovije objave. Međutim, na Habréu nema ličnog glasanja (tačnije, ne objavljuje se).

Ali nije sve tako jednostavno.

Kao što sam rekao, raščlanjeni materijal je objavljen u dijelovima. Nakon objavljivanja drugog dijela, očekivao sam sličnu sliku: s početnim izlazom u minusu i sljedećim u plusu. Međutim, učinak se pokazao mnogo izglađenijim: objava se nije pretvorila u minus.

Do objavljivanja drugog dijela, greška je bila ispravljena, pa su podaci dati po danu:

O neobičnostima habrostatistike

Ne znam otkud zaglađivanje. Možda zato što je objavljeno u subotu (downvotes ne rade subotom?) ili zato što je ovo kraj prethodno objavljenog materijala.

Međutim, raspodjela minusa je još uvijek neravnomjerna: svi minusi se javljaju u prvoj polovini registracionog perioda, a minus završava mnogo ranije od plusa. Istovremeno, pregledi su raspoređeni tokom perioda tačno kao i prošli put - ravnomerno:

O neobičnostima habrostatistike

Eksplozija koja se dogodila oko tri popodne nije povjerljivi materijal. Internet mi je nestao na sat vremena. Uslužni program nije mogao da se poveže sa sajtom.

O neobičnostima habrostatistike

Sve ostalo je potpuno standardno.

Oznake:

O neobičnostima habrostatistike

Komentari: kao i prošli put, periodi aktivnosti se smjenjuju s periodima tišine.

O neobičnostima habrostatistike

Karma. Zabilježen je porast od par jedinica - naravno, ne istovremeno:

O neobičnostima habrostatistike

I pretplatnici. Ukupan broj je ostao nepromijenjen (očigledno, zainteresovani su se prijavili kada je prvi dio objavljen). Negdje oko jedan sat popodne došlo je do jedne fluktuacije: neko je otkazao pretplatu - možda greškom - ali se odmah ponovo prijavio. Ako se radilo o drugoj osobi, došlo je do kompenzacije: ukupan broj pretplatnika se nije promijenio.

O neobičnostima habrostatistike

Dakle, post metrika se ponaša na jasan i predvidljiv način. Svi pokazatelji, osim minusa. Pošto ne vidim očigledan razlog za to, smatram da je minus vrh u najmanju ruku čudan.

Čudnost 2.
Ponekad se broj pregleda smanji (što je, naravno, nemoguće), ali se ubrzo vrati u normalu.

Pratio sam to slučajno, prilikom ispravljanja grešaka u programu, kada eksport-import funkcija još nije bila priključena, pa odgovarajući cik-cak nedostaje na grafikonu. Možete mi verovati na reč - ovaj efekat je primećen dva puta. Nekoliko hiljada pregleda, odjednom se broj pregleda smanji za par stotina, nakon 10-20 minuta se vraća na prethodni nivo (bez uzimanja u obzir prirodnog priraštaja).

Ovo je prilično jednostavno: greška na stranici. I nema o čemu razmišljati.

Čudnost 3.
To je ono što mi se činilo mnogo čudnijim od voluntarističkog prvog i tehničkog drugog efekta. Plusi se ne dešavaju pojedinačno, sa ujednačenom distribucijom tokom perioda, već u blokovima. Ali dodavanje nije komentar, kada je pitanje prirodno praćeno odgovorom, to je individualni čin!

Pogledajte bliže gornje grafikone rezultata: blokovi su uočljivi.

Upućeni ljudi su mi klimali glavom u vezi Poissonove raspodjele, ali ja ne mogu sam izračunati vjerovatnoću. Ako ste u mogućnosti, izračunajte. Već mi je očigledno da broj duplih pluseva daleko premašuje normu.

Evo digitalnih podataka o prednostima prvog dijela posta. Grafikon prikazuje broj pluseva za jednostruke, dvostruke i trostruke pozicije u ukupnom broju datih ocjena. Kao što je ranije spomenuto, interval mjerenja je 10 minuta.

O neobičnostima habrostatistike

Od 30 uboda u 84 ćelije, dvije ćelije su probodene tri puta. Pa, ne znam koliko ovo odgovara teoriji vjerovatnoće...

Podaci za drugi dio posta (s obzirom da je period mjerenja duži, skraćujem ga prema trajanju prvog dijela, radi uporedivosti):

O neobičnostima habrostatistike

Inače, ovdje je jedan od pojedinačnih pluseva vremenski susjedni sa utrostručenim, odnosno za nekih 20 minuta došlo je do porasta pluseva (29% njihovog ukupnog broja su plusevi). A to se nije dogodilo u prvim minutama objavljivanja.

Odnos između jednostrukih, dvostrukih i trostrukih pozicija je približno isti kao u prvom dijelu. A smanjenje udjela ocjena u mjerenjima objašnjava se činjenicom da su ocjene davane rjeđe. Mjerenja su izvršena, ali prednosti nisu zabilježene.

Ne mogu nikako da objasnim ovaj blok plus efekat, odnosno nikako. Što se tiče nedostataka, takvo „blokirano“ ponašanje ne izgleda tipično.

Da li emiteri dobrote šalju prijedloge u serijama, uključuju li se i gase? hehehehe...

PS
Ako neko želi analizirati statistiku objava koristeći naprednije metode ili provjeriti aritmetiku, datoteke sa izvornim podacima su ovdje:
yadi.sk/d/iN4SL6tzsGEQxw

Ne insistiram na svojim sumnjama - možda sam u krivu, pogotovo što je statistika sumorna. Nadam se da će komentari profesionalnih statističara, psihologa i drugih zainteresiranih korisnika razjasniti zabunu koja je nastala.

Hvala na pažnji.

izvor: www.habr.com

Dodajte komentar