Babagan oddities saka habrostatistics

Aku wis ngeweruhi prilaku aneh ing ratings sadurunge, nanging bubar strangeness wis dadi ketok banget. Lan aku mutusake kanggo neliti masalah kasebut nggunakake metode ilmiah sing kasedhiya kanggo aku, yaiku: kanggo nganalisa dinamika plus-minus. Apa sampeyan dumadakan mbayangno?

Aku isih programmer, nanging aku bisa nindakake iku banget dhasar. Dadi, aku menehi kode sarana prasaja sing ngumpulake statistik saka panel postingan Khabrov: pro, kontra, tampilan, tetenger, lsp.

Babagan oddities saka habrostatistics

Statistik kasebut ditampilake ing grafik, sawise sinau, kita bisa nemokake sawetara kejutan liyane, sing luwih cilik. Nanging dhisik dhisik.

Aneh 1.
Iki ngendi riset statistik saya bener diwiwiti.

Iku ketoke aneh kanggo kula ing jam pisanan sawise publikasi saka sawetara kiriman padha banget negatif, banjur pindhah menyang nul lan pungkasanipun entuk plus samesthine. Yagene kedadeyan kasebut?

Aku mung arep nerbitake kiriman liyane - ing rong bagean. Aku mutusaké kanggo tundhuk marang analisis statistik.

Diterbitake bagean pisanan. Ing wektu sing padha, aku miwiti sarana lan wiwit ngenteni asil. Sayange, ing wayah wengi - nalika aku turu - program mandheg ngumpulake informasi amarga ana bug. Esuke aku mbenerake kesalahan kasebut, nanging statistik kasebut kurang saka sedina. Nanging, tren uga ketok kanggo wektu kerja.

Data kasebut diwenehake sajrone 14 jam pisanan saka wayahe diterbitake, interval antarane pangukuran yaiku 10 menit.

Babagan oddities saka habrostatistics

Mripat ora ngapusi kita: umume minus kedadeyan ing jam pisanan saka eksistensi postingan. Wiwitane kiriman kasebut dadi wilayah negatif, banjur pulih. Iki nomer sing digunakake kanggo ngrancang grafik:

Babagan oddities saka habrostatistics

Lan iki senadyan kasunyatan sing views mundhak lancar!

Babagan oddities saka habrostatistics

Langkah-langkah sing diwiwiti saka angka sewu diterangake kanthi kasunyatan manawa singkatan diwiwiti ing panel Khabrov: ora ana ngendi wae kanggo entuk jumlah tampilan sing tepat (mbokmenawa bisa dijupuk saka layanan pihak katelu, nanging aku ora nggunakake. ).

Aku ora pakar ing statistik, nanging distribusi minus kuwi ora normal, minangka adoh aku ngerti?!

Deleng, tetenger disebarake luwih utawa kurang merata sajrone periode registrasi:

Babagan oddities saka habrostatistics

Komentar uga disebarake kanthi merata:

Babagan oddities saka habrostatistics

Ana bledosan aktivitas lan pasif, nanging uga disebarake sajrone periode kasebut: komentar bakal luntur utawa diterusake.

Padha karo pelanggan - ana kenaikan tipis sing seragam:

Babagan oddities saka habrostatistics

Karma ora owah sajrone wektu laporan - aku ora nyebutake. Lan rating diwilang dening Habr, ora ana gunane kanggo nyathet.

Kabeh pratondho owah-owahan ing proporsi kanggo jumlah views, lan mung karo minuses soko salah: outburst saka nesu ana ing jam pisanan saka wiwitan publikasi. Bab sing padha karo kirimanku sadurunge. Nanging yen sadurunge iki, supaya bisa ngomong, kesan pribadi, saiki wis dikonfirmasi kanthi registrasi.

Ing pendapatku sejatine noob, distribusi kasebut tegese: ana sawetara pangguna ing situs kasebut kanthi sengaja ndeleng kiriman sing diterbitake paling anyar lan nolak sawetara kiriman - adhedhasar kabutuhan sing mung dikenal. Aku nulis "sawetara kiriman" amarga aku weruh efek iki ora mung ing publikasi. Ing kabeh kasus, efek kasebut diucapake, yen ora, aku mung ora bakal menehi perhatian.

Aku duwe papat versi kenapa iki kedadeyan.

Versi 1. Penyimpangan mental. Wong lara sengaja ngawasi penulis sing ditemokake ora nyenengake lan nyuda dheweke, kanthi tujuan ngrusak dheweke.

Aku ora percaya karo versi iki.

Versi 2. Efek psikologis. Kang siji - Aku ora ngerti. Lha, kenapa para pamaca luwih dhisik nolak kiriman kasebut, banjur ora kalah karo suarane? Apa padha minus minangka non-tematik, nanging plus sawise connoisseurs saka kaendahan nemokake piyambak ing mayoritas? Aku ora ngerti.

Yen ana psikolog ing antarane sing maca, ayo padha ngomong.

Versi 3. Para abdine padha tumindak. Yagene pimpinane kudu nyebar busuk ing kiriman Khabrov? Gusti Allah ngerti. Nanging, ana prajurit ora mung ing negara kita. Sapa sing bakal ngerti, Russophobes?!

Versi 4. Efek gabungan saka faktor sing kasebut sadurunge.

Cukup mbayangno.

Apa wae, minusers bisa nyuda jumlah tampilan. Aku ora kenal karo aturan kanggo nggawa kiriman Khabrov menyang ndhuwur, aku malah ora ngerti apa algoritma iki wis digawe umum utawa ora, nanging iku ketok kanggo kula: minus awal ora ngidini kiriman ostracized kanggo tekan ndhuwur - liyane sabenere, iku telat njaluk ana, kang siji Ngartekno, ing kaping, nyuda nomer views.

Satemene aku ngerti, ora ana cara sing efektif kanggo nglawan piala iki. Cara mung kanggo milih pribadi. Mung ing kasus iki sampeyan bisa nemtokake profil sing dilacak kanthi periodik lan ngilangi kiriman paling anyar. Nanging, ora ana voting pribadi ing Habré (utawa, ora digawe umum).

Nanging ora kabeh dadi prasaja.

Kaya sing dakkandhakake, materi sing dibedakake diterbitake ing bagean. Sawise publikasi bagean kapindho, aku ngarepake gambar sing padha: kanthi output awal ing minus lan sabanjure ing plus. Nanging, efek kasebut dadi luwih lancar: kiriman kasebut ora dadi minus.

Nalika bagean kapindho diterbitake, bug wis didandani, mula data kasebut diwenehake saben dina:

Babagan oddities saka habrostatistics

Aku ora ngerti saka ngendi smoothing kasebut. Mungkin amarga diterbitake dina Sabtu (downvotes ora bisa digunakake ing dina Setu?) utawa amarga iki pungkasane materi sing diterbitake sadurunge.

Nanging, distribusi minus isih ora rata: kabeh minus dumadi ing separo pisanan periode registrasi, lan minus rampung luwih awal tinimbang plus. Ing wektu sing padha, tampilan disebarake sajrone periode persis kaya pungkasan - kanthi rata:

Babagan oddities saka habrostatistics

Lonjakan sing kedadeyan watara jam telu sore ora diklasifikasikake materi. Internetku mati sak jam. Utilitas ora bisa nyambung menyang situs kasebut.

Babagan oddities saka habrostatistics

Kabeh liyane wis standar.

Tetenger:

Babagan oddities saka habrostatistics

Komentar: kaya wektu pungkasan, wektu aktivitas diganti karo wektu sepi.

Babagan oddities saka habrostatistics

Karma. Tambah sawetara unit dicathet - mesthi, ora bebarengan:

Babagan oddities saka habrostatistics

Lan langganan. Jumlah total tetep ora owah (ketoke, sing kasengsem ndhaptar nalika bagean pisanan diterbitake). Kira-kira jam siji awan ana owah-owahan siji-sijine: ana sing unsubscribe - mbok menawa salah - nanging langsung mlebu maneh. Yen wong liya, ganti rugi: jumlah total pelanggan ora owah.

Babagan oddities saka habrostatistics

Dadi, metrik kirim tumindak kanthi cara sing jelas lan bisa ditebak. Kabeh pratondho, kajaba minuses. Awit aku ora weruh alesan ketok iki, Aku golek minus puncak paling aneh.

Aneh 2.
Kadhangkala jumlah tampilan suda (sing mesthine ora mungkin), nanging rauh bali menyang normal.

Aku nglacak kanthi ora sengaja, nalika debugging program kasebut, nalika fungsi ekspor-impor durung dipasang, mula zigzag sing cocog ora ana ing grafik. Sampeyan bisa njupuk tembungku - efek iki diamati kaping pindho. Sawetara ewu views, dumadakan jumlah views sudo dening sawetara atus, sawise 10-20 menit dibalèkaké menyang tingkat sadurungé (tanpa njupuk menyang akun Tambah alam).

Iki cukup prasaja: bug ing situs kasebut. Lan ora ana sing kudu dipikirake.

Aneh 3.
Iki sing dakkarepake luwih aneh tinimbang efek kaloro pisanan lan teknis. Plus ora kedadeyan kanthi tunggal, kanthi distribusi seragam sajrone periode kasebut, nanging ing blok. Nanging nambah ora komentar, nalika pitakonan wis alamiah ngiring dening jawaban, lagi tumindak individu!

Deleng kanthi cetha ing grafik asil sing diterbitake ing ndhuwur: pamblokiran kasebut katon.

Wong sing ngerti nodded kanggo kula babagan distribusi Poisson, nanging aku ora bisa ngetung kemungkinan ing dhewe. Yen sampeyan bisa, nggawe matematika. Iku wis ketok kanggo kula sing nomer pindho pluss adoh ngluwihi pakewuh.

Mangkene data digital babagan kaluwihan bagean pisanan kiriman kasebut. Grafik nuduhake jumlah plus kanggo siji, pindho lan telung posisi ing jumlah total ratings diwenehi. Kaya sing wis kasebut sadurunge, interval pangukuran yaiku 10 menit.

Babagan oddities saka habrostatistics

Saka 30 pokes ing 84 sel, loro sel wis pokes kaping telu. Ya, aku ora ngerti sepira cocog karo teori probabilitas ...

Data kanggo bagean kapindho kiriman (amarga periode pangukuran luwih suwe, aku nyepetake miturut durasi bagean pisanan, kanggo komparasi):

Babagan oddities saka habrostatistics

Miturut cara, ing kene salah siji saka plus siji jejer ing wektu kanggo kaping telu, yaiku, ing sawetara 20 menit ana mundhak ing pluses (29% saka jumlah total padha pluses). Lan iki ora kedadeyan ing menit pisanan publikasi.

Hubungan antarane posisi siji, pindho lan telung kira-kira padha karo bagean pisanan. Lan pangurangan ing bagean ratings ing pangukuran diterangake dening kasunyatan sing ratings diwenehi kurang kerep. Pangukuran dijupuk, nanging ora ana kaluwihan sing kacathet.

Aku ora bisa nerangake pamblokiran iki plus efek ing sembarang cara, sing, ora ing kabeh. Kanggo cons, prilaku "blocky" kuwi ora koyone khas.

Apa pemancar kabecikan ngirim saran ing batch, nguripake lan mateni? Hehehehe...

PS
Yen ana sing pengin nganalisa statistik kiriman nggunakake metode sing luwih maju utawa mriksa aritmetika, file kanthi data sumber ana ing kene:
yadi.sk/d/iN4SL6tzsGEQxw

Aku ora negesake keraguanku - mbok menawa aku salah, utamane amarga statistike surem. Muga-muga komentar saka ahli statistik profesional, psikolog lan pangguna liyane sing kasengsem bakal njlentrehake kebingungan sing wis ana.

Matur nuwun kanggo manungsa waé.

Source: www.habr.com

Add a comment