Tentang keanehan habrostatistik

Saya telah melihat perilaku aneh dalam rating sebelumnya, tetapi baru-baru ini keanehan tersebut menjadi terlalu jelas. Dan saya memutuskan untuk menyelidiki masalah tersebut dengan menggunakan metode ilmiah yang saya miliki, yaitu: menganalisis dinamika plus-minus. Apakah Anda tiba-tiba membayangkan?

Saya masih seorang programmer, tapi saya bisa melakukan hal-hal yang sangat mendasar. Jadi saya membuat kode utilitas sederhana yang mengumpulkan statistik dari panel postingan Khabrov: pro, kontra, tampilan, bookmark, dll.

Tentang keanehan habrostatistik

Statistik ditampilkan dalam grafik, setelah mempelajarinya kami dapat menemukan beberapa kejutan lagi, yang lebih kecil. Tapi hal pertama yang pertama.

Keanehan 1.
Di sinilah sebenarnya penelitian statistik saya dimulai.

Rasanya aneh bagi saya bahwa pada jam-jam pertama setelah publikasi beberapa postingan saya, postingan saya menjadi negatif secara tajam, kemudian turun ke nol dan akhirnya mendapatkan nilai plus yang diharapkan. Kenapa ini terjadi?

Saya baru saja akan menerbitkan postingan lain - dalam dua bagian. Saya memutuskan untuk melakukan analisis statistik padanya.

Menerbitkan bagian pertama. Pada saat yang sama, saya meluncurkan utilitas dan mulai menunggu hasilnya. Sayangnya, pada malam hari - saat saya sedang tidur - program berhenti mengumpulkan informasi karena ada bug. Keesokan paginya saya memperbaiki kesalahan tersebut, tetapi statistiknya ternyata kurang dari sehari. Namun, trennya juga terlihat jelas pada jam kerja.

Data disediakan untuk 14 jam pertama sejak dipublikasikan, interval antar pengukuran adalah 10 menit.

Tentang keanehan habrostatistik

Mata tidak menipu kita: sebagian besar kerugian terjadi pada jam pertama keberadaan postingan. Awalnya postingan tersebut masuk ke teritori negatif, kemudian pulih kembali. Berikut angka-angka yang digunakan untuk memplot grafik:

Tentang keanehan habrostatistik

Dan ini terlepas dari kenyataan bahwa penayangan meningkat dengan lancar!

Tentang keanehan habrostatistik

Langkah-langkah yang dimulai dari nilai seperseribu dijelaskan oleh fakta bahwa singkatan dimulai di panel Khabrov: tidak ada tempat untuk mendapatkan jumlah pasti penayangan (mungkin bisa diambil dari layanan pihak ketiga, tetapi saya tidak menggunakannya ).

Saya bukan ahli dalam statistik, tetapi distribusi minus seperti itu tidak normal, sejauh yang saya mengerti?!

Lihat, bookmark didistribusikan kurang lebih merata selama periode pendaftaran:

Tentang keanehan habrostatistik

Komentar juga didistribusikan secara merata:

Tentang keanehan habrostatistik

Ada ledakan aktivitas dan kepasifan, namun hal tersebut juga tersebar selama periode tersebut: komentar akan memudar atau berlanjut.

Sama halnya dengan pelanggan – ada sedikit peningkatan yang seragam:

Tentang keanehan habrostatistik

Karma tidak berubah selama periode pelaporan - saya tidak mengutipnya. Dan ratingnya dihitung oleh Habr, tidak ada gunanya mencantumkannya.

Semua indikator berubah sebanding dengan jumlah penayangan, dan hanya minusnya yang salah: ledakan kemarahan terjadi pada jam pertama sejak dimulainya publikasi. Hal yang sama terjadi pada postingan saya sebelumnya. Namun jika sebelumnya hal ini bisa dikatakan merupakan kesan pribadi, kini hal tersebut dikonfirmasi melalui pendaftaran.

Menurut pendapat saya yang murni pemula, distribusi seperti itu berarti: ada beberapa pengguna di situs yang dengan sengaja melihat postingan terbaru yang diterbitkan dan memberi suara negatif pada beberapa postingan - berdasarkan kebutuhan yang hanya diketahui oleh mereka. Saya menulis β€œbeberapa postingan” karena saya melihat efek ini tidak hanya di publikasi saya. Dalam semua kasus, efeknya diucapkan, jika tidak, saya tidak akan memperhatikannya.

Saya memiliki empat versi mengapa hal ini terjadi.

Versi 1. Penyimpangan mental. Orang sakit dengan sengaja mengawasi penulis yang mereka anggap tidak menyenangkan dan meremehkannya, dengan tujuan merugikan mereka.

Saya tidak percaya dengan versi ini.

Versi 2. Efek psikologis. Yang mana - saya tidak tahu. Nah, mengapa pembaca pertama-tama dengan suara bulat menolak postingan tersebut, kemudian dengan suara bulat memberikan suara positifnya? Apakah mereka minus karena non-tematik, tapi plus setelah penikmat kecantikan menjadi mayoritas? Saya tidak tahu.

Jika ada psikolog di antara para pembaca, biarkan mereka berpendapat.

Versi 3. Para pelayan bertindak. Mengapa atasan mereka menyebarkan kebusukan pada postingan Khabrov? Namun, ada prajurit tidak hanya di negara kita. Siapa yang akan memahaminya, Russophobia?!

Versi 4. Efek gabungan dari faktor-faktor yang disebutkan sebelumnya.

Cukup bisa dibayangkan.

Meski begitu, para minus berhasil mengurangi jumlah penayangan. Saya tidak paham dengan aturan untuk membawa postingan Khabrov ke atas, saya bahkan tidak tahu apakah algoritme ini telah dipublikasikan atau tidak, tetapi jelas bagi saya: minus awal tidak memungkinkan postingan yang dikucilkan mencapai puncak - lebih tepatnya, hal ini menunda pencapaiannya, yang pada gilirannya secara signifikan mengurangi jumlah penayangan.

Sejauh yang saya pahami, tidak ada cara efektif untuk memerangi kejahatan ini. Satu-satunya cara adalah pemungutan suara pribadi. Hanya dalam hal ini Anda dapat menentukan profil mana yang dilacak secara berkala dan dikurangi postingan terbaru. Namun, tidak ada pemungutan suara pribadi di HabrΓ© (atau lebih tepatnya, tidak dipublikasikan).

Tetapi tidak semuanya begitu sederhana.

Seperti yang saya katakan, materi yang dibedah diterbitkan sebagian. Setelah penerbitan bagian kedua, saya mengharapkan gambaran serupa: dengan keluaran awal di minus dan keluaran berikutnya di plus. Namun, efeknya ternyata jauh lebih mulus: postingan tersebut tidak berubah menjadi minus.

Pada saat bagian kedua diterbitkan, bug telah diperbaiki, sehingga data yang diberikan per hari:

Tentang keanehan habrostatistik

Saya tidak tahu dari mana datangnya penghalusan itu. Mungkin karena diterbitkan pada hari Sabtu (downvote tidak berfungsi pada hari Sabtu?) atau karena ini adalah akhir dari materi yang diterbitkan sebelumnya.

Namun, sebaran minus masih belum merata: semua minus terjadi pada paruh pertama periode registrasi, dan minus berakhir jauh lebih awal dibandingkan plus. Pada saat yang sama, penayangan didistribusikan selama periode persis seperti terakhir kali - secara merata:

Tentang keanehan habrostatistik

Lonjakan yang terjadi sekitar pukul tiga sore itu bukan bersifat rahasia. Internet saya baru saja mati selama satu jam. Utilitas tidak dapat terhubung ke situs.

Tentang keanehan habrostatistik

Segala sesuatu yang lain sepenuhnya standar.

Bookmark:

Tentang keanehan habrostatistik

Komentar: seperti sebelumnya, periode aktivitas bergantian dengan periode hening.

Tentang keanehan habrostatistik

karma. Peningkatan beberapa unit tercatat - tentu saja, tidak secara bersamaan:

Tentang keanehan habrostatistik

Dan pelanggan. Jumlah totalnya tetap tidak berubah (tampaknya, mereka yang tertarik mendaftar ketika bagian pertama diterbitkan). Sekitar pukul satu siang terjadi satu fluktuasi: seseorang berhenti berlangganan - mungkin karena kesalahan - tetapi segera mendaftar lagi. Jika orangnya berbeda, kompensasi terjadi: jumlah pelanggan tidak berubah.

Tentang keanehan habrostatistik

Jadi, metrik postingan berperilaku jelas dan dapat diprediksi. Semua indikator, kecuali minusnya. Karena saya tidak melihat alasan yang jelas untuk hal ini, menurut saya puncak minus setidaknya aneh.

Keanehan 2.
Terkadang jumlah penayangan menurun (yang tentu saja tidak mungkin dilakukan), tetapi segera kembali normal.

Saya melacaknya secara tidak sengaja, saat men-debug program, ketika fungsi ekspor-impor belum terpasang, sehingga zigzag yang sesuai tidak ada pada grafik. Anda dapat mempercayai kata-kata saya - efek ini diamati dua kali. Beberapa ribu penayangan, tiba-tiba jumlah penayangan berkurang beberapa ratus, setelah 10-20 menit dikembalikan ke level sebelumnya (tidak termasuk peningkatan alami).

Ini cukup sederhana: bug di situs. Dan tidak ada yang perlu dipikirkan.

Keanehan 3.
Bagi saya, inilah yang tampak jauh lebih aneh daripada efek pertama yang bersifat sukarela dan kedua yang bersifat teknis. Keuntungan tidak terjadi secara tunggal, dengan distribusi yang seragam sepanjang periode, tetapi dalam blok-blok. Namun menambahkan bukanlah sebuah komentar, ketika sebuah pertanyaan secara alami diikuti oleh sebuah jawaban, itu adalah tindakan individu!

Perhatikan lebih dekat grafik hasil yang dipublikasikan di atas: bloknya terlihat jelas.

Orang-orang yang berpengetahuan mengangguk kepada saya tentang distribusi Poisson, tetapi saya tidak dapat menghitung probabilitasnya sendiri. Jika Anda mampu, hitunglah. Sudah jelas bagi saya bahwa jumlah nilai tambah ganda jauh melebihi norma.

Berikut data digital kelebihan postingan bagian pertama. Grafik menunjukkan jumlah plus untuk posisi tunggal, ganda, dan rangkap tiga dalam jumlah total peringkat yang diberikan. Seperti disebutkan sebelumnya, interval pengukuran adalah 10 menit.

Tentang keanehan habrostatistik

Dari 30 tusukan di 84 sel, dua sel ditusuk tiga kali. Yah, saya tidak tahu seberapa sesuainya ini dengan teori probabilitas...

Data postingan bagian kedua (karena periode pengukurannya lebih lama, saya persingkat sesuai durasi bagian pertama, untuk perbandingan):

Tentang keanehan habrostatistik

Omong-omong, di sini salah satu nilai tambah tunggal berdekatan dengan nilai tambah tiga kali lipat, yaitu, dalam waktu sekitar 20 menit terjadi lonjakan nilai tambah (29% dari jumlah totalnya adalah nilai plus). Dan ini tidak terjadi pada menit-menit pertama penerbitannya.

Hubungan antara posisi single, double dan triple kurang lebih sama dengan bagian pertama. Dan penurunan porsi penilaian dalam pengukuran dijelaskan oleh fakta bahwa penilaian lebih jarang diberikan. Pengukuran telah dilakukan, tetapi tidak ada keuntungan yang dicatat.

Saya tidak bisa menjelaskan efek blok plus ini dengan cara apa pun, yaitu tidak sama sekali. Sebaliknya, perilaku β€œkotak-kotak” seperti itu tampaknya tidak lazim.

Apakah para penghasil kebaikan mengirimkan saran secara berkelompok, menyala dan mematikan? Hehehehe...

PS
Jika ada yang ingin menganalisis statistik postingan menggunakan metode yang lebih canggih atau memeriksa aritmatika, file dengan data sumber ada di sini:
yadi.sk/d/iN4SL6tzsGEQxw

Saya tidak memaksakan keraguan saya - mungkin saya salah, terutama karena statistiknya suram. Saya berharap komentar dari ahli statistik profesional, psikolog, dan pengguna lain yang berkepentingan akan memperjelas kebingungan yang muncul.

Terima kasih atas perhatian Anda.

Sumber: www.habr.com

Tambah komentar