Kota tertidur, penduduk Khabrovsk terbangun

Jika jumlah komentar di bawah sebuah artikel dengan cepat mendekati 1000, yakinlah bahwa, terlepas dari topik yang dinyatakan penulis, pertempuran sengit sedang berkecamuk di dalamnya: sarang perselisihan politik yang dikelilingi oleh para ahli dadakan tentang segala hal, diagnosis psikiatrik dari jarak jauh, berdasarkan avatar dan nama panggilan, serangan pribadi, serangan sarkastik yang lebih pedas daripada darah xenomorph, dan, tentu saja, hidangan yang tak terhindarkan dalam kasus seperti itu—tuduhan timbal balik bahwa lawan bicara Anda hanya berdebat untuk kompensasi atau kewajiban. Yang, tampaknya, berbahaya dan sulit, dan pada pandangan pertama, tampak tak terlihat, dan tiga puluh keping perak tidak tergeletak begitu saja di jalan.

Hal yang paling lucu dari situasi ini adalah,bahwa orang-orang sangat terpengaruh oleh sindrom tersebut seseorang salah di internet, seringkali menghabiskan banyak sekali waktu dan tenaga untuk benar-benar gratis untuk membuktikan kepada orang lain yang sama-sama takjub bahwa dia melakukan hal yang persis sama. dengan uang atau berdasarkan pesananApakah kamu mencari logika di sini? Tidak ada logika sama sekali. Ini internet, kawan.

Mari kita ambil salah satunya perselisihan yang relatif baru tentang dugaan diskriminasi teritorial di Gitlab. Empat hari telah berlalu sejak artikel tersebut diterbitkan, dan tentu saja, diskusi telah lama menyimpang dari topik aslinya. Ungkapan-ungkapan seperti ini terdengar:

Orang biasa tidak bisa berbuat apa-apa melawan komentator profesional yang berlangganan...

Pengguna (nama pengguna) menghabiskan waktu yang tidak realistis untuk berkomentar...
Namun, aktivitasnya tidak memiliki pola yang biasanya melekat pada pengguna rata-rata....

P.S. Tapi ini memberi saya ide untuk menulis parser-analyzer untuk para komentator seperti itu) Dengan indikator aktivitas per jam, jumlah waktu per hari, per minggu, dll. Topik yang bagus untuk sebuah artikel)

Oke, tunggu. Apa pola-pola yang "biasanya melekat pada pengguna rata-rata" itu? Penulis frasa tersebut dalam utas itu sayangnya sudah dibius, jadi kita harus menebak.

Pertanyaan yang ingin saya ajukan kepada Anda adalah ini: apakah mungkin menggunakan metode statistik untuk mengidentifikasi pola-pola ini secara andal sehingga dapat menciptakan pengklasifikasi formal yang membedakan komentator biasa dari komentator profesional? Bayangkan: "Menurut Habr-botometer, ada kemungkinan 76% Anda adalah Kremlinbot." Itu akan jauh lebih ampuh daripada serangan karma satu sama lain.
Sayangnya, saya tidak cukup kompeten untuk sekadar menebak ke mana harus mencari solusi untuk masalah seperti itu. Namun, tadi malam saya membuat parser sederhana dan primitif, yang (untungnya, halaman komentar terbuka bahkan untuk pengunjung yang tidak berwenang) saat ini melakukan dua hal: a) mengumpulkan statistik untuk semua komentar dari nama pengguna tertentu (saat ini hanya stempel waktu) dan menyimpannya dalam basis data MySQL; b) menggambar diagram garis waktu, menandai peristiwa pengiriman komentar yang diambil dari basis data ini. Bahkan tanpa analisis yang rumit, hasilnya cukup lucu. Berikut tampilan diagram komentar saya. Penjelasannya ada di bawah. Sebaiknya dilihat di jendela terpisah dengan perbesaran 100% atau lebih tinggi.

Kota tertidur, penduduk Khabrovsk terbangun

Sumbu horizontal mewakili waktu; setiap piksel sama dengan satu menit, bagian abu-abu sama dengan satu jam, dan seluruh garis horizontal sama dengan satu hari. Hari-hari berurutan dari bawah ke atas sepanjang sumbu vertikal, di mana setiap bagian sama dengan 365 hari.

Tidak ada yang terlalu menarik dari grafik saya. Jelas bahwa saya suka tidur 7-8 jam, sering tidur setelah tengah malam, dan terkadang terlibat dalam maraton komentar selama berjam-jam. Aktivitas saya selama setahun terakhir lebih tinggi atau hampir sama dengan aktivitas saya selama lima tahun sebelumnya.
Atau ini dia seorang kawan gecube Aku menjaga sumpah untuk tetap diam selama tiga setengah tahun, dan kemudian semuanya terungkap...

Kota tertidur, penduduk Khabrovsk terbangun

Diagram aktivitas komentator Habra pada umumnya terlihat seperti ini (ini adalah QtRoS)

Kota tertidur, penduduk Khabrovsk terbangun

Sebuah "lembah sunyi" yang khas di sebelah kiri di suatu tempat di malam Eropa dan komentar santai selama jam siang, mungkin dengan jeda setengah tahun.

Namun, tidak semua diagram membosankan! Bagaimana dengan diagram yang ini:

Kota tertidur, penduduk Khabrovsk terbangun

Selama lebih dari dua tahun, kolega kami tampaknya melatih kembali bioritmenya untuk tidur dari malam Eropa ke suatu tempat di bawah Punggungan Atlantik Tengah, secara merata dan bertahap, dan kemudian menghabiskan dua tahun lagi untuk kembali ke pantai Portugal. Apakah dia berjalan kaki? Berenang? Saya tidak dapat memikirkan penjelasan yang masuk akal... Selama tiga jam pertama kehidupan terjaganya, komentar berdatangan seperti senapan mesin, dan menjelang akhir hari, hanya perlu mengecek sekali setiap jam untuk melihat apa yang terjadi dan selesai.

Ngomong-ngomong, ini 0xd34df00d.

Berikut teka-teki lainnya:

Kota tertidur, penduduk Khabrovsk terbangun

Rekan saya tidak memberikan komentar selama empat setengah tahun—dia pasti sedang berlatih di biara-biara rahasia agar bisa terjaga berhari-hari, dilihat dari banyaknya komentar yang diposting di "sleepy hollow."

Namun hal yang paling menarik di sini adalah anomali pada pukul 16:00, yang telah berlangsung selama lebih dari tiga tahun dan secara bertahap memudar selama setahun terakhir. Istirahat merokok? Jalan-jalan dengan anjing? Berlari? Apa lagi yang bisa mengalihkan pengguna Habr dari kolom komentar di tengah hari kerja dengan jadwal harian yang begitu terencana? Saya orang yang malas dan tidak disiplin, dan saya tidak bisa membayangkan disiplin diri seperti itu yang dimiliki oleh orang yang terhormat... khim.

Terakhir, satu diagram lagi yang perlu dipikirkan:

Kota tertidur, penduduk Khabrovsk terbangun

Tidak ada "sleepy hollow" yang jelas sama sekali. Hanya ada sedikit perbedaan jumlah komentar yang diposting setelah tengah hari dibandingkan dengan komentar yang diposting sebelumnya.

Dengan segala ketegasan Komsomol, saya menyerukan kepada yang terhormat MTyrz Lepaskan semua kedokmu di depan pesta dan akui dengan jujur ​​berapa banyak nenek, kakek, cucu perempuan, serangga, dan tikus yang menjalankan akunmu dan menulis komentar.

Dan terakhir, sebuah pertanyaan yang sulit: mungkinkah ada orang yang begitu tertarik dengan semua ini sehingga mereka ingin mengembangkan kode parser, atau mendapatkan dump basis data atau mengaksesnya, dan sebagainya? Pengetahuan saya sendiri tentang penambangan data dan metode visualisasi data hampir tidak melebihi pengetahuan umum. Saya sepertinya tidak akan mampu menghasilkan sesuatu yang lebih cerdas dan menarik daripada diagram sederhana ini. Jika ada yang tertarik, kirim pesan kepada saya di Telegram (nama di profil).

Terima kasih!

PEMBARUAN. Diposting. Kode sumber di GitHub.

Sumber: www.habr.com

Beli hosting yang andal untuk situs dengan perlindungan DDoS, server VPS VDS 🔥 Beli hosting website andal dengan perlindungan DDoS, server VPS VDS | ProHoster