Jika jumlah komentar di bawah sebuah artikel dengan cepat mendekati 1000, yakinlah bahwa terlepas dari topik yang dikemukakan oleh penulis, pertengkaran sedang berkecamuk di dalam: titik nyala politik, dikelilingi oleh para ahli di semua masalah, diagnosis psikiatris dari jarak jauh dengan avatar dan julukan, mendapatkan serangan pribadi dan sarkastik, yang tingkat pedasnya melebihi darah xenomorph, dan, tentu saja, hidangan wajib dalam kasus seperti itu adalah saling tuduh bahwa rekan Anda berdiskusi dengan Anda semata-mata untuk mendapatkan imbalan atau karena tugas. Yang tampaknya berbahaya dan sulit, dan pada pandangan pertama sepertinya tidak terlihat, dan tiga puluh keping perak tidak tergeletak di jalan.
Hal yang lucu tentang situasi ini adalah
Mari kita ambil salah satunya
Orang sungguhan tidak akan bisa menentang apa pun terhadap komentator profesional yang berlangganan...
Pengguna (anu) menghabiskan banyak waktu untuk berkomentar...
Apalagi aktivitasnya tidak memiliki pola yang biasanya menjadi ciri khas pengguna biasa....hal. tapi ini memberi saya ide untuk menulis parser-analyzer untuk komentator tersebut) Dengan indikasi aktivitas berdasarkan jam, jumlah waktu per hari, per minggu, dll... Topik yang bagus untuk artikel)
Oke, berhenti. Dan pola seperti apa yang “biasanya melekat pada rata-rata pengguna”? Sayangnya, penulis frasa di thread ini sudah ditranskripsikan, jadi Anda harus membacanya secara acak.
Pertanyaan yang ingin saya ajukan kepada Anda adalah sebagai berikut: apakah mungkin, dengan menggunakan metode statistik, untuk setidaknya mengidentifikasi pola-pola yang sama secara andal sehingga dapat menciptakan pengklasifikasi formal yang membedakan komentator biasa dan komentator profesional? Bayangkan - “menurut Habra-botometer, 76% kemungkinan Anda adalah Kremlinbot.” Ini akan jauh lebih keren daripada serangan karma satu sama lain.
Sayangnya, kompetensi saya tidak cukup untuk menyarankan arah mana yang harus saya gali untuk memecahkan masalah tersebut. Namun, tadi malam saya meretas parser primitif kecil, yang (untungnya halaman dengan komentar terbuka bahkan untuk pengunjung yang tidak berwenang) sejauh ini melakukan dua hal - a) mengumpulkan statistik dari nama pengguna tertentu dari semua komentarnya (untuk saat ini hanya stempel waktu ) dan menambahkannya ke database MySQL; b) menggambar diagram waktu, menandai peristiwa pengiriman komentar yang diambil dari database ini. Bahkan tanpa analisa yang canggih pun ternyata cukup lucu. Seperti inilah bagan komentar saya. Penjelasannya ada di bawah. Cara terbaik adalah melihatnya di jendela terpisah dengan skala 100% atau lebih.
Sumbu horizontal adalah waktu, setiap piksel sama dengan satu menit, nilai pembagian abu-abu sama dengan satu jam, seluruh garis horizontal sama dengan satu hari. Hari bergerak dari bawah ke atas sepanjang sumbu vertikal, nilai pembagiannya adalah 365 hari.
Tidak ada yang menarik dalam diagram saya. Terlihat saya suka tidur 7-8 jam, sering tidur setelah tengah malam, dan terkadang maraton berkomentar selama berjam-jam, dan aktivitas selama setahun terakhir lebih besar atau kurang lebih sama dengan aktivitas lima tahun sebelumnya. .
Atau ini kawan
Diagram aktivitas habracommentator pada umumnya terlihat seperti ini (ini
Sebuah “lubang mengantuk” yang berbeda di sebelah kiri di suatu tempat di malam Eropa dan komentar santai di siang hari, mungkin dengan jeda selama setengah tahun.
Namun tidak semua diagram membosankan! Bagaimana dengan ini, misalnya:
Hanya dalam waktu dua tahun, rekan kami tampaknya melatih kembali bioritmenya untuk tidur dari malam Eropa di suatu tempat di bawah Punggung Bukit Atlantik Tengah, secara merata dan bertahap, dan kemudian menghabiskan dua tahun lagi untuk kembali ke pantai Portugal. Apakah kamu berjalan? Berenang? Saya tidak dapat memberikan penjelasan yang masuk akal... Selama tiga jam pertama setelah terjaga, komentar-komentar terbang seperti senapan mesin, tetapi pada akhirnya seperti itu, setiap jam sekali saya melihat ke dalam untuk melihat apa yang terjadi. di sana dan hanya itu.
Ngomong-ngomong, itu benar
Dan inilah teka-teki lainnya:
Rekannya bertahan selama empat setengah tahun tanpa satu komentar pun - rupanya dia sedang berlatih di suatu tempat di biara rahasia tentang cara tetap terjaga selama berhari-hari, dilihat dari berapa banyak komentar yang diposting di “sleepy hollow.”
Namun yang paling menarik di sini adalah anomali pada jam ke-16 yang berlangsung selama lebih dari tiga tahun dan berangsur-angsur menghilang dalam setahun terakhir. Istirahat merokok? Berjalan-jalan dengan anjing? Joging? Apa lagi yang bisa membuat warga Khabrov menjauh dari feed komentar di tengah hari kerja dengan penentuan harian seperti itu? Saya orang yang jorok dan pemalas, saya tidak bisa membayangkan disiplin diri seperti apa yang disegani
Terakhir, satu diagram terakhir yang perlu dipikirkan:
Tidak ada “lubang mengantuk” yang jelas sama sekali. Hanya ada satu orang yang hampir tidak bisa membedakan kelebihan jumlah komentar yang dikirim setelah tengah hari dibandingkan yang dikirim sebelumnya.
Dengan segala ketelitian Komsomol saya menghimbau yang terhormat
Dan terakhir, sebuah pertanyaan berbahaya - dapatkah seseorang begitu tertarik dengan semua ini sehingga mereka ingin mengembangkan kode parser atau mendapatkan dump database atau akses ke sana, dan seterusnya? Pengetahuan saya tentang penambangan data dan metode visualisasi data hampir tidak melebihi pengetahuan umum. Saya hampir tidak bisa memikirkan sesuatu yang lebih cerdas dan menarik daripada diagram sederhana ini. Jika ada yang berminat, tulis ke saya di telegram (nama panggilan di profil).
Terima kasih!
UPD. Mempostingnya
Sumber: www.habr.com