記事のコメント数が急速に 1000 件に近づいている場合は、著者が述べたテーマに関係なく、内部では争いが激化していることをご安心ください。政治の発火点、あらゆる問題について安楽椅子の専門家に囲まれ、アバターによる遠隔での精神医学の診断などです。そして、あだ名をつけられたり、個人的で皮肉な攻撃を受けたり、その辛さはゼノモーフの血のそれを超えています。そしてもちろん、そのような場合に必ずやるべきことは、相手が単に報酬のためか職務外であなたと話し合っているという相互非難です。これは明らかに危険で困難であり、一見すると見えないようで、XNUMX枚の銀貨が道路に横たわっていません。
この状況の面白いところは、
どれか一つを取ってみましょう
生身の人間は、定期購読のプロのコメンテーターに何も反対できないでしょう...
ユーザー(誰々)がコメントに非現実的な時間を費やしています...
さらに、そのアクティビティには、通常のユーザーに特有のパターンがありません。...ps、しかしこれは私にそのようなコメンテーター向けのパーサーアナライザーを書くというアイデアを与えてくれました)時間ごとのアクティビティの表示、1日あたり、1週間あたりの時間など...記事に適したトピックです)
わかった、やめて。 「平均的なユーザーに通常固有」とはどのようなパターンですか?残念ながら、そのスレッドのこのフレーズの作者はすでに転写されているため、ランダムに行う必要があります。
私が皆さんの澄んだ目の前に提示したいのは、次のような質問です。統計的手法を使用して、これらの同じパターンを少なくとも確実に識別し、カジュアルなコメンテーターとプロのコメンテーターを区別する正式な分類子を作成することは可能でしょうか?想像してみてください - 「ハブラボトメーターによると、あなたはクレムリンボットである可能性が 76% です。」これは、お互いにカルマを襲撃するよりもはるかにクールです。
残念ながら、私の能力では、そのような問題を解決するためにどの方向に掘り下げるべきかを提案することさえできません。しかし、昨夜、私は小さな原始的なパーサーをハッキングしました。これは(幸いなことに、コメントのあるページは権限のない訪問者にも公開されています)これまでのところ 100 つのことを実行します - a) 指定されたユーザー名からすべてのコメントの統計を収集します(今のところはタイムスタンプだけです) ) そしてそれを MySQL データベースに追加します。 b) 時間図を描き、このデータベースから取得したコメント送信のイベントをその上にマークします。高度な分析を行わなくても、非常に面白いことがわかりました。私のコメントチャートはこんな感じです。説明は以下の通りです。別のウィンドウで XNUMX% 以上の倍率で表示するのが最適です。
横軸は時間で、各ピクセルは 365 分に相当し、灰色の区分の値は XNUMX 時間に相当し、水平線全体は XNUMX 日に相当します。日数は縦軸に沿って下から上に進み、その分割値は XNUMX 日です。
私の図には特に興味深いものはありません。私は 7 ~ 8 時間の睡眠を好み、深夜過ぎに就寝することが多く、時には数時間のコメントマラソンを行うこともあり、過去 XNUMX 年間の活動量は過去 XNUMX 年間の活動量以上であるか、ほぼ同等であることがわかります。 。
それともここに同志がいます
典型的なハブラコメンテーターのアクティビティ図は次のようになります (これは
ヨーロッパの夜のどこかの左側にはっきりとした「眠そうな空洞」があり、日中はおそらく半年ほど休憩しながらゆっくりと解説します。
しかし、すべての図がそれほど退屈なわけではありません。たとえば、次のような場合はどうでしょうか。
私たちの同僚は、わずか 2 年余りで、大西洋中央海嶺の下のどこかでヨーロッパの夜から均等に徐々に眠るように生体リズムを再訓練し、その後ポルトガルの海岸に戻るまでさらに 2 年を費やしたようです。歩きましたか?泳ぐ?納得のいく説明が思いつかない…起きてから最初の3時間は、コメントが機関銃のように飛び交うが、結局はそんな感じで、1時間に1回は何が起こっているのかを確認することになるそこにあり、それだけです。
ちなみにそうでした
そして、ここにもう一つの謎があります。
この同僚は、4年半もの間、一言もコメントを付けなかった。「スリーピー・ホロウ」に投稿されたコメントの数から判断すると、どうやら彼は秘密の修道院のどこかで、数日間起きていられる方法を訓練していたようだ。
しかし、ここで最も興味深いのは、16 時間目の異常です。この異常は XNUMX 年以上続き、昨年には徐々に消えていきました。煙休憩?犬を連れて散歩をしている?ジョギング?これほど毎日予定を決めて勤務している日中に、ハブロフの住民をコメントフィードから引き離すものは他に何でしょうか?私はずぼらで怠け者なので、尊敬されるような自制心を想像することもできません。
最後に、考えるべき最後の図を 1 つ挙げます。
そこには明確に定義された「眠い空洞」はまったくありません。正午以降に送信されたコメントの数が、それ以前に送信されたコメントよりも明らかに多くなっているのをかろうじて認識できる人だけがいます。
コムソモールの厳格さを尽くして、私は尊敬される人々に強く訴えます。
そして最後に、陰湿な質問です。パーサー コードを開発したり、データベース ダンプを取得したり、それにアクセスしたりするほど、このすべてに興味を持つ人がいるでしょうか?データ マイニングとデータ視覚化手法に関する私自身の知識は、一般的な知識を超えることはほとんどありません。これらの単純な図よりもスマートで興味深いものはほとんど思いつきません。興味のある方がいらっしゃいましたら、電報(プロフィールにニックネーム)でご連絡ください。
ありがとうございました!
更新。投稿しました
出所: habr.com