ハブロ統計の奇妙さについて

以前から評価の奇妙な動作に気づいていましたが、最近ではその奇妙さがあまりにも明らかになってきました。そして私は、利用可能な科学的手法、つまりプラスとマイナスの力関係を分析して、この問題を調査することにしました。突然想像しましたか?

私はまだプログラマーですが、非常に基本的なことはできます。そこで私は、ハブロフ投稿のパネルから賛否両論、閲覧数、ブックマークなどの統計を収集する簡単なユーティリティをコーディングしました。

ハブロ統計の奇妙さについて

統計はグラフで表示されます。調査後、さらにいくつかの小さな驚きを発見することができました。しかし、まず最初に。

不思議さ1.
ここから私の統計研究が実際に始まりました。

私の投稿の一部が公開されてから最初の数時間で、投稿が急激にマイナスになり、その後ゼロになり、最終的には予想通りのプラスを獲得したのは、私には奇妙に思えました。なぜそうなったのでしょうか?

ちょうど別の投稿を 2 部構成で公開しようとしていました。私は彼を統計分析にかけることにしました。

前編を公開しました。同時にユーティリティを起動し、結果を待ち始めました。残念ながら、夜、私が寝ている間に、プログラムはバグのため情報の収集を停止しました。翌朝、エラーを修正しましたが、統計は 1 日未満のものであることが判明しました。ただし、作業時間に関しても傾向は明らかです。

データは公開の瞬間から最初の 14 時間について提供され、測定間隔は 10 分です。

ハブロ統計の奇妙さについて

目は私たちを欺きませんでした。マイナスのほとんどは、投稿が存在してから最初の1時間に発生します。最初、投稿はマイナス領域に落ちましたが、その後回復しました。グラフのプロットに使用される数値は次のとおりです。

ハブロ統計の奇妙さについて

順調に再生回数が増えているにもかかわらず、これ!

ハブロ統計の奇妙さについて

1000分の1の値から始まるステップは、略語がハブロフパネルで始まるという事実によって説明されます。正確な再生数を取得する場所はありません(おそらくサードパーティのサービスから取得した可能性がありますが、私はそれらを使用しませんでした) )。

私は統計の専門家ではありませんが、私の知る限り、このようなマイナスの分布は異常ではないでしょうか?

ブックマークは、登録期間全体にわたってほぼ均等に分散されていることがわかります。

ハブロ統計の奇妙さについて

コメントも均等に分散されます。

ハブロ統計の奇妙さについて

活動性と受動性のバーストがありますが、それらも期間にわたって分布しており、コメントは消えたり再開したりします。

購読者についても同様で、一様にわずかな増加が見られます。

ハブロ統計の奇妙さについて

カルマは報告期間中に変化しませんでした - 私はそれを引用していません。そして、評価はHabrによって計算され、それをリストする意味はありません。

すべての指標は閲覧数に比例して変化しますが、マイナスの場合のみ何かが間違っています。怒りの爆発は公開開始から最初の1時間で発生します。以前の投稿でも同じことが起こりました。しかし、以前はこれらがいわば個人的な印象だったとしても、今では登録によって確認されるようになりました。

私の純粋な初心者の意見では、そのような配布は、サイト上に、彼らだけが知っているニーズに基づいて、最新の公開された投稿を意図的に表示し、一部の投稿に反対票を投じるユーザーが数人いるということを意味します。私が「投稿の一部」を書いているのは、自分の出版物だけでなく、この効果に気づいたからです。すべての場合において、その効果は顕著ですが、そうでなければ私はそれに注意を払わなかったでしょう。

これが起こる理由については 4 つのバージョンがあります。

1バージョン 精神的倒錯。病人は、不快だと思う著者を故意に監視し、彼らに害を与えることを目的として低評価を与えます。

私はこのバージョンを信じません。

2バージョン 心理的影響。どれか - わかりません。では、なぜ読者は最初にその投稿を一斉に否定し、その後も同じく満場一致で賛成するのでしょうか?それらは主題ではないのでマイナスですが、美の愛好家が自分たちが多数派であることに気づいた後はプラスですか?私は知らない。

読者の中に心理学者がいる場合は、彼らに発言してもらいましょう。

3バージョン 使用人が演技をしています。なぜ彼らの上司たちはハブロフ氏のポストに腐敗を広めなければならないのか?それは神のみぞ知るだ。しかし、軍人は我が国だけではありません。誰が彼らを理解できるだろうか、ロシア嫌いよ?

4バージョン 前述の要因の複合的な影響。

十分に想像できます。

それはともかく、マイナス派はなんとか視聴数を減らしている。私はハブロフの投稿をトップに上げるためのルールに詳しくなく、これらのアルゴリズムが公開されているかどうかさえ知りませんが、それは明らかです。早期にマイナスにすると、追放された投稿がトップに到達することはできません。より正確に言うと、そこに到達するのが遅れ、その結果、場合によっては閲覧数が大幅に減少します。

私の理解する限り、この悪と戦う効果的な方法はありません。唯一の方法は個人投票です。この場合のみ、どのプロファイルが定期的に追跡され、最新の投稿が除外されているかを確認できます。ただし、ハブレ氏に対する個人投票はない(というか公表されていない)。

しかし、すべてがそれほど単純なわけではありません。

先ほども言ったように、解剖された資料は部分的に出版されました。第 2 部の出版後、私は同様の図、つまり最初の出力がマイナスで、その後の出力がプラスになることを期待していました。しかし、その効果ははるかに滑らかであることが判明しました。投稿はマイナスにはなりませんでした。

2 番目のパートが公開されるまでにバグは修正されていたため、データは 1 日ごとに表示されます。

ハブロ統計の奇妙さについて

平滑化がどこから来たのかわかりません。おそらく、土曜日に公開されたため (反対票は土曜日には機能しませんか?)、または以前に公開された内容がこれで終了したためでしょう。

ただし、マイナスの分布は依然として不均一です。すべてのマイナスは登録期間の前半に発生し、マイナスはプラスよりもはるかに早く終了します。同時に、ビューは前回とまったく同じ期間にわたって均等に分散されます。

ハブロ統計の奇妙さについて

午後3時ごろに起きたスパイクは機密扱いではない。インターネットが 1 時間停止しました。ユーティリティはサイトに接続できませんでした。

ハブロ統計の奇妙さについて

それ以外は完全に標準です。

ブックマーク:

ハブロ統計の奇妙さについて

コメント: 前回と同様に、活動期間と沈黙期間が交互に行われます。

ハブロ統計の奇妙さについて

カルマ。数単位の増加が記録されましたが、もちろん同時ではありません。

ハブロ統計の奇妙さについて

そして購読者。総数は変わりませんでした(どうやら、最初の部分が公開されたときに興味のある人が登録したようです)。ちょうど午後 1 時頃、変動が 1 つありました。誰かがおそらく誤って登録を解除しましたが、すぐに再度登録しました。別の人であれば補償が発生しますが、加入者の総数は変わりません。

ハブロ統計の奇妙さについて

したがって、ポストメトリクスは明確かつ予測可能な方法で動作します。マイナスを除くすべての指標。これについて明確な理由は見当たりませんが、マイナスのピークは少なくとも奇妙だと思います。

不思議さ1.
時々、閲覧数が減少することがありますが(もちろん、それは不可能です)、すぐに通常に戻ります。

エクスポート/インポート機能がまだアタッチされていないときに、プログラムのデバッグ中に誤って追跡したため、対応するジグザグがグラフ上で欠落しています。私の言葉をそのまま信じていただいても構いません。この効果は 10 回観察されました。数千回の再生回数が発生すると、突然再生回数が数百回減少し、20 ~ XNUMX 分後には元のレベルに戻ります (自然増加は考慮しません)。

これは非常に単純です。サイトのバグです。そして、考えることは何もありません。

不思議さ1.
これは私にとって、自発的な第一効果や技術的な第二効果よりもはるかに奇妙に思えました。プラスは単独で発生するのではなく、期間全体にわたって均一に分布し、ブロックで発生します。しかし、追加することはコメントではありません。質問の後に自然に答えが続く場合、それは個人的な行為です。

上で公開された結果グラフをよく見てください。ブロックが目立ちます。

知識のある人はポアソン分布についてうなずいてくれましたが、私は自分で確率を計算することができません。できるなら、計算してみてください。ダブルプラスの数が標準をはるかに超えていることはすでに明らかです。

投稿の最初の部分の利点に関するデジタルデータは次のとおりです。グラフは、与えられた評価の総数におけるシングル、ダブル、トリプルのポジションのプラスの数を示しています。前述したように、測定間隔は 10 分です。

ハブロ統計の奇妙さについて

30 個のセルの 84 回のポークのうち、XNUMX つのセルが XNUMX 回ポークされました。まあ、これがどこまで確率論に当てはまるかは分かりませんが…

投稿の 2 番目の部分のデータ (測定期間が長いため、比較しやすくするために、最初の部分の長さに応じて短縮しています):

ハブロ統計の奇妙さについて

ちなみに、ここでは単一のプラスの20つが29倍のプラスに時間的に隣接しています。つまり、約XNUMX分間でプラスが急増しました(合計数のXNUMX%がプラスでした)。そして、これは出版の最初の数分間には起こりませんでした。

シングル、ダブル、トリプルの位置の関係は、最初の部分とほぼ同じです。そして、測定に占める評価の割合の減少は、評価が与えられる頻度が減少したという事実によって説明されます。測定は行われましたが、利点は記録されませんでした。

このブロックプラス効果を私はまったく説明できません。つまり、まったく説明できません。短所としては、そのような「ブロック状の」動作は一般的ではないようです。

善の発信者は提案を一括で送信し、オンまたはオフにしますか?ふふふ…

PS
より高度な方法を使用して投稿統計を分析したい場合、または演算を確認したい場合は、ソース データを含むファイルがここにあります。
yadi.sk/d/iN4SL6tzsGEQxw

私は自分の疑念を主張しません。特に統計が暗いので、おそらく私は間違っています。専門の統計学者、心理学者、その他の関心のあるユーザーからのコメントによって、生じた混乱が明確になることを願っています。

ご清聴ありがとうございました。

出所: habr.com

コメントを追加します