城市沉睡,哈布羅夫斯克居民甦醒

如果一篇文章的評論數量迅速接近1000,請放心,無論作者提出什麼主題,內部都在激烈爭吵:政治熱點,所有問題都被紙上談兵的專家包圍,頭像遠程診斷精神疾病和綽號,受到個人的、諷刺性的攻擊,其腐蝕性超過了異形的血液,當然,在這種情況下,必做的一道菜是相互指責對方只是為了報酬或出於職責而與你討論。這顯然是危險而困難的,乍看之下似乎不可見,三十塊銀子也沒有躺在路上。

這種情況的有趣之處在於深受此症候群影響的人 網路上有人錯了,常常花費大量的時間和精力 完全免費 向另一個同樣驚訝的人證明他正在做完全相同的事情 金錢或訂單。您在這裡尋找邏輯嗎?她走了。這是互聯網,寶貝。

讓我們採取其中之一 比較新鮮的狗屎 關於 Gitlab 上涉嫌領土歧視的問題。文章發表已經過去4天了,當然,討論早已遠離了最初提出的話題。以下短語聽起來:

一個真實的人無法在訂閱上反對任何專業評論員...

使用者(某某)在評論上花了不切實際的時間...
此外,其活動不具有一般使用者通常特有的模式。...

附註但這給了我為這樣的評論者編寫一個解析器分析器的想法)按小時指示活動、每天、每週的時間量等......這是一篇很好的文章主題)

好吧,停下來。什麼樣的模式「通常是一般使用者固有的」?不幸的是,該帖子中這句話的作者已經被轉錄,所以你必須隨機去。

我想向你們清晰的眼睛提出的問題如下:使用統計方法是否有可能至少可靠地識別這些相同的模式,從而創建一個區分休閒評論員和專業評論員的正式分類器?想像一下 - “根據 Habra-botometer,你有 76% 的可能性是克里姆林宮機器人。”這比彼此之間的業力襲擊要酷得多。
不幸的是,我的能力不足以建議深入研究哪個方向來解決這樣的問題。然而,昨晚我破解了一個小型的原始解析器,它(幸運的是,帶有評論的頁面甚至對未經授權的訪問者開放)到目前為止做了兩件事- a)從給定用戶名收集他所有評論的統計數據(現在只是時間戳) )並將其添加到MySQL資料庫; b) 繪製一個時間圖,在其上標記從該資料庫取得的評論發送事件。即使沒有任何複雜的分析,結果也很有趣。這就是我的評論圖表的樣子。解釋如下。最好在單獨的視窗中以 100% 或更大的比例查看。

城市沉睡,哈布羅夫斯克居民甦醒

橫軸是時間,每個像素等於一分鐘,灰階分區的值等於一小時,整條水平線等於一天。天數沿著縱軸從下到上,其分度值為365天。

我的圖表中沒有什麼特別有趣的地方。可以看出,我喜歡睡7-8小時,經常在午夜後睡覺,有時還會進行長達數小時的評論馬拉松,並且過去一年的活動大於或約等於過去五年。
或者這裡有一個同志 格立方 我守住了三年半的沉默誓言,然後它打破了…

城市沉睡,哈布羅夫斯克居民甦醒

典型的 Habra 評論員的活動圖看起來像這樣(這是 QtRoS)

城市沉睡,哈布羅夫斯克居民甦醒

歐洲夜間某處左側明顯的“昏昏欲睡的山谷”,白天悠閒的評論,也許有半年的休息時間。

但並非所有圖表都那麼無聊!舉個例子,這個怎麼樣:

城市沉睡,哈布羅夫斯克居民甦醒

在短短兩年多的時間裡,我們的同事顯然重新訓練了他的生物節律,從歐洲之夜開始在大西洋中脊下的某個地方均勻而逐漸地入睡,然後又花了兩年時間返回葡萄牙海岸。你走路了嗎?游泳?我想不出合理的解釋……在清醒的前三個小時裡,評論像機關槍一樣飛來飛去,但到了一天結束的時候,情況就是這樣,我每小時都會查看一次,看看發生了什麼就在那裡,就是這樣。

順便說一句,這是 0xd34df00d.

這是另一個謎語:

城市沉睡,哈布羅夫斯克居民甦醒

這位同事在四年半的時間裡沒有發表任何評論——從“昏昏欲睡的山谷”中發布的評論數量來看,他顯然正在秘密修道院的某個地方接受如何連續幾天保持清醒的訓練。

但這裡最有趣的是第16小時的異常,這種異常持續了三年多,在去年逐漸消失。休息一下去抽菸?遛狗?跑步?還有什麼能讓哈布羅夫居民在工作日中遠離評論,每天都有這樣的預定呢?我是一個邋遢又懶惰的人,我無法想像受人尊敬的那種自律 .

最後,最後一張需要思考的圖表:

城市沉睡,哈布羅夫斯克居民甦醒

根本沒有明確定義的「昏昏欲睡的山谷」。只有人才能勉強看出中午後發送的評論數量明顯多於中午之前發送的評論數量。

我以共青團的嚴謹態度敦促尊敬的人們 甲基酪胺酸 在聚會面前解除自己的武裝,誠實地承認有多少祖父母、孫女、蟲子和老鼠統治著你的帳戶並寫下評論。

最後,一個陰險的問題 - 有人可能對這一切如此感興趣,以至於他們想要開發解析器程式碼或獲取資料庫轉儲或存取它,等等?我自己對資料探勘和資料視覺化方法的了解很難超越一般知識。我幾乎想不出還有什麼比這些簡單的圖表更聰明、更有趣的了。如果有人有興趣,請透過電報給我寫信(個人資料中的暱稱)。

謝謝你的關注!

UPD。發布了 GitHub 上的資源.

來源: www.habr.com

添加評論