城市沉睡,哈布罗夫斯克居民苏醒

如果一篇文章的评论数迅速接近1000条,请放心,无论作者提出的主题是什么,内部都在激烈争吵:政治热点,所有问题都被纸上谈兵的专家包围,头像远程诊断精神疾病和绰号,受到个人的、讽刺性的攻击,其腐蚀性超过了异形的血液,当然,在这种情况下,必做的一道菜是相互指责你的对手只是为了报酬或出于职责而与你讨论。 这显然是危险而困难的,乍一看似乎不可见,三十块银子也没有躺在路上。

这种情况的有趣之处在于深受这种综合症影响的人 网上有人错了,常常花费大量的时间和精力 完全免费 向另一个同样惊讶的人证明他正在做完全相同的事情 金钱或订单。 您在这里寻找逻辑吗? 她走了。 这是互联网,宝贝。

让我们采取其中之一 比较新鲜的狗屎 关于 Gitlab 上涉嫌领土歧视的问题。 文章发表已经过去4天了,当然,讨论早已远离了最初提出的话题。 以下短语听起来:

一个真实的人无法在订阅上反对任何专业评论员......

用户(某某)在评论上花费了不切实际的时间......
此外,其活动不具有普通用户通常特有的模式。...

PS但这给了我为这样的评论者编写一个解析器分析器的想法)按小时指示活动、每天、每周的时间量等......这是一篇文章的好主题)

好吧,停下来。 什么样的模式“通常是普通用户固有的”? 不幸的是,该帖子中这句话的作者已经被转录,所以你必须随机去。

我想向你们清晰的眼睛提出的问题如下:使用统计方法是否有可能至少可靠地识别这些相同的模式,从而创建一个区分休闲评论员和专业评论员的正式分类器? 想象一下 - “根据 Habra-botometer,你有 76% 的可能性是克里姆林宫机器人。” 这比彼此之间的业力袭击要酷得多。
不幸的是,我的能力不足以建议深入研究哪个方向来解决这样的问题。 然而,昨晚我破解了一个小型的原始解析器,它(幸运的是,带有评论的页面甚至对未经授权的访问者开放)到目前为止做了两件事 - a)从给定用户名收集他所有评论的统计数据(现在只是时间戳) ) 并将其添加到 MySQL 数据库; b) 绘制一个时间图,在其上标记从该数据库获取的评论发送事件。 即使没有任何复杂的分析,结果也很有趣。 这就是我的评论图表的样子。 解释如下。 最好在单独的窗口中以 100% 或更大的比例查看。

城市沉睡,哈布罗夫斯克居民苏醒

横轴是时间,每个像素等于一分钟,灰度分区的值等于一小时,整条水平线等于一天。 天数沿着纵轴从下到上,其分度值是365天。

我的图表中没有什么特别有趣的地方。 可以看出,我喜欢睡7-8小时,经常在午夜后睡觉,有时还会进行长达数小时的评论马拉松,并且过去一年的活动大于或约等于过去五年。
或者这里有一个同志 格立方 我守住了三年半的沉默誓言,然后它打破了……

城市沉睡,哈布罗夫斯克居民苏醒

典型的 Habra 评论员的活动图看起来像这样(这是 QtRoS)

城市沉睡,哈布罗夫斯克居民苏醒

欧洲夜晚某处左侧明显的“昏昏欲睡的山谷”,白天悠闲的评论,也许有半年的休息时间。

但并非所有图表都那么无聊! 举个例子,这个怎么样:

城市沉睡,哈布罗夫斯克居民苏醒

在短短两年多的时间里,我们的同事显然重新训练了他的生物节律,从欧洲之夜开始在大西洋中脊下的某个地方均匀而逐渐地入睡,然后又花了两年时间返回葡萄牙海岸。 你走路了吗? 游泳? 我想不出合理的解释……在清醒的前三个小时里,评论像机关枪一样飞来飞去,但到了一天结束的时候,情况就是这样,我每小时都会查看一次,看看发生了什么就在那里,就是这样。

顺便说一句,这是 0xd34df00d.

这是另一个谜语:

城市沉睡,哈布罗夫斯克居民苏醒

这位同事在四年半的时间里没有发表任何评论——从“昏昏欲睡的山谷”中发布的评论数量来看,他显然正在秘密修道院的某个地方接受如何连续几天保持清醒的训练。

但这里最有趣的是第16个小时的异常,这种异常持续了三年多,在去年逐渐消失。 休息一下去吸烟? 遛狗? 跑步? 还有什么能让哈布罗夫居民在工作日中远离评论,每天都有这样的预定呢? 我是一个邋遢又懒惰的人,我无法想象受人尊敬的那种自律 .

最后,最后一张需要思考的图表:

城市沉睡,哈布罗夫斯克居民苏醒

根本没有明确定义的“昏昏欲睡的山谷”。 只有人才能勉强看出中午之后发送的评论数量明显多于中午之前发送的评论数量。

我以共青团的严谨态度敦促尊敬的人们 甲基酪氨酸 在聚会面前解除自己的武装,诚实地承认有多少祖父母、孙女、虫子和老鼠统治着你的账户并写下评论。

最后,一个阴险的问题 - 有人可能对这一切如此感兴趣,以至于他们想要开发解析器代码或获取数据库转储或访问它,等等? 我自己对数据挖掘和数据可视化方法的了解很难超出一般知识。 我几乎想不出还有什么比这些简单的图表更聪明、更有趣的了。 如果有人感兴趣,请通过电报给我写信(个人资料中的昵称)。

谢谢你!

UPD。 发布了 GitHub 上的资源.

来源: habr.com

添加评论