您是否想过有多少信息丢失得无影无踪?毕竟,Habr 存在的目的就是信息。您知道基于用户帖子的资源最常发生什么情况吗?作者插入了来自第三方网站的图像、图片和视频,一段时间后它们就不再可用。这就是它曾经创建的目的。
将图像加载到 Habrastorage 的整个方案中最大的问题出现在实施过程中。那时,一些旧出版物已经没有图了,所以就一直这样。今天我们将尝试找出哈布尔自诞生以来丢失了多少图形信息。另外,也许我们能找到一些丢失的东西?这个“图像无法加载”存根很烦人,不是吗?今天的侦探故事就是专门讲这个的。让我们开始吧!
您可能是因以下内容中的提及而看到这篇文章的:
追踪器 ?也许,一张图片从你的旧出版物中消失了,我找到了它。如果您不想阅读整篇文章,您可以滚动到最后的剧透(部分 结果),其中列出了找到的所有出版物和图像。谢谢你!
介绍和方法
我们的侦探故事将从头开始(合乎逻辑,对吧?)。从哈布尔开始。毕竟,帖子发布得越早,其中的图像在历史中丢失的可能性就越大。这就是为什么我们将从2006年开始并向前推进一点。
目前排名靠前的 40 个中心的所有出版物均包含在考虑范围内。这些中心的完整列表显示在扰流板下方。事实上,其中许多当时并不存在,但当添加新的中心时,出版物就转移到了那里。
枢纽列表
该信息是使用一组 PHP 脚本收集的。下载每个出版物,确定标签内容 并检查标签 里面。对于每张图像,都会存储图像的链接,链接到 Habré 上的出版物 ID。进一步分析该信息。
发布了什么以及何时发布
2006
哈布尔成立之初,出版物没有现在那么多,其中的图片就更少了。 2006 年(从 05.06.2006 年 221 月 53 日开始),列出的中心总共发布了 75 个帖子。其中 10 个帖子总共包含 XNUMX 张图片。出版物中最多图像(XNUMX 张)“
一个有趣的事实: 其中两张图像指向哈布尔本身,但很长时间以来一直无法使用。这些是图像 http://www.habrahabr.ru/tmp/sup_blogs_preview.gif 和 http://www.habrahabr.ru/tmp/upgrade-chart.gif。
所以,2006年输了 33.3% 出版物中的图像。
2007
2007 年,出版物数量大幅增加,图片数量也大幅增加 - 发布了 1 篇帖子。 713 个帖子包含 599 张图片。 1 张图像被传输到 Habrastorage,其中 467 张丢失(16.2%).
一个有趣的事实: 发布
前 100 名 Mac 操作系统应用程序 最多包含 2007 年的 100 张图像,并且不包含版权文本。
此外,其中一些丢失的图像是重复的。因此,其中一个在 6 次中出现 XNUMX 次
还剩191个唯一的。
2008
由于有关哈布雷的出版物数量逐年增加,2008 年我们的侦探将审查 2 份出版物以及 520 张图像。我们注意到,在2年,出版物中的图片数量终于超过了出版物的数量。而且,只有969个帖子包含图片,出版物中最多呈现2008个图形信息元素”
一个有趣的事实: 最意想不到的图像(或者更确切地说,出版物设计中的问题)位于
这里 。因此,Habr 尝试通过 http://#/ 下载图像。
米。 1. 所考虑的一般统计
是否有可能至少恢复一些东西?
部分恢复并不困难。例如,最懒的方法是使用
Lifehack: 您需要检查存档中页面的所有版本中的图像,而不仅仅是最旧的和最新的。
不幸的是,尽管这种方法在某些情况下有效,但要恢复至少一半的图像却非常困难。因此,下一步是检查交叉发布、原始翻译,当然还有原始页面的存档副本。
此外,您可以尝试使用 Habr 的非官方镜像之一来查找所需的图像,该镜像曾经有效,并且仍然存储一些复制的信息。
最后也是最困难的选择是使用搜索引擎。如果您确切知道图像中应该包含什么内容(有描述和上下文),则有机会找到具有相同名称的文件(如果这些文件曾经被某人复制到另一个资源)。
当然,每个后续步骤都会非线性地增加搜索时间。
发现了什么
您可能不会对迄今为止发现的图像数量印象深刻 - 其中有 300 张(包含在 140 位作者的 81 篇出版物中)。如果我们考虑“损失”的数量(1),结果约为 24.2%。为什么丢失的图像比原来的少?所有无用的图像(如视图计数器)和不存在的图像(如已经提到的http://#/,以及
你是怎么得出这么一个整数的?事实上,大约300天的搜寻工作已经结束。一开始我打算去333,但是300看起来也不错。另外,目前关于 33% 所有“搜索的受害者”。
米。 2. 当前搜索结果
所有找到的图像(除了一张 .bmp,它会是 301)都上传到
结果
因此,剧透下方是成功找到的图像,以及出版物的 id、图像在出版物文本中的索引(从 1 开始,而不是从 0 开始)以及出版物的作者。如果您是上述出版物的作者,并且找到的图片正确,请更正您的帖子。谢谢你!
顺便说一句,有些图像实际上仍然可以在出版物中查看,但尚未传输到 Habrastorage,因此在某些时候它们也可能变得不可用。
300张图片
作者
出版物 ID
索引和链接
例子
取而代之的是结论
也许有人会认为恢复这些过时的信息没有任何意义。此外,发现的一些图像即使发布也毫无意义。这无疑是事实。
任何信息都很重要。至少从历史分析的角度来看是这样。更不用说它在一些受版权保护的材料中发挥着关键作用。是的,目前 Habr 还不到 15 岁,一些来源仍然可用,但随着时间的推移,它们会变得越来越少,因此值得提前考虑是否会保留一些东西以供以后使用,或者是否会有成为永恒的“无法获得的形象”。
好吧,不要忘记,无法访问的图像的占位符非常烦人。当然,很少有人会读“一些旧东西”,但会有这样的人。因此,由于这些出版物仍然可以在 Habré 上找到,因此它们的内容应该尽可能完整。
不幸的是,Habrastorage 尚不支持直接下载所有图像格式,但也许有一天会修复这个问题。
我想提到的最后一个问题,你可能会想到,“如果作者很长时间没有使用 Habr 并且对纠正旧的东西不感兴趣怎么办?”这个问题在我的脑海中不止一次地出现过,但这里的解决方案并不是那么困难。旧出版物随时可以更正 飞碟 以主持人的身份(您可以,
您认为至少值得尝试恢复某些东西吗?
这就是今天的全部内容。感谢您的关注,祝您的所有图片顺利上传到 Habrastorage!让这件事不要发生
PS 如果您发现文本中有错别字或错误,请告诉我。 这可以通过选择部分文本并按“来完成Ctrl / ⌘ + 输入" 如果您有 Ctrl / ⌘,或通过
聚苯硫醚 也许你也会对我对哈布尔的其他研究感兴趣,或者你想为下一次出版物提出你的主题,甚至可能是一个新的出版物周期。
在哪里可以找到清单以及如何报价
所有信息都可以在一个特殊的存储库中找到
另外,你可以提到我(通过写
来源: habr.com