哈布拉侦探:你的照片丢失了

哈布拉侦探:你的照片丢失了
您是否想过有多少信息丢失得无影无踪?毕竟,Habr 存在的目的就是信息。您知道基于用户帖子的资源最常发生什么情况吗?作者插入了来自第三方网站的图像、图片和视频,一段时间后它们就不再可用。这就是它曾经创建的目的。 哈布拉存储。实践表明,没有人(除了编辑和少数爱好者)自行上传图片。因此,在某个时候,哈布尔政府将这一功能自动化——出版物中出现的每张图像都会自动上传到存储中,只要哈布尔本身存在,就不会从那里消失。当然,也有例外和 可能会出问题,但现在不是关于他们的。

将图像加载到 Habrastorage 的整个方案中最大的问题出现在实施过程中。那时,一些旧出版物已经没有图了,所以就一直这样。今天我们将尝试找出哈布尔自诞生以来丢失了多少图形信息。另外,也许我们能找到一些丢失的东西?这个“图像无法加载”存根很烦人,不是吗?今天的侦探故事就是专门讲这个的。让我们开始吧!

您可能是因以下内容中的提及而看到这篇文章的: 追踪器?也许,一张图片从你的旧出版物中消失了,我找到了它。如果您不想阅读整篇文章,您可以滚动到最后的剧透(部分 结果),其中列出了找到的所有出版物和图像。谢谢你!

介绍和方法

我们的侦探故事将从头开始(合乎逻辑,对吧?)。从哈布尔开始。毕竟,帖子发布得越早,其中的图像在历史中丢失的可能性就越大。这就是为什么我们将从2006年开始并向前推进一点。

目前排名靠前的 40 个中心的所有出版物均包含在考虑范围内。这些中心的完整列表显示在扰流板下方。事实上,其中许多当时并不存在,但当添加新的中心时,出版物就转移到了那里。

枢纽列表

* nix中, 算法, 人工智能, 航天, 生物技术, 大脑, C + +中, 发展管理, DIY, 生态, 游戏开发, 游戏和游戏机, 极客健康, 信息技术的历史, 信息安全, IT职业, IT基础架构, 信息技术公司, 爪哇岛, JavaScript的, 信息技术立法, 极客的生活窍门, 机器识别, 电子产品的制造和开发, Nginx的, 开源, 人事管理, 物理, 科普, 产品管理, 代码编程, 项目管理, 蟒蛇, 阅览室, 逆向工程, 社交网络和社区, 系统管理, 系统分析与设计, 未来就在这里, 网站开发

该信息是使用一组 PHP 脚本收集的。下载每个出版物,确定标签内容 并检查标签 里面。对于每张图像,都会存储图像的链接,链接到 Habré 上的出版物 ID。进一步分析该信息。

发布了什么以及何时发布

2006

哈布尔成立之初,出版物没有现在那么多,其中的图片就更少了。 2006 年(从 05.06.2006 年 221 月 53 日开始),列出的中心总共发布了 75 个帖子。其中 10 个帖子总共包含 XNUMX 张图片。出版物中最多图像(XNUMX 张)“改变世界的十件小玩意”。Habrastorage 上已有 50 张图纸。另外 25 张丢失了。所有这些图纸都是独一无二的,不会重复。

一个有趣的事实: 其中两张图像指向哈布尔本身,但很长时间以来一直无法使用。这些是图像 http://www.habrahabr.ru/tmp/sup_blogs_preview.gif 和 http://www.habrahabr.ru/tmp/upgrade-chart.gif。

所以,2006年输了 33.3% 出版物中的图像。

2007

2007 年,出版物数量大幅增加,图片数量也大幅增加 - 发布了 1 篇帖子。 713 个帖子包含 599 张图片。 1 张图像被传输到 Habrastorage,其中 467 张丢失(16.2%).

一个有趣的事实: 发布 前 100 名 Mac 操作系统应用程序 最多包含 2007 年的 100 张图像,并且不包含版权文本。

此外,其中一些丢失的图像是重复的。因此,其中一个在 6 次中出现 XNUMX 次 发表 只有6张图片。另外,来自一个域的图像“Up.gif”重复21次,“Down.gif”重复16次,“Same.gif”重复8次。所有这 45 张图片均来自 一篇文章,其中仅包含 47 张图片。

还剩191个唯一的。

2008

由于有关哈布雷的出版物数量逐年增加,2008 年我们的侦探将审查 2 份出版物以及 520 张图像。我们注意到,在2年,出版物中的图片数量终于超过了出版物的数量。而且,只有969个帖子包含图片,出版物中最多呈现2008个图形信息元素”谷歌节日标志的历史”。Habrastorage 上已保存 1 张图像,其中 943 张丢失(34.6%).

一个有趣的事实: 最意想不到的图像(或者更确切地说,出版物设计中的问题)位于 这里。因此,Habr 尝试通过 http://#/ 下载图像。

哈布拉侦探:你的照片丢失了

米。 1. 所考虑的一般统计

是否有可能至少恢复一些东西?

部分恢复并不困难。例如,最懒的方法是使用 互联网档案馆 尝试加载已保存的出版物页面。此外,您可以尝试使用直接链接在存档中“查找”图像本身。

Lifehack: 您需要检查存档中页面的所有版本中的图像,而不仅仅是最旧的和最新的。

不幸的是,尽管这种方法在某些情况下有效,但要恢复至少一半的图像却非常困难。因此,下一步是检查交叉发布、原始翻译,当然还有原始页面的存档副本。

此外,您可以尝试使用 Habr 的非官方镜像之一来查找所需的图像,该镜像曾经有效,并且仍然存储一些复制的信息。

最后也是最困难的选择是使用搜索引擎。如果您确切知道图像中应该包含什么内容(有描述和上下文),则有机会找到具有相同名称的文件(如果这些文件曾经被某人复制到另一个资源)。

当然,每个后续步骤都会非线性地增加搜索时间。

发现了什么

您可能不会对迄今为止发现的图像数量印象深刻 - 其中有 300 张(包含在 140 位作者的 81 篇出版物中)。如果我们考虑“损失”的数量(1),结果约为 24.2%。为什么丢失的图像比原来的少?所有无用的图像(如视图计数器)和不存在的图像(如已经提到的http://#/,以及 http://fig.jpg/ 等等)。

你是怎么得出这么一个整数的?事实上,大约300天的搜寻工作已经结束。一开始我打算去333,但是300看起来也不错。另外,目前关于 33% 所有“搜索的受害者”。

哈布拉侦探:你的照片丢失了

米。 2. 当前搜索结果

所有找到的图像(除了一张 .bmp,它会是 301)都上传到 hsto.org,以及它们和出版物的链接,以及其中图像的索引,将在下一节中给出。

结果

因此,剧透下方是成功找到的图像,以及出版物的 id、图像在出版物文本中的索引(从 1 开始,而不是从 0 开始)以及出版物的作者。如果您是上述出版物的作者,并且找到的图片正确,请更正您的帖子。谢谢你!

顺便说一句,有些图像实际上仍然可以在出版物中查看,但尚未传输到 Habrastorage,因此在某些时候它们也可能变得不可用。

300张图片

作者
出版物 ID
索引和链接
例子

0x62灰
27149
1
哈布拉侦探:你的照片丢失了

0xa8
11105
1

2差
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
哈布拉侦探:你的照片丢失了

8五
41853
1

46498
1

亚当_B
12582
1

爱奴
39501
1

阿拉杜斯
2628
1

阿拉斯加州
23447
1, 2
哈布拉侦探:你的照片丢失了

亚历克斯雷登
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

阿尔夫软件公司
42782
1, 2, 3, 4, 5

阿利萨
37779
1, 2

另类博客
44677
1

阿雷斯托夫
37921
1

艺术
19726
1

坏小鸭子
16292
1, 2, 3, 4, 5

巴可夫
26335
1

BBSOD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
哈布拉侦探:你的照片丢失了

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

纯v
12783
1

朱拉克
45783
1, 2, 3, 4, 5, 6, 7
哈布拉侦探:你的照片丢失了

科斯
31069
1

大括号
11010
1

11941
1

14157
1

37303
1

德赖坎特
31320
1, 2, 4

恩泽
40767
1

芬尼克斯
20843
2

23902
1

39109
1

第一个字节
38314
1

弗里托尼克
26593
1

弗鲁霍
40987
1

加尔布兹
29694
1

戈里尼奇
12027
1

重力
28840
1

HREF
46908
1, 2
哈布拉侦探:你的照片丢失了

伊尔贾瓦
30902
2, 3

因波塞伦
26566
1

因弗拉迪斯
42904
1

卡尔森
8971
向下.gif, 相同.gif, tpci_趋势.png, 向上.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
哈布拉侦探:你的照片丢失了

克劳斯
15775
1, 2, 3, 4, 5, 6, 7, 8

莱恩_13
16891
2

豹子
38391
1

卢卡·萨福诺夫
43537
1

米亚科
26705
1

尘世
31419
2, 3, 4

MIO
396
1

753
1

936
1

马赛克
744
1

软盘先生
28343
1


44476
1


110
1

奥莱格_布宁
7207
1

7226
1

8679
1

12768
1

奥莱加福克斯
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

奥斯托维亚宁
37146
2, 3
哈布拉侦探:你的照片丢失了

波诺马尔
14141
1

波尔基尼
21850
1, 2

纯_BY
8416
1

RAF
851
1, 2

兰伯
43693
1

名单
44380
1

鲁斯卡
42578
3, 5, 8
哈布拉侦探:你的照片丢失了

圣人
702
1

萨姆·达克
30104
1

斯卡拉
37804
4

沙佩莱兹
23260
1

44379
1, 2

46113
1

46599
1

47536
1

斯拉夫
8134
1, 2

斯马托夫
17160
3

斯米塔纳
30375
1

斯帕纳西克
44755
17

精神_神圣
41129
1, 2
哈布拉侦探:你的照片丢失了

夏梦
3801
1

阳光熊
31211
1, 2

Switch 开关
9095
1

陶鲁斯
37507
1

托格根
38733
1

45024
1

45170
1

采佩廖夫
36611
1

瓦迪姆UA
46922
1

维托
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
哈布拉侦探:你的照片丢失了

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

亚内博客
39007
1, 6

40621
3

叶素亭
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
哈布拉侦探:你的照片丢失了

伊希利亚耶夫
5556
1, 2, 3

扎达
31123
2

蜿蜒
15492
1

取而代之的是结论

也许有人会认为恢复这些过时的信息没有任何意义。此外,发现的一些图像即使发布也毫无意义。这无疑是事实。

任何信息都很重要。至少从历史分析的角度来看是这样。更不用说它在一些受版权保护的材料中发挥着关键作用。是的,目前 Habr 还不到 15 岁,一些来源仍然可用,但随着时间的推移,它们会变得越来越少,因此值得提前考虑是否会保留一些东西以供以后使用,或者是否会有成为永恒的“无法获得的形象”。

好吧,不要忘记,无法访问的图像的占位符非常烦人。当然,很少有人会读“一些旧东西”,但会有这样的人。因此,由于这些出版物仍然可以在 Habré 上找到,因此它们的内容应该尽可能完整。

不幸的是,Habrastorage 尚不支持直接下载所有图像格式,但也许有一天会修复这个问题。

我想提到的最后一个问题,你可能会想到,“如果作者很长时间没有使用 Habr 并且对纠正旧的东西不感兴趣怎么办?”这个问题在我的脑海中不止一次地出现过,但这里的解决方案并不是那么困难。旧出版物随时可以更正 飞碟 以主持人的身份(您可以, 外圈?)或管理(布姆布鲁姆 可以给某人任务)。

您认为至少值得尝试恢复某些东西吗?

这就是今天的全部内容。感谢您的关注,祝您的所有图片顺利上传到 Habrastorage!让这件事不要发生

哈布拉侦探:你的照片丢失了

PS 如果您发现文本中有错别字或错误,请告诉我。 这可以通过选择部分文本并按“来完成Ctrl / ⌘ + 输入" 如果您有 Ctrl / ⌘,或通过 私人信息. 如果这两个选项都不可用,请在评论中写下错误。 谢谢你!

聚苯硫醚 也许你也会对我对哈布尔的其他研究感兴趣,或者你想为下一次出版物提出你的主题,甚至可能是一个新的出版物周期。

在哪里可以找到清单以及如何报价

所有信息都可以在一个特殊的存储库中找到 habr-侦探. 在那里您还可以找到已经提出的建议,以及已经在进行中的建议。

另外,你可以提到我(通过写 瓦斯基夫斯基耶)在对您感兴趣的研究或分析出版物的评论中。

来源: habr.com

添加评论