哈布拉偵探:你的照片遺失了

哈布拉偵探:你的照片遺失了
您是否想過有多少資訊遺失得無影無蹤? 畢竟,Habr 存在的目的就是訊息。 您知道基於用戶貼文的資源最常發生什麼情況嗎? 作者插入了來自第三方網站的圖像、圖片和視頻,一段時間後它們就不再可用。 這就是它曾經創建的目的。 哈布拉存儲。 實踐表明,沒有人(除了編輯和少數愛好者)自行上傳圖片。 因此,在某個時候,哈布爾政府將這項功能自動化——出版物中出現的每張圖像都會自動上傳到儲存中,只要哈布爾本身存在,就不會從那裡消失。 當然,也有例外和 可能會出問題,但現在不是關於他們的。

將映像載入到 Habrastorage 的整個方案中最大的問題出現在實施過程中。 那時,有些舊出版品已經沒有圖了,所以就一直是這樣。 今天我們將嘗試找出哈布爾自誕生以來丟失了多少圖形資訊。 另外,也許我們能找到一些失去的東西? 這個「圖片無法載入」存根很煩人,不是嗎? 今天的偵探故事就是專門講這個的。 讓我們開始吧!

您可能是因為以下內容中的提及而看到這篇文章的: 追蹤器? 也許,一張圖片從你的舊出版物中消失了,我找到了它。 如果您不想閱讀整篇文章,您可以滾動到最後的劇透(部分 Результаты),其中列出了找到的所有出版物和圖像。 謝謝你!

介紹和方法

我們的偵探故事將從頭開始(合乎邏輯,對吧?)。 從哈布爾開始。 畢竟,貼文發布得越早,其中的圖像在歷史中丟失的可能性就越大。 這就是為什麼我們將從2006年開始並向前邁進一點。

目前排名靠前的 40 個中心的所有出版物均包含在考慮範圍內。 這些中心的完整清單顯示在擾流板下方。 事實上,其中許多當時並不存在,但當新的中心添加時,出版物就轉移到了那裡。

樞紐列表

* nix中, 算法, 人工智能, 航天, 生物技術, 大腦, C + +中, 發展管理, DIY, 生態, 遊戲開發, 遊戲和遊戲機, 極客健康, 資訊科技的歷史, 信息安全, 信息技術職業, IT基礎設施, 資訊科技公司, Java的, JavaScript的, 資訊科技立法, 極客的生活小撇步, 機器學習, 電子產品的製造和開發, Nginx的, 開源, 人員管理, 物理, 科普, 產品管理, 程序設計, 項目管理, 蟒蛇, 閱覽室, 逆向工程, 社交網絡和社區, 系統管理, 系統分析與設計, 未來就在這裡, 網站開發

這些資訊是使用一組 PHP 腳本收集的。 下載每個出版物,確定標籤內容 <div id="post-content-body"> 並檢查標籤 <圖片> 裡面。 對於每張圖像,都會儲存圖像的鏈接,連結到 Habré 上的出版物 ID。 該資訊將被進一步分析。

發布了什麼以及何時發布

2006

哈布爾成立之初,出版物沒有現在那麼多,其中的圖片就更少了。 2006 年(從 05.06.2006 年 221 月 53 日開始),列出的中心總共發布了 75 個貼文。 其中 10 個貼文總共包含 XNUMX 張圖片。 出版品最多影像(XNUMX 張)「改變世界的十件小玩意」。Habrastorage 上已有 50 張圖紙。另外 25 張遺失了。所有這些圖紙都是獨一無二的,不會重複。

一個有趣的事實: 其中兩張圖像指向哈布爾本身,但很長時間以來一直無法使用。 這些是圖像 http://www.habrahabr.ru/tmp/sup_blogs_preview.gif 和 http://www.habrahabr.ru/tmp/upgrade-chart.gif。

所以,2006年輸了 企業排放佔全球 33.3% 出版品中的影像。

2007

2007 年,出版物數量大幅增加,圖片數量也大幅增加 - 發布了 1 篇貼文。 713 個貼文包含 599 張圖片。 1 張影像被傳輸到 Habrastorage,其中 467 張遺失(企業排放佔全球 16.2%).

一個有趣的事實: 發布 前 100 名 Mac 作業系統應用程式 最多包含 2007 年的 100 張圖像,且不包含版權文字。

此外,其中一些遺失的圖像是重複的。 因此,其中一個在 6 次中出現 XNUMX 次 發表 只有6張圖片。 另外,來自一個域的圖像「Up.gif」重複21次,「Down.gif」重複16次,「Same.gif」重複8次。 這 45 張圖片均來自 一篇文章,其中僅包含 47 張圖片。

還剩191個唯一的<img>。

2008

由於有關哈布雷的出版物數量逐年增加,2008 年我們的偵探將審查 2 份出版物以及 520 張圖像。 我們注意到,在2年,出版物中的圖片數量終於超過了出版物的數量。 而且,只有969個帖子包含圖片,出版物中最多呈現2008個圖形資訊元素”谷歌節日標誌的歷史」。Habrastorage 上已保存 1 張影像,其中 943 張遺失(企業排放佔全球 34.6%).

一個有趣的事實: 最意想不到的圖像(或更確切地說,出版物設計中的問題)位於 這裡。 因此,Habr 嘗試透過 http://#/ 下載映像。

哈布拉偵探:你的照片遺失了

米。 1. 所考慮的一般統計

是否有可能至少恢復一些東西?

部分恢復並不困難。 例如,最懶的方法是使用 互聯網檔案館 嘗試載入已儲存的出版頁面。 此外,您可以嘗試使用直接連結在存檔中「尋找」圖像本身。

生活技巧: 您需要檢查存檔中頁面的所有版本中是否存在圖像,而不僅僅是最舊的和最新的。

不幸的是,儘管這種方法在某些情況下有效,但要恢復至少一半的影像卻非常困難。 因此,下一步是檢查交叉發布、原始翻譯,當然還有原始頁面的存檔副本。

此外,您可以嘗試使用 Habr 的非官方鏡像之一來尋找所需的影像,該鏡像曾經有效,並且仍然儲存一些複製的資訊。

最後也是最困難的選擇是使用搜尋引擎。 如果您確切知道圖像中應該包含什麼內容(有描述和上下文),則有機會找到具有相同名稱的檔案(如果這些檔案曾經被某人複製到另一個資源)。

當然,每個後續步驟都會非線性地增加搜尋時間。

我們發現了什麼

您可能不會對迄今為止發現的圖像數量印象深刻 - 其中有 300 張(包含在 140 位作者的 81 篇出版物中)。 如果我們考慮「損失」的數量(1),結果約為 企業排放佔全球 24.2%。 為什麼遺失的影像比原來的少? 所有無用的圖像(如視圖計數器)和不存在的圖像(如已經提到的http://#/,以及 http://fig.jpg/ 等等)。

你是怎麼得出這麼一個整數的? 事實上,大約300天的搜尋工作已經結束。 一開始我打算去333,但300看起來也不錯。 另外,目前關於 企業排放佔全球 33% 所有「搜索的受害者」。

哈布拉偵探:你的照片遺失了

米。 2. 目前搜尋結果

所有找到的圖像(除了一張 .bmp,它會是 301)都上傳到 hsto.org,以及它們和出版物的鏈接,以及其中圖像的索引,將在下一節中給出。

Результаты

因此,劇透下方是成功找到的圖像,以及出版物的 id、圖像在出版物文本中的索引(從 1 開始,而不是從 0 開始)以及出版物的作者。 如果您是上述出版物的作者,並且找到的圖片正確,請更正您的貼文。 謝謝你!

順便說一句,有些圖像實際上仍然可以在出版物中查看,但尚未傳輸到 Habrastorage,因此在某些時候它們也可能變得不可用。

300張圖片

作者
出版品 ID
索引和連結
例子

0x62灰
27149
1
哈布拉偵探:你的照片遺失了

0xa8
11105
1

2差
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
哈布拉偵探:你的照片遺失了

8五
41853
1

46498
1

亞當_B
12582
1

蝦夷人
39501
1

阿拉杜斯
2628
1

阿拉斯加州
23447
1, 2
哈布拉偵探:你的照片遺失了

亞歷克斯雷登
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

阿爾夫軟體公司
42782
1, 2, 3, 4, 5

阿利薩
37779
1, 2

另類博客
44677
1

阿雷斯托夫
37921
1

藝術
19726
1

壞小鴨子
16292
1, 2, 3, 4, 5

巴可夫
26335
1

BBSOD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
哈布拉偵探:你的照片遺失了

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

純v
12783
1

朱拉克
45783
1, 2, 3, 4, 5, 6, 7
哈布拉偵探:你的照片遺失了

科斯
31069
1

大括號
11010
1

11941
1

14157
1

37303
1

德賴坎特
31320
1, 2, 4

恩澤
40767
1

芬尼克斯
20843
2

23902
1

39109
1

第一個位元組
38314
1

弗里托尼克
26593
1

弗魯霍
40987
1

加爾布茲
29694
1

戈里尼奇
12027
1

重力
28840
1

HREF
46908
1, 2
哈布拉偵探:你的照片遺失了

伊爾賈瓦
30902
2, 3

因波塞倫
26566
1

因弗拉迪斯
42904
1

卡爾森
8971
向下.gif, 相同.gif, tpci_趨勢.png, 向上.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
哈布拉偵探:你的照片遺失了

克勞斯
15775
1, 2, 3, 4, 5, 6, 7, 8

萊恩_13
16891
2

豹子
38391
1

盧卡薩福諾夫
43537
1

米亞科
26705
1

塵世
31419
2, 3, 4

MIO
396
1

753
1

936
1

馬賽克
744
1

軟碟先生
28343
1


44476
1

軍官
110
1

奧萊格_布寧
7207
1

7226
1

8679
1

12768
1

奧萊加福克斯
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

奧斯托維亞寧
37146
2, 3
哈布拉偵探:你的照片遺失了

波諾馬爾
14141
1

波爾基尼
21850
1, 2

純_BY
8416
1

RAF
851
1, 2

蘭伯
43693
1

羅斯特
44380
1

魯斯卡
42578
3, 5, 8
哈布拉偵探:你的照片遺失了

聖人
702
1

薩姆·達克
30104
1

斯卡拉
37804
4

沙佩萊茲
23260
1

44379
1, 2

46113
1

46599
1

47536
1

斯拉夫
8134
1, 2

斯馬托夫
17160
3

斯米塔納
30375
1

斯帕納西克
44755
17

精神_神聖
41129
1, 2
哈布拉偵探:你的照片遺失了

夏夢
3801
1

陽光熊
31211
1, 2

軸體
9095
1

陶魯斯
37507
1

托格根
38733
1

45024
1

45170
1

採佩廖夫
36611
1

瓦迪姆UA
46922
1

維托爾
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
哈布拉偵探:你的照片遺失了

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

亞內博客
39007
1, 6

40621
3

葉素亭
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
哈布拉偵探:你的照片遺失了

伊希利亞耶夫
5556
1, 2, 3

扎達
31123
2

蜿蜒
15492
1

取而代之的是結論

也許有人會認為恢復這些過時的資訊沒有任何意義。 此外,發現的一些圖像即使發布也毫無意義。 這無疑是事實。

任何資訊都很重要。 至少從歷史分析的角度來看是如此。 更不用說它在一些受版權保護的材料中發揮關鍵作用。 是的,目前 Habr 還不到 15 歲,一些來源仍然可用,但隨著時間的推移,它們會變得越來越少,因此值得提前考慮是否會保留一些東西以供以後使用,或者是否會有成為永恆的「無法獲得的形象」。

好吧,不要忘記,無法訪問的圖像的佔位符非常煩人。 當然,很少有人會讀“一些舊東西”,但會有這樣的人。 因此,由於這些出版物仍然可以在 Habré 上找到,因此它們的內容應該盡可能完整。

不幸的是,Habrastorage 尚不支援直接下載所有映像格式,但也許有一天會修復這個問題。

我想提到的最後一個問題,你可能會想到,“如果作者很長時間沒有使用 Habr 並且對糾正舊的東西不感興趣怎麼辦?” 這個問題在我的腦海中不只一次出現過,但這裡的解決方案並不是那麼困難。 舊出版物隨時可以更正 飛碟 以主持人的身份(您可以, 外圈?)或管理(布姆布魯姆 可以給某人任務)。

您認為至少值得嘗試恢復某些東西嗎?

這就是今天的全部內容。 感謝您的關注,祝您的所有圖片順利上傳到 Habrastorage! 讓這件事不要發生

哈布拉偵探:你的照片遺失了

聚苯乙烯 如果您在文本中發現任何拼寫錯誤或錯誤,請告訴我。 這可以通過選擇一段文本並按“Ctrl / ⌘ + 輸入" 如果您有 Ctrl / ⌘,可以通過 私人信息. 如果這兩個選項都不可用,請在評論中寫下錯誤。 謝謝你!

聚苯硫醚 也許您也會對我的其他 Habr 研究感興趣,或者您想為下一份出版物甚至一系列新出版物建議您自己的主題。

在哪裡可以找到該清單以及如何提出建議

所有資訊都可以在一個特殊的儲存庫中找到 哈布拉偵探。 在那裡您還可以了解哪些提案已經公佈以及哪些提案已經在進行中。

另外,你可以提及我(透過寫 瓦斯基耶)在對您感興趣的研究或分析出版物的評論中。

來源: www.habr.com

添加評論