您是否想過有多少資訊遺失得無影無蹤? 畢竟,Habr 存在的目的就是訊息。 您知道基於用戶貼文的資源最常發生什麼情況嗎? 作者插入了來自第三方網站的圖像、圖片和視頻,一段時間後它們就不再可用。 這就是它曾經創建的目的。
將映像載入到 Habrastorage 的整個方案中最大的問題出現在實施過程中。 那時,有些舊出版品已經沒有圖了,所以就一直是這樣。 今天我們將嘗試找出哈布爾自誕生以來丟失了多少圖形資訊。 另外,也許我們能找到一些失去的東西? 這個「圖片無法載入」存根很煩人,不是嗎? 今天的偵探故事就是專門講這個的。 讓我們開始吧!
您可能是因為以下內容中的提及而看到這篇文章的:
追蹤器 ? 也許,一張圖片從你的舊出版物中消失了,我找到了它。 如果您不想閱讀整篇文章,您可以滾動到最後的劇透(部分 Результаты),其中列出了找到的所有出版物和圖像。 謝謝你!
介紹和方法
我們的偵探故事將從頭開始(合乎邏輯,對吧?)。 從哈布爾開始。 畢竟,貼文發布得越早,其中的圖像在歷史中丟失的可能性就越大。 這就是為什麼我們將從2006年開始並向前邁進一點。
目前排名靠前的 40 個中心的所有出版物均包含在考慮範圍內。 這些中心的完整清單顯示在擾流板下方。 事實上,其中許多當時並不存在,但當新的中心添加時,出版物就轉移到了那裡。
樞紐列表
這些資訊是使用一組 PHP 腳本收集的。 下載每個出版物,確定標籤內容 <div id="post-content-body"> 並檢查標籤 <圖片> 裡面。 對於每張圖像,都會儲存圖像的鏈接,連結到 Habré 上的出版物 ID。 該資訊將被進一步分析。
發布了什麼以及何時發布
2006
哈布爾成立之初,出版物沒有現在那麼多,其中的圖片就更少了。 2006 年(從 05.06.2006 年 221 月 53 日開始),列出的中心總共發布了 75 個貼文。 其中 10 個貼文總共包含 XNUMX 張圖片。 出版品最多影像(XNUMX 張)「
一個有趣的事實: 其中兩張圖像指向哈布爾本身,但很長時間以來一直無法使用。 這些是圖像 http://www.habrahabr.ru/tmp/sup_blogs_preview.gif 和 http://www.habrahabr.ru/tmp/upgrade-chart.gif。
所以,2006年輸了 企業排放佔全球 33.3% 出版品中的影像。
2007
2007 年,出版物數量大幅增加,圖片數量也大幅增加 - 發布了 1 篇貼文。 713 個貼文包含 599 張圖片。 1 張影像被傳輸到 Habrastorage,其中 467 張遺失(企業排放佔全球 16.2%).
一個有趣的事實: 發布
前 100 名 Mac 作業系統應用程式 最多包含 2007 年的 100 張圖像,且不包含版權文字。
此外,其中一些遺失的圖像是重複的。 因此,其中一個在 6 次中出現 XNUMX 次
還剩191個唯一的<img>。
2008
由於有關哈布雷的出版物數量逐年增加,2008 年我們的偵探將審查 2 份出版物以及 520 張圖像。 我們注意到,在2年,出版物中的圖片數量終於超過了出版物的數量。 而且,只有969個帖子包含圖片,出版物中最多呈現2008個圖形資訊元素”
一個有趣的事實: 最意想不到的圖像(或更確切地說,出版物設計中的問題)位於
這裡 。 因此,Habr 嘗試透過 http://#/ 下載映像。
米。 1. 所考慮的一般統計
是否有可能至少恢復一些東西?
部分恢復並不困難。 例如,最懶的方法是使用
生活技巧: 您需要檢查存檔中頁面的所有版本中是否存在圖像,而不僅僅是最舊的和最新的。
不幸的是,儘管這種方法在某些情況下有效,但要恢復至少一半的影像卻非常困難。 因此,下一步是檢查交叉發布、原始翻譯,當然還有原始頁面的存檔副本。
此外,您可以嘗試使用 Habr 的非官方鏡像之一來尋找所需的影像,該鏡像曾經有效,並且仍然儲存一些複製的資訊。
最後也是最困難的選擇是使用搜尋引擎。 如果您確切知道圖像中應該包含什麼內容(有描述和上下文),則有機會找到具有相同名稱的檔案(如果這些檔案曾經被某人複製到另一個資源)。
當然,每個後續步驟都會非線性地增加搜尋時間。
我們發現了什麼
您可能不會對迄今為止發現的圖像數量印象深刻 - 其中有 300 張(包含在 140 位作者的 81 篇出版物中)。 如果我們考慮「損失」的數量(1),結果約為 企業排放佔全球 24.2%。 為什麼遺失的影像比原來的少? 所有無用的圖像(如視圖計數器)和不存在的圖像(如已經提到的http://#/,以及
你是怎麼得出這麼一個整數的? 事實上,大約300天的搜尋工作已經結束。 一開始我打算去333,但300看起來也不錯。 另外,目前關於 企業排放佔全球 33% 所有「搜索的受害者」。
米。 2. 目前搜尋結果
所有找到的圖像(除了一張 .bmp,它會是 301)都上傳到
Результаты
因此,劇透下方是成功找到的圖像,以及出版物的 id、圖像在出版物文本中的索引(從 1 開始,而不是從 0 開始)以及出版物的作者。 如果您是上述出版物的作者,並且找到的圖片正確,請更正您的貼文。 謝謝你!
順便說一句,有些圖像實際上仍然可以在出版物中查看,但尚未傳輸到 Habrastorage,因此在某些時候它們也可能變得不可用。
300張圖片
作者
出版品 ID
索引和連結
例子
取而代之的是結論
也許有人會認為恢復這些過時的資訊沒有任何意義。 此外,發現的一些圖像即使發布也毫無意義。 這無疑是事實。
任何資訊都很重要。 至少從歷史分析的角度來看是如此。 更不用說它在一些受版權保護的材料中發揮關鍵作用。 是的,目前 Habr 還不到 15 歲,一些來源仍然可用,但隨著時間的推移,它們會變得越來越少,因此值得提前考慮是否會保留一些東西以供以後使用,或者是否會有成為永恆的「無法獲得的形象」。
好吧,不要忘記,無法訪問的圖像的佔位符非常煩人。 當然,很少有人會讀“一些舊東西”,但會有這樣的人。 因此,由於這些出版物仍然可以在 Habré 上找到,因此它們的內容應該盡可能完整。
不幸的是,Habrastorage 尚不支援直接下載所有映像格式,但也許有一天會修復這個問題。
我想提到的最後一個問題,你可能會想到,“如果作者很長時間沒有使用 Habr 並且對糾正舊的東西不感興趣怎麼辦?” 這個問題在我的腦海中不只一次出現過,但這裡的解決方案並不是那麼困難。 舊出版物隨時可以更正 飛碟 以主持人的身份(您可以,
您認為至少值得嘗試恢復某些東西嗎?
這就是今天的全部內容。 感謝您的關注,祝您的所有圖片順利上傳到 Habrastorage! 讓這件事不要發生
聚苯乙烯 如果您在文本中發現任何拼寫錯誤或錯誤,請告訴我。 這可以通過選擇一段文本並按“Ctrl / ⌘ + 輸入" 如果您有 Ctrl / ⌘,可以通過
聚苯硫醚 也許您也會對我的其他 Habr 研究感興趣,或者您想為下一份出版物甚至一系列新出版物建議您自己的主題。
在哪裡可以找到該清單以及如何提出建議
所有資訊都可以在一個特殊的儲存庫中找到
另外,你可以提及我(透過寫
來源: www.habr.com