Ви коли-небудь замислювалися, скільки інформації втрачено безслідно? Адже інформація — це те, навіщо Хабр існує. Знаєте, що найчастіше трапляється з ресурсами заснованими на публікаціях користувача? Автори вставляють зображення, картинки та відео зі сторонніх сайтів і через якийсь час вони більше не доступні. Саме для цього колись було створено Habrastorage. Практика показала, що ніхто (крім редакторів та кількох ентузіастів) не завантажує туди зображення самостійно. Тому колись адміністрація Хабра зробила цю функцію автоматичною — кожне зображення, яке зустрічається в публікації, автоматично завантажується в сховище і звідти не пропаде, доки існує сам Хабр. Звичайно ж, є і винятки та щось може піти не такале зараз не про них.
Найбільша проблема у всій цій схемі із завантаженням зображень у Habrastorage відбулася під час її впровадження. На той час деякі старі публікації вже були без малюнків, а тому такими і залишилися. Сьогодні ми спробуємо з'ясувати, скільки графічної інформації втратив Хабр з моменту свого народження. Крім того, може нам вдасться знайти щось із зниклого? Адже дратує ця заглушка "зображення не може бути завантажене", чи не так? Сьогоднішній детектив присвячений саме цьому. Почнемо!
Можливо, вас у цю статтю привело згадування у трекері? Ймовірно, в одній із ваших старих публікацій зникла картинка, а я її знайшов. Якщо вам не хочеться читати всю публікацію, можна просто перегорнути до спойлера в самому кінці (розділ Результати), де перелічені всі публікації та знайдені зображення. Дякую!
Вступ та методи
Наш детектив розпочнеться із самого початку (логічно, правда?). З початку Хабра. Адже чим раніше було опубліковано якусь посаду, тим більше шансів, що зображення з неї загубилися десь в історії. Саме тому почнемо ми з 2006 року та пройдемо трохи вперед.
У розгляді беруть участь усі публікації із 40 хабів, які на даний момент перебувають на початку рейтингу. Повний перелік цих хабів представлений під спойлером. Насправді, багато хто з них тоді не існував, проте при додаванні нових хабів публікації туди переносилися.
Інформація збиралася за допомогою набору PHP скриптів. Кожна публікація була завантажена, визначено зміст тега та перевірено наявність тегів всередині. Для кожного зображення збережено посилання на зображення з прив'язкою до ID публікації на Хабрі. Надалі аналізується ця інформація.
Що і коли публікували
2006
На самому початку Хабра публікацій було не так багато, як зараз, а картинок у них ще менше. Загалом у 2006 році (починаючи з 05.06.2006) у перерахованих хабах було опубліковано 221 пост. 53 з цих постів містять лише 75 зображень. Максимум зображень (10 штук) у публікації "Десять гаджетів, які змінили світ50 малюнків вже знаходяться на Habrastorage. Ще 25 втрачено. Усі вони унікальні і не повторюються.
Цікавий факт: Два із зображень ведуть на сам Хабр, але при цьому недоступні вже давно. Це зображення http://www.habrahabr.ru/tmp/sup_blogs_preview.gif та http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Отже, за 2006 рік втрачено 33.3% зображень у публікаціях.
2007
У 2007 році кількість публікацій суттєво збільшилася, як і кількість зображень — було опубліковано 1 713 постів. 599 Публікацій містять 1 467 зображень. На Habrastorage перенесено 1 229 зображень, а 238 втрачено (16.2%).
Цікавий факт: Публікація Топ 100 Mac OS додатків містить максимум за 2007 рік - 100 зображень і не містить авторського тексту.
Крім того, частина цих втрачених зображень повторюється. Так, одне з них зустрічається 6 разів на одній публікації із всього 6 картинками. Також 21 раз повторюється зображення "Up.gif", 16 - "Down.gif" та 8 - "Same.gif" з одного домену. І всі ці 45 зображень з одного посту, В якому всього 47 картинок.
Залишається 191 унікальний img.
2008
Оскільки рік у рік кількість публікацій на Хабрі лише збільшувалася, у 2008 році наш детектив розгляне 2 520 публікацій, а також 2 969 зображень. Зауважили, що саме в 2008 кількість зображень у публікаціях нарешті перевищує кількість публікацій. При цьому всього 1 207 постів містять картинки, а максимум у 42 елементи графічної інформації представлено в публікації.Історія святкових логотипів Google". 1 зображення вже збережені на Habrastorage, а 943 втрачені (34.6%).
Цікавий факт: Найнесподіваніше зображення (а точніше, проблема в оформленні публікації) знаходиться тут. В результаті, Хабр намагається завантажити зображення http://#/.
Мал. 1. Загальна статистика розглянутого
Чи можна поновити хоч щось?
Часткове відновлення не складає особливих труднощів. Наприклад, "ледачим" способом буде використання Internet Archive у спробі завантажити збережені сторінки публікацій. Крім того, можна спробувати "знайти" в архіві самі зображення за прямими посиланнями.
Lifehack: Перевіряти наявність зображень потрібно у всіх версіях сторінки в архіві, не тільки найстарішої та найновішої.
На жаль, хоча цей метод і працює у частині випадків, відновити хоча б половину картинок так складно. Тому наступний крок — перевірка кроспостингу, оригіналів перекладів та, звісно, архівних копій оригінальних сторінок.
До того ж можна спробувати знайти бажані зображення за допомогою одного з неофіційних дзеркал Хабра, які колись працювали і все ще зберігають частину скопійованої інформації.
Останній і найскладніший варіант – використання пошукових систем. Якщо точно відомо, що має бути на зображенні (є опис та контекст), є шанс знайти файли з такою самою назвою, якщо вони колись були скопійовані на інший ресурс.
Звичайно, кожен наступний крок збільшує час пошуку нелінійно.
Що вдалося знайти
Можливо, вас не сильно вразить кількість знайдених на даний момент зображень їх 300 (містяться в 140 публікаціях від 81 автора). Якщо врахувати число "втрат" (1 242), то результат становить близько 24.2%. Чому зниклих зображень поменшало, ніж було? З розгляду видалено всі марні зображення (на кшталт лічильників переглядів) та неіснуючі зображення (начебто вже згаданого http://#/, а також http://fig.jpg/ і т.д.).
Як сталося таке кругле число? Справа в тому, що приблизно на 300 закінчилася доба пошуків. Спочатку я збирався дійти до 333, але й 300 виглядають цілком непогано. До того ж, на даний момент зовсім неперевіреними залишилося близько 33% всіх "жертв пошуку".
Мал. 2. Поточні результати пошуків
Усі знайдені зображення (крім одного .bmp, з ним було б 301) завантажені на hsto.org, а посилання на них та публікації, а також індекси зображень у них наведені в наступному розділі.
Результати
Отже, під спойлером наведено успішно знайдені зображення, а також id публікацій, індекс малюнку всередині тексту публікації (починаючи з 1, не з 0) та автор публікації. Якщо ви автор згаданої публікацій, а знайдені малюнки коректні, виправте, будь ласка, свої пости. Дякую!
До речі, деякі зображення насправді все ще доступні для перегляду в публікаціях, але не перенесені на Habrastorage, а тому в якийсь момент також можуть стати недоступними.
Можливо, хтось вважатиме, що відновлення такої застарілої інформації не має жодного сенсу. Крім того, частина зі знайдених зображень були безглузді і при їх публікації. Безперечно, так і є.
Будь-яка інформація є важливою. Як мінімум, із погляду історичного аналізу. Не кажучи вже про те, що у деяких авторських матеріалах вона має ключову роль. Так, на даний момент Хабру немає і 15 років і деякі з джерел все ще доступні, але згодом їх ставатиме все менше і менше, а тому варто замислитися заздалегідь, чи залишиться щось на потім, або ж буде вічне "зображення не доступно".
Та й не варто забувати, що заглушки недоступних картинок просто дратують. Звичайно, мало хто читатиме "якесь старе", але й такі люди знайдуться. Тому, якщо ці публікації на Хабре все ще є, то і їх зміст має бути якомога повнішим.
На жаль, поки Habrastorage не підтримує завантаження безпосередньо для всіх форматів зображень, але може це колись і буде виправлено.
Остання проблема, яку хочеться згадати, і про яку ви, напевно, подумали, "а що, якщо автор уже давно не користується Хабром і йому не цікаво виправляти старіння?" У мене це питання в голові виникало і не раз, але рішення тут не так і складно. Старі публікації завжди можуть виправити НЛО в особі модераторів (адже ви можете, Екзосфера?) або адміністрації (Boomburum може видати комусь завдання).
А що думаєте ви, чи варто намагатися відновити хоча б щось?
На сьогодні все. Дякуємо за увагу і нехай завантажаться всі ваші зображення на Habrastorage без проблем! Нехай не буде такого
PS Якщо ви знайшли помилки або помилки в тексті, будь ласка, повідомте мені. Це можна зробити виділивши частину тексту та натиснувши "Ctrl/⌘+Enter", якщо у вас є Ctrl / ⌘, або через особисті повідомлення. Якщо обидва варіанти недоступні, напишіть про помилки в коментарях. Дякую!
PPS Можливо, вам будуть цікаві інші мої дослідження Хабра або ви хочете запропонувати свою тему для наступної публікації, а може навіть новий цикл публікацій.
Де знайти список та як внести пропозицію
Всю інформацію можна знайти у спеціальному репозиторії Хабра-детектива. Там можна дізнатися, які пропозиції вже були озвучені, а що вже знаходиться в роботі.
Крім того, ви можете згадати мене (написавши VaskivskyiYe) у коментарях до публікації, яка здається вам цікавою для дослідження чи аналізу.