Хабра-детектив: у вас картинка загубилася

Хабра-детектив: у вас картинка загубилася
Ви коли-небудь замислювалися, скільки інформації втрачено безслідно? Адже інформація — це те, навіщо Хабр існує. Знаєте, що найчастіше трапляється з ресурсами заснованими на публікаціях користувача? Автори вставляють зображення, картинки та відео зі сторонніх сайтів і через якийсь час вони більше не доступні. Саме для цього колись було створено Habrastorage. Практика показала, що ніхто (крім редакторів та кількох ентузіастів) не завантажує туди зображення самостійно. Тому колись адміністрація Хабра зробила цю функцію автоматичною — кожне зображення, яке зустрічається в публікації, автоматично завантажується в сховище і звідти не пропаде, доки існує сам Хабр. Звичайно ж, є і винятки та щось може піти не такале зараз не про них.

Найбільша проблема у всій цій схемі із завантаженням зображень у Habrastorage відбулася під час її впровадження. На той час деякі старі публікації вже були без малюнків, а тому такими і залишилися. Сьогодні ми спробуємо з'ясувати, скільки графічної інформації втратив Хабр з моменту свого народження. Крім того, може нам вдасться знайти щось із зниклого? Адже дратує ця заглушка "зображення не може бути завантажене", чи не так? Сьогоднішній детектив присвячений саме цьому. Почнемо!

Можливо, вас у цю статтю привело згадування у трекері? Ймовірно, в одній із ваших старих публікацій зникла картинка, а я її знайшов. Якщо вам не хочеться читати всю публікацію, можна просто перегорнути до спойлера в самому кінці (розділ Результати), де перелічені всі публікації та знайдені зображення. Дякую!

Вступ та методи

Наш детектив розпочнеться із самого початку (логічно, правда?). З початку Хабра. Адже чим раніше було опубліковано якусь посаду, тим більше шансів, що зображення з неї загубилися десь в історії. Саме тому почнемо ми з 2006 року та пройдемо трохи вперед.

У розгляді беруть участь усі публікації із 40 хабів, які на даний момент перебувають на початку рейтингу. Повний перелік цих хабів представлений під спойлером. Насправді, багато хто з них тоді не існував, проте при додаванні нових хабів публікації туди переносилися.

Список хабів

* nix, Алгоритми, Штучний Інтелект, Космонавтика, біотехнологія, Brain, C + +, Управління розвитком, DIY, Екологія, Розробка ігор, Games and game consoles, Geek health, History of IT, Інформаційна безпека, IT кар'єра, ІТ-інфраструктура, IT-компанії, Java, JavaScript, Legislation in IT, Lifehacks for geeks, навчання за допомогою машини, Manufacture and development of electronics, Nginx, Відкрите джерело, Управління Персоналом, Фізика, Науково-популярна, Управління продуктом, Програмування, Управління проектом, Python, Читальня, Зворотна інженерія, Social networks and communities, Системне адміністрування, Системний аналіз та проектування, Майбутнє тут, Розробка веб-сайтів

Інформація збиралася за допомогою набору PHP скриптів. Кожна публікація була завантажена, визначено зміст тега та перевірено наявність тегів всередині. Для кожного зображення збережено посилання на зображення з прив'язкою до ID публікації на Хабрі. Надалі аналізується ця інформація.

Що і коли публікували

2006

На самому початку Хабра публікацій було не так багато, як зараз, а картинок у них ще менше. Загалом у 2006 році (починаючи з 05.06.2006) у перерахованих хабах було опубліковано 221 пост. 53 з цих постів містять лише 75 зображень. Максимум зображень (10 штук) у публікації "Десять гаджетів, які змінили світ50 малюнків вже знаходяться на Habrastorage. Ще 25 втрачено. Усі вони унікальні і не повторюються.

Цікавий факт: Два із зображень ведуть на сам Хабр, але при цьому недоступні вже давно. Це зображення http://www.habrahabr.ru/tmp/sup_blogs_preview.gif та http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Отже, за 2006 рік втрачено 33.3% зображень у публікаціях.

2007

У 2007 році кількість публікацій суттєво збільшилася, як і кількість зображень — було опубліковано 1 713 постів. 599 Публікацій містять 1 467 зображень. На Habrastorage перенесено 1 229 зображень, а 238 втрачено (16.2%).

Цікавий факт: Публікація Топ 100 Mac OS додатків містить максимум за 2007 рік - 100 зображень і не містить авторського тексту.

Крім того, частина цих втрачених зображень повторюється. Так, одне з них зустрічається 6 разів на одній публікації із всього 6 картинками. Також 21 раз повторюється зображення "Up.gif", 16 - "Down.gif" та 8 - "Same.gif" з одного домену. І всі ці 45 зображень з одного посту, В якому всього 47 картинок.

Залишається 191 унікальний img.

2008

Оскільки рік у рік кількість публікацій на Хабрі лише збільшувалася, у 2008 році наш детектив розгляне 2 520 публікацій, а також 2 969 зображень. Зауважили, що саме в 2008 кількість зображень у публікаціях нарешті перевищує кількість публікацій. При цьому всього 1 207 постів містять картинки, а максимум у 42 елементи графічної інформації представлено в публікації.Історія святкових логотипів Google". 1 зображення вже збережені на Habrastorage, а 943 втрачені (34.6%).

Цікавий факт: Найнесподіваніше зображення (а точніше, проблема в оформленні публікації) знаходиться тут. В результаті, Хабр намагається завантажити зображення http://#/.

Хабра-детектив: у вас картинка загубилася

Мал. 1. Загальна статистика розглянутого

Чи можна поновити хоч щось?

Часткове відновлення не складає особливих труднощів. Наприклад, "ледачим" способом буде використання Internet Archive у спробі завантажити збережені сторінки публікацій. Крім того, можна спробувати "знайти" в архіві самі зображення за прямими посиланнями.

Lifehack: Перевіряти наявність зображень потрібно у всіх версіях сторінки в архіві, не тільки найстарішої та найновішої.

На жаль, хоча цей метод і працює у частині випадків, відновити хоча б половину картинок так складно. Тому наступний крок — перевірка кроспостингу, оригіналів перекладів та, звісно, ​​архівних копій оригінальних сторінок.

До того ж можна спробувати знайти бажані зображення за допомогою одного з неофіційних дзеркал Хабра, які колись працювали і все ще зберігають частину скопійованої інформації.

Останній і найскладніший варіант – використання пошукових систем. Якщо точно відомо, що має бути на зображенні (є опис та контекст), є шанс знайти файли з такою самою назвою, якщо вони колись були скопійовані на інший ресурс.

Звичайно, кожен наступний крок збільшує час пошуку нелінійно.

Що вдалося знайти

Можливо, вас не сильно вразить кількість знайдених на даний момент зображень їх 300 (містяться в 140 публікаціях від 81 автора). Якщо врахувати число "втрат" (1 242), то результат становить близько 24.2%. Чому зниклих зображень поменшало, ніж було? З розгляду видалено всі марні зображення (на кшталт лічильників переглядів) та неіснуючі зображення (начебто вже згаданого http://#/, а також http://fig.jpg/ і т.д.).

Як сталося таке кругле число? Справа в тому, що приблизно на 300 закінчилася доба пошуків. Спочатку я збирався дійти до 333, але й 300 виглядають цілком непогано. До того ж, на даний момент зовсім неперевіреними залишилося близько 33% всіх "жертв пошуку".

Хабра-детектив: у вас картинка загубилася

Мал. 2. Поточні результати пошуків

Усі знайдені зображення (крім одного .bmp, з ним було б 301) завантажені на hsto.org, а посилання на них та публікації, а також індекси зображень у них наведені в наступному розділі.

Результати

Отже, під спойлером наведено успішно знайдені зображення, а також id публікацій, індекс малюнку всередині тексту публікації (починаючи з 1, не з 0) та автор публікації. Якщо ви автор згаданої публікацій, а знайдені малюнки коректні, виправте, будь ласка, свої пости. Дякую!

До речі, деякі зображення насправді все ще доступні для перегляду в публікаціях, але не перенесені на Habrastorage, а тому в якийсь момент також можуть стати недоступними.

300 картинок

Автор
ID публікації
Індекси та посилання
Приклад

0x62ash
27149
1
Хабра-детектив: у вас картинка загубилася

0x8
11105
1

2Bad
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Хабра-детектив: у вас картинка загубилася

8cinq
41853
1

46498
1

Adam_B
12582
1

анюю
39501
1

alardus
2628
1

Аляска
23447
1, 2
Хабра-детектив: у вас картинка загубилася

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

алізар
37779
1, 2

altblog
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Барков
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Хабра-детектив: у вас картинка загубилася

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

chisto_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Хабра-детектив: у вас картинка загубилася

Cosss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

firstbyte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Gravitality
28840
1

href
46908
1, 2
Хабра-детектив: у вас картинка загубилася

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Карлссон
8971
Down.gif, Same.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Хабра-детектив: у вас картинка загубилася

Клаус
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

LukaSafonov
43537
1

meako
26705
1

Мідгард
31419
2, 3, 4

Mio
396
1

753
1

936
1

мозаїка
744
1

Mr_Floppy
28343
1

нуль
44476
1

офіцер
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovітанін
37146
2, 3
Хабра-детектив: у вас картинка загубилася

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

Ramber
43693
1

rost
44380
1

ruskar
42578
3, 5, 8
Хабра-детектив: у вас картинка загубилася

saintd
702
1

SamDark
30104
1

масштаб
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Хабра-детектив: у вас картинка загубилася

SummerDream
3801
1

sunnybear
31211
1, 2

перемикач
9095
1

Taoorus
37507
1

Тогген
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

вітол
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Хабра-детектив: у вас картинка загубилася

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Хабра-детектив: у вас картинка загубилася

yshilyaev
5556
1, 2, 3

Зада
31123
2

Зигзагоподібний
15492
1

Замість висновку

Можливо, хтось вважатиме, що відновлення такої застарілої інформації не має жодного сенсу. Крім того, частина зі знайдених зображень були безглузді і при їх публікації. Безперечно, так і є.

Будь-яка інформація є важливою. Як мінімум, із погляду історичного аналізу. Не кажучи вже про те, що у деяких авторських матеріалах вона має ключову роль. Так, на даний момент Хабру немає і 15 років і деякі з джерел все ще доступні, але згодом їх ставатиме все менше і менше, а тому варто замислитися заздалегідь, чи залишиться щось на потім, або ж буде вічне "зображення не доступно".

Та й не варто забувати, що заглушки недоступних картинок просто дратують. Звичайно, мало хто читатиме "якесь старе", але й такі люди знайдуться. Тому, якщо ці публікації на Хабре все ще є, то і їх зміст має бути якомога повнішим.

На жаль, поки Habrastorage не підтримує завантаження безпосередньо для всіх форматів зображень, але може це колись і буде виправлено.

Остання проблема, яку хочеться згадати, і про яку ви, напевно, подумали, "а що, якщо автор уже давно не користується Хабром і йому не цікаво виправляти старіння?" У мене це питання в голові виникало і не раз, але рішення тут не так і складно. Старі публікації завжди можуть виправити НЛО в особі модераторів (адже ви можете, Екзосфера?) або адміністрації (Boomburum може видати комусь завдання).

А що думаєте ви, чи варто намагатися відновити хоча б щось?

На сьогодні все. Дякуємо за увагу і нехай завантажаться всі ваші зображення на Habrastorage без проблем! Нехай не буде такого

Хабра-детектив: у вас картинка загубилася

PS Якщо ви знайшли помилки або помилки в тексті, будь ласка, повідомте мені. Це можна зробити виділивши частину тексту та натиснувши "Ctrl/⌘+Enter", якщо у вас є Ctrl / ⌘, або через особисті повідомлення. Якщо обидва варіанти недоступні, напишіть про помилки в коментарях. Дякую!

PPS Можливо, вам будуть цікаві інші мої дослідження Хабра або ви хочете запропонувати свою тему для наступної публікації, а може навіть новий цикл публікацій.

Де знайти список та як внести пропозицію

Всю інформацію можна знайти у спеціальному репозиторії Хабра-детектива. Там можна дізнатися, які пропозиції вже були озвучені, а що вже знаходиться в роботі.

Крім того, ви можете згадати мене (написавши VaskivskyiYe) у коментарях до публікації, яка здається вам цікавою для дослідження чи аналізу.

Джерело: habr.com

Додати коментар або відгук