Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε
Вы когда-нибудь задумывались, сколько информации бесследно потеряно? Ведь информация — это то, ради чего Хабр существует. Знаете, что чаще всего случается с ресурсами основанными на пользовательских публикациях? Авторы вставляют изображения, картинки и видео со сторонних сайтов и через какое-то время они больше не доступны. Именно для этого когда-то был создан Habrastorage. Практика показала, что никто (кроме редакторов и нескольких энтузиастов) не загружает туда изображения самостоятельно. Потому в какой-то момент администрация Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт, пока существует сам Хабр. Конечно же, есть и исключения и что-то может пойти не так, но сейчас не о них.

Самая большая проблема во всей этой схеме с загрузкой изображений в Habrastorage произошла во время её внедрения. К тому моменту некоторые старые публикации уже были без рисунков, а потому такими и остались. Сегодня мы попробуем выяснить, сколько же графической информации потерял Хабр с момента своего рождения. Кроме того, может нам удастся найти что-то из пропавшего? Ведь раздражает эта заглушка "изображение не может быть загружено", не так ли? Сегодняшний детектив посвящён именно этому. Приступим!

Возможно, вас в эту статью привело упоминание в трекере? Вероятно, в одной из ваших старых публикаций пропала картинка, а я её нашел. Если вам не хочется читать всю публикацию, можно просто пролистать до спойлера в самом конце (раздел Ευρήματα), где перечислены все публикации и найденные изображения. Спасибо!

Вступление и методы

Наш детектив начнётся с самого начала (логично, правда?). С начала Хабра. Ведь чем раньше был опубликован какой-либо пост, тем больше шансов, что изображения из него затерялись где-то в истории. Именно потому начнём мы с 2006 года и пройдём немного вперёд.

В рассмотрении участвуют все публикации из 40 хабов, которые на данный момент находятся в начале рейтинга. Полный список этих хабов представлен под спойлером. На самом деле, многие из них тогда не существовали, однако при добавлении новых хабов публикации туда переносились.

Список хабов

*νεράιδα, Αλγόριθμοι, Τεχνητή νοημοσύνη, Αστροναυτική, βιοτεχνολογίες, Εγκέφαλος, C + +, Διαχείριση Ανάπτυξης, DIY, Οικολογία, Ανάπτυξη παιχνιδιών, Games and game consoles, Geek health, History of IT, Ασφάλεια Πληροφοριών, IT career, Υποδομή πληροφορικής, IT-companies, Java, το JavaScript, Legislation in IT, Lifehacks for geeks, Εκμάθηση μηχανών, Manufacture and development of electronics, nginx, Ανοιχτή πηγή, Διαχείριση προσωπικού, Φυσική, Δημοφιλή επιστήμη, Διαχείριση προϊόντων, Προγραμματισμός, Διαχείριση έργου, Python, Αναγνωστήριο, Αντίστροφη μηχανική, Social networks and communities, Διαχείριση συστήματος, Ανάλυση και σχεδιασμός συστήματος, Το μέλλον είναι εδώ, ανάπτυξη ιστοσελίδων

Информация собиралась с помощью набора PHP скриптов. Каждая публикация была загружена, определено содержание тега < div id="post-content-body" > и проверено наличие тегов < img > внутри. Для каждого изображения сохранены ссылки на изображения с привязкой к ID публикации на Хабре. В дальнейшем анализируется именно эта информация.

Что и когда публиковали

2006

В самом начале Хабра публикаций было не так много, как сейчас, а картинок в них — ещё меньше. Всего в 2006 году (начиная с 05.06.2006) в перечисленных хабах был опубликован 221 пост. 53 из этих постов содержат всего 75 изображений. Максимум изображений (10 штук) в публикации "Десять гаджетов, которые изменили мир". 50 рисунков уже находятся на Habrastorage. Ещё 25 потеряно. Все они уникальны и не повторяются.

Ένα ενδιαφέρον γεγονός: Два из изображений ведут на сам Хабр, но при этом недоступны уже давно. Это изображения http://www.habrahabr.ru/tmp/sup_blogs_preview.gif и http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Итак, за 2006 год потеряно 33.3% изображений в публикациях.

2007

В 2007 количество публикаций существенно увеличилось, как и количество изображений — было опубликовано 1 713 постов. 599 Публикаций содержат 1 467 изображений. На Habrastorage перенесено 1 229 изображений, а 238 потеряно (16.2%).

Ένα ενδιαφέρον γεγονός: Δημοσίευση Топ 100 Mac OS приложений содержит максимум за 2007 год — 100 изображений и не содержит авторского текста.

Кроме того, часть из этих потерянных изображений повторяется. Так, одно из них встречается 6 раз в одной Δημοσίευση с всего 6 картинками. Также 21 раз повторяется изображение "Up.gif", 16 — "Down.gif" и 8 — "Same.gif" с одного домена. И все эти 45 изображений из одного поста, в котором всего 47 картинок.

Остаётся 191 уникальный < img >.

2008

Поскольку год от года количество публикаций на Хабре лишь увеличивался, в 2008 наш детектив рассмотрит 2 520 публикаций, а также 2 969 изображений. Заметили, именно в 2008 количество изображений в публикациях наконец-то превышает количество публикаций. При этом всего 1 207 постов содержат картинки, а максимум в 42 элемента графической информации представлен в публикации "История праздничных логотипов Google". 1 943 изображения уже сохранены на Habrastorage, а 1 026 потеряны (34.6%).

Ένα ενδιαφέρον γεγονός: Самое неожиданное изображение (а точнее, проблема в оформлении публикации) находится εδώ. В результате, Хабр пытается загрузить изображение по http://#/.

Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

Рис. 1. Общая статистика рассмотренного

Можно ли восстановить хоть что-то?

Частичное восстановление не составляет особого труда. К примеру, самым "ленивым" способом будет использование Internet Archive в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.

Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.

К сожалению, хотя этот метод и работает в части случаев, восстановить хотя бы половину картинок так сложно. Потому следующий шаг — проверка кросспостинга, оригиналов переводов и, естественно, архивных копий оригинальных страниц.

К тому же, можно попробовать найти желаемые изображения с помощью одного из неофициальных зеркал Хабра, которые когда-то работали и всё ещё хранят часть скопированной информации.

Последний и самый сложный вариант — использование поисковых систем. Если точно известно, что должно быть на изображении (есть описание и контекст), есть шанс найти файлы с таким же названием, если они когда-то кем-то были скопированы на другой ресурс.

Естественно, каждый следующий шаг увеличивает время поиска нелинейно.

Τι βρέθηκε

Возможно, вас не сильно впечатлит количество найденных на данный момент изображений — их 300 (содержатся в 140 публикациях от 81 автора). Если учесть число "потеряшек" (1 242), то результат составляет около 24.2%. Почему пропавших изображений стало меньше, чем было? Из рассмотрения удалены все бесполезные изображения (вроде счётчиков просмотров) и несуществующие изображения (вроде уже упомянутого http://#/, а также http://fig.jpg/ και ούτω καθεξής).

Как вышло такое круглое число? Дело в том, что примерно на 300 закончились сутки поисков. Вначале, я собирался дойти до 333, но и 300 выглядят вполне неплохо. К тому же, на данный момент совсем непроверенными осталось около 33% всех "жертв поиска".

Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

Рис. 2. Текущие результаты поисков

Все найденные изображение (кроме одного .bmp, с ним было бы 301) загружены на hsto.org, а ссылки на них и публикации, а также индексы изображений в них приведены в следующем разделе.

Ευρήματα

Итак, под спойлером приведены успешно найденные изображения, а также id публикаций, индекс рисунка внутри текста публикации (начиная с 1, не с 0) и автор публикации. Если вы — автор упомянутой публикаций, а найденные рисунки корректны, исправьте, пожалуйста, свои посты. Спасибо!

Кстати, некоторые изображения на самом деле всё ещё доступны для просмотра в публикациях, однако не перенесены на Habrastorage, а потому в какой-то момент тоже могут стать недоступными.

300 εικόνες

Συγγραφέας
ID публикации
Индексы и ссылки
Παράδειγμα

0x62ash
27149
1
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

0xa8
11105
1

2Bad
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

8cinq
41853
1

46498
1

Adam_B
12582
1

ainu
39501
1

alardus
2628
1

Αλάσκα
23447
1, 2
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

αλιζάρ
37779
1, 2

altblog
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Μπάρκοφ
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

chisto_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

Cosss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

firstbyte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Gravitality
28840
1

href
46908
1, 2
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Down.gif, Same.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Λούκα Σαφόνοφ
43537
1

meako
26705
1

Midgard
31419
2, 3, 4

Εκατ.
396
1

753
1

936
1

μωσαϊκό
744
1

Mr_Floppy
28343
1

μηδέν
44476
1

αξιωματικός
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

ρόστερ
44380
1

ruskar
42578
3, 5, 8
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

saintd
702
1

SamDark
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

SummerDream
3801
1

ηλιόλουστη αρκούδα
31211
1, 2

διακόπτης
9095
1

Taoorus
37507
1

Θόγκεν
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

yshilyaev
5556
1, 2, 3

Zada
31123
2

Ζιγκ ζαγκ
15492
1

Αντί για ένα συμπέρασμα

Возможно, кто-то посчитает, что восстановление такой устаревшей информации не имеет никакого смысла. А кроме того, часть из найденных изображений были бессмысленны и при их публикации. Несомненно, так и есть.

Любая информация важна. Как минимум, с точки зрения исторического анализа. Не говоря уже о том, что в некоторых авторских материалах она имеет ключевую роль. Да, на данный момент Хабру нет и 15 лет и некоторые из источников всё ещё доступны, но со временем их будет становиться всё меньше и меньше, а потому стоит задуматься заранее, останется ли что-то на потом, либо же будет вечное "изображение не доступно".

Ну и не стоит забывать, что заглушки недоступных картинок просто раздражают. Конечно, мало кто будет читать "какое-то старьё", но и такие люди найдутся. Потому, раз эти публикации на Хабре всё ещё есть, то и их содержание должно быть как можно более полным.

К сожалению, пока Habrastorage не поддерживает загрузку напрямую для всех форматов изображений, но может это когда-нибудь и будет исправлено.

Последняя проблема, которую хочется упомянуть, и о которой вы наверняка подумали, "а что, если автор уже давно не пользуется Хабром и ему не интересно исправлять старьё?" У меня этот вопрос в голове возникал и не раз, но решение здесь не так и сложно. Старые публикации всегда может исправить UFO в лице модераторов (вы ведь можете, Εξώσφαιρα?) или администрации (Μπουμπουρούμ может выдать кому-то задание).

А что думаете вы, стоит пытаться восстановить хотя бы что-то?

На сегодня всё. Спасибо за внимание и да загрузятся все ваши изображения на Habrastorage без проблем! Пусть не будет такого

Χάμπρα-ντετέκτιβ: η φωτογραφία σου χάθηκε

PS Εάν βρείτε τυπογραφικά λάθη ή λάθη στο κείμενο, ενημερώστε με. Αυτό μπορεί να γίνει επιλέγοντας μέρος του κειμένου και πατώντας το "Ctrl / ⌘ + Enter" εάν έχετε Ctrl / ⌘ ή μέσω Προσωπικά Μηνύματα. Εάν και οι δύο επιλογές δεν είναι διαθέσιμες, γράψτε για τα σφάλματα στα σχόλια. Ευχαριστώ!

ΜΑΔ Ίσως θα σας ενδιαφέρει και η άλλη μου έρευνα στο Habr ή θα θέλατε να προτείνετε το δικό σας θέμα για την επόμενη δημοσίευση, ή ίσως ακόμη και μια νέα σειρά δημοσιεύσεων.

Πού να βρείτε τη λίστα και πώς να κάνετε μια πρόταση

Όλες οι πληροφορίες βρίσκονται σε ειδικό αποθετήριο Ντετέκτιβ Habra. Εκεί μπορείτε επίσης να μάθετε ποιες προτάσεις έχουν ήδη ανακοινωθεί και τι είναι ήδη στα σκαριά.

Επίσης, μπορείτε να με αναφέρετε (γράφοντας VaskivskyiYe) στα σχόλια μιας δημοσίευσης που σας φαίνεται ενδιαφέρουσα για έρευνα ή ανάλυση.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο