Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់
Вы когда-нибудь задумывались, сколько информации бесследно потеряно? Ведь информация — это то, ради чего Хабр существует. Знаете, что чаще всего случается с ресурсами основанными на пользовательских публикациях? Авторы вставляют изображения, картинки и видео со сторонних сайтов и через какое-то время они больше не доступны. Именно для этого когда-то был создан Habrastorage. Практика показала, что никто (кроме редакторов и нескольких энтузиастов) не загружает туда изображения самостоятельно. Потому в какой-то момент администрация Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт, пока существует сам Хабр. Конечно же, есть и исключения и что-то может пойти не так, но сейчас не о них.

Самая большая проблема во всей этой схеме с загрузкой изображений в Habrastorage произошла во время её внедрения. К тому моменту некоторые старые публикации уже были без рисунков, а потому такими и остались. Сегодня мы попробуем выяснить, сколько же графической информации потерял Хабр с момента своего рождения. Кроме того, может нам удастся найти что-то из пропавшего? Ведь раздражает эта заглушка "изображение не может быть загружено", не так ли? Сегодняшний детектив посвящён именно этому. Приступим!

Возможно, вас в эту статью привело упоминание в трекере? Вероятно, в одной из ваших старых публикаций пропала картинка, а я её нашел. Если вам не хочется читать всю публикацию, можно просто пролистать до спойлера в самом конце (раздел Результаты), где перечислены все публикации и найденные изображения. Спасибо!

Вступление и методы

Наш детектив начнётся с самого начала (логично, правда?). С начала Хабра. Ведь чем раньше был опубликован какой-либо пост, тем больше шансов, что изображения из него затерялись где-то в истории. Именно потому начнём мы с 2006 года и пройдём немного вперёд.

В рассмотрении участвуют все публикации из 40 хабов, которые на данный момент находятся в начале рейтинга. Полный список этих хабов представлен под спойлером. На самом деле, многие из них тогда не существовали, однако при добавлении новых хабов публикации туда переносились.

Список хабов

* nix, ក្បួនដោះស្រាយ, បញ្ញាសិប្បនិម្មិត, អវកាសយានិក។, ជីវបច្ចេកវិទ្យា, ខួរក្បាល, C ++, ការគ្រប់គ្រងការអភិវឌ្ឍន៍។, DIY ការ, បរិស្សានវិទ្យា, ការអភិវឌ្ឍន៍ល្បែង, Games and game consoles, Geek health, History of IT, សន្តិសុខពត៌មាន, IT career, ហេដ្ឋារចនាសម្ព័ន្ធព័ត៌មានវិទ្យា, IT-companies, កោះជ្វា, JavaScript, Legislation in IT, Lifehacks for geeks, ការរៀនម៉ាស៊ីន, Manufacture and development of electronics, Nginx, ប្រភព​បើក​ចំហ, ការគ្រប់គ្រងបុគ្គលិក, រូបវិទ្យា, វិទ្យាសាស្ត្រប្រជាប្រិយ, ការគ្រប់គ្រង​ផលិតផល, ការសរសេរកម្មវិធី, ការ​គ្រប់គ្រង​គម្រោង, ពស់ថ្លាន់, បន្ទប់អាន, ការផ្លាស់ប្ដូរ​វិស្វកម្ម, Social networks and communities, ការគ្រប់គ្រងប្រព័ន្ធ, ការវិភាគប្រព័ន្ធនិងការរចនា, អនាគតគឺនៅទីនេះ, ការអភិវឌ្ឍគេហទំព័រ

Информация собиралась с помощью набора PHP скриптов. Каждая публикация была загружена, определено содержание тега < div id="post-content-body" > и проверено наличие тегов < img > внутри. Для каждого изображения сохранены ссылки на изображения с привязкой к ID публикации на Хабре. В дальнейшем анализируется именно эта информация.

Что и когда публиковали

2006

В самом начале Хабра публикаций было не так много, как сейчас, а картинок в них — ещё меньше. Всего в 2006 году (начиная с 05.06.2006) в перечисленных хабах был опубликован 221 пост. 53 из этих постов содержат всего 75 изображений. Максимум изображений (10 штук) в публикации "Десять гаджетов, которые изменили мир". 50 рисунков уже находятся на Habrastorage. Ещё 25 потеряно. Все они уникальны и не повторяются.

ជាការពិតគួរឱ្យចាប់អារម្មណ៍: Два из изображений ведут на сам Хабр, но при этом недоступны уже давно. Это изображения http://www.habrahabr.ru/tmp/sup_blogs_preview.gif и http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Итак, за 2006 год потеряно 33.3% изображений в публикациях.

2007

В 2007 количество публикаций существенно увеличилось, как и количество изображений — было опубликовано 1 713 постов. 599 Публикаций содержат 1 467 изображений. На Habrastorage перенесено 1 229 изображений, а 238 потеряно (16.2%).

ជាការពិតគួរឱ្យចាប់អារម្មណ៍: ការបោះពុម្ពផ្សាយ Топ 100 Mac OS приложений содержит максимум за 2007 год — 100 изображений и не содержит авторского текста.

Кроме того, часть из этих потерянных изображений повторяется. Так, одно из них встречается 6 раз в одной ការបោះពុម្ពផ្សាយ с всего 6 картинками. Также 21 раз повторяется изображение "Up.gif", 16 — "Down.gif" и 8 — "Same.gif" с одного домена. И все эти 45 изображений из одного поста, в котором всего 47 картинок.

Остаётся 191 уникальный < img >.

2008

Поскольку год от года количество публикаций на Хабре лишь увеличивался, в 2008 наш детектив рассмотрит 2 520 публикаций, а также 2 969 изображений. Заметили, именно в 2008 количество изображений в публикациях наконец-то превышает количество публикаций. При этом всего 1 207 постов содержат картинки, а максимум в 42 элемента графической информации представлен в публикации "История праздничных логотипов Google". 1 943 изображения уже сохранены на Habrastorage, а 1 026 потеряны (34.6%).

ជាការពិតគួរឱ្យចាប់អារម្មណ៍: Самое неожиданное изображение (а точнее, проблема в оформлении публикации) находится នៅទីនេះ. В результате, Хабр пытается загрузить изображение по http://#/.

Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

Рис. 1. Общая статистика рассмотренного

Можно ли восстановить хоть что-то?

Частичное восстановление не составляет особого труда. К примеру, самым "ленивым" способом будет использование ប័ណ្ណសារអ៊ីនធឺណិត в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.

Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.

К сожалению, хотя этот метод и работает в части случаев, восстановить хотя бы половину картинок так сложно. Потому следующий шаг — проверка кросспостинга, оригиналов переводов и, естественно, архивных копий оригинальных страниц.

К тому же, можно попробовать найти желаемые изображения с помощью одного из неофициальных зеркал Хабра, которые когда-то работали и всё ещё хранят часть скопированной информации.

Последний и самый сложный вариант — использование поисковых систем. Если точно известно, что должно быть на изображении (есть описание и контекст), есть шанс найти файлы с таким же названием, если они когда-то кем-то были скопированы на другой ресурс.

Естественно, каждый следующий шаг увеличивает время поиска нелинейно.

Что удалось найти

Возможно, вас не сильно впечатлит количество найденных на данный момент изображений — их 300 (содержатся в 140 публикациях от 81 автора). Если учесть число "потеряшек" (1 242), то результат составляет около 24.2%. Почему пропавших изображений стало меньше, чем было? Из рассмотрения удалены все бесполезные изображения (вроде счётчиков просмотров) и несуществующие изображения (вроде уже упомянутого http://#/, а также http://fig.jpg/ ល។ )

Как вышло такое круглое число? Дело в том, что примерно на 300 закончились сутки поисков. Вначале, я собирался дойти до 333, но и 300 выглядят вполне неплохо. К тому же, на данный момент совсем непроверенными осталось около 33% всех "жертв поиска".

Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

Рис. 2. Текущие результаты поисков

Все найденные изображение (кроме одного .bmp, с ним было бы 301) загружены на hsto.org, а ссылки на них и публикации, а также индексы изображений в них приведены в следующем разделе.

Результаты

Итак, под спойлером приведены успешно найденные изображения, а также id публикаций, индекс рисунка внутри текста публикации (начиная с 1, не с 0) и автор публикации. Если вы — автор упомянутой публикаций, а найденные рисунки корректны, исправьте, пожалуйста, свои посты. Спасибо!

Кстати, некоторые изображения на самом деле всё ещё доступны для просмотра в публикациях, однако не перенесены на Habrastorage, а потому в какой-то момент тоже могут стать недоступными.

300 картинок

អ្នកនិពន្ធ
ID публикации
Индексы и ссылки
ឧទាហរណ៍:

0x62ash
27149
1
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

0xa8
11105
1

2Bad
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

8cinq
41853
1

46498
1

Adam_B
12582
1

ainu
39501
1

alardus
2628
1

អាឡាស្កា
23447
1, 2
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

អាលីហ្សា
37779
1, 2

altblog
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

បាកូវ
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

chisto_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

Cosss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

firstbyte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Gravitality
28840
1

href
46908
1, 2
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

ខាលសុន។
8971
Down.gif, Same.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

LukaSafonov
43537
1

meako
26705
1

មីដហ្គាដ
31419
2, 3, 4

Mio
396
1

753
1

936
1

mozaic
744
1

Mr_Floppy
28343
1

គ្មាន
44476
1

មន្រ្តី។
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

បញ្ជីឈ្មោះ
44380
1

ruskar
42578
3, 5, 8
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

saintd
702
1

SamDark
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

SummerDream
3801
1

sunnybear
31211
1, 2

ការផ្លាស់ប្តូរ
9095
1

Taoorus
37507
1

ថូហ្គេន
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

yshilyaev
5556
1, 2, 3

Zada
31123
2

ហ្សីហ្សក
15492
1

ជំនួសឱ្យការសន្និដ្ឋានមួយ

Возможно, кто-то посчитает, что восстановление такой устаревшей информации не имеет никакого смысла. А кроме того, часть из найденных изображений были бессмысленны и при их публикации. Несомненно, так и есть.

Любая информация важна. Как минимум, с точки зрения исторического анализа. Не говоря уже о том, что в некоторых авторских материалах она имеет ключевую роль. Да, на данный момент Хабру нет и 15 лет и некоторые из источников всё ещё доступны, но со временем их будет становиться всё меньше и меньше, а потому стоит задуматься заранее, останется ли что-то на потом, либо же будет вечное "изображение не доступно".

Ну и не стоит забывать, что заглушки недоступных картинок просто раздражают. Конечно, мало кто будет читать "какое-то старьё", но и такие люди найдутся. Потому, раз эти публикации на Хабре всё ещё есть, то и их содержание должно быть как можно более полным.

К сожалению, пока Habrastorage не поддерживает загрузку напрямую для всех форматов изображений, но может это когда-нибудь и будет исправлено.

Последняя проблема, которую хочется упомянуть, и о которой вы наверняка подумали, "а что, если автор уже давно не пользуется Хабром и ему не интересно исправлять старьё?" У меня этот вопрос в голове возникал и не раз, но решение здесь не так и сложно. Старые публикации всегда может исправить UFO в лице модераторов (вы ведь можете, exosphere?) или администрации (Boomburum может выдать кому-то задание).

А что думаете вы, стоит пытаться восстановить хотя бы что-то?

На сегодня всё. Спасибо за внимание и да загрузятся все ваши изображения на Habrastorage без проблем! Пусть не будет такого

Habra-detective៖ រូបភាពរបស់អ្នកត្រូវបានបាត់បង់

PS ប្រសិន​បើ​អ្នក​រក​ឃើញ​ការ​វាយ​អក្សរ​ឬ​កំហុស​ណា​មួយ​ក្នុង​អត្ថបទ​សូម​ឱ្យ​ខ្ញុំ​ដឹង​។ នេះអាចត្រូវបានធ្វើដោយជ្រើសរើសបំណែកនៃអត្ថបទហើយចុច "បញ្ជា (Ctrl) / ⌘ + បញ្ចូល" ប្រសិនបើអ្នកមាន Ctrl / ⌘ ទាំងតាមរយៈ សារឯកជន. ប្រសិនបើជម្រើសទាំងពីរមិនមានទេ សូមសរសេរអំពីកំហុសនៅក្នុងមតិយោបល់។ សូមអរគុណ!

PPS ប្រហែលជាអ្នកក៏នឹងចាប់អារម្មណ៍លើការស្រាវជ្រាវ Habr ផ្សេងទៀតរបស់ខ្ញុំ ឬអ្នកចង់ផ្តល់យោបល់លើប្រធានបទផ្ទាល់ខ្លួនរបស់អ្នកសម្រាប់ការបោះពុម្ពលើកក្រោយ ឬប្រហែលជាការបោះពុម្ពស៊េរីថ្មីមួយទៀត។

កន្លែងដែលត្រូវស្វែងរកបញ្ជី និងរបៀបបង្កើតសំណើ

ព័ត៌មានទាំងអស់អាចរកបាននៅក្នុងឃ្លាំងពិសេស អ្នកស៊ើបអង្កេត Habra. នៅទីនោះ អ្នកក៏អាចស្វែងយល់ថាតើសំណើណាមួយត្រូវបានប្រកាសរួចហើយ និងអ្វីដែលកំពុងដំណើរការរួចហើយ។

អ្នក​អាច​ប្រាប់​ខ្ញុំ​ផង​ដែរ (ដោយ​សរសេរ​ វ៉ាស្គីវស្គី) នៅក្នុងមតិយោបល់ទៅកាន់ការបោះពុម្ពផ្សាយដែលមើលទៅគួរឱ្យចាប់អារម្មណ៍សម្រាប់អ្នកសម្រាប់ការស្រាវជ្រាវ ឬការវិភាគ។

ប្រភព: www.habr.com

បន្ថែមមតិយោបល់