Хабра-дэтэктыў: у вас карцінка згубілася

Хабра-дэтэктыў: у вас карцінка згубілася
Вы калі-небудзь задумваліся, колькі інфармацыі бясследна страчана? Бо інфармацыя - гэта тое, дзеля чаго Хабр існуе. Ведаеце, што часцей за ўсё здараецца з рэсурсамі заснаванымі на карыстацкіх публікацыях? Аўтары ўстаўляюць выявы, карцінкі і відэа з іншых сайтаў і праз нейкі час яны больш не даступныя. Менавіта для гэтага некалі быў створаны Habrastorage. Практыка паказала, што ніхто (акрамя рэдактараў і некалькіх энтузіястаў) не загружае туды выявы самастойна. Таму ў нейкі момант адміністрацыя Хабра зрабіла гэтую функцыю аўтаматычнай – кожная выява, якая сустракаецца ў публікацыі, аўтаматычна загружаецца ў сховішча і адтуль не знікне, пакуль існуе сам Хабр. Вядома ж, ёсць і выключэнні і нешта можа пайсці не так, Але зараз не пра іх.

Самая вялікая праблема ва ўсёй гэтай схеме з загрузкай выяваў у Habrastorage адбылася падчас яе ўкаранення. На той момант некаторыя старыя публікацыі ўжо былі без малюнкаў, а таму такімі і засталіся. Сёння мы паспрабуем высветліць, колькі ж графічнай інфармацыі страціў Хабр з моманту свайго нараджэння. Акрамя таго, можа нам удасца знайсці нешта з зніклага? Бо раздражняе гэтая заглушка "малюнак не можа быць загружана", ці не так? Сённяшні дэтэктыў прысвечаны менавіта гэтаму. Прыступім!

Магчыма, вас у гэты артыкул прывяло згадванне ў трэкеры? Верагодна, у адной з вашых старых публікацый знікла карцінка, а я яе знайшоў. Калі вам не жадаецца чытаць усю публікацыю, можна проста прагартаць да спойлера ў самым канцы (частка Вынікі), дзе пералічаны ўсе публікацыі і знойдзеныя выявы. Дзякуй!

Уступленне і метады

Наш дэтэктыў пачнецца з самага пачатку (лагічна, праўда?). З пачатку Хабра. Бо чым раней быў апублікаваны які-небудзь пост, тым больш шанцаў, што выявы з яго згубіліся дзесьці ў гісторыі. Менавіта таму пачнем мы з 2006 года і пройдзем крыху наперад.

У разглядзе ўдзельнічаюць усе публікацыі з 40 хабаў, якія на дадзены момант знаходзяцца ў пачатку рэйтынгу. Поўны спіс гэтых хабаў прадстаўлены пад спойлерам. Насамрэч, многія з іх тады не існавалі, аднак пры даданні новых хабаў публікацыі туды пераносіліся.

Спіс хабаў

* Нікс, Алгарытмы, Штучны Інтэлект, Касманаўтыка, біятэхналогія, мозг, C + +, Кіраванне развіццём, DIY, Экалогія, Распрацоўка гульняў, Games and game consoles, Geek health, History of IT, Інфармацыйная бяспека, ІТ-кар'ера, ІТ-інфраструктура, IT-companies, ява, JavaScript, Legislation in IT, Lifehacks for geeks, навучанне з дапамогай машыны, Manufacture and development of electronics, Nginx, Адкрыты зыходны код, кадравы менеджмент, Фізіка, Навукова-папулярная, Кіраванне прадуктам, Праграмаванне, Кіраванне праектам, Пітон, Чытальная зала, Зваротная інжынерыя, Social networks and communities, сістэмнае адміністраванне, Аналіз і дызайн сістэмы, Будучыня тут, Website development

Інфармацыя збіралася з дапамогай набору PHP скрыптоў. Кожная публікацыя была загружана, вызначаны змест тэга < div id="post-content-body" > і праверана наяўнасць тэгаў < img > ўнутры. Для кожнага малюнка захаваны спасылкі на выявы з прывязкай да ID публікацыі на Хабры. У далейшым аналізуецца менавіта гэтая інфармацыя.

Што і калі публікавалі

2006

У самым пачатку Хабра публікацый было не так шмат, як цяпер, а карцінак у іх - яшчэ менш. Усяго ў 2006 годзе (пачынаючы з 05.06.2006) у пералічаных хабах быў апублікаваны 221 пост. 53 з гэтых пастоў утрымоўваюць усяго 75 малюнкаў. Максімум малюнкаў (10 штук) у публікацыі "Дзесяць гаджэтаў, якія змянілі свет50 малюнкаў ужо знаходзяцца на Habrastorage. Яшчэ 25 страчана. Усе яны ўнікальныя і не паўтараюцца.

Цікавы факт: Два з выяваў вядуць на сам Хабр, але пры гэтым недаступныя ўжо даўно. Гэта выявы http://www.habrahabr.ru/tmp/sup_blogs_preview.gif і http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Такім чынам, за 2006 год страчана 33.3% малюнкаў у публікацыях.

2007

У 2007 г. колькасць публікацый істотна павялічылася, як і колькасць выяў — было апублікавана 1 713 пастоў. 599 Публікацый змяшчаюць 1 467 малюнкаў. На Habrastorage перанесена 1 малюнкаў, а 229 страчана16.2%).

Цікавы факт: Публікацыя Топ 100 Mac OS прыкладанняў змяшчае максімум за 2007 год - 100 малюнкаў і не змяшчае аўтарскага тэксту.

Акрамя таго, частка з гэтых страчаных выяваў паўтараецца. Так, адно з іх сустракаецца 6 раз у адной публікацыі з усяго 6 карцінкамі. Таксама 21 разоў паўтараецца выява "Up.gif", 16 - "Down.gif" і 8 - "Same.gif" з аднаго дамена. І ўсе гэтыя 45 малюнкаў з аднаго паста, у якім усяго 47 карцінак.

Застаецца 191 унікальны img.

2008

Паколькі год ад года колькасць публікацый на Хабры толькі павялічваўся, у 2008 наш дэтэктыў разгледзіць 2 публікацый, а таксама 520 малюнкаў. Заўважылі, менавіта ў 2 колькасць малюнкаў у публікацыях нарэшце перавышае колькасць публікацый. Пры гэтым усяго 969 2008 пастоў змяшчаюць карцінкі, а максімум у 1 элементы графічнай інфармацыі прадстаўлены ў публікацыі.Гісторыя святочных лагатыпаў Google". 1 выявы ўжо захаваны на Habrastorage, а 943 страчаныя (34.6%).

Цікавы факт: Самая нечаканая выява (а дакладней, праблема ў афармленні публікацыі) знаходзіцца тут. У выніку, Хабр спрабуе загрузіць выява па http://#/.

Хабра-дэтэктыў: у вас карцінка згубілася

Мал. 1. Агульная статыстыка разгледжанага

Ці можна аднавіць хоць нешта?

Частковае аднаўленне не складае асаблівай цяжкасці. Напрыклад, самым "лянівым" спосабам будзе выкарыстанне. Internet Archive у спробе загрузіць захаваныя старонкі публікацый. Акрамя таго, можна паспрабаваць "знайсці" ў архіве самі выявы па прамых спасылках.

Lifehack: Правяраць наяўнасць выяваў трэба ва ўсіх версіях старонкі ў архіве, не толькі самай старой і самай новай.

Нажаль, хоць гэты метад і працуе ў частцы выпадкаў, аднавіць хаця б палову малюнкаў так складана. Таму наступны крок - праверка кроспастынгу, арыгіналаў перакладаў і, натуральна, архіўных копій арыгінальных старонак.

Да таго ж, можна паспрабаваць знайсці жаданыя выявы з дапамогай аднаго з неафіцыйных люстэркаў Хабра, якія калісьці працавалі і ўсё яшчэ захоўваюць частку скапіяванай інфармацыі.

Апошні і самы складаны варыянт - выкарыстанне пошукавых сістэм. Калі дакладна вядома, што павінна быць на малюнку (ёсць апісанне і кантэкст), ёсць шанец знайсці файлы з такой жа назвай, калі яны некалі кімсьці былі скапіяваныя на іншы рэсурс.

Натуральна, кожны наступны крок павялічвае час пошуку нелінейна.

Што ўдалося знайсці

Магчыма, вас не моцна ўразіць колькасць знойдзеных на дадзены момант малюнкаў - іх 300 (змяшчаюцца ў 140 публікацыях ад 81 аўтара). Калі ўлічыць колькасць "страцяшак" (1), то вынік складае каля 24.2%. Чаму зніклых выяваў стала менш, чым было? З разгляду выдалены ўсе бескарысныя выявы (накшталт лічыльнікаў праглядаў) і неіснуючыя выявы (накшталт ужо згаданага http://#/, а таксама http://fig.jpg/ і г.д.).

Як выйшаў такі круглы лік? Справа ў тым, што прыкладна на 300 скончыліся суткі пошукаў. Спачатку, я збіраўся дайсці да 333, але і 300 выглядаюць суцэль нядрэнна. Да таго ж, цяпер зусім неправеранымі засталося каля 33% усіх "ахвяраў пошуку".

Хабра-дэтэктыў: у вас карцінка згубілася

Мал. 2. Бягучыя вынікі пошукаў

Усе знойдзеныя выявы (акрамя аднаго .bmp, з ім было б 301) загружаны на hsto.org, а спасылкі на іх і публікацыі, а таксама індэксы малюнкаў у іх прыведзены ў наступным раздзеле.

Вынікі

Такім чынам, пад спойлерам прыведзены паспяхова знойдзеныя выявы, а таксама id публікацый, індэкс малюнка ўнутры тэксту публікацыі (пачынаючы з 1, не з 0) і аўтар публікацыі. Калі вы - аўтар згаданай публікацый, а знойдзеныя малюнкі карэктныя, выпраўце, калі ласка, свае пасады. Дзякуй!

Дарэчы, некаторыя выявы насамрэч усё яшчэ даступныя для прагляду ў публікацыях, аднак не перанесеныя на Habrastorage, а таму ў нейкі момант таксама могуць стаць недаступнымі.

300 карцінак

Аўтар
ID публікацыі
Індэксы і спасылкі
Прыклад

0x62ash
27149
1
Хабра-дэтэктыў: у вас карцінка згубілася

0x8
11105
1

2Bad
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Хабра-дэтэктыў: у вас карцінка згубілася

8cinq
41853
1

46498
1

Adam_B
12582
1

айн
39501
1

alardus
2628
1

Аляска
23447
1, 2
Хабра-дэтэктыў: у вас карцінка згубілася

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

алізар
37779
1, 2

altblog
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Баркаў
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Хабра-дэтэктыў: у вас карцінка згубілася

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

chisto_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Хабра-дэтэктыў: у вас карцінка згубілася

Cosss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

firstbyte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Gravitality
28840
1

HREF
46908
1, 2
Хабра-дэтэктыў: у вас карцінка згубілася

ілява
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Down.gif, Same.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Хабра-дэтэктыў: у вас карцінка згубілася

Клаўс
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

лепард
38391
1

LukaSafonov
43537
1

meako
26705
1

Мідгард
31419
2, 3, 4

Mio
396
1

753
1

936
1

мазаіка
744
1

Mr_Floppy
28343
1

нуль
44476
1

супрацоўнік
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Хабра-дэтэктыў: у вас карцінка згубілася

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

Ramber
43693
1

спіс
44380
1

ruskar
42578
3, 5, 8
Хабра-дэтэктыў: у вас карцінка згубілася

saintd
702
1

SamDark
30104
1

маштаб
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Хабра-дэтэктыў: у вас карцінка згубілася

SummerDream
3801
1

sunnybear
31211
1, 2

перамыкач
9095
1

Taoorus
37507
1

Тоген
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

віталь
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Хабра-дэтэктыў: у вас карцінка згубілася

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Хабра-дэтэктыў: у вас карцінка згубілася

yshilyaev
5556
1, 2, 3

Зада
31123
2

Зігзагападобны
15492
1

замест заключэння

Магчыма, нехта палічыць, што аднаўленне такой састарэлай інфармацыі не мае ніякага сэнсу. А акрамя таго, частка са знойдзеных выяў былі бессэнсоўныя і пры іх публікацыі. Несумненна, так і ёсьць.

Любая інфармацыя важная. Прынамсі, з пункту гледжання гістарычнага аналізу. Не гаворачы ўжо аб тым, што ў некаторых аўтарскіх матэрыялах яна мае ключавую ролю. Так, на дадзены момант Хабру няма і 15 гадоў і некаторыя з крыніц усё яшчэ даступныя, але з часам іх будзе станавіцца ўсё менш і менш, а таму варта задумацца загадзя, ці застанецца нешта на потым, ці ж будзе вечнае "малюнак не даступна".

Ну і не варта забываць, што заглушкі недаступных малюнкаў проста ятраць. Вядома, мала хто будзе чытаць "нейкую старызну", але і такія людзі знойдуцца. Таму, калі гэтыя публікацыі на Хабры ўсё яшчэ ёсць, то і іх змест павінен быць як мага больш поўным.

Нажаль, пакуль Habrastorage не падтрымлівае загрузку напроста для ўсіх фарматаў малюнкаў, але можа гэта калі-небудзь і будзе выпраўлена.

Апошняя праблема, якую хочацца згадаць, і пра якую вы напэўна падумалі, "а што, калі аўтар ужо даўно не карыстаецца Хабрам і яму не цікава выпраўляць старызну?" У мяне гэтае пытанне ў галаве ўзнікала і не раз, але рашэнне тут не так і складана. Старыя публікацыі заўсёды можа выправіць НЛА у асобе мадэратараў (вы ж можаце, Экзасфера?) або адміністрацыі (Boomburum можа выдаць камусьці заданне).

А што думаеце вы, варта спрабаваць аднавіць хаця б нешта?

На сёння ўсё. Дзякуй за ўвагу і хай загрузяцца ўсе вашыя выявы на Habrastorage без праблем! Няхай не будзе такога

Хабра-дэтэктыў: у вас карцінка згубілася

PS Калі вы знайшлі памылкі друку ці памылкі ў тэксце, калі ласка, паведаміце мне. Гэта можна зрабіць вылучыўшы частку тэксту і націснуўшы "Ctrl / ⌘ + Enter", калі ў вас есць Ctrl / ⌘, альбо праз асабістыя паведамленні. Калі ж абодва варыянты недаступныя, напішыце пра памылкі ў каментарах. Дзякуй!

PPS Магчыма, вам будуць цікавыя таксама іншыя мае даследаванні Хабра ці вы хочаце прапанаваць сваю тэму для наступнай публікацыі, а можа нават новы цыкл публікацый.

Дзе знайсці спіс і як унесці прапанову

Усю інфармацыю можна знайсці ў спецыяльным рэпазітары Хабра-дэтэктыва. Тамсама можна даведацца, якія прапановы ўжо былі агучаныя, а што ўжо знаходзіцца ў працы.

Акрамя таго, вы можаце згадаць мяне (напісаўшы VaskivskyiYe) у каментарах да публікацыі, якая здаецца вам цікавай для даследавання або аналізу.

Крыніца: habr.com

Дадаць каментар