Вы калі-небудзь задумваліся, колькі інфармацыі бясследна страчана? Бо інфармацыя - гэта тое, дзеля чаго Хабр існуе. Ведаеце, што часцей за ўсё здараецца з рэсурсамі заснаванымі на карыстацкіх публікацыях? Аўтары ўстаўляюць выявы, карцінкі і відэа з іншых сайтаў і праз нейкі час яны больш не даступныя. Менавіта для гэтага некалі быў створаны Habrastorage. Практыка паказала, што ніхто (акрамя рэдактараў і некалькіх энтузіястаў) не загружае туды выявы самастойна. Таму ў нейкі момант адміністрацыя Хабра зрабіла гэтую функцыю аўтаматычнай – кожная выява, якая сустракаецца ў публікацыі, аўтаматычна загружаецца ў сховішча і адтуль не знікне, пакуль існуе сам Хабр. Вядома ж, ёсць і выключэнні і нешта можа пайсці не так, Але зараз не пра іх.
Самая вялікая праблема ва ўсёй гэтай схеме з загрузкай выяваў у Habrastorage адбылася падчас яе ўкаранення. На той момант некаторыя старыя публікацыі ўжо былі без малюнкаў, а таму такімі і засталіся. Сёння мы паспрабуем высветліць, колькі ж графічнай інфармацыі страціў Хабр з моманту свайго нараджэння. Акрамя таго, можа нам удасца знайсці нешта з зніклага? Бо раздражняе гэтая заглушка "малюнак не можа быць загружана", ці не так? Сённяшні дэтэктыў прысвечаны менавіта гэтаму. Прыступім!
Магчыма, вас у гэты артыкул прывяло згадванне ў трэкеры? Верагодна, у адной з вашых старых публікацый знікла карцінка, а я яе знайшоў. Калі вам не жадаецца чытаць усю публікацыю, можна проста прагартаць да спойлера ў самым канцы (частка Вынікі), дзе пералічаны ўсе публікацыі і знойдзеныя выявы. Дзякуй!
Уступленне і метады
Наш дэтэктыў пачнецца з самага пачатку (лагічна, праўда?). З пачатку Хабра. Бо чым раней быў апублікаваны які-небудзь пост, тым больш шанцаў, што выявы з яго згубіліся дзесьці ў гісторыі. Менавіта таму пачнем мы з 2006 года і пройдзем крыху наперад.
У разглядзе ўдзельнічаюць усе публікацыі з 40 хабаў, якія на дадзены момант знаходзяцца ў пачатку рэйтынгу. Поўны спіс гэтых хабаў прадстаўлены пад спойлерам. Насамрэч, многія з іх тады не існавалі, аднак пры даданні новых хабаў публікацыі туды пераносіліся.
Інфармацыя збіралася з дапамогай набору PHP скрыптоў. Кожная публікацыя была загружана, вызначаны змест тэга < div id="post-content-body" > і праверана наяўнасць тэгаў < img > ўнутры. Для кожнага малюнка захаваны спасылкі на выявы з прывязкай да ID публікацыі на Хабры. У далейшым аналізуецца менавіта гэтая інфармацыя.
Што і калі публікавалі
2006
У самым пачатку Хабра публікацый было не так шмат, як цяпер, а карцінак у іх - яшчэ менш. Усяго ў 2006 годзе (пачынаючы з 05.06.2006) у пералічаных хабах быў апублікаваны 221 пост. 53 з гэтых пастоў утрымоўваюць усяго 75 малюнкаў. Максімум малюнкаў (10 штук) у публікацыі "Дзесяць гаджэтаў, якія змянілі свет50 малюнкаў ужо знаходзяцца на Habrastorage. Яшчэ 25 страчана. Усе яны ўнікальныя і не паўтараюцца.
Цікавы факт: Два з выяваў вядуць на сам Хабр, але пры гэтым недаступныя ўжо даўно. Гэта выявы http://www.habrahabr.ru/tmp/sup_blogs_preview.gif і http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Такім чынам, за 2006 год страчана 33.3% малюнкаў у публікацыях.
2007
У 2007 г. колькасць публікацый істотна павялічылася, як і колькасць выяў — было апублікавана 1 713 пастоў. 599 Публікацый змяшчаюць 1 467 малюнкаў. На Habrastorage перанесена 1 малюнкаў, а 229 страчана16.2%).
Цікавы факт: Публікацыя Топ 100 Mac OS прыкладанняў змяшчае максімум за 2007 год - 100 малюнкаў і не змяшчае аўтарскага тэксту.
Акрамя таго, частка з гэтых страчаных выяваў паўтараецца. Так, адно з іх сустракаецца 6 раз у адной публікацыі з усяго 6 карцінкамі. Таксама 21 разоў паўтараецца выява "Up.gif", 16 - "Down.gif" і 8 - "Same.gif" з аднаго дамена. І ўсе гэтыя 45 малюнкаў з аднаго паста, у якім усяго 47 карцінак.
Застаецца 191 унікальны img.
2008
Паколькі год ад года колькасць публікацый на Хабры толькі павялічваўся, у 2008 наш дэтэктыў разгледзіць 2 публікацый, а таксама 520 малюнкаў. Заўважылі, менавіта ў 2 колькасць малюнкаў у публікацыях нарэшце перавышае колькасць публікацый. Пры гэтым усяго 969 2008 пастоў змяшчаюць карцінкі, а максімум у 1 элементы графічнай інфармацыі прадстаўлены ў публікацыі.Гісторыя святочных лагатыпаў Google". 1 выявы ўжо захаваны на Habrastorage, а 943 страчаныя (34.6%).
Цікавы факт: Самая нечаканая выява (а дакладней, праблема ў афармленні публікацыі) знаходзіцца тут. У выніку, Хабр спрабуе загрузіць выява па http://#/.
Мал. 1. Агульная статыстыка разгледжанага
Ці можна аднавіць хоць нешта?
Частковае аднаўленне не складае асаблівай цяжкасці. Напрыклад, самым "лянівым" спосабам будзе выкарыстанне. Internet Archive у спробе загрузіць захаваныя старонкі публікацый. Акрамя таго, можна паспрабаваць "знайсці" ў архіве самі выявы па прамых спасылках.
Lifehack: Правяраць наяўнасць выяваў трэба ва ўсіх версіях старонкі ў архіве, не толькі самай старой і самай новай.
Нажаль, хоць гэты метад і працуе ў частцы выпадкаў, аднавіць хаця б палову малюнкаў так складана. Таму наступны крок - праверка кроспастынгу, арыгіналаў перакладаў і, натуральна, архіўных копій арыгінальных старонак.
Да таго ж, можна паспрабаваць знайсці жаданыя выявы з дапамогай аднаго з неафіцыйных люстэркаў Хабра, якія калісьці працавалі і ўсё яшчэ захоўваюць частку скапіяванай інфармацыі.
Апошні і самы складаны варыянт - выкарыстанне пошукавых сістэм. Калі дакладна вядома, што павінна быць на малюнку (ёсць апісанне і кантэкст), ёсць шанец знайсці файлы з такой жа назвай, калі яны некалі кімсьці былі скапіяваныя на іншы рэсурс.
Натуральна, кожны наступны крок павялічвае час пошуку нелінейна.
Што ўдалося знайсці
Магчыма, вас не моцна ўразіць колькасць знойдзеных на дадзены момант малюнкаў - іх 300 (змяшчаюцца ў 140 публікацыях ад 81 аўтара). Калі ўлічыць колькасць "страцяшак" (1), то вынік складае каля 24.2%. Чаму зніклых выяваў стала менш, чым было? З разгляду выдалены ўсе бескарысныя выявы (накшталт лічыльнікаў праглядаў) і неіснуючыя выявы (накшталт ужо згаданага http://#/, а таксама http://fig.jpg/ і г.д.).
Як выйшаў такі круглы лік? Справа ў тым, што прыкладна на 300 скончыліся суткі пошукаў. Спачатку, я збіраўся дайсці да 333, але і 300 выглядаюць суцэль нядрэнна. Да таго ж, цяпер зусім неправеранымі засталося каля 33% усіх "ахвяраў пошуку".
Мал. 2. Бягучыя вынікі пошукаў
Усе знойдзеныя выявы (акрамя аднаго .bmp, з ім было б 301) загружаны на hsto.org, а спасылкі на іх і публікацыі, а таксама індэксы малюнкаў у іх прыведзены ў наступным раздзеле.
Вынікі
Такім чынам, пад спойлерам прыведзены паспяхова знойдзеныя выявы, а таксама id публікацый, індэкс малюнка ўнутры тэксту публікацыі (пачынаючы з 1, не з 0) і аўтар публікацыі. Калі вы - аўтар згаданай публікацый, а знойдзеныя малюнкі карэктныя, выпраўце, калі ласка, свае пасады. Дзякуй!
Дарэчы, некаторыя выявы насамрэч усё яшчэ даступныя для прагляду ў публікацыях, аднак не перанесеныя на Habrastorage, а таму ў нейкі момант таксама могуць стаць недаступнымі.
Магчыма, нехта палічыць, што аднаўленне такой састарэлай інфармацыі не мае ніякага сэнсу. А акрамя таго, частка са знойдзеных выяў былі бессэнсоўныя і пры іх публікацыі. Несумненна, так і ёсьць.
Любая інфармацыя важная. Прынамсі, з пункту гледжання гістарычнага аналізу. Не гаворачы ўжо аб тым, што ў некаторых аўтарскіх матэрыялах яна мае ключавую ролю. Так, на дадзены момант Хабру няма і 15 гадоў і некаторыя з крыніц усё яшчэ даступныя, але з часам іх будзе станавіцца ўсё менш і менш, а таму варта задумацца загадзя, ці застанецца нешта на потым, ці ж будзе вечнае "малюнак не даступна".
Ну і не варта забываць, што заглушкі недаступных малюнкаў проста ятраць. Вядома, мала хто будзе чытаць "нейкую старызну", але і такія людзі знойдуцца. Таму, калі гэтыя публікацыі на Хабры ўсё яшчэ ёсць, то і іх змест павінен быць як мага больш поўным.
Нажаль, пакуль Habrastorage не падтрымлівае загрузку напроста для ўсіх фарматаў малюнкаў, але можа гэта калі-небудзь і будзе выпраўлена.
Апошняя праблема, якую хочацца згадаць, і пра якую вы напэўна падумалі, "а што, калі аўтар ужо даўно не карыстаецца Хабрам і яму не цікава выпраўляць старызну?" У мяне гэтае пытанне ў галаве ўзнікала і не раз, але рашэнне тут не так і складана. Старыя публікацыі заўсёды можа выправіць НЛА у асобе мадэратараў (вы ж можаце, Экзасфера?) або адміністрацыі (Boomburum можа выдаць камусьці заданне).
А што думаеце вы, варта спрабаваць аднавіць хаця б нешта?
На сёння ўсё. Дзякуй за ўвагу і хай загрузяцца ўсе вашыя выявы на Habrastorage без праблем! Няхай не будзе такога
PS Калі вы знайшлі памылкі друку ці памылкі ў тэксце, калі ласка, паведаміце мне. Гэта можна зрабіць вылучыўшы частку тэксту і націснуўшы "Ctrl / ⌘ + Enter", калі ў вас есць Ctrl / ⌘, альбо праз асабістыя паведамленні. Калі ж абодва варыянты недаступныя, напішыце пра памылкі ў каментарах. Дзякуй!
PPS Магчыма, вам будуць цікавыя таксама іншыя мае даследаванні Хабра ці вы хочаце прапанаваць сваю тэму для наступнай публікацыі, а можа нават новы цыкл публікацый.
Дзе знайсці спіс і як унесці прапанову
Усю інфармацыю можна знайсці ў спецыяльным рэпазітары Хабра-дэтэктыва. Тамсама можна даведацца, якія прапановы ўжо былі агучаныя, а што ўжо знаходзіцца ў працы.
Акрамя таго, вы можаце згадаць мяне (напісаўшы VaskivskyiYe) у каментарах да публікацыі, якая здаецца вам цікавай для даследавання або аналізу.