Habra-detective: a túa imaxe está perdida

Habra-detective: a túa imaxe está perdida
Algunha vez te preguntas canta información se perde sen deixar rastro? Despois de todo, a información é para o que existe Habr. Sabes o que ocorre con máis frecuencia cos recursos baseados nas publicacións dos usuarios? Os autores introducen imaxes, imaxes e vídeos de sitios de terceiros e despois dun tempo xa non están dispoñibles. Para iso foi creado unha vez. Almacenamento. A práctica demostrou que ninguén (agás os editores e algúns entusiastas) carga alí imaxes por conta propia. Por iso, nalgún momento, a administración de Habr fixo esta función automática: cada imaxe que aparece nunha publicación súbese automaticamente ao almacenamento e non desaparecerá de alí mentres exista o propio Habr. Por suposto, hai excepcións e algo pode saír mal, pero agora non sobre eles.

O maior problema de todo este esquema coa carga de imaxes en Habrastorage ocorreu durante a súa implementación. Daquela, algunhas publicacións antigas xa non tiñan debuxos, polo que seguían así. Hoxe trataremos de saber canta información gráfica perdeu Habr dende o seu nacemento. Ademais, quizais poidamos atopar algo que faltaba? Este esbozo de "non se pode cargar a imaxe" é molesto, non é? A historia de detectives de hoxe está dedicada exactamente a isto. Imos comezar!

Quizais te trouxo a este artigo por unha mención en rastreador? Probablemente, unha imaxe desapareceu dunha das túas publicacións antigas e atopeina. Se non queres ler a publicación completa, podes desprazarte ata o spoiler ao final (sección Descubrimentos), que enumera todas as publicacións e imaxes atopadas. Grazas!

Introdución e métodos

A nosa historia de detectives comezará dende o principio (lóxico, non?). Desde os inicios de Habr. Despois de todo, canto antes se publicou unha publicación, maior é a posibilidade de que as imaxes desta se perdan nalgún lugar da historia. Por iso comezaremos a partir do 2006 e avanzaremos un pouco.

Todas as publicacións de 40 centros que se atopan actualmente no inicio da clasificación están incluídas na consideración. A lista completa destes hubs preséntase baixo o spoiler. De feito, moitos deles non existían entón, pero cando se engadiron novos hubs, as publicacións trasladáronse alí.

Lista de hubs

* nix, Algoritmos, Intelixencia Artificial, Astronáutica, Biotecnoloxías, Cerebro, C ++, Xestión do desenvolvemento, DIY, Ecoloxía, Desenvolvemento de xogos, Xogos e consolas de xogos, Saúde friki, Historia das TIC, Seguridade da información, Carreira informática, Infraestrutura informática, empresas de TI, Java, JavaScript, Lexislación en TI, Trucos de vida para frikis, Aprendizaxe automática, Fabricación e desenvolvemento de produtos electrónicos, Nginx, código aberto, Xestión de persoal, Física, Ciencia popular, Xestión de produtos, Programación, Xestión de proxectos, Pitão, Sala de lectura, Enxeñaría inversa, Redes sociais e comunidades, Administración do sistema, Análise e deseño de sistemas, O futuro está aquí, Desenvolvemento de sitios web

A información recompilouse mediante un conxunto de scripts PHP. Descargouse cada publicación, determinouse o contido da etiqueta <div id="corpo-post-contido" > e comprobou as etiquetas < img > dentro. Para cada imaxe gárdanse ligazóns ás imaxes, vinculadas ao ID da publicación en Habré. Esta información analízase máis.

Que se publicou e cando

2006

Aos comezos de Habr non había tantas publicacións como agora, e aínda había menos imaxes nelas. En total, 2006 publicacións foron publicadas nos hubs listados en 05.06.2006 (a partir do 221/53/75). 10 destas publicacións conteñen un total de XNUMX imaxes. Máximo de imaxes (XNUMX pezas) nunha publicación "Dez gadgets que cambiaron o mundo". Xa están en Habrastorage 50 debuxos. Perdéronse outros 25. Todos son únicos e non se repiten.

Un feito interesante: Dúas das imaxes levan ao propio Habr, pero hai tempo que non están dispoñibles. Estas son as imaxes http://www.habrahabr.ru/tmp/sup_blogs_preview.gif e http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Entón, perdeu para 2006 33.3% imaxes en publicacións.

2007

En 2007, o número de publicacións aumentou significativamente, así como o número de imaxes: publicáronse 1 publicacións. 713 publicacións conteñen 599 imaxes. Transferíronse 1 imaxes a Habrastorage e perdéronse 467 (16.2%).

Un feito interesante: Publicación As 100 mellores aplicacións de Mac OS contén un máximo de 2007 imaxes para 100 e non contén texto de copyright.

Ademais, algunhas destas imaxes perdidas son duplicadas. Entón, un deles ocorre 6 veces nunha Publicación con só 6 imaxes. Ademais, a imaxe "Up.gif" repítese 21 veces, "Down.gif" 16 veces e "Same.gif" 8 veces desde un dominio. E todas estas 45 imaxes de unha publicación, que contén só 47 imaxes.

Quedan 191 < img > únicos.

2008

Dado que o número de publicacións sobre Habré só aumentaba de ano en ano, en 2008 o noso detective revisará 2 publicacións, ademais de 520 imaxes. Observamos que foi en 2 cando o número de imaxes nas publicacións superou finalmente o número de publicacións. Ademais, só 969 publicacións conteñen imaxes e na publicación preséntanse un máximo de 2008 elementos de información gráfica "A historia dos logotipos de vacacións de Google". Xa se gardaron 1 imaxes en Habrastorage e perdéronse 943 (34.6%).

Un feito interesante: Localízase a imaxe máis inesperada (ou mellor dito, o problema no deseño da publicación). aquí. Como resultado, Habr tenta descargar a imaxe a través de http://#/.

Habra-detective: a túa imaxe está perdida

Arroz. 1. Estatísticas xerais dos considerados

É posible restaurar polo menos algo?

A restauración parcial non é difícil. Por exemplo, o xeito máis preguiceiro sería usar Internet Archive nun intento de cargar páxinas de publicacións gardadas. Ademais, podes tentar "atopar" as propias imaxes no arquivo mediante ligazóns directas.

Lifehack: Debes buscar imaxes en todas as versións da páxina do arquivo, non só nas máis antigas e novas.

Desafortunadamente, aínda que este método funciona nalgúns casos, é tan difícil restaurar polo menos a metade das imaxes. Polo tanto, o seguinte paso é comprobar a publicación cruzada, as traducións orixinais e, por suposto, as copias de arquivo das páxinas orixinais.

Ademais, podes tentar atopar as imaxes desexadas usando un dos espellos non oficiais de Habr, que unha vez funcionou e aínda almacena parte da información copiada.

A última e máis difícil opción é utilizar buscadores. Se sabe exactamente o que debe estar na imaxe (hai unha descrición e un contexto), existe a posibilidade de atopar ficheiros co mesmo nome se alguén os copiou noutro recurso.

Por suposto, cada paso posterior aumenta o tempo de busca de forma non lineal.

O que atopamos

Quizais non che impresione moito a cantidade de imaxes atopadas ata agora: hai 300 delas (contidas en 140 publicacións de 81 autores). Se temos en conta o número de "perdas" (1), o resultado é aproximadamente 24.2%. Por que faltan menos imaxes das que había? Todas as imaxes inútiles (como os contadores de visualización) e as imaxes inexistentes (como o xa mencionado http://#/, así como http://fig.jpg/ e así por diante).

Como se lle ocorreu un número tan redondo? O caso é que remataron aproximadamente 300 días de busca. Ao principio, ía ir a 333, pero 300 parece bastante bo. Ademais, polo momento sobre 33% todas as "vítimas da procura".

Habra-detective: a túa imaxe está perdida

Arroz. 2. Resultados da busca actual

Todas as imaxes atopadas (agás un .bmp, con el sería 301) cárganse a hsto.org, e enlaces a eles e publicacións, así como índices de imaxes nelas, aparecen no apartado seguinte.

Descubrimentos

Así, baixo o spoiler están as imaxes atopadas con éxito, así como o ID das publicacións, o índice da imaxe dentro do texto da publicación (a partir de 1, non de 0) e o autor da publicación. Se es o autor da publicación mencionada e as imaxes atopadas son correctas, corrixe as túas publicacións. Grazas!

Por certo, algunhas imaxes aínda están dispoñibles para a súa visualización nas publicacións, pero non se transferiron a Habrastorage e, polo tanto, nalgún momento poden non estar dispoñibles.

300 imaxes

Autor
ID de publicación
Índices e ligazóns
Exemplo

0x62 cinzas
27149
1
Habra-detective: a túa imaxe está perdida

0x8
11105
1

2 Malo
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detective: a túa imaxe está perdida

8cinq
41853
1

46498
1

Adam_B
12582
1

ainu
39501
1

alardo
2628
1

Alaska
23447
1, 2
Habra-detective: a túa imaxe está perdida

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

alizar
37779
1, 2

altblog
44677
1

arestov
37921
1

art
19726
1

pato malo
16292
1, 2, 3, 4, 5

Barkov
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detective: a túa imaxe está perdida

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

puro_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detective: a túa imaxe está perdida

Coss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

primeiro byte
38314
1

freetonik
26593
1

froito
40987
1

garbuz
29694
1

gorinch
12027
1

Gravidade
28840
1

href
46908
1, 2
Habra-detective: a túa imaxe está perdida

iljava
30902
2, 3

Impoñeren
26566
1

invladis
42904
1

Karlsson
8971
Abaixo.gif, Igual.gif, tpci_trends.png, Arriba.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detective: a túa imaxe está perdida

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Luka Safonov
43537
1

meako
26705
1

Midgard
31419
2, 3, 4

Mio
396
1

753
1

936
1

mosaico
744
1

Sr_Floppy
28343
1

cero
44476
1

oficial
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovitanina
37146
2, 3
Habra-detective: a túa imaxe está perdida

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

crecemento
44380
1

ruskar
42578
3, 5, 8
Habra-detective: a túa imaxe está perdida

santos
702
1

SamDark
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaf
8134
1, 2

smartov
17160
3

smitana
30375
1

espanol
44755
17

spiritus_sancti
41129
1, 2
Habra-detective: a túa imaxe está perdida

SummerDream
3801
1

sunnybear
31211
1, 2

interruptor
9095
1

Taoorus
37507
1

thoggen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detective: a túa imaxe está perdida

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

Yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detective: a túa imaxe está perdida

ishilyaev
5556
1, 2, 3

Zada
31123
2

Zig Zag
15492
1

En vez de unha conclusión

Quizais alguén considere que restaurar esa información obsoleta non ten ningún sentido. E ademais, algunhas das imaxes atopadas carecían de sentido mesmo cando foron publicadas. Isto é, sen dúbida, certo.

Calquera información é importante. Polo menos dende o punto de vista da análise histórica. Sen esquecer o feito de que nalgúns materiais con copyright xoga un papel fundamental. Si, de momento Habr non ten nin 15 anos e algunhas das fontes aínda están dispoñibles, pero co paso do tempo irán quedando cada vez menos e, polo tanto, convén pensar de antemán se queda algo para máis tarde, ou se haberá ser unha eterna "imaxe non dispoñible".

Ben, non esquezas que os marcadores de posición para imaxes inaccesibles son simplemente molestos. Por suposto, poucas persoas lerán "algunhas cousas antigas", pero haberá tal xente. Polo tanto, dado que estas publicacións aínda están dispoñibles en Habré, o seu contido debe ser o máis completo posible.

Desafortunadamente, Habrastorage aínda non admite a descarga directa de todos os formatos de imaxe, pero quizais se solucione algún día.

O último problema que me gustaría mencionar, e no que probablemente pensaches, "e se o autor non usa Habr durante moito tempo e non está interesado en corrixir cousas antigas?" Esta pregunta xurdiu na miña cabeza máis dunha vez, pero a solución aquí non é tan difícil. As publicacións antigas sempre se poden corrixir OVNI na persoa dos moderadores (podes, Exosfera?) ou administración (Boomburum pode darlle a alguén unha tarefa).

Que opinas, paga a pena intentar restaurar polo menos algo?

Iso é todo por hoxe. Grazas pola túa atención e que todas as túas imaxes sexan subidas a Habrastorage sen ningún problema! Que isto non pase

Habra-detective: a túa imaxe está perdida

PS Se atopas erros tipográficos ou erros no texto, avisame. Isto pódese facer seleccionando un fragmento de texto e premendo "Ctrl / ⌘ + Intro" se tes Ctrl / ⌘, xa sexa a través mensaxes privadas. Se as dúas opcións non están dispoñibles, escribe sobre os erros nos comentarios. Grazas!

PPS Quizais tamén estea interesado nas miñas outras investigacións de Habr ou quere suxerir o seu propio tema para a próxima publicación, ou quizais incluso unha nova serie de publicacións.

Onde atopar a lista e como facer unha proposta

Toda a información pódese atopar nun repositorio especial Habra detective. Alí tamén se pode coñecer cales son as propostas xa anunciadas e cales están xa en obras.

Ademais, podes mencionarme (escribindo Vaskivskyi) nos comentarios dunha publicación que che pareza interesante para a investigación ou a análise.

Fonte: www.habr.com

Engadir un comentario