Habra-detektiv: dit billede er tabt

Habra-detektiv: dit billede er tabt
Har du nogensinde spekuleret på, hvor meget information der går tabt uden spor? Det er trods alt information, hvad Habr eksisterer for. Ved du, hvad der oftest sker med ressourcer baseret på brugerindlæg? Forfatterne indsætter billeder, billeder og videoer fra tredjepartssider, og efter nogen tid er de ikke længere tilgængelige. Det er det, det engang blev skabt til. Habrastorage. Praksis har vist, at ingen (undtagen redaktører og nogle få entusiaster) uploader billeder dertil på egen hånd. Derfor har Habr-administrationen på et tidspunkt gjort denne funktion automatisk - hvert billede, der optræder i en publikation, uploades automatisk til lageret og forsvinder ikke derfra, så længe Habr selv eksisterer. Selvfølgelig er der undtagelser og noget kunne gå galt, men ikke om dem nu.

Det største problem i hele denne ordning med at indlæse billeder i Habrastorage opstod under implementeringen. På det tidspunkt havde nogle gamle publikationer allerede ingen tegninger og forblev derfor sådan. I dag vil vi forsøge at finde ud af, hvor meget grafisk information Habr har mistet siden sin fødsel. Desuden kan vi måske finde noget, der manglede? Denne "billede kan ikke indlæses" er irriterende, er det ikke? Dagens detektivhistorie er dedikeret til netop dette. Lad os komme igang!

Du er muligvis blevet bragt til denne artikel af en omtale i tracker? Sandsynligvis forsvandt et billede fra en af ​​dine gamle publikationer, og jeg fandt det. Hvis du ikke vil læse hele indlægget, kan du bare scrolle til spoileren til allersidst (afsnit Fund), som viser alle fundne publikationer og billeder. Tak skal du have!

Introduktion og metoder

Vores detektivhistorie starter helt fra begyndelsen (logisk, ikke?). Fra begyndelsen af ​​Habr. Jo tidligere et indlæg blev offentliggjort, jo større er chancen for, at billeder fra det gik tabt et sted i historien. Derfor tager vi udgangspunkt i 2006 og går lidt frem.

Alle udgivelser fra 40 hubs, der lige nu er i begyndelsen af ​​ranglisten, indgår i vurderingen. Den fulde liste over disse hubs er præsenteret under spoileren. Faktisk eksisterede mange af dem ikke dengang, men da nye hubs blev tilføjet, blev publikationer overført dertil.

Liste over hubs

* nix, Algoritmer, Kunstig intelligens, Astronautics, bioteknologi, Brain, C + +, Udviklingsstyring, DIY, Økologi, Spiludvikling, Spil og spillekonsoller, Nørds sundhed, IT historie, Information Security, IT karriere, IT-infrastruktur, IT-virksomheder, Java, JavaScript, Lovgivning inden for IT, Lifehacks for nørder, Maskinelæring, Fremstilling og udvikling af elektronik, Nginx, Open source, Personaleledelse, Fysik, Populær videnskab, Product Management, Programmering, Project management, Python, Læsesal, Reverse engineering, Sociale netværk og fællesskaber, Systemadministration, Systemanalyse og design, Fremtiden er her, Website udvikling

Oplysningerne blev indsamlet ved hjælp af et sæt PHP-scripts. Hver publikation blev downloadet, indholdet af tagget blev bestemt <div id="post-content-body" > og tjekket for tags <img> inde. For hvert billede gemmes links til billederne, linket til udgivelses-id'et på Habré. Disse oplysninger analyseres yderligere.

Hvad blev offentliggjort og hvornår

2006

Allerede i begyndelsen af ​​Habr var der ikke så mange udgivelser, som der er nu, og der var endnu færre billeder i dem. I alt blev 2006 indlæg offentliggjort i de anførte hubs i 05.06.2006 (startende fra 221/53/75). 10 af disse indlæg indeholder i alt XNUMX billeder. Maksimalt antal billeder (XNUMX stykker) i en publikation "Ti gadgets, der ændrede verden". 50 tegninger er allerede på Habrastorage. Yderligere 25 er tabt. Alle er unikke og gentages ikke.

Et interessant faktum: To af billederne fører til selve Habr, men har ikke været tilgængelige i lang tid. Dette er billederne http://www.habrahabr.ru/tmp/sup_blogs_preview.gif og http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Så tabt for 2006 33.3 % billeder i publikationer.

2007

I 2007 steg antallet af udgivelser markant, ligesom antallet af billeder - 1 indlæg blev offentliggjort. 713 indlæg indeholder 599 billeder. 1 billeder blev overført til Habrastorage, og 467 gik tabt (16.2 %).

Et interessant faktum: publikation Top 100 Mac OS-applikationer indeholder maksimalt 2007 billeder for 100 og indeholder ikke copyright-tekst.

Derudover er nogle af disse tabte billeder dubletter. Så en af ​​dem forekommer 6 gange i en Offentliggørelse med kun 6 billeder. Desuden gentages billedet "Up.gif" 21 gange, "Down.gif" 16 gange og "Same.gif" 8 gange fra ét domæne. Og alle disse 45 billeder fra et indlæg, som kun indeholder 47 billeder.

Der er 191 unikke < img > tilbage.

2008

Da antallet af udgivelser på Habré kun er steget fra år til år, vil vores detektiv i 2008 gennemgå 2 publikationer, samt 520 billeder. Vi bemærkede, at det var i 2, at antallet af billeder i publikationer endelig oversteg antallet af publikationer. Desuden indeholder kun 969 indlæg billeder, og maksimalt 2008 elementer af grafisk information præsenteres i publikationen "Historien om Googles ferielogoer". 1 billeder er allerede blevet gemt på Habrastorage, og 943 er gået tabt (34.6 %).

Et interessant faktum: Det mest uventede billede (eller rettere, problemet i udformningen af ​​publikationen) er placeret her. Som et resultat forsøger Habr at downloade billedet via http://#/.

Habra-detektiv: dit billede er tabt

Ris. 1. Generel statistik over de overvejede

Er det muligt at gendanne i det mindste noget?

Delvis restaurering er ikke svært. For eksempel ville den dovne måde være at bruge Internet Archive i et forsøg på at indlæse gemte publikationssider. Derudover kan du forsøge at "finde" selve billederne i arkivet ved hjælp af direkte links.

Lifehack: Du skal tjekke for tilstedeværelsen af ​​billeder i alle versioner af siden i arkivet, ikke kun de ældste og nyeste.

Desværre, selvom denne metode virker i nogle tilfælde, er det så svært at gendanne mindst halvdelen af ​​billederne. Derfor er næste skridt at tjekke krydspostering, originale oversættelser og selvfølgelig arkivkopier af de originale sider.

Derudover kan du forsøge at finde de ønskede billeder ved hjælp af et af Habrs uofficielle spejle, som engang fungerede og stadig gemmer nogle af de kopierede oplysninger.

Den sidste og sværeste mulighed er at bruge søgemaskiner. Hvis du ved præcis, hvad der skal være i billedet (der er en beskrivelse og kontekst), er der en chance for at finde filer med samme navn, hvis de engang blev kopieret af nogen til en anden ressource.

Naturligvis øger hvert efterfølgende trin søgetiden ulineært.

Hvad vi fandt

Du er måske ikke alt for imponeret over antallet af fundet billeder indtil videre - der er 300 af dem (indeholdt i 140 publikationer fra 81 forfattere). Tager vi højde for antallet af "tab" (1), er resultatet ca 24.2 %. Hvorfor mangler der færre billeder, end der var? Alle ubrugelige billeder (som visningstællere) og ikke-eksisterende billeder (som de allerede nævnte http://#/, samt http://fig.jpg/ og så videre).

Hvordan fandt du på sådan et rundt tal? Faktum er, at cirka 300 dages søgning sluttede. Først skulle jeg gå til 333, men 300 ser ret godt ud. Derudover er der i øjeblikket ca 33 % alle "eftersøgningens ofre".

Habra-detektiv: dit billede er tabt

Ris. 2. Aktuelle søgeresultater

Alle fundne billeder (bortset fra én .bmp, med den ville det være 301) uploades til hsto.org, og links til dem og publikationer, samt indekser over billeder i dem, er givet i næste afsnit.

Fund

Så under spoileren er de succesfulde fundne billeder samt publikationernes id, billedets indeks inde i publikationens tekst (startende fra 1, ikke fra 0) og forfatteren af ​​publikationen. Hvis du er forfatter til den nævnte publikation, og de fundne billeder er korrekte, bedes du rette dine indlæg. Tak skal du have!

Nogle billeder er i øvrigt faktisk stadig tilgængelige til visning i publikationer, men er ikke overført til Habrastorage, og derfor kan de på et tidspunkt også blive utilgængelige.

300 billeder

Forfatter
Publikations-id
Indeks og links
Eksempel

0x62aske
27149
1
Habra-detektiv: dit billede er tabt

0xa8
11105
1

2 Dårligt
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detektiv: dit billede er tabt

8cinq
41853
1

46498
1

Adam_B
12582
1

Ainu
39501
1

alardus
2628
1

Alaska
23447
1, 2
Habra-detektiv: dit billede er tabt

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

alizar
37779
1, 2

altblog
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Barkov
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detektiv: dit billede er tabt

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

ren_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detektiv: dit billede er tabt

Coss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

første byte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Tyngdekraft
28840
1

href
46908
1, 2
Habra-detektiv: dit billede er tabt

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Ned.gif, Samme.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detektiv: dit billede er tabt

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Luka Safonov
43537
1

meako
26705
1

Midgård
31419
2, 3, 4

Mio
396
1

753
1

936
1

mosaik
744
1

Mr_Floppy
28343
1

nul
44476
1

officer
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Habra-detektiv: dit billede er tabt

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

vagtplan
44380
1

ruskar
42578
3, 5, 8
Habra-detektiv: dit billede er tabt

helliget
702
1

SamDark
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaf
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Habra-detektiv: dit billede er tabt

Sommerdrøm
3801
1

solbjørn
31211
1, 2

Kontakt
9095
1

Taoorus
37507
1

Thogen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detektiv: dit billede er tabt

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

Yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detektiv: dit billede er tabt

yshilyaev
5556
1, 2, 3

Zada
31123
2

Zigzag
15492
1

I stedet for en konklusion

Måske vil nogen mene, at det ikke giver nogen mening at gendanne sådanne forældede oplysninger. Og desuden var nogle af de fundne billeder meningsløse, selv da de blev offentliggjort. Dette er uden tvivl sandt.

Enhver information er vigtig. I hvert fald set ud fra en historisk analyse. For ikke at nævne det faktum, at det i nogle ophavsretligt beskyttede materialer spiller en nøglerolle. Ja, i øjeblikket er Habr ikke engang 15 år og nogle af kilderne er stadig tilgængelige, men med tiden vil de blive færre og færre, og derfor er det værd at tænke på på forhånd, om der bliver noget tilbage til senere, eller om der bliver være et evigt "billede ikke tilgængeligt."

Nå, glem ikke, at pladsholdere til utilgængelige billeder simpelthen er irriterende. Selvfølgelig vil få mennesker læse "nogle gamle ting", men der vil være sådanne mennesker. Da disse publikationer stadig er tilgængelige på Habré, bør deres indhold derfor være så fuldstændigt som muligt.

Desværre understøtter Habrastorage endnu ikke direkte download til alle billedformater, men måske bliver det rettet en dag.

Det sidste problem, som jeg gerne vil nævne, og som du sikkert tænkte på, "hvad nu hvis forfatteren ikke har brugt Habr i lang tid og ikke er interesseret i at rette gamle ting?" Dette spørgsmål er dukket op i mit hoved mere end én gang, men løsningen her er ikke så svær. Gamle publikationer kan altid rettes UFO i moderatorernes person (du kan, Exosfære?) eller administration (Boomburum kan give nogen en opgave).

Hvad synes du, er det værd at prøve at gendanne i det mindste noget?

Det var alt for i dag. Tak for din opmærksomhed og må alle dine billeder uploades til Habrastorage uden problemer! Lad dette ikke ske

Habra-detektiv: dit billede er tabt

PS Hvis du finder stavefejl eller fejl i teksten, så lad mig det vide. Dette kan gøres ved at vælge en del af teksten og trykke på "Ctrl / ⌘ + Enter" hvis du har Ctrl / ⌘ eller via private beskeder. Hvis begge muligheder ikke er tilgængelige, så skriv om fejl i kommentarerne. Tak skal du have!

PPS Måske vil du også være interesseret i min anden Habr-forskning, eller du vil gerne foreslå dit eget emne til næste publikation, eller måske endda en ny serie af publikationer.

Hvor finder man listen, og hvordan man laver et forslag

Alle oplysninger kan findes i et særligt depot Habra-detektiv. Der kan du også finde ud af, hvilke forslag der allerede er annonceret, og hvad der allerede er i gang.

Du kan også nævne mig (ved at skrive VaskivskyiYe) i kommentarerne til en publikation, der virker interessant for dig til forskning eller analyse.

Kilde: www.habr.com

Tilføj en kommentar