Habra-detektiv: din bild är förlorad

Habra-detektiv: din bild är förlorad
Har du någonsin undrat hur mycket information som går förlorad utan spår? När allt kommer omkring är information vad Habr finns till för. Vet du vad som oftast händer med resurser baserade på användarinlägg? Författarna lägger in bilder, bilder och videor från tredje parts webbplatser och efter en tid är de inte längre tillgängliga. Det är vad den en gång skapades för. Habrastorage. Praxis har visat att ingen (förutom redaktörer och några entusiaster) laddar upp bilder dit på egen hand. Därför har Habr-administrationen någon gång gjort denna funktion automatisk - varje bild som dyker upp i en publikation laddas automatiskt upp till lagringen och kommer inte att försvinna därifrån så länge Habr själv existerar. Naturligtvis finns det undantag och något kan gå fel, men inte om dem nu.

Det största problemet i hela detta schema med att ladda bilder i Habrastorage inträffade under implementeringen. Vid den tiden hade vissa gamla publikationer redan inga ritningar och förblev därför så. Idag ska vi försöka ta reda på hur mycket grafisk information Habr har förlorat sedan födelsen. Dessutom kanske vi kan hitta något som saknades? Denna "bild kan inte laddas"-stubben är irriterande, eller hur? Dagens deckare är tillägnad just detta. Låt oss börja!

Du kanske har tagits till den här artikeln av ett omnämnande i spårare? Förmodligen försvann en bild från en av dina gamla publikationer, och jag hittade den. Om du inte vill läsa hela inlägget kan du bara scrolla till spoilern i slutet (avsnittet Resultat), som listar alla publikationer och bilder som hittats. Tack!

Introduktion och metoder

Vår deckare kommer att börja från allra första början (logiskt, eller hur?). Från början av Habr. När allt kommer omkring, ju tidigare ett inlägg publicerades, desto större är chansen att bilder från det försvann någonstans i historien. Därför börjar vi från 2006 och går lite framåt.

Alla publikationer från 40 nav som just nu befinner sig i början av rankingen ingår i övervägandet. Den fullständiga listan över dessa nav presenteras under spoilern. Faktum är att många av dem inte fanns då, men när nya nav tillkom flyttades publikationer dit.

Lista över nav

* nix, Algoritmer, Artificiell intelligens, Astronautik, bioteknik, Hjärna, C + +, Utvecklingshantering, DIY, Ekologi, Spelutveckling, Spel och spelkonsoler, Geek hälsa, ITs historia, Information Security, IT-karriär, IT-infrastruktur, IT-företag, java, JavaScript, Lagstiftning inom IT, Lifehacks för nördar, Maskininlärning, Tillverkning och utveckling av elektronik, nginx, Öppen källa, Personaladministration, Fysik, Populär vetenskap, Product Management, Programmering , Projektledning, Python, Läsrum, reverse engineering, Sociala nätverk och gemenskaper, Systemadministration, Systemanalys och design, Framtiden är här, Webbplatsutveckling

Informationen samlades in med hjälp av en uppsättning PHP-skript. Varje publikation laddades ner, innehållet i taggen bestämdes och kollade efter taggar inuti. För varje bild lagras länkar till bilderna, länkade till publicerings-ID på Habré. Denna information analyseras vidare.

Vad publicerades och när

2006

Allra i början av Habr fanns det inte så många publikationer som nu, och det fanns ännu färre bilder i dem. Totalt publicerades 2006 inlägg i de listade nav under 05.06.2006 (från och med 221-53-75). 10 av dessa inlägg innehåller totalt XNUMX bilder. Maximalt antal bilder (XNUMX stycken) i en publikation "Tio prylar som förändrade världen". 50 teckningar finns redan på Habrastorage. Ytterligare 25 är förlorade. Alla är unika och inte upprepade.

Ett intressant faktum: Två av bilderna leder till självaste Habr, men har inte varit tillgängliga på länge. Det här är bilderna http://www.habrahabr.ru/tmp/sup_blogs_preview.gif och http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Så förlorade för 2006 33.3% bilder i publikationer.

2007

Under 2007 ökade antalet publikationer markant, likaså antalet bilder – 1 713 inlägg publicerades. 599 inlägg innehåller 1 467 bilder. 1 229 bilder överfördes till Habrastorage och 238 gick förlorade (16.2%).

Ett intressant faktum: publikation Topp 100 Mac OS-program innehåller max 2007 bilder för 100 och innehåller inte copyrighttext.

Dessutom är några av dessa förlorade bilder dubbletter. Så en av dem inträffar 6 gånger i en Publikation med endast 6 bilder. Dessutom upprepas bilden "Up.gif" 21 gånger, "Down.gif" 16 gånger och "Same.gif" 8 gånger från en domän. Och alla dessa 45 bilder från ett inlägg, som endast innehåller 47 bilder.

Det finns 191 unika kvar.

2008

Eftersom antalet publikationer på Habré bara har ökat från år till år kommer vår detektiv under 2008 att granska 2 520 publikationer, samt 2 969 bilder. Vi märkte att det var 2008 som antalet bilder i publikationer slutligen översteg antalet publikationer. Dessutom innehåller endast 1 207 inlägg bilder, och maximalt 42 element av grafisk information presenteras i publikationen "Historien om Googles semesterlogotyper". 1 943 bilder har redan sparats på Habrastorage, och 1 026 har gått förlorade (34.6%).

Ett intressant faktum: Den mest oväntade bilden (eller snarare problemet i utformningen av publikationen) finns här. Som ett resultat försöker Habr ladda ner bilden via http://#/.

Habra-detektiv: din bild är förlorad

Ris. 1. Allmän statistik över de övervägda

Är det möjligt att återställa åtminstone något?

Partiell restaurering är inte svårt. Till exempel skulle det slöaste sättet vara att använda Internet Archive i ett försök att ladda sparade publikationssidor. Dessutom kan du försöka ”hitta” själva bilderna i arkivet med hjälp av direktlänkar.

Lifehack: Du måste kontrollera förekomsten av bilder i alla versioner av sidan i arkivet, inte bara de äldsta och nyaste.

Tyvärr, även om denna metod fungerar i vissa fall, är det så svårt att återställa åtminstone hälften av bilderna. Därför är nästa steg att kontrollera korspublicering, originalöversättningar och, naturligtvis, arkivkopior av originalsidorna.

Dessutom kan du försöka hitta de önskade bilderna med hjälp av en av Habrs inofficiella speglar, som en gång fungerade och fortfarande lagrar en del av den kopierade informationen.

Det sista och svåraste alternativet är att använda sökmotorer. Om du vet exakt vad som ska finnas i bilden (det finns en beskrivning och sammanhang) finns det en chans att hitta filer med samma namn om de en gång kopierats av någon till en annan resurs.

Naturligtvis ökar varje efterföljande steg söktiden olinjärt.

Vad hittades

Du kanske inte är alltför imponerad av antalet bilder som hittats hittills - det finns 300 av dem (finns i 140 publikationer från 81 författare). Om vi ​​tar hänsyn till antalet "förluster" (1 242) är resultatet ca 24.2%. Varför saknas det färre bilder än vad det fanns? Alla värdelösa bilder (som visningsräknare) och icke-existerande bilder (som redan nämnda http://#/, samt http://fig.jpg/ och så vidare).

Hur kom du på ett sånt runt tal? Faktum är att cirka 300 dagars sökning tog slut. Först tänkte jag gå till 333, men 300 ser ganska bra ut. Dessutom för tillfället ca 33% alla "sökandens offer".

Habra-detektiv: din bild är förlorad

Ris. 2. Aktuella sökresultat

Alla hittade bilder (förutom en .bmp, med den skulle det vara 301) laddas upp till hsto.org, och länkar till dem och publikationer, samt index över bilder i dem, ges i nästa avsnitt.

Resultat

Så under spoilern finns de framgångsrikt hittade bilderna, liksom publikations-id, bildens index i publikationens text (med början från 1, inte från 0) och författaren till publikationen. Om du är författare till den nämnda publikationen och bilderna som hittas är korrekta, vänligen korrigera dina inlägg. Tack!

Vissa bilder finns förresten faktiskt fortfarande tillgängliga för visning i publikationer, men har inte överförts till Habrastorage, och därför kan de någon gång också bli otillgängliga.

300 bilder

Författare
Publikations-ID
Index och länkar
Exempel

0x62ask
27149
1
Habra-detektiv: din bild är förlorad

0xa8
11105
1

2 Dåligt
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detektiv: din bild är förlorad

8cinq
41853
1

46498
1

Adam_B
12582
1

Ainu
39501
1

alardus
2628
1

alaska
23447
1, 2
Habra-detektiv: din bild är förlorad

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

alizar
37779
1, 2

altblogg
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Barkov
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detektiv: din bild är förlorad

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

ren_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detektiv: din bild är förlorad

Coss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

första byte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Allvar
28840
1

href
46908
1, 2
Habra-detektiv: din bild är förlorad

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Down.gif, Samma.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detektiv: din bild är förlorad

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Luka Safonov
43537
1

meako
26705
1

Midgard
31419
2, 3, 4

Mio
396
1

753
1

936
1

mosaik-
744
1

Mr_Floppy
28343
1

noll
44476
1

officer
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Habra-detektiv: din bild är förlorad

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

rost
44380
1

ruskar
42578
3, 5, 8
Habra-detektiv: din bild är förlorad

helgon
702
1

SamDark
30104
1

Skala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Habra-detektiv: din bild är förlorad

Sommardröm
3801
1

Sunnybear
31211
1, 2

Växla
9095
1

Taoorus
37507
1

Thogen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detektiv: din bild är förlorad

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblogg
39007
1, 6

40621
3

Yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detektiv: din bild är förlorad

yshilyaev
5556
1, 2, 3

Zada
31123
2

Sicksack
15492
1

I stället för en slutsats

Kanske kommer någon att anse att det inte är meningsfullt att återställa sådan föråldrad information. Och dessutom var en del av bilderna som hittades meningslösa även när de publicerades. Detta är utan tvekan sant.

All information är viktig. Åtminstone ur den historiska analysens synvinkel. För att inte tala om det faktum att det i vissa upphovsrättsskyddade material spelar en nyckelroll. Ja, för tillfället är Habr inte ens 15 år gammal och några av källorna är fortfarande tillgängliga, men med tiden kommer de att bli färre och färre, och därför är det värt att tänka på i förväg om något kommer att finnas kvar till senare, eller om det kommer att vara en evig "bild ej tillgänglig."

Tja, glöm inte att platshållare för otillgängliga bilder helt enkelt är irriterande. Naturligtvis kommer få människor att läsa "en del gamla grejer", men det kommer att finnas sådana människor. Därför, eftersom dessa publikationer fortfarande finns tillgängliga på Habré, bör deras innehåll vara så komplett som möjligt.

Tyvärr har Habrastorage ännu inte stöd för direktnedladdning för alla bildformat, men kanske kommer detta att fixas någon dag.

Det sista problemet som jag skulle vilja nämna, och som du förmodligen tänkt på, "tänk om författaren inte har använt Habr på länge och inte är intresserad av att rätta gamla saker?" Denna fråga har dykt upp i mitt huvud mer än en gång, men lösningen här är inte så svår. Gamla publikationer kan alltid korrigeras UFO i moderatorernas person (du kan, Exosfär?) eller administration (Boomburum kan ge någon en uppgift).

Vad tycker du, är det värt att försöka återställa åtminstone något?

Det är allt för idag. Tack för din uppmärksamhet och må alla dina bilder laddas upp till Habrastorage utan problem! Låt detta inte hända

Habra-detektiv: din bild är förlorad

PS Om du hittar stavfel eller fel i texten, vänligen meddela mig. Detta kan göras genom att markera en del av texten och trycka på "Ctrl / ⌘ + Enter" om du har Ctrl / ⌘ eller via privata meddelanden. Om båda alternativen inte är tillgängliga, skriv om felen i kommentarerna. Tack!

PPS Kanske kommer du också att vara intresserad av min andra Habr-forskning eller så vill du föreslå ditt eget ämne för nästa publikation, eller kanske till och med en ny serie publikationer.

Var hittar man listan och hur man gör ett förslag

All information finns i ett särskilt arkiv Habra-detektiv. Där kan du också ta reda på vilka förslag som redan har annonserats och vad som redan är på gång.

Du kan också nämna mig (genom att skriva VaskivskyiYe) i kommentarerna till en publikation som verkar intressant för dig för forskning eller analys.

Källa: will.com

Lägg en kommentar