Har du nogensinde spekuleret på, hvor meget information der går tabt uden spor? Det er trods alt information, hvad Habr eksisterer for. Ved du, hvad der oftest sker med ressourcer baseret på brugerindlæg? Forfatterne indsætter billeder, billeder og videoer fra tredjepartssider, og efter nogen tid er de ikke længere tilgængelige. Det er det, det engang blev skabt til. Habrastorage. Praksis har vist, at ingen (undtagen redaktører og nogle få entusiaster) uploader billeder dertil på egen hånd. Derfor har Habr-administrationen på et tidspunkt gjort denne funktion automatisk - hvert billede, der optræder i en publikation, uploades automatisk til lageret og forsvinder ikke derfra, så længe Habr selv eksisterer. Selvfølgelig er der undtagelser og noget kunne gå galt, men ikke om dem nu.
Det største problem i hele denne ordning med at indlæse billeder i Habrastorage opstod under implementeringen. På det tidspunkt havde nogle gamle publikationer allerede ingen tegninger og forblev derfor sådan. I dag vil vi forsøge at finde ud af, hvor meget grafisk information Habr har mistet siden sin fødsel. Desuden kan vi måske finde noget, der manglede? Denne "billede kan ikke indlæses" er irriterende, er det ikke? Dagens detektivhistorie er dedikeret til netop dette. Lad os komme igang!
Du er muligvis blevet bragt til denne artikel af en omtale i tracker? Sandsynligvis forsvandt et billede fra en af dine gamle publikationer, og jeg fandt det. Hvis du ikke vil læse hele indlægget, kan du bare scrolle til spoileren til allersidst (afsnit Fund), som viser alle fundne publikationer og billeder. Tak skal du have!
Introduktion og metoder
Vores detektivhistorie starter helt fra begyndelsen (logisk, ikke?). Fra begyndelsen af Habr. Jo tidligere et indlæg blev offentliggjort, jo større er chancen for, at billeder fra det gik tabt et sted i historien. Derfor tager vi udgangspunkt i 2006 og går lidt frem.
Alle udgivelser fra 40 hubs, der lige nu er i begyndelsen af ranglisten, indgår i vurderingen. Den fulde liste over disse hubs er præsenteret under spoileren. Faktisk eksisterede mange af dem ikke dengang, men da nye hubs blev tilføjet, blev publikationer overført dertil.
Oplysningerne blev indsamlet ved hjælp af et sæt PHP-scripts. Hver publikation blev downloadet, indholdet af tagget blev bestemt <div id="post-content-body" > og tjekket for tags <img> inde. For hvert billede gemmes links til billederne, linket til udgivelses-id'et på Habré. Disse oplysninger analyseres yderligere.
Hvad blev offentliggjort og hvornår
2006
Allerede i begyndelsen af Habr var der ikke så mange udgivelser, som der er nu, og der var endnu færre billeder i dem. I alt blev 2006 indlæg offentliggjort i de anførte hubs i 05.06.2006 (startende fra 221/53/75). 10 af disse indlæg indeholder i alt XNUMX billeder. Maksimalt antal billeder (XNUMX stykker) i en publikation "Ti gadgets, der ændrede verden". 50 tegninger er allerede på Habrastorage. Yderligere 25 er tabt. Alle er unikke og gentages ikke.
Et interessant faktum: To af billederne fører til selve Habr, men har ikke været tilgængelige i lang tid. Dette er billederne http://www.habrahabr.ru/tmp/sup_blogs_preview.gif og http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Så tabt for 2006 33.3 % billeder i publikationer.
2007
I 2007 steg antallet af udgivelser markant, ligesom antallet af billeder - 1 indlæg blev offentliggjort. 713 indlæg indeholder 599 billeder. 1 billeder blev overført til Habrastorage, og 467 gik tabt (16.2 %).
Et interessant faktum: publikation Top 100 Mac OS-applikationer indeholder maksimalt 2007 billeder for 100 og indeholder ikke copyright-tekst.
Derudover er nogle af disse tabte billeder dubletter. Så en af dem forekommer 6 gange i en Offentliggørelse med kun 6 billeder. Desuden gentages billedet "Up.gif" 21 gange, "Down.gif" 16 gange og "Same.gif" 8 gange fra ét domæne. Og alle disse 45 billeder fra et indlæg, som kun indeholder 47 billeder.
Der er 191 unikke < img > tilbage.
2008
Da antallet af udgivelser på Habré kun er steget fra år til år, vil vores detektiv i 2008 gennemgå 2 publikationer, samt 520 billeder. Vi bemærkede, at det var i 2, at antallet af billeder i publikationer endelig oversteg antallet af publikationer. Desuden indeholder kun 969 indlæg billeder, og maksimalt 2008 elementer af grafisk information præsenteres i publikationen "Historien om Googles ferielogoer". 1 billeder er allerede blevet gemt på Habrastorage, og 943 er gået tabt (34.6 %).
Et interessant faktum: Det mest uventede billede (eller rettere, problemet i udformningen af publikationen) er placeret her. Som et resultat forsøger Habr at downloade billedet via http://#/.
Ris. 1. Generel statistik over de overvejede
Er det muligt at gendanne i det mindste noget?
Delvis restaurering er ikke svært. For eksempel ville den dovne måde være at bruge Internet Archive i et forsøg på at indlæse gemte publikationssider. Derudover kan du forsøge at "finde" selve billederne i arkivet ved hjælp af direkte links.
Lifehack: Du skal tjekke for tilstedeværelsen af billeder i alle versioner af siden i arkivet, ikke kun de ældste og nyeste.
Desværre, selvom denne metode virker i nogle tilfælde, er det så svært at gendanne mindst halvdelen af billederne. Derfor er næste skridt at tjekke krydspostering, originale oversættelser og selvfølgelig arkivkopier af de originale sider.
Derudover kan du forsøge at finde de ønskede billeder ved hjælp af et af Habrs uofficielle spejle, som engang fungerede og stadig gemmer nogle af de kopierede oplysninger.
Den sidste og sværeste mulighed er at bruge søgemaskiner. Hvis du ved præcis, hvad der skal være i billedet (der er en beskrivelse og kontekst), er der en chance for at finde filer med samme navn, hvis de engang blev kopieret af nogen til en anden ressource.
Naturligvis øger hvert efterfølgende trin søgetiden ulineært.
Hvad vi fandt
Du er måske ikke alt for imponeret over antallet af fundet billeder indtil videre - der er 300 af dem (indeholdt i 140 publikationer fra 81 forfattere). Tager vi højde for antallet af "tab" (1), er resultatet ca 24.2 %. Hvorfor mangler der færre billeder, end der var? Alle ubrugelige billeder (som visningstællere) og ikke-eksisterende billeder (som de allerede nævnte http://#/, samt http://fig.jpg/ og så videre).
Hvordan fandt du på sådan et rundt tal? Faktum er, at cirka 300 dages søgning sluttede. Først skulle jeg gå til 333, men 300 ser ret godt ud. Derudover er der i øjeblikket ca 33 % alle "eftersøgningens ofre".
Ris. 2. Aktuelle søgeresultater
Alle fundne billeder (bortset fra én .bmp, med den ville det være 301) uploades til hsto.org, og links til dem og publikationer, samt indekser over billeder i dem, er givet i næste afsnit.
Fund
Så under spoileren er de succesfulde fundne billeder samt publikationernes id, billedets indeks inde i publikationens tekst (startende fra 1, ikke fra 0) og forfatteren af publikationen. Hvis du er forfatter til den nævnte publikation, og de fundne billeder er korrekte, bedes du rette dine indlæg. Tak skal du have!
Nogle billeder er i øvrigt faktisk stadig tilgængelige til visning i publikationer, men er ikke overført til Habrastorage, og derfor kan de på et tidspunkt også blive utilgængelige.
300 billeder
Forfatter
Publikations-id
Indeks og links
Eksempel
Måske vil nogen mene, at det ikke giver nogen mening at gendanne sådanne forældede oplysninger. Og desuden var nogle af de fundne billeder meningsløse, selv da de blev offentliggjort. Dette er uden tvivl sandt.
Enhver information er vigtig. I hvert fald set ud fra en historisk analyse. For ikke at nævne det faktum, at det i nogle ophavsretligt beskyttede materialer spiller en nøglerolle. Ja, i øjeblikket er Habr ikke engang 15 år og nogle af kilderne er stadig tilgængelige, men med tiden vil de blive færre og færre, og derfor er det værd at tænke på på forhånd, om der bliver noget tilbage til senere, eller om der bliver være et evigt "billede ikke tilgængeligt."
Nå, glem ikke, at pladsholdere til utilgængelige billeder simpelthen er irriterende. Selvfølgelig vil få mennesker læse "nogle gamle ting", men der vil være sådanne mennesker. Da disse publikationer stadig er tilgængelige på Habré, bør deres indhold derfor være så fuldstændigt som muligt.
Desværre understøtter Habrastorage endnu ikke direkte download til alle billedformater, men måske bliver det rettet en dag.
Det sidste problem, som jeg gerne vil nævne, og som du sikkert tænkte på, "hvad nu hvis forfatteren ikke har brugt Habr i lang tid og ikke er interesseret i at rette gamle ting?" Dette spørgsmål er dukket op i mit hoved mere end én gang, men løsningen her er ikke så svær. Gamle publikationer kan altid rettes UFO i moderatorernes person (du kan, Exosfære?) eller administration (Boomburum kan give nogen en opgave).
Hvad synes du, er det værd at prøve at gendanne i det mindste noget?
Det var alt for i dag. Tak for din opmærksomhed og må alle dine billeder uploades til Habrastorage uden problemer! Lad dette ikke ske
PS Hvis du finder stavefejl eller fejl i teksten, så lad mig det vide. Dette kan gøres ved at vælge en del af teksten og trykke på "Ctrl / ⌘ + Enter" hvis du har Ctrl / ⌘ eller via private beskeder. Hvis begge muligheder ikke er tilgængelige, så skriv om fejl i kommentarerne. Tak skal du have!
PPS Måske vil du også være interesseret i min anden Habr-forskning, eller du vil gerne foreslå dit eget emne til næste publikation, eller måske endda en ny serie af publikationer.
Hvor finder man listen, og hvordan man laver et forslag
Alle oplysninger kan findes i et særligt depot Habra-detektiv. Der kan du også finde ud af, hvilke forslag der allerede er annonceret, og hvad der allerede er i gang.
Du kan også nævne mig (ved at skrive VaskivskyiYe) i kommentarerne til en publikation, der virker interessant for dig til forskning eller analyse.