Har du någonsin undrat hur mycket information som går förlorad utan spår? När allt kommer omkring är information vad Habr finns till för. Vet du vad som oftast händer med resurser baserade på användarinlägg? Författarna lägger in bilder, bilder och videor från tredje parts webbplatser och efter en tid är de inte längre tillgängliga. Det är vad den en gång skapades för. Habrastorage. Praxis har visat att ingen (förutom redaktörer och några entusiaster) laddar upp bilder dit på egen hand. Därför har Habr-administrationen någon gång gjort denna funktion automatisk - varje bild som dyker upp i en publikation laddas automatiskt upp till lagringen och kommer inte att försvinna därifrån så länge Habr själv existerar. Naturligtvis finns det undantag och något kan gå fel, men inte om dem nu.
Det största problemet i hela detta schema med att ladda bilder i Habrastorage inträffade under implementeringen. Vid den tiden hade vissa gamla publikationer redan inga ritningar och förblev därför så. Idag ska vi försöka ta reda på hur mycket grafisk information Habr har förlorat sedan födelsen. Dessutom kanske vi kan hitta något som saknades? Denna "bild kan inte laddas"-stubben är irriterande, eller hur? Dagens deckare är tillägnad just detta. Låt oss börja!
Du kanske har tagits till den här artikeln av ett omnämnande i spårare? Förmodligen försvann en bild från en av dina gamla publikationer, och jag hittade den. Om du inte vill läsa hela inlägget kan du bara scrolla till spoilern i slutet (avsnittet Resultat), som listar alla publikationer och bilder som hittats. Tack!
Introduktion och metoder
Vår deckare kommer att börja från allra första början (logiskt, eller hur?). Från början av Habr. När allt kommer omkring, ju tidigare ett inlägg publicerades, desto större är chansen att bilder från det försvann någonstans i historien. Därför börjar vi från 2006 och går lite framåt.
Alla publikationer från 40 nav som just nu befinner sig i början av rankingen ingår i övervägandet. Den fullständiga listan över dessa nav presenteras under spoilern. Faktum är att många av dem inte fanns då, men när nya nav tillkom flyttades publikationer dit.
Informationen samlades in med hjälp av en uppsättning PHP-skript. Varje publikation laddades ner, innehållet i taggen bestämdes och kollade efter taggar inuti. För varje bild lagras länkar till bilderna, länkade till publicerings-ID på Habré. Denna information analyseras vidare.
Vad publicerades och när
2006
Allra i början av Habr fanns det inte så många publikationer som nu, och det fanns ännu färre bilder i dem. Totalt publicerades 2006 inlägg i de listade nav under 05.06.2006 (från och med 221-53-75). 10 av dessa inlägg innehåller totalt XNUMX bilder. Maximalt antal bilder (XNUMX stycken) i en publikation "Tio prylar som förändrade världen". 50 teckningar finns redan på Habrastorage. Ytterligare 25 är förlorade. Alla är unika och inte upprepade.
Ett intressant faktum: Två av bilderna leder till självaste Habr, men har inte varit tillgängliga på länge. Det här är bilderna http://www.habrahabr.ru/tmp/sup_blogs_preview.gif och http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Så förlorade för 2006 33.3% bilder i publikationer.
2007
Under 2007 ökade antalet publikationer markant, likaså antalet bilder – 1 713 inlägg publicerades. 599 inlägg innehåller 1 467 bilder. 1 229 bilder överfördes till Habrastorage och 238 gick förlorade (16.2%).
Ett intressant faktum: publikation Topp 100 Mac OS-program innehåller max 2007 bilder för 100 och innehåller inte copyrighttext.
Dessutom är några av dessa förlorade bilder dubbletter. Så en av dem inträffar 6 gånger i en Publikation med endast 6 bilder. Dessutom upprepas bilden "Up.gif" 21 gånger, "Down.gif" 16 gånger och "Same.gif" 8 gånger från en domän. Och alla dessa 45 bilder från ett inlägg, som endast innehåller 47 bilder.
Det finns 191 unika kvar.
2008
Eftersom antalet publikationer på Habré bara har ökat från år till år kommer vår detektiv under 2008 att granska 2 520 publikationer, samt 2 969 bilder. Vi märkte att det var 2008 som antalet bilder i publikationer slutligen översteg antalet publikationer. Dessutom innehåller endast 1 207 inlägg bilder, och maximalt 42 element av grafisk information presenteras i publikationen "Historien om Googles semesterlogotyper". 1 943 bilder har redan sparats på Habrastorage, och 1 026 har gått förlorade (34.6%).
Ett intressant faktum: Den mest oväntade bilden (eller snarare problemet i utformningen av publikationen) finns här. Som ett resultat försöker Habr ladda ner bilden via http://#/.
Ris. 1. Allmän statistik över de övervägda
Är det möjligt att återställa åtminstone något?
Partiell restaurering är inte svårt. Till exempel skulle det slöaste sättet vara att använda Internet Archive i ett försök att ladda sparade publikationssidor. Dessutom kan du försöka ”hitta” själva bilderna i arkivet med hjälp av direktlänkar.
Lifehack: Du måste kontrollera förekomsten av bilder i alla versioner av sidan i arkivet, inte bara de äldsta och nyaste.
Tyvärr, även om denna metod fungerar i vissa fall, är det så svårt att återställa åtminstone hälften av bilderna. Därför är nästa steg att kontrollera korspublicering, originalöversättningar och, naturligtvis, arkivkopior av originalsidorna.
Dessutom kan du försöka hitta de önskade bilderna med hjälp av en av Habrs inofficiella speglar, som en gång fungerade och fortfarande lagrar en del av den kopierade informationen.
Det sista och svåraste alternativet är att använda sökmotorer. Om du vet exakt vad som ska finnas i bilden (det finns en beskrivning och sammanhang) finns det en chans att hitta filer med samma namn om de en gång kopierats av någon till en annan resurs.
Naturligtvis ökar varje efterföljande steg söktiden olinjärt.
Vad hittades
Du kanske inte är alltför imponerad av antalet bilder som hittats hittills - det finns 300 av dem (finns i 140 publikationer från 81 författare). Om vi tar hänsyn till antalet "förluster" (1 242) är resultatet ca 24.2%. Varför saknas det färre bilder än vad det fanns? Alla värdelösa bilder (som visningsräknare) och icke-existerande bilder (som redan nämnda http://#/, samt http://fig.jpg/ och så vidare).
Hur kom du på ett sånt runt tal? Faktum är att cirka 300 dagars sökning tog slut. Först tänkte jag gå till 333, men 300 ser ganska bra ut. Dessutom för tillfället ca 33% alla "sökandens offer".
Ris. 2. Aktuella sökresultat
Alla hittade bilder (förutom en .bmp, med den skulle det vara 301) laddas upp till hsto.org, och länkar till dem och publikationer, samt index över bilder i dem, ges i nästa avsnitt.
Resultat
Så under spoilern finns de framgångsrikt hittade bilderna, liksom publikations-id, bildens index i publikationens text (med början från 1, inte från 0) och författaren till publikationen. Om du är författare till den nämnda publikationen och bilderna som hittas är korrekta, vänligen korrigera dina inlägg. Tack!
Vissa bilder finns förresten faktiskt fortfarande tillgängliga för visning i publikationer, men har inte överförts till Habrastorage, och därför kan de någon gång också bli otillgängliga.
300 bilder
Författare
Publikations-ID
Index och länkar
Exempel
Kanske kommer någon att anse att det inte är meningsfullt att återställa sådan föråldrad information. Och dessutom var en del av bilderna som hittades meningslösa även när de publicerades. Detta är utan tvekan sant.
All information är viktig. Åtminstone ur den historiska analysens synvinkel. För att inte tala om det faktum att det i vissa upphovsrättsskyddade material spelar en nyckelroll. Ja, för tillfället är Habr inte ens 15 år gammal och några av källorna är fortfarande tillgängliga, men med tiden kommer de att bli färre och färre, och därför är det värt att tänka på i förväg om något kommer att finnas kvar till senare, eller om det kommer att vara en evig "bild ej tillgänglig."
Tja, glöm inte att platshållare för otillgängliga bilder helt enkelt är irriterande. Naturligtvis kommer få människor att läsa "en del gamla grejer", men det kommer att finnas sådana människor. Därför, eftersom dessa publikationer fortfarande finns tillgängliga på Habré, bör deras innehåll vara så komplett som möjligt.
Tyvärr har Habrastorage ännu inte stöd för direktnedladdning för alla bildformat, men kanske kommer detta att fixas någon dag.
Det sista problemet som jag skulle vilja nämna, och som du förmodligen tänkt på, "tänk om författaren inte har använt Habr på länge och inte är intresserad av att rätta gamla saker?" Denna fråga har dykt upp i mitt huvud mer än en gång, men lösningen här är inte så svår. Gamla publikationer kan alltid korrigeras UFO i moderatorernas person (du kan, Exosfär?) eller administration (Boomburum kan ge någon en uppgift).
Vad tycker du, är det värt att försöka återställa åtminstone något?
Det är allt för idag. Tack för din uppmärksamhet och må alla dina bilder laddas upp till Habrastorage utan problem! Låt detta inte hända
PS Om du hittar stavfel eller fel i texten, vänligen meddela mig. Detta kan göras genom att markera en del av texten och trycka på "Ctrl / ⌘ + Enter" om du har Ctrl / ⌘ eller via privata meddelanden. Om båda alternativen inte är tillgängliga, skriv om felen i kommentarerna. Tack!
PPS Kanske kommer du också att vara intresserad av min andra Habr-forskning eller så vill du föreslå ditt eget ämne för nästa publikation, eller kanske till och med en ny serie publikationer.
Var hittar man listan och hur man gör ett förslag
All information finns i ett särskilt arkiv Habra-detektiv. Där kan du också ta reda på vilka förslag som redan har annonserats och vad som redan är på gång.
Du kan också nämna mig (genom att skriva VaskivskyiYe) i kommentarerna till en publikation som verkar intressant för dig för forskning eller analys.