Heeft u zich ooit afgevraagd hoeveel informatie spoorloos verloren gaat? Informatie is tenslotte waar Habr voor bestaat. Weet jij wat het vaakst gebeurt met bronnen op basis van gebruikersposts? De auteurs voegen afbeeldingen, afbeeldingen en video's van sites van derden in en na enige tijd zijn ze niet langer beschikbaar. Dit is waar het ooit voor gemaakt is. Habrasopslag. De praktijk leert dat niemand (behalve redacteuren en enkele enthousiastelingen) daar uit zichzelf afbeeldingen uploadt. Daarom heeft de Habr-administratie deze functie op een gegeven moment automatisch gemaakt: elke afbeelding die in een publicatie verschijnt, wordt automatisch geüpload naar de opslag en zal daar niet verdwijnen zolang Habr zelf bestaat. Natuurlijk zijn er uitzonderingen en er kan iets misgaan, maar nu niet over hen.
Het grootste probleem in dit hele schema met het laden van afbeeldingen in Habrastorage deed zich voor tijdens de implementatie ervan. Sommige oude publicaties hadden tegen die tijd al geen tekeningen en bleven daarom zo. Vandaag zullen we proberen erachter te komen hoeveel grafische informatie Habr sinds zijn geboorte heeft verloren. Trouwens, misschien kunnen we iets vinden dat ontbrak? Dit 'afbeelding kan niet worden geladen'-stub is vervelend, nietwaar? Het detectiveverhaal van vandaag is precies hieraan gewijd. Laten we beginnen!
Mogelijk bent u op dit artikel terechtgekomen door een vermelding in spoorzoeker? Waarschijnlijk is er een afbeelding verdwenen uit een van je oude publicaties en heb ik hem gevonden. Als je niet het hele bericht wilt lezen, kun je gewoon naar de spoiler helemaal aan het einde scrollen (sectie Bevindingen), waarin alle gevonden publicaties en afbeeldingen worden vermeld. Bedankt!
Inleiding en methoden
Ons detectiveverhaal begint vanaf het allereerste begin (logisch, toch?). Vanaf het begin van Habr. Hoe eerder een bericht werd gepubliceerd, hoe groter de kans dat afbeeldingen daaruit ergens in de geschiedenis verloren zijn gegaan. Daarom beginnen we vanaf 2006 en gaan we een stukje verder.
Alle publicaties van 40 hubs die momenteel aan het begin van de ranglijst staan, worden meegenomen in de afweging. De volledige lijst van deze hubs wordt onder de spoiler weergegeven. In feite bestonden veel ervan toen nog niet, maar toen er nieuwe hubs bijkwamen, werden de publicaties daarheen overgebracht.
De informatie werd verzameld met behulp van een set PHP-scripts. Elke publicatie werd gedownload, de inhoud van de tag werd bepaald <div id="post-content-body" > en gecontroleerd op tags <img> binnen. Bij elke afbeelding worden links naar de afbeeldingen opgeslagen, gekoppeld aan het publicatie-ID op Habré. Deze informatie wordt verder geanalyseerd.
Wat is er gepubliceerd en wanneer
2006
Helemaal aan het begin van Habr waren er niet zoveel publicaties als nu, en er stonden zelfs nog minder afbeeldingen in. In totaal zijn er in 2006 (vanaf 05.06.2006/221/53) 75 berichten gepubliceerd in de vermelde hubs. 10 van deze berichten bevatten in totaal XNUMX afbeeldingen. Maximaal afbeeldingen (XNUMX stuks) in een publicatie "Tien gadgets die de wereld hebben veranderd". Er staan al 50 tekeningen op Habrastorage. Nog eens 25 zijn verloren gegaan. Ze zijn allemaal uniek en niet herhaald.
Een interessant feit: Twee van de afbeeldingen leiden naar Habr zelf, maar zijn al lange tijd niet meer beschikbaar. Dit zijn de afbeeldingen http://www.habrahabr.ru/tmp/sup_blogs_preview.gif en http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Dus verloren voor 2006 33.3% afbeeldingen in publicaties.
2007
In 2007 steeg het aantal publicaties aanzienlijk, evenals het aantal afbeeldingen: er werden 1 berichten gepubliceerd. 713 berichten bevatten 599 afbeeldingen. 1 afbeeldingen zijn overgebracht naar Habrastorage en 467 zijn verloren gegaan (16.2%).
Een interessant feit: uitgave Top 100 Mac OS-applicaties bevat maximaal 2007 afbeeldingen voor 100 en bevat geen copyrighttekst.
Bovendien zijn sommige van deze verloren afbeeldingen duplicaten. Eén ervan komt dus 6 keer in één voor Uitgave met slechts 6 foto's. Ook wordt de afbeelding “Up.gif” 21 keer herhaald, “Down.gif” 16 keer en “Same.gif” 8 keer vanuit één domein. En al deze 45 afbeeldingen uit één bericht, die slechts 47 afbeeldingen bevat.
Er zijn nog 191 unieke < img > over.
2008
Omdat het aantal publicaties over Habré van jaar tot jaar alleen maar is toegenomen, zal onze rechercheur in 2008 2 publicaties en 520 afbeeldingen beoordelen. Het viel ons op dat in 2 het aantal afbeeldingen in publicaties uiteindelijk het aantal publicaties overtrof. Bovendien bevatten slechts 969 berichten afbeeldingen en worden in de publicatie maximaal 2008 elementen van grafische informatie gepresenteerd "De geschiedenis van de vakantielogo's van Google". Er zijn al 1 afbeeldingen opgeslagen op Habrastorage en 943 zijn verloren gegaan (34.6%).
Een interessant feit: Het meest onverwachte beeld (of beter gezegd het probleem in het ontwerp van de publicatie) bevindt zich hier. Als gevolg hiervan probeert Habr de afbeelding te downloaden via http://#/.
Rijst. 1. Algemene statistieken van de beschouwde
Is het mogelijk om tenminste iets te herstellen?
Gedeeltelijke restauratie is niet moeilijk. De meest luie manier zou bijvoorbeeld zijn om te gebruiken internet Archive in een poging opgeslagen publicatiepagina's te laden. Bovendien kunt u proberen de afbeeldingen zelf in het archief te ‘vinden’ met behulp van directe links.
Lifehack: U moet controleren op de aanwezigheid van afbeeldingen in alle versies van de pagina in het archief, niet alleen in de oudste en nieuwste.
Hoewel deze methode in sommige gevallen werkt, is het helaas zo moeilijk om minstens de helft van de afbeeldingen te herstellen. Daarom is de volgende stap het controleren van cross-posting, originele vertalingen en uiteraard archiefkopieën van de originele pagina's.
Bovendien kunt u proberen de gewenste afbeeldingen te vinden met behulp van een van de onofficiële spiegels van Habr, die ooit werkten en nog steeds een deel van de gekopieerde informatie opslaan.
De laatste en moeilijkste optie is het gebruik van zoekmachines. Als je precies weet wat er in de afbeelding moet staan (er is een beschrijving en context), bestaat de kans om bestanden met dezelfde naam te vinden als ze ooit door iemand naar een andere bron zijn gekopieerd.
Uiteraard vergroot elke volgende stap de zoektijd niet-lineair.
Wat is er gevonden?
U bent misschien niet zo onder de indruk van het aantal afbeeldingen dat tot nu toe is gevonden: er zijn er 300 (vervat in 140 publicaties van 81 auteurs). Als we rekening houden met het aantal “verliezen” (1), is het resultaat ongeveer 24.2%. Waarom ontbreken er minder afbeeldingen dan er waren? Alle nutteloze afbeeldingen (zoals weergavetellers) en niet-bestaande afbeeldingen (zoals de reeds genoemde http://#/, evenals http://fig.jpg/ en zo verder).
Hoe kom je aan zo’n rond getal? Feit is dat ongeveer 300 dagen zoeken eindigden. In eerste instantie wilde ik naar 333 gaan, maar 300 ziet er best goed uit. Bovendien, op dit moment ongeveer 33% alle ‘slachtoffers van de zoektocht’.
Rijst. 2. Huidige zoekresultaten
Alle gevonden afbeeldingen (behalve één .bmp, daarmee zouden het 301 zijn) worden geüpload naar hsto.org, en links naar hen en publicaties, evenals indexen van afbeeldingen daarin, worden gegeven in de volgende sectie.
Bevindingen
Onder de spoiler staan dus de succesvol gevonden afbeeldingen, evenals de id van de publicaties, de index van de afbeelding in de tekst van de publicatie (beginnend vanaf 1, niet vanaf 0) en de auteur van de publicatie. Als u de auteur bent van de genoemde publicatie en de gevonden afbeeldingen correct zijn, corrigeer dan uw berichten. Bedankt!
Sommige afbeeldingen zijn overigens nog steeds beschikbaar voor weergave in publicaties, maar zijn niet overgebracht naar Habrastorage en kunnen daarom op een gegeven moment ook niet meer beschikbaar zijn.
Misschien zal iemand van mening zijn dat het herstellen van dergelijke verouderde informatie geen enkele zin heeft. En bovendien waren sommige van de gevonden afbeeldingen betekenisloos, zelfs toen ze werden gepubliceerd. Dit is ongetwijfeld waar.
Alle informatie is belangrijk. In ieder geval vanuit het perspectief van historische analyse. Om nog maar te zwijgen van het feit dat het in sommige auteursrechtelijk beschermde materialen een sleutelrol speelt. Ja, op dit moment is Habr nog niet eens 15 jaar oud en zijn sommige bronnen nog steeds beschikbaar, maar na verloop van tijd zullen ze steeds minder worden, en daarom is het de moeite waard om van tevoren te bedenken of er iets voor later zal blijven, of dat er een eeuwig ‘beeld niet beschikbaar’ zijn.
Vergeet niet dat tijdelijke aanduidingen voor ontoegankelijke afbeeldingen gewoonweg vervelend zijn. Natuurlijk zullen maar weinig mensen ‘oude dingen’ lezen, maar zulke mensen zullen er zijn. Aangezien deze publicaties nog steeds beschikbaar zijn op Habré, moet de inhoud ervan zo volledig mogelijk zijn.
Helaas ondersteunt Habrastorage nog niet het direct downloaden van alle afbeeldingsformaten, maar misschien wordt dit ooit opgelost.
Het laatste probleem dat ik wil noemen, en waar je waarschijnlijk aan hebt gedacht, is: “Wat als de auteur Habr al een hele tijd niet heeft gebruikt en niet geïnteresseerd is in het corrigeren van oude dingen?” Deze vraag is meer dan eens in mijn hoofd opgekomen, maar de oplossing is hier niet zo moeilijk. Oude publicaties kunnen altijd gecorrigeerd worden UFO in de persoon van moderators (u kunt, exosfeer?) of administratie (Boemburum iemand een taak kan geven).
Wat denk je, is het de moeite waard om op zijn minst iets te herstellen?
Dat is alles voor vandaag. Bedankt voor uw aandacht en mogen al uw afbeeldingen zonder problemen worden geüpload naar Habrastorage! Laat dit niet gebeuren
PS Mocht u typefouten of fouten in de tekst tegenkomen, laat het mij dan weten. Dit kunt u doen door een deel van de tekst te selecteren en op " te drukkenCtrl/⌘+Enter" als je Ctrl / ⌘ hebt, of via Prive berichten. Als beide opties niet beschikbaar zijn, schrijf dan over de fouten in de opmerkingen. Bedankt!
PPS Misschien bent u ook geïnteresseerd in mijn andere studies over Habr, of wilt u uw onderwerp voor de volgende publicatie of misschien zelfs een nieuwe cyclus van publicaties voorstellen.
Waar vindt u de lijst en hoe kunt u een bod uitbrengen
Alle informatie is te vinden in een speciale repository habr-detective. Daar kun je ook zien welke voorstellen al zijn ingediend en wat er al in de maak is.
U kunt mij ook vermelden (door te schrijven VaskivskyiJe) in de commentaren op een publicatie die u interessant lijkt voor onderzoek of analyse.