Haben Sie sich jemals gefragt, wie viele Informationen spurlos verloren gehen? Schließlich ist Habr für Informationen da. Wissen Sie, was am häufigsten mit Ressourcen passiert, die auf Benutzerbeiträgen basieren? Die Autoren fügen Bilder, Fotos und Videos von Seiten Dritter ein, die nach einiger Zeit nicht mehr verfügbar sind. Dafür wurde es einst geschaffen. Habraster. Die Praxis hat gezeigt, dass dort niemand (außer Redakteuren und ein paar Enthusiasten) von sich aus Bilder hochlädt. Daher hat die Habr-Administration diese Funktion irgendwann automatisiert – jedes Bild, das in einer Veröffentlichung erscheint, wird automatisch in den Speicher hochgeladen und verschwindet nicht von dort, solange Habr selbst existiert. Natürlich gibt es Ausnahmen und es könnte etwas schiefgehen, aber jetzt nicht über sie.
Das größte Problem bei diesem ganzen Schema beim Laden von Bildern in Habrastorage trat während seiner Implementierung auf. Zu diesem Zeitpunkt hatten einige alte Veröffentlichungen bereits keine Zeichnungen und blieben daher auch so. Heute werden wir versuchen herauszufinden, wie viele grafische Informationen Habr seit seiner Geburt verloren hat. Außerdem können wir vielleicht etwas finden, das gefehlt hat? Dieser „Bild kann nicht geladen werden“-Stub ist nervig, nicht wahr? Genau diesem Thema ist der heutige Krimi gewidmet. Lass uns anfangen!
Möglicherweise wurden Sie durch eine Erwähnung in zu diesem Artikel geführt Tracker? Wahrscheinlich ist aus einer Ihrer alten Veröffentlichungen ein Bild verschwunden und ich habe es gefunden. Wenn Sie nicht den gesamten Beitrag lesen möchten, können Sie einfach zum Spoiler ganz am Ende scrollen (Abschnitt Ergebnisse), die alle gefundenen Publikationen und Bilder auflistet. Danke!
Einführung und Methoden
Unsere Detektivgeschichte wird von vorne beginnen (logisch, oder?). Von Anfang an Habr. Denn je früher ein Beitrag veröffentlicht wurde, desto größer ist die Wahrscheinlichkeit, dass Bilder daraus irgendwo in der Geschichte verloren gehen. Deshalb werden wir ab 2006 beginnen und ein wenig voranschreiten.
In die Betrachtung werden alle Publikationen von 40 Hubs einbezogen, die aktuell am Anfang des Rankings stehen. Die vollständige Liste dieser Naben finden Sie unter dem Spoiler. Tatsächlich existierten viele von ihnen damals noch nicht, aber als neue Hubs hinzukamen, wurden Publikationen dorthin verlegt.
Die Informationen wurden mithilfe einer Reihe von PHP-Skripten gesammelt. Jede Veröffentlichung wurde heruntergeladen, der Inhalt des Tags wurde bestimmt <div id="post-content-body" > und auf Tags überprüft <img> innen. Für jedes Bild werden Links zu den Bildern gespeichert, verknüpft mit der Publikations-ID auf Habré. Diese Informationen werden weiter analysiert.
Was wurde wann veröffentlicht?
2006
Zu Beginn von Habr gab es nicht so viele Veröffentlichungen wie heute, und es waren noch weniger Bilder darin enthalten. Insgesamt wurden im Jahr 2006 (Stand 05.06.2006) 221 Beiträge in den gelisteten Hubs veröffentlicht. 53 dieser Beiträge enthalten insgesamt 75 Bilder. Maximale Anzahl an Bildern (10 Stück) in einer Publikation „Zehn Gadgets, die die Welt verändert haben". 50 Zeichnungen befinden sich bereits auf Habrastorage. Weitere 25 sind verloren. Alle sind einzigartig und werden nicht wiederholt.
Eine interessante Tatsache: Zwei der Bilder führen zum Habr selbst, waren aber schon lange nicht mehr verfügbar. Dies sind die Bilder http://www.habrahabr.ru/tmp/sup_blogs_preview.gif und http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Also verloren für 2006 33.3% Bilder in Publikationen.
2007
Im Jahr 2007 stieg die Zahl der Veröffentlichungen deutlich an, ebenso wie die Zahl der Bilder – 1 Beiträge wurden veröffentlicht. 713 Beiträge enthalten 599 Bilder. 1 Bilder wurden an Habrastorage übertragen und 467 gingen verloren (16.2%).
Eine interessante Tatsache: Veröffentlichung Top 100 Mac OS-Anwendungen enthält maximal 2007 Bilder für 100 und enthält keinen urheberrechtlich geschützten Text.
Darüber hinaus handelt es sich bei einigen dieser verlorenen Bilder um Duplikate. Eine davon kommt also sechsmal hintereinander vor Veröffentlichung mit nur 6 Bildern. Außerdem wird das Bild „Up.gif“ 21 Mal, „Down.gif“ 16 Mal und „Same.gif“ 8 Mal von einer Domain wiederholt. Und all diese 45 Bilder von ein Beitrag, das nur 47 Bilder enthält.
Es sind noch 191 einzigartige < img > übrig.
2008
Da die Zahl der Veröffentlichungen zu Habré von Jahr zu Jahr zunimmt, wird unser Detektiv im Jahr 2008 2 Veröffentlichungen sowie 520 Bilder überprüfen. Wir haben festgestellt, dass die Anzahl der Bilder in Veröffentlichungen im Jahr 2 endlich die Anzahl der Veröffentlichungen überstieg. Darüber hinaus enthalten nur 969 Beiträge Bilder und in der Veröffentlichung werden maximal 2008 Elemente grafischer Informationen präsentiert.Die Geschichte der Feiertagslogos von Google". 1 Bilder wurden bereits auf Habrastorage gespeichert und 943 sind verloren gegangen (34.6%).
Eine interessante Tatsache: Das unerwartetste Bild (oder vielmehr das Problem bei der Gestaltung der Publikation) wird lokalisiert hier. Daher versucht Habr, das Bild über http://#/ herunterzuladen.
Reis. 1. Allgemeine Statistiken der betrachteten
Ist es möglich, zumindest etwas wiederherzustellen?
Eine teilweise Wiederherstellung ist nicht schwierig. Der faulste Weg wäre zum Beispiel die Verwendung Internet Archive bei dem Versuch, gespeicherte Publikationsseiten zu laden. Darüber hinaus können Sie versuchen, die Bilder selbst über direkte Links im Archiv zu „finden“.
Lifehacks: Sie müssen prüfen, ob in allen Versionen der Seite im Archiv Bilder vorhanden sind, nicht nur in der ältesten und neuesten.
Obwohl diese Methode in einigen Fällen funktioniert, ist es leider so schwierig, mindestens die Hälfte der Bilder wiederherzustellen. Daher besteht der nächste Schritt darin, Crossposting, Originalübersetzungen und natürlich Archivkopien der Originalseiten zu überprüfen.
Darüber hinaus können Sie versuchen, die gewünschten Bilder mithilfe eines der inoffiziellen Spiegel von Habr zu finden, der einmal funktionierte und immer noch einige der kopierten Informationen speichert.
Die letzte und schwierigste Möglichkeit ist die Nutzung von Suchmaschinen. Wenn Sie genau wissen, was im Bild enthalten sein soll (Beschreibung und Kontext vorhanden), besteht die Möglichkeit, Dateien mit demselben Namen zu finden, wenn sie einmal von jemandem in eine andere Ressource kopiert wurden.
Natürlich erhöht jeder weitere Schritt die Suchzeit nichtlinear.
Was wurde gefunden
Die Anzahl der bisher gefundenen Bilder wird Sie vielleicht nicht allzu sehr beeindrucken – es sind 300 davon (enthalten in 140 Publikationen von 81 Autoren). Berücksichtigt man die Zahl der „Verluste“ (1), ergibt sich ein Ergebnis von ca 24.2%. Warum fehlen weniger Bilder als zuvor? Alle nutzlosen Bilder (wie Aufrufzähler) und nicht existierende Bilder (wie das bereits erwähnte http://#/, sowie http://fig.jpg/ usw.).
Wie sind Sie auf eine so runde Zahl gekommen? Tatsache ist, dass etwa 300 Tage der Suche zu Ende waren. Zuerst wollte ich auf 333 umsteigen, aber 300 sieht ziemlich gut aus. Darüber hinaus im Moment etwa 33% alle „Opfer der Durchsuchung“.
Reis. 2. Aktuelle Suchergebnisse
Alle gefundenen Bilder (bis auf ein .bmp, damit wäre es 301) werden hochgeladen hsto.org, und Links zu ihnen und Veröffentlichungen sowie Verzeichnisse der darin enthaltenen Bilder finden Sie im nächsten Abschnitt.
Ergebnisse
Unter dem Spoiler befinden sich also die erfolgreich gefundenen Bilder sowie die ID der Veröffentlichungen, der Index des Bildes im Text der Veröffentlichung (beginnend bei 1, nicht bei 0) und der Autor der Veröffentlichung. Wenn Sie der Autor der genannten Veröffentlichung sind und die gefundenen Bilder korrekt sind, korrigieren Sie bitte Ihre Beiträge. Danke!
Einige Bilder stehen übrigens tatsächlich noch zur Ansicht in Publikationen zur Verfügung, wurden aber nicht an Habrastorage übertragen und können daher irgendwann auch nicht mehr verfügbar sein.
Vielleicht wird jemand der Meinung sein, dass die Wiederherstellung solch veralteter Informationen keinen Sinn ergibt. Und außerdem waren einige der gefundenen Bilder bereits zum Zeitpunkt ihrer Veröffentlichung bedeutungslos. Das ist zweifellos wahr.
Alle Informationen sind wichtig. Zumindest aus der Sicht der historischen Analyse. Ganz zu schweigen von der Tatsache, dass es in einigen urheberrechtlich geschützten Materialien eine Schlüsselrolle spielt. Ja, im Moment ist Habr noch nicht einmal 15 Jahre alt und einige der Quellen sind noch verfügbar, aber mit der Zeit werden es immer weniger, und daher lohnt es sich, im Voraus darüber nachzudenken, ob etwas für später übrig bleibt oder ob es eines gibt ein ewiges „Bild nicht verfügbar“ sein.
Vergessen Sie nicht, dass Platzhalter für nicht zugängliche Bilder einfach nervig sind. Natürlich werden nur wenige Leute „einige alte Sachen“ lesen, aber es wird solche Leute geben. Da diese Veröffentlichungen weiterhin auf Habré verfügbar sind, sollte ihr Inhalt daher so vollständig wie möglich sein.
Leider unterstützt Habrastorage noch nicht den direkten Download für alle Bildformate, aber vielleicht wird das eines Tages behoben.
Das letzte Problem, das ich erwähnen möchte und über das Sie wahrscheinlich nachgedacht haben: „Was ist, wenn der Autor Habr längere Zeit nicht verwendet hat und kein Interesse daran hat, alte Dinge zu korrigieren?“ Diese Frage ist mir mehr als einmal durch den Kopf gegangen, aber die Lösung ist hier nicht so schwierig. Alte Veröffentlichungen können jederzeit korrigiert werden UFO in der Person von Moderatoren (Sie können, Exosphäre?) oder Verwaltung (Boomburum kann jemandem eine Aufgabe geben).
Was denken Sie, lohnt es sich, zumindest etwas wiederherzustellen?
Das ist alles für heute. Vielen Dank für Ihre Aufmerksamkeit und dass alle Ihre Bilder problemlos auf Habrastorage hochgeladen werden können! Lass das nicht passieren
PS Wenn Sie Tippfehler oder Fehler im Text finden, teilen Sie mir dies bitte mit. Dies können Sie tun, indem Sie einen Textabschnitt auswählen und auf „Strg / ⌘ + Eingabetaste" Wenn Sie Strg / ⌘ haben, entweder über Private Nachrichten. Wenn beide Optionen nicht verfügbar sind, schreiben Sie in den Kommentaren über die Fehler. Danke!
PPS Vielleicht interessieren Sie sich auch für meine anderen Habr-Forschungen oder Sie möchten ein eigenes Thema für die nächste Veröffentlichung oder vielleicht sogar eine neue Publikationsreihe vorschlagen.
Wo finde ich die Liste und wie mache ich einen Vorschlag?
Alle Informationen finden Sie in einem speziellen Repository Habra-Detektiv. Dort erfahren Sie auch, welche Vorschläge bereits angekündigt wurden und was bereits in Arbeit ist.
Sie können mich auch schriftlich erwähnen VaskivskyiYe) in den Kommentaren zu einer Veröffentlichung, die Ihnen für Recherche oder Analyse interessant erscheint.