Habra-Detektiv: Ihr Bild ist verloren

Habra-Detektiv: Ihr Bild ist verloren
Haben Sie sich jemals gefragt, wie viele Informationen spurlos verloren gehen? Schließlich ist Habr für Informationen da. Wissen Sie, was am häufigsten mit Ressourcen passiert, die auf Benutzerbeiträgen basieren? Die Autoren fügen Bilder, Fotos und Videos von Seiten Dritter ein, die nach einiger Zeit nicht mehr verfügbar sind. Dafür wurde es einst geschaffen. Habraster. Die Praxis hat gezeigt, dass dort niemand (außer Redakteuren und ein paar Enthusiasten) von sich aus Bilder hochlädt. Daher hat die Habr-Administration diese Funktion irgendwann automatisiert – jedes Bild, das in einer Veröffentlichung erscheint, wird automatisch in den Speicher hochgeladen und verschwindet nicht von dort, solange Habr selbst existiert. Natürlich gibt es Ausnahmen und es könnte etwas schiefgehen, aber jetzt nicht über sie.

Das größte Problem bei diesem ganzen Schema beim Laden von Bildern in Habrastorage trat während seiner Implementierung auf. Zu diesem Zeitpunkt hatten einige alte Veröffentlichungen bereits keine Zeichnungen und blieben daher auch so. Heute werden wir versuchen herauszufinden, wie viele grafische Informationen Habr seit seiner Geburt verloren hat. Außerdem können wir vielleicht etwas finden, das gefehlt hat? Dieser „Bild kann nicht geladen werden“-Stub ist nervig, nicht wahr? Genau diesem Thema ist der heutige Krimi gewidmet. Lass uns anfangen!

Möglicherweise wurden Sie durch eine Erwähnung in zu diesem Artikel geführt Tracker? Wahrscheinlich ist aus einer Ihrer alten Veröffentlichungen ein Bild verschwunden und ich habe es gefunden. Wenn Sie nicht den gesamten Beitrag lesen möchten, können Sie einfach zum Spoiler ganz am Ende scrollen (Abschnitt Ergebnisse), die alle gefundenen Publikationen und Bilder auflistet. Danke!

Einführung und Methoden

Unsere Detektivgeschichte wird von vorne beginnen (logisch, oder?). Von Anfang an Habr. Denn je früher ein Beitrag veröffentlicht wurde, desto größer ist die Wahrscheinlichkeit, dass Bilder daraus irgendwo in der Geschichte verloren gehen. Deshalb werden wir ab 2006 beginnen und ein wenig voranschreiten.

In die Betrachtung werden alle Publikationen von 40 Hubs einbezogen, die aktuell am Anfang des Rankings stehen. Die vollständige Liste dieser Naben finden Sie unter dem Spoiler. Tatsächlich existierten viele von ihnen damals noch nicht, aber als neue Hubs hinzukamen, wurden Publikationen dorthin verlegt.

Liste der Hubs

* nix, Algorithms, Artificial Intelligence, Raumfahrt, Biotechnologie, Gehirn, C + +, Entwicklungsmanagement, DIY, Ökologie, Spielentwicklung, Spiele und Spielekonsolen, Geek-Gesundheit, Geschichte der IT, Informationssicherheit, IT-Karriere, IT-Infrastruktur, IT-Unternehmen, Javac, JavaScript, Gesetzgebung in der IT, Lifehacks für Geeks, Maschinelles Lernen, Herstellung und Entwicklung von Elektronik, Nginx, Open Source, Personalmanagement, Physik, Populärwissenschaft, Produktmanagement, Programmierung, Projektmanagement, Python, Lesezimmer, Reverse engineering, Soziale Netzwerke und Communities, Systemadministration, Systemanalyse und Design, Die Zukunft ist da, Website-Entwicklung

Die Informationen wurden mithilfe einer Reihe von PHP-Skripten gesammelt. Jede Veröffentlichung wurde heruntergeladen, der Inhalt des Tags wurde bestimmt <div id="post-content-body" > und auf Tags überprüft <img> innen. Für jedes Bild werden Links zu den Bildern gespeichert, verknüpft mit der Publikations-ID auf Habré. Diese Informationen werden weiter analysiert.

Was wurde wann veröffentlicht?

2006

Zu Beginn von Habr gab es nicht so viele Veröffentlichungen wie heute, und es waren noch weniger Bilder darin enthalten. Insgesamt wurden im Jahr 2006 (Stand 05.06.2006) 221 Beiträge in den gelisteten Hubs veröffentlicht. 53 dieser Beiträge enthalten insgesamt 75 Bilder. Maximale Anzahl an Bildern (10 Stück) in einer Publikation „Zehn Gadgets, die die Welt verändert haben". 50 Zeichnungen befinden sich bereits auf Habrastorage. Weitere 25 sind verloren. Alle sind einzigartig und werden nicht wiederholt.

Eine interessante Tatsache: Zwei der Bilder führen zum Habr selbst, waren aber schon lange nicht mehr verfügbar. Dies sind die Bilder http://www.habrahabr.ru/tmp/sup_blogs_preview.gif und http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Also verloren für 2006 33.3% Bilder in Publikationen.

2007

Im Jahr 2007 stieg die Zahl der Veröffentlichungen deutlich an, ebenso wie die Zahl der Bilder – 1 Beiträge wurden veröffentlicht. 713 Beiträge enthalten 599 Bilder. 1 Bilder wurden an Habrastorage übertragen und 467 gingen verloren (16.2%).

Eine interessante Tatsache: Veröffentlichung Top 100 Mac OS-Anwendungen enthält maximal 2007 Bilder für 100 und enthält keinen urheberrechtlich geschützten Text.

Darüber hinaus handelt es sich bei einigen dieser verlorenen Bilder um Duplikate. Eine davon kommt also sechsmal hintereinander vor Veröffentlichung mit nur 6 Bildern. Außerdem wird das Bild „Up.gif“ 21 Mal, „Down.gif“ 16 Mal und „Same.gif“ 8 Mal von einer Domain wiederholt. Und all diese 45 Bilder von ein Beitrag, das nur 47 Bilder enthält.

Es sind noch 191 einzigartige < img > übrig.

2008

Da die Zahl der Veröffentlichungen zu Habré von Jahr zu Jahr zunimmt, wird unser Detektiv im Jahr 2008 2 Veröffentlichungen sowie 520 Bilder überprüfen. Wir haben festgestellt, dass die Anzahl der Bilder in Veröffentlichungen im Jahr 2 endlich die Anzahl der Veröffentlichungen überstieg. Darüber hinaus enthalten nur 969 Beiträge Bilder und in der Veröffentlichung werden maximal 2008 Elemente grafischer Informationen präsentiert.Die Geschichte der Feiertagslogos von Google". 1 Bilder wurden bereits auf Habrastorage gespeichert und 943 sind verloren gegangen (34.6%).

Eine interessante Tatsache: Das unerwartetste Bild (oder vielmehr das Problem bei der Gestaltung der Publikation) wird lokalisiert hier. Daher versucht Habr, das Bild über http://#/ herunterzuladen.

Habra-Detektiv: Ihr Bild ist verloren

Reis. 1. Allgemeine Statistiken der betrachteten

Ist es möglich, zumindest etwas wiederherzustellen?

Eine teilweise Wiederherstellung ist nicht schwierig. Der faulste Weg wäre zum Beispiel die Verwendung Internet Archive bei dem Versuch, gespeicherte Publikationsseiten zu laden. Darüber hinaus können Sie versuchen, die Bilder selbst über direkte Links im Archiv zu „finden“.

Lifehacks: Sie müssen prüfen, ob in allen Versionen der Seite im Archiv Bilder vorhanden sind, nicht nur in der ältesten und neuesten.

Obwohl diese Methode in einigen Fällen funktioniert, ist es leider so schwierig, mindestens die Hälfte der Bilder wiederherzustellen. Daher besteht der nächste Schritt darin, Crossposting, Originalübersetzungen und natürlich Archivkopien der Originalseiten zu überprüfen.

Darüber hinaus können Sie versuchen, die gewünschten Bilder mithilfe eines der inoffiziellen Spiegel von Habr zu finden, der einmal funktionierte und immer noch einige der kopierten Informationen speichert.

Die letzte und schwierigste Möglichkeit ist die Nutzung von Suchmaschinen. Wenn Sie genau wissen, was im Bild enthalten sein soll (Beschreibung und Kontext vorhanden), besteht die Möglichkeit, Dateien mit demselben Namen zu finden, wenn sie einmal von jemandem in eine andere Ressource kopiert wurden.

Natürlich erhöht jeder weitere Schritt die Suchzeit nichtlinear.

Was wurde gefunden

Die Anzahl der bisher gefundenen Bilder wird Sie vielleicht nicht allzu sehr beeindrucken – es sind 300 davon (enthalten in 140 Publikationen von 81 Autoren). Berücksichtigt man die Zahl der „Verluste“ (1), ergibt sich ein Ergebnis von ca 24.2%. Warum fehlen weniger Bilder als zuvor? Alle nutzlosen Bilder (wie Aufrufzähler) und nicht existierende Bilder (wie das bereits erwähnte http://#/, sowie http://fig.jpg/ usw.).

Wie sind Sie auf eine so runde Zahl gekommen? Tatsache ist, dass etwa 300 Tage der Suche zu Ende waren. Zuerst wollte ich auf 333 umsteigen, aber 300 sieht ziemlich gut aus. Darüber hinaus im Moment etwa 33% alle „Opfer der Durchsuchung“.

Habra-Detektiv: Ihr Bild ist verloren

Reis. 2. Aktuelle Suchergebnisse

Alle gefundenen Bilder (bis auf ein .bmp, damit wäre es 301) werden hochgeladen hsto.org, und Links zu ihnen und Veröffentlichungen sowie Verzeichnisse der darin enthaltenen Bilder finden Sie im nächsten Abschnitt.

Ergebnisse

Unter dem Spoiler befinden sich also die erfolgreich gefundenen Bilder sowie die ID der Veröffentlichungen, der Index des Bildes im Text der Veröffentlichung (beginnend bei 1, nicht bei 0) und der Autor der Veröffentlichung. Wenn Sie der Autor der genannten Veröffentlichung sind und die gefundenen Bilder korrekt sind, korrigieren Sie bitte Ihre Beiträge. Danke!

Einige Bilder stehen übrigens tatsächlich noch zur Ansicht in Publikationen zur Verfügung, wurden aber nicht an Habrastorage übertragen und können daher irgendwann auch nicht mehr verfügbar sein.

300 Bilder

Autor
Publikations-ID
Indizes und Links
Beispiel

0x62ash
27149
1
Habra-Detektiv: Ihr Bild ist verloren

0xa8
11105
1

2Schlecht
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-Detektiv: Ihr Bild ist verloren

8fünf
41853
1

46498
1

Adam_B
12582
1

Ainu
39501
1

Alardus
2628
1

Alaska
23447
1, 2
Habra-Detektiv: Ihr Bild ist verloren

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

Alizar
37779
1, 2

altblog
44677
1

Arestow
37921
1

artch
19726
1

böse kleine Ente
16292
1, 2, 3, 4, 5

Barkow
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-Detektiv: Ihr Bild ist verloren

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

pure_v
12783
1

Chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-Detektiv: Ihr Bild ist verloren

Coss
31069
1

Geschweifte Klammer
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

erstes Byte
38314
1

Freetonik
26593
1

frujo
40987
1

garbuz
29694
1

Gorinich
12027
1

Schwere
28840
1

href
46908
1, 2
Habra-Detektiv: Ihr Bild ist verloren

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Down.gif, Gleiches.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-Detektiv: Ihr Bild ist verloren

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Luka Safonov
43537
1

meako
26705
1

Midgard
31419
2, 3, 4

Mio
396
1

753
1

936
1

Mosaik-
744
1

Mr_Floppy
28343
1

Null
44476
1

Offizier
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

Ostrovityanin
37146
2, 3
Habra-Detektiv: Ihr Bild ist verloren

ponomar
14141
1

Porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

Ramber
43693
1

Rost
44380
1

Ruskar
42578
3, 5, 8
Habra-Detektiv: Ihr Bild ist verloren

heiliger
702
1

SamDark
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

Slaff
8134
1, 2

smartov
17160
3

Smitana
30375
1

Spanisch
44755
17

spiritus_sancti
41129
1, 2
Habra-Detektiv: Ihr Bild ist verloren

Sommertraum
3801
1

Sunnybear
31211
1, 2

Schalter
9095
1

Taoorus
37507
1

thoggen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-Detektiv: Ihr Bild ist verloren

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

Yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-Detektiv: Ihr Bild ist verloren

Yshilyaev
5556
1, 2, 3

Zada
31123
2

Zickzack
15492
1

Statt einer Schlussfolgerung

Vielleicht wird jemand der Meinung sein, dass die Wiederherstellung solch veralteter Informationen keinen Sinn ergibt. Und außerdem waren einige der gefundenen Bilder bereits zum Zeitpunkt ihrer Veröffentlichung bedeutungslos. Das ist zweifellos wahr.

Alle Informationen sind wichtig. Zumindest aus der Sicht der historischen Analyse. Ganz zu schweigen von der Tatsache, dass es in einigen urheberrechtlich geschützten Materialien eine Schlüsselrolle spielt. Ja, im Moment ist Habr noch nicht einmal 15 Jahre alt und einige der Quellen sind noch verfügbar, aber mit der Zeit werden es immer weniger, und daher lohnt es sich, im Voraus darüber nachzudenken, ob etwas für später übrig bleibt oder ob es eines gibt ein ewiges „Bild nicht verfügbar“ sein.

Vergessen Sie nicht, dass Platzhalter für nicht zugängliche Bilder einfach nervig sind. Natürlich werden nur wenige Leute „einige alte Sachen“ lesen, aber es wird solche Leute geben. Da diese Veröffentlichungen weiterhin auf Habré verfügbar sind, sollte ihr Inhalt daher so vollständig wie möglich sein.

Leider unterstützt Habrastorage noch nicht den direkten Download für alle Bildformate, aber vielleicht wird das eines Tages behoben.

Das letzte Problem, das ich erwähnen möchte und über das Sie wahrscheinlich nachgedacht haben: „Was ist, wenn der Autor Habr längere Zeit nicht verwendet hat und kein Interesse daran hat, alte Dinge zu korrigieren?“ Diese Frage ist mir mehr als einmal durch den Kopf gegangen, aber die Lösung ist hier nicht so schwierig. Alte Veröffentlichungen können jederzeit korrigiert werden UFO in der Person von Moderatoren (Sie können, Exosphäre?) oder Verwaltung (Boomburum kann jemandem eine Aufgabe geben).

Was denken Sie, lohnt es sich, zumindest etwas wiederherzustellen?

Das ist alles für heute. Vielen Dank für Ihre Aufmerksamkeit und dass alle Ihre Bilder problemlos auf Habrastorage hochgeladen werden können! Lass das nicht passieren

Habra-Detektiv: Ihr Bild ist verloren

PS Wenn Sie Tippfehler oder Fehler im Text finden, teilen Sie mir dies bitte mit. Dies können Sie tun, indem Sie einen Textabschnitt auswählen und auf „Strg / ⌘ + Eingabetaste" Wenn Sie Strg / ⌘ haben, entweder über Private Nachrichten. Wenn beide Optionen nicht verfügbar sind, schreiben Sie in den Kommentaren über die Fehler. Danke!

PPS Vielleicht interessieren Sie sich auch für meine anderen Habr-Forschungen oder Sie möchten ein eigenes Thema für die nächste Veröffentlichung oder vielleicht sogar eine neue Publikationsreihe vorschlagen.

Wo finde ich die Liste und wie mache ich einen Vorschlag?

Alle Informationen finden Sie in einem speziellen Repository Habra-Detektiv. Dort erfahren Sie auch, welche Vorschläge bereits angekündigt wurden und was bereits in Arbeit ist.

Sie können mich auch schriftlich erwähnen VaskivskyiYe) in den Kommentaren zu einer Veröffentlichung, die Ihnen für Recherche oder Analyse interessant erscheint.

Source: habr.com

Kommentar hinzufügen