Habra-detective: je foto is verloren

Habra-detective: je foto is verloren
Heeft u zich ooit afgevraagd hoeveel informatie spoorloos verloren gaat? Informatie is tenslotte waar Habr voor bestaat. Weet jij wat het vaakst gebeurt met bronnen op basis van gebruikersposts? De auteurs voegen afbeeldingen, afbeeldingen en video's van sites van derden in en na enige tijd zijn ze niet langer beschikbaar. Dit is waar het ooit voor gemaakt is. Habrasopslag. De praktijk leert dat niemand (behalve redacteuren en enkele enthousiastelingen) daar uit zichzelf afbeeldingen uploadt. Daarom heeft de Habr-administratie deze functie op een gegeven moment automatisch gemaakt: elke afbeelding die in een publicatie verschijnt, wordt automatisch geüpload naar de opslag en zal daar niet verdwijnen zolang Habr zelf bestaat. Natuurlijk zijn er uitzonderingen en er kan iets misgaan, maar nu niet over hen.

Het grootste probleem in dit hele schema met het laden van afbeeldingen in Habrastorage deed zich voor tijdens de implementatie ervan. Sommige oude publicaties hadden tegen die tijd al geen tekeningen en bleven daarom zo. Vandaag zullen we proberen erachter te komen hoeveel grafische informatie Habr sinds zijn geboorte heeft verloren. Trouwens, misschien kunnen we iets vinden dat ontbrak? Dit 'afbeelding kan niet worden geladen'-stub is vervelend, nietwaar? Het detectiveverhaal van vandaag is precies hieraan gewijd. Laten we beginnen!

Mogelijk bent u op dit artikel terechtgekomen door een vermelding in spoorzoeker? Waarschijnlijk is er een afbeelding verdwenen uit een van je oude publicaties en heb ik hem gevonden. Als je niet het hele bericht wilt lezen, kun je gewoon naar de spoiler helemaal aan het einde scrollen (sectie Bevindingen), waarin alle gevonden publicaties en afbeeldingen worden vermeld. Bedankt!

Inleiding en methoden

Ons detectiveverhaal begint vanaf het allereerste begin (logisch, toch?). Vanaf het begin van Habr. Hoe eerder een bericht werd gepubliceerd, hoe groter de kans dat afbeeldingen daaruit ergens in de geschiedenis verloren zijn gegaan. Daarom beginnen we vanaf 2006 en gaan we een stukje verder.

Alle publicaties van 40 hubs die momenteel aan het begin van de ranglijst staan, worden meegenomen in de afweging. De volledige lijst van deze hubs wordt onder de spoiler weergegeven. In feite bestonden veel ervan toen nog niet, maar toen er nieuwe hubs bijkwamen, werden de publicaties daarheen overgebracht.

Lijst met hubs

* nix, Algoritmen, Artificial Intelligence, astronautiek, biotechnologie, Hersenen, C + +, Ontwikkelingsmanagement, DIY, Ecologie, Game ontwikkeling, Spellen en spelconsoles, Geek gezondheid, Geschiedenis van IT, Informatiebeveiliging, IT-carrière, IT-infrastructuur, IT-bedrijven, Java, JavaScript, Wetgeving in de IT, Lifehacks voor nerds, machine learning, Fabricage en ontwikkeling van elektronica, Nginx, Open source, Personeelsmanagement, Fysica, Populaire wetenschap, Product Management, Programming, Project management, Python, Lees Kamer, Reverse engineering, Sociale netwerken en gemeenschappen, Systeem administratie, Systeemanalyse en ontwerp, De toekomst is hier, website ontwikkeling

De informatie werd verzameld met behulp van een set PHP-scripts. Elke publicatie werd gedownload, de inhoud van de tag werd bepaald <div id="post-content-body" > en gecontroleerd op tags <img> binnen. Bij elke afbeelding worden links naar de afbeeldingen opgeslagen, gekoppeld aan het publicatie-ID op Habré. Deze informatie wordt verder geanalyseerd.

Wat is er gepubliceerd en wanneer

2006

Helemaal aan het begin van Habr waren er niet zoveel publicaties als nu, en er stonden zelfs nog minder afbeeldingen in. In totaal zijn er in 2006 (vanaf 05.06.2006/221/53) 75 berichten gepubliceerd in de vermelde hubs. 10 van deze berichten bevatten in totaal XNUMX afbeeldingen. Maximaal afbeeldingen (XNUMX stuks) in een publicatie "Tien gadgets die de wereld hebben veranderd". Er staan ​​al 50 tekeningen op Habrastorage. Nog eens 25 zijn verloren gegaan. Ze zijn allemaal uniek en niet herhaald.

Een interessant feit: Twee van de afbeeldingen leiden naar Habr zelf, maar zijn al lange tijd niet meer beschikbaar. Dit zijn de afbeeldingen http://www.habrahabr.ru/tmp/sup_blogs_preview.gif en http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Dus verloren voor 2006 33.3% afbeeldingen in publicaties.

2007

In 2007 steeg het aantal publicaties aanzienlijk, evenals het aantal afbeeldingen: er werden 1 berichten gepubliceerd. 713 berichten bevatten 599 afbeeldingen. 1 afbeeldingen zijn overgebracht naar Habrastorage en 467 zijn verloren gegaan (16.2%).

Een interessant feit: uitgave Top 100 Mac OS-applicaties bevat maximaal 2007 afbeeldingen voor 100 en bevat geen copyrighttekst.

Bovendien zijn sommige van deze verloren afbeeldingen duplicaten. Eén ervan komt dus 6 keer in één voor Uitgave met slechts 6 foto's. Ook wordt de afbeelding “Up.gif” 21 keer herhaald, “Down.gif” 16 keer en “Same.gif” 8 keer vanuit één domein. En al deze 45 afbeeldingen uit één bericht, die slechts 47 afbeeldingen bevat.

Er zijn nog 191 unieke < img > over.

2008

Omdat het aantal publicaties over Habré van jaar tot jaar alleen maar is toegenomen, zal onze rechercheur in 2008 2 publicaties en 520 afbeeldingen beoordelen. Het viel ons op dat in 2 het aantal afbeeldingen in publicaties uiteindelijk het aantal publicaties overtrof. Bovendien bevatten slechts 969 berichten afbeeldingen en worden in de publicatie maximaal 2008 elementen van grafische informatie gepresenteerd "De geschiedenis van de vakantielogo's van Google". Er zijn al 1 afbeeldingen opgeslagen op Habrastorage en 943 zijn verloren gegaan (34.6%).

Een interessant feit: Het meest onverwachte beeld (of beter gezegd het probleem in het ontwerp van de publicatie) bevindt zich hier. Als gevolg hiervan probeert Habr de afbeelding te downloaden via http://#/.

Habra-detective: je foto is verloren

Rijst. 1. Algemene statistieken van de beschouwde

Is het mogelijk om tenminste iets te herstellen?

Gedeeltelijke restauratie is niet moeilijk. De meest luie manier zou bijvoorbeeld zijn om te gebruiken internet Archive in een poging opgeslagen publicatiepagina's te laden. Bovendien kunt u proberen de afbeeldingen zelf in het archief te ‘vinden’ met behulp van directe links.

Lifehack: U moet controleren op de aanwezigheid van afbeeldingen in alle versies van de pagina in het archief, niet alleen in de oudste en nieuwste.

Hoewel deze methode in sommige gevallen werkt, is het helaas zo moeilijk om minstens de helft van de afbeeldingen te herstellen. Daarom is de volgende stap het controleren van cross-posting, originele vertalingen en uiteraard archiefkopieën van de originele pagina's.

Bovendien kunt u proberen de gewenste afbeeldingen te vinden met behulp van een van de onofficiële spiegels van Habr, die ooit werkten en nog steeds een deel van de gekopieerde informatie opslaan.

De laatste en moeilijkste optie is het gebruik van zoekmachines. Als je precies weet wat er in de afbeelding moet staan ​​(er is een beschrijving en context), bestaat de kans om bestanden met dezelfde naam te vinden als ze ooit door iemand naar een andere bron zijn gekopieerd.

Uiteraard vergroot elke volgende stap de zoektijd niet-lineair.

Wat is er gevonden?

U bent misschien niet zo onder de indruk van het aantal afbeeldingen dat tot nu toe is gevonden: er zijn er 300 (vervat in 140 publicaties van 81 auteurs). Als we rekening houden met het aantal “verliezen” (1), is het resultaat ongeveer 24.2%. Waarom ontbreken er minder afbeeldingen dan er waren? Alle nutteloze afbeeldingen (zoals weergavetellers) en niet-bestaande afbeeldingen (zoals de reeds genoemde http://#/, evenals http://fig.jpg/ en zo verder).

Hoe kom je aan zo’n rond getal? Feit is dat ongeveer 300 dagen zoeken eindigden. In eerste instantie wilde ik naar 333 gaan, maar 300 ziet er best goed uit. Bovendien, op dit moment ongeveer 33% alle ‘slachtoffers van de zoektocht’.

Habra-detective: je foto is verloren

Rijst. 2. Huidige zoekresultaten

Alle gevonden afbeeldingen (behalve één .bmp, daarmee zouden het 301 zijn) worden geüpload naar hsto.org, en links naar hen en publicaties, evenals indexen van afbeeldingen daarin, worden gegeven in de volgende sectie.

Bevindingen

Onder de spoiler staan ​​dus de succesvol gevonden afbeeldingen, evenals de id van de publicaties, de index van de afbeelding in de tekst van de publicatie (beginnend vanaf 1, niet vanaf 0) en de auteur van de publicatie. Als u de auteur bent van de genoemde publicatie en de gevonden afbeeldingen correct zijn, corrigeer dan uw berichten. Bedankt!

Sommige afbeeldingen zijn overigens nog steeds beschikbaar voor weergave in publicaties, maar zijn niet overgebracht naar Habrastorage en kunnen daarom op een gegeven moment ook niet meer beschikbaar zijn.

300 foto's

Auteur
Publicatie-ID
Indexen en links
Voorbeeld

0x62 as
27149
1
Habra-detective: je foto is verloren

0xa8
11105
1

2Slecht
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detective: je foto is verloren

8vijf
41853
1

46498
1

Adam_B
12582
1

ainu
39501
1

Alardus
2628
1

Alaska
23447
1, 2
Habra-detective: je foto is verloren

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfzacht
42782
1, 2, 3, 4, 5

Alizar
37779
1, 2

altblog
44677
1

arestov
37921
1

kunst
19726
1

slechte eend
16292
1, 2, 3, 4, 5

Barkov
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detective: je foto is verloren

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

puur_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detective: je foto is verloren

Kos
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

eerste byte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Zwaartekracht
28840
1

href
46908
1, 2
Habra-detective: je foto is verloren

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

karlsson
8971
Omlaag.gif, Zelfde.gif, tpci_trends.png, Omhoog.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detective: je foto is verloren

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

Luka Safonov
43537
1

Meako
26705
1

Midgard
31419
2, 3, 4

Mio
396
1

753
1

936
1

mozaïek-
744
1

Meneer_Floppy
28343
1

nul
44476
1

officier
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanine
37146
2, 3
Habra-detective: je foto is verloren

ponomar
14141
1

verandani
21850
1, 2

Puur_BY
8416
1

RAF
851
1, 2

ramber
43693
1

rost
44380
1

Ruskar
42578
3, 5, 8
Habra-detective: je foto is verloren

heilig
702
1

SamDonker
30104
1

Scala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaf
8134
1, 2

slimov
17160
3

smitana
30375
1

Spaans
44755
17

spiritus_sancti
41129
1, 2
Habra-detective: je foto is verloren

Zomerdroom
3801
1

zonnige beer
31211
1, 2

Stap over voor slechts
9095
1

Taoorus
37507
1

hoggen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detective: je foto is verloren

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

jasutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detective: je foto is verloren

jsjijaev
5556
1, 2, 3

Zada
31123
2

Zigzag
15492
1

In plaats Output

Misschien zal iemand van mening zijn dat het herstellen van dergelijke verouderde informatie geen enkele zin heeft. En bovendien waren sommige van de gevonden afbeeldingen betekenisloos, zelfs toen ze werden gepubliceerd. Dit is ongetwijfeld waar.

Alle informatie is belangrijk. In ieder geval vanuit het perspectief van historische analyse. Om nog maar te zwijgen van het feit dat het in sommige auteursrechtelijk beschermde materialen een sleutelrol speelt. Ja, op dit moment is Habr nog niet eens 15 jaar oud en zijn sommige bronnen nog steeds beschikbaar, maar na verloop van tijd zullen ze steeds minder worden, en daarom is het de moeite waard om van tevoren te bedenken of er iets voor later zal blijven, of dat er een eeuwig ‘beeld niet beschikbaar’ zijn.

Vergeet niet dat tijdelijke aanduidingen voor ontoegankelijke afbeeldingen gewoonweg vervelend zijn. Natuurlijk zullen maar weinig mensen ‘oude dingen’ lezen, maar zulke mensen zullen er zijn. Aangezien deze publicaties nog steeds beschikbaar zijn op Habré, moet de inhoud ervan zo volledig mogelijk zijn.

Helaas ondersteunt Habrastorage nog niet het direct downloaden van alle afbeeldingsformaten, maar misschien wordt dit ooit opgelost.

Het laatste probleem dat ik wil noemen, en waar je waarschijnlijk aan hebt gedacht, is: “Wat als de auteur Habr al een hele tijd niet heeft gebruikt en niet geïnteresseerd is in het corrigeren van oude dingen?” Deze vraag is meer dan eens in mijn hoofd opgekomen, maar de oplossing is hier niet zo moeilijk. Oude publicaties kunnen altijd gecorrigeerd worden UFO in de persoon van moderators (u kunt, exosfeer?) of administratie (Boemburum iemand een taak kan geven).

Wat denk je, is het de moeite waard om op zijn minst iets te herstellen?

Dat is alles voor vandaag. Bedankt voor uw aandacht en mogen al uw afbeeldingen zonder problemen worden geüpload naar Habrastorage! Laat dit niet gebeuren

Habra-detective: je foto is verloren

PS Mocht u typefouten of fouten in de tekst tegenkomen, laat het mij dan weten. Dit kunt u doen door een deel van de tekst te selecteren en op " te drukkenCtrl/⌘+Enter" als je Ctrl / ⌘ hebt, of via Prive berichten. Als beide opties niet beschikbaar zijn, schrijf dan over de fouten in de opmerkingen. Bedankt!

PPS Misschien bent u ook geïnteresseerd in mijn andere studies over Habr, of wilt u uw onderwerp voor de volgende publicatie of misschien zelfs een nieuwe cyclus van publicaties voorstellen.

Waar vindt u de lijst en hoe kunt u een bod uitbrengen

Alle informatie is te vinden in een speciale repository habr-detective. Daar kun je ook zien welke voorstellen al zijn ingediend en wat er al in de maak is.

U kunt mij ook vermelden (door te schrijven VaskivskyiJe) in de commentaren op een publicatie die u interessant lijkt voor onderzoek of analyse.

Bron: www.habr.com

Voeg een reactie