Habra-detektiv: bildet ditt er tapt

Habra-detektiv: bildet ditt er tapt
Har du noen gang lurt på hvor mye informasjon som går tapt uten spor? Tross alt er informasjon det Habr eksisterer for. Vet du hva som oftest skjer med ressurser basert på brukerinnlegg? Forfatterne legger inn bilder, bilder og videoer fra tredjepartssider, og etter en tid er de ikke lenger tilgjengelige. Det er dette den en gang ble skapt for. Habralager. Praksis har vist at ingen (bortsett fra redaktører og noen få entusiaster) laster opp bilder dit på egenhånd. Derfor har Habr-administrasjonen på et tidspunkt gjort denne funksjonen automatisk - hvert bilde som vises i en publikasjon blir automatisk lastet opp til lagringen og vil ikke forsvinne derfra så lenge Habr selv eksisterer. Selvfølgelig finnes det unntak og noe kan gå galt, men ikke om dem nå.

Det største problemet i hele denne ordningen med å laste inn bilder i Habrastorage oppstod under implementeringen. På den tiden hadde noen gamle publikasjoner allerede ingen tegninger, og forble derfor slik. I dag skal vi prøve å finne ut hvor mye grafisk informasjon Habr har mistet siden fødselen. Dessuten kan vi kanskje finne noe som manglet? Denne "bildet kan ikke lastes"-stubben er irriterende, er det ikke? Dagens detektivhistorie er dedikert til akkurat dette. La oss komme i gang!

Du kan ha blitt brakt til denne artikkelen av en omtale i sporer? Sannsynligvis forsvant et bilde fra en av dine gamle publikasjoner, og jeg fant det. Hvis du ikke vil lese hele innlegget, kan du bare scrolle til spoileren helt til slutt (seksjonen Funn), som viser alle publikasjoner og bilder som er funnet. Takk skal du ha!

Introduksjon og metoder

Vår detektivhistorie vil starte helt fra begynnelsen (logisk, ikke sant?). Fra begynnelsen av Habr. Tross alt, jo tidligere et innlegg ble publisert, jo større er sjansen for at bilder fra det gikk tapt et sted i historien. Derfor starter vi fra 2006 og går litt fremover.

Alle publikasjoner fra 40 hubs som for øyeblikket er i begynnelsen av rangeringen er inkludert i vurderingen. Den fullstendige listen over disse navene er presentert under spoileren. Mange av dem eksisterte faktisk ikke da, men da nye knutepunkter ble lagt til, ble publikasjoner overført dit.

Liste over huber

* nix, Algoritmer, Kunstig intelligens, astronautics, Bioteknologi, Brain, C + +, Utviklingsledelse, DIY, Økologi, Spillutvikling, Spill og spillkonsoller, Geek helse, ITs historie, Informasjonssikkerhet, IT-karriere, IT-infrastruktur, IT-selskaper, Java, Javascript, Lovverk innen IT, Lifehacks for nerder, Maskinlæring, Produksjon og utvikling av elektronikk, Nginx, Åpen kilde, Personalledelse, Fysikk, Populærvitenskap, Product Management, Programmering, Prosjektledelse, Python, Leserom, reverse engineering, Sosiale nettverk og fellesskap, Systemadministrasjon, Systemanalyse og design, Fremtiden er her, Nettstedutvikling

Informasjonen ble samlet inn ved hjelp av et sett med PHP-skript. Hver publikasjon ble lastet ned, innholdet i taggen ble bestemt <div id="post-content-body" > og sjekket for tagger < img > innsiden. For hvert bilde lagres lenker til bildene, knyttet til publikasjons-ID på Habré. Denne informasjonen analyseres videre.

Hva ble publisert og når

2006

Helt i begynnelsen av Habr var det ikke så mange publikasjoner som det er nå, og det var enda færre bilder i dem. Totalt ble det publisert 2006 innlegg i de listede knutepunktene i 05.06.2006 (fra og med 221). 53 av disse innleggene inneholder totalt 75 bilder. Maksimalt antall bilder (10 stykker) i en publikasjon "Ti gadgets som forandret verden". 50 tegninger er allerede på Habrastorage. Ytterligere 25 er tapt. Alle er unike og gjentas ikke.

Et interessant faktum: To av bildene leder til selve Habr, men har ikke vært tilgjengelig på lenge. Dette er bildene http://www.habrahabr.ru/tmp/sup_blogs_preview.gif og http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Så tapt for 2006 33.3% bilder i publikasjoner.

2007

I 2007 økte antall publikasjoner betydelig, det samme gjorde antall bilder - 1 713 innlegg ble publisert. 599 innlegg inneholder 1 467 bilder. 1 bilder ble overført til Habrastorage, og 229 gikk tapt (16.2%).

Et interessant faktum: Publikasjon Topp 100 Mac OS-applikasjoner inneholder maksimalt 2007 bilder for 100 og inneholder ikke copyright-tekst.

I tillegg er noen av disse tapte bildene duplikater. Så en av dem forekommer 6 ganger i en publikasjon med kun 6 bilder. I tillegg gjentas bildet "Up.gif" 21 ganger, "Down.gif" 16 ganger og "Same.gif" 8 ganger fra ett domene. Og alle disse 45 bildene fra ett innlegg, som kun inneholder 47 bilder.

Det er 191 unike < img > igjen.

2008

Siden antallet publikasjoner på Habré bare har økt fra år til år, vil vår detektiv i 2008 gjennomgå 2 publikasjoner, samt 520 bilder. Vi la merke til at det var i 2 at antall bilder i publikasjoner endelig oversteg antall publikasjoner. Dessuten inneholder bare 969 2008 innlegg bilder, og maksimalt 1 elementer med grafisk informasjon presenteres i publikasjonen "Historien om Googles ferielogoer". 1 943 bilder er allerede lagret på Habrastorage, og 1 026 har gått tapt (34.6%).

Et interessant faktum: Det mest uventede bildet (eller rettere sagt, problemet i utformingen av publikasjonen) er lokalisert her. Som et resultat prøver Habr å laste ned bildet via http://#/.

Habra-detektiv: bildet ditt er tapt

Ris. 1. Generell statistikk over de vurderte

Er det mulig å gjenopprette i det minste noe?

Delvis restaurering er ikke vanskelig. For eksempel ville den lateste måten være å bruke Internet Archive в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.

Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.

Dessverre, selv om denne metoden fungerer i noen tilfeller, er det så vanskelig å gjenopprette minst halvparten av bildene. Derfor er neste trinn å sjekke krysspostering, originale oversettelser og selvfølgelig arkivkopier av originalsidene.

I tillegg kan du prøve å finne de ønskede bildene ved å bruke et av Habrs uoffisielle speil, som en gang fungerte og fortsatt lagrer noe av den kopierte informasjonen.

Det siste og vanskeligste alternativet er å bruke søkemotorer. Hvis du vet nøyaktig hva som skal være i bildet (det er en beskrivelse og kontekst), er det en sjanse til å finne filer med samme navn hvis de en gang ble kopiert av noen til en annen ressurs.

Naturligvis øker hvert påfølgende trinn søketiden ikke-lineært.

Det vi fant

Du er kanskje ikke så imponert over antallet bilder som er funnet så langt - det er 300 av dem (inneholdt i 140 publikasjoner fra 81 forfattere). Tar vi i betraktning antall «tap» (1), er resultatet ca 24.2%. Hvorfor mangler det færre bilder enn det var? Alle ubrukelige bilder (som visningstellere) og ikke-eksisterende bilder (som allerede nevnte http://#/, samt http://fig.jpg/ og så videre).

Hvordan kom du på et så rundt tall? Faktum er at omtrent 300 dager med søk tok slutt. Først skulle jeg gå til 333, men 300 ser ganske bra ut. I tillegg er for øyeblikket ca 33% alle «ofrene for letingen».

Habra-detektiv: bildet ditt er tapt

Ris. 2. Gjeldende søkeresultater

Alle funnet bilder (bortsett fra én .bmp, med det ville det være 301) er lastet opp til hsto.org, og lenker til dem og publikasjoner, samt indekser over bilder i dem, er gitt i neste avsnitt.

Funn

Så under spoileren er de vellykket funnet bildene, samt ID-en til publikasjonene, indeksen til bildet i teksten til publikasjonen (starter fra 1, ikke fra 0) og forfatteren av publikasjonen. Hvis du er forfatteren av den nevnte publikasjonen, og bildene som ble funnet er korrekte, vennligst korriger innleggene dine. Takk skal du ha!

Noen bilder er forresten faktisk fortsatt tilgjengelige for visning i publikasjoner, men er ikke overført til Habrastorage, og derfor kan de på et tidspunkt også bli utilgjengelige.

300 bilder

Forfatter
Publikasjons-ID
Indekser og lenker
Eksempel

0x62ask
27149
1
Habra-detektiv: bildet ditt er tapt

0xa8
11105
1

2 Dårlig
607
1

1097
1

1106
1, 2, 3, 5, 24

13836
2

4eese
30820
1, 2, 3, 5
Habra-detektiv: bildet ditt er tapt

8cinq
41853
1

46498
1

Adam_B
12582
1

ainu
39501
1

alardus
2628
1

Alaska
23447
1, 2
Habra-detektiv: bildet ditt er tapt

aleks_raiden
24479
2

30594
3

39037
1

40312
1, 2, 3, 4

44152
1, 2, 3

46294
1

46741
1

47782
1, 2, 3, 4, 5

alfsoft
42782
1, 2, 3, 4, 5

alizar
37779
1, 2

altblogg
44677
1

arestov
37921
1

artch
19726
1

badlittleduck
16292
1, 2, 3, 4, 5

Barkov
26335
1

BBSoD
8505
1

bO_oblik
22150
1, 2, 3, 4, 5

22186
1

22215
1

22322
1, 2, 3, 4, 5, 6

22334
1, 2

22375
1, 2, 3

22510
1, 2

22614
1

22836
1, 2

26181
1, 2, 3, 4, 6

28196
1, 2, 3, 4, 5, 6, 7, 8
Habra-detektiv: bildet ditt er tapt

29706
1, 2, 3, 4

31490
1, 2, 3, 4

36713
1

37180
1

37249
1

37306
1, 2

38013
1

38389
1, 2

41104
1, 2

41647
1

41821
1, 2

ren_v
12783
1

chulak
45783
1, 2, 3, 4, 5, 6, 7
Habra-detektiv: bildet ditt er tapt

Coss
31069
1

CurlyBrace
11010
1

11941
1

14157
1

37303
1

dreikanter
31320
1, 2, 4

entze
40767
1

Fenniks
20843
2

23902
1

39109
1

førstebyte
38314
1

freetonik
26593
1

frujo
40987
1

garbuz
29694
1

gorinich
12027
1

Tyngdekraften
28840
1

href
46908
1, 2
Habra-detektiv: bildet ditt er tapt

iljava
30902
2, 3

Imposeren
26566
1

invladis
42904
1

Karlsson
8971
Ned.gif, Samme.gif, tpci_trends.png, Up.gif

31042
1

31050
1

31141
1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Habra-detektiv: bildet ditt er tapt

Klaus
15775
1, 2, 3, 4, 5, 6, 7, 8

Lain_13
16891
2

le0pard
38391
1

LukaSafonov
43537
1

meako
26705
1

Midgard
31419
2, 3, 4

Mio
396
1

753
1

936
1

mosaikk
744
1

Mr_Floppy
28343
1

nil
44476
1

offiser
110
1

oleg_bunin
7207
1

7226
1

8679
1

12768
1

olegafx
43934
1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

ostrovityanin
37146
2, 3
Habra-detektiv: bildet ditt er tapt

ponomar
14141
1

porchini
21850
1, 2

Pure_BY
8416
1

RAF
851
1, 2

ramber
43693
1

rust
44380
1

ruskar
42578
3, 5, 8
Habra-detektiv: bildet ditt er tapt

hellige
702
1

SamDark
30104
1

Skala
37804
4

Shapelez
23260
1

44379
1, 2

46113
1

46599
1

47536
1

slaff
8134
1, 2

smartov
17160
3

smitana
30375
1

spanasik
44755
17

spiritus_sancti
41129
1, 2
Habra-detektiv: bildet ditt er tapt

Sommerdrøm
3801
1

sunnybear
31211
1, 2

Bytte om
9095
1

Taoorus
37507
1

Thogen
38733
1

45024
1

45170
1

tsepelev
36611
1

VadimUA
46922
1

vitol
26073
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
Habra-detektiv: bildet ditt er tapt

30171
1, 2, 3

XaocCPS
40036
1

284390
1

284392
1

284394
1

284396
1

yaneblog
39007
1, 6

40621
3

Yesutin
9453
1

9645
1

31078
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Habra-detektiv: bildet ditt er tapt

yshilyaev
5556
1, 2, 3

Zada
31123
2

Zigzag
15492
1

I stedet for en konklusjon

Kanskje noen vil vurdere at det ikke gir noen mening å gjenopprette slik utdatert informasjon. Og dessuten var noen av bildene som ble funnet meningsløse selv da de ble publisert. Dette er utvilsomt sant.

All informasjon er viktig. I hvert fall fra historisk analyses synspunkt. For ikke å nevne det faktum at i enkelte opphavsrettsbeskyttede materialer spiller det en nøkkelrolle. Ja, for øyeblikket er ikke Habr engang 15 år gammel, og noen av kildene er fortsatt tilgjengelige, men over tid vil de bli færre og færre, og derfor er det verdt å tenke på forhånd om noe vil forbli til senere, eller om det vil være et evig "bilde ikke tilgjengelig."

Vel, ikke glem at plassholdere for utilgjengelige bilder rett og slett er irriterende. Selvfølgelig vil få mennesker lese "noen gamle ting", men det vil være slike mennesker. Derfor, siden disse publikasjonene fortsatt er tilgjengelige på Habré, bør innholdet deres være så fullstendig som mulig.

Dessverre støtter ikke Habrastorage foreløpig direkte nedlasting for alle bildeformater, men kanskje dette blir fikset en dag.

Det siste problemet som jeg vil nevne, og som du sikkert tenkte på, "hva om forfatteren ikke har brukt Habr på lenge og ikke er interessert i å rette opp gamle ting?" Dette spørsmålet har dukket opp i hodet mitt mer enn en gang, men løsningen her er ikke så vanskelig. Gamle publikasjoner kan alltid rettes UFO i person av moderatorer (du kan, Eksosfære?) eller administrasjon (Boomburum может выдать кому-то задание).

Hva tror du, er det verdt å prøve å gjenopprette i det minste noe?

Det var alt for i dag. Takk for oppmerksomheten og måtte alle bildene dine lastes opp til Habrastorage uten problemer! La dette ikke skje

Habra-detektiv: bildet ditt er tapt

PS Hvis du finner skrivefeil eller feil i teksten, vennligst gi meg beskjed. Dette kan gjøres ved å velge et tekststykke og trykke "Ctrl / ⌘ + Enter" hvis du har Ctrl / ⌘, enten via private meldinger. Hvis begge alternativene ikke er tilgjengelige, skriv om feilene i kommentarfeltet. Takk skal du ha!

PPS Kanskje du også vil være interessert i min andre Habr-forskning, eller du vil foreslå ditt eget emne for neste publikasjon, eller kanskje til og med en ny serie med publikasjoner.

Hvor finner du listen og hvordan du lager et forslag

All informasjon finnes i et spesielt depot Habra-detektiv. Der kan du også finne ut hvilke forslag som allerede er utlyst og hva som allerede er i arbeid.

Du kan også nevne meg (ved å skrive VaskivskyiYe) i kommentarene til en publikasjon som virker interessant for deg for forskning eller analyse.

Kilde: www.habr.com

Legg til en kommentar