Har du noen gang lurt på hvor mye informasjon som går tapt uten spor? Tross alt er informasjon det Habr eksisterer for. Vet du hva som oftest skjer med ressurser basert på brukerinnlegg? Forfatterne legger inn bilder, bilder og videoer fra tredjepartssider, og etter en tid er de ikke lenger tilgjengelige. Det er dette den en gang ble skapt for. Habralager. Praksis har vist at ingen (bortsett fra redaktører og noen få entusiaster) laster opp bilder dit på egenhånd. Derfor har Habr-administrasjonen på et tidspunkt gjort denne funksjonen automatisk - hvert bilde som vises i en publikasjon blir automatisk lastet opp til lagringen og vil ikke forsvinne derfra så lenge Habr selv eksisterer. Selvfølgelig finnes det unntak og noe kan gå galt, men ikke om dem nå.
Det største problemet i hele denne ordningen med å laste inn bilder i Habrastorage oppstod under implementeringen. På den tiden hadde noen gamle publikasjoner allerede ingen tegninger, og forble derfor slik. I dag skal vi prøve å finne ut hvor mye grafisk informasjon Habr har mistet siden fødselen. Dessuten kan vi kanskje finne noe som manglet? Denne "bildet kan ikke lastes"-stubben er irriterende, er det ikke? Dagens detektivhistorie er dedikert til akkurat dette. La oss komme i gang!
Du kan ha blitt brakt til denne artikkelen av en omtale i sporer? Sannsynligvis forsvant et bilde fra en av dine gamle publikasjoner, og jeg fant det. Hvis du ikke vil lese hele innlegget, kan du bare scrolle til spoileren helt til slutt (seksjonen Funn), som viser alle publikasjoner og bilder som er funnet. Takk skal du ha!
Introduksjon og metoder
Vår detektivhistorie vil starte helt fra begynnelsen (logisk, ikke sant?). Fra begynnelsen av Habr. Tross alt, jo tidligere et innlegg ble publisert, jo større er sjansen for at bilder fra det gikk tapt et sted i historien. Derfor starter vi fra 2006 og går litt fremover.
Alle publikasjoner fra 40 hubs som for øyeblikket er i begynnelsen av rangeringen er inkludert i vurderingen. Den fullstendige listen over disse navene er presentert under spoileren. Mange av dem eksisterte faktisk ikke da, men da nye knutepunkter ble lagt til, ble publikasjoner overført dit.
Informasjonen ble samlet inn ved hjelp av et sett med PHP-skript. Hver publikasjon ble lastet ned, innholdet i taggen ble bestemt <div id="post-content-body" > og sjekket for tagger < img > innsiden. For hvert bilde lagres lenker til bildene, knyttet til publikasjons-ID på Habré. Denne informasjonen analyseres videre.
Hva ble publisert og når
2006
Helt i begynnelsen av Habr var det ikke så mange publikasjoner som det er nå, og det var enda færre bilder i dem. Totalt ble det publisert 2006 innlegg i de listede knutepunktene i 05.06.2006 (fra og med 221). 53 av disse innleggene inneholder totalt 75 bilder. Maksimalt antall bilder (10 stykker) i en publikasjon "Ti gadgets som forandret verden". 50 tegninger er allerede på Habrastorage. Ytterligere 25 er tapt. Alle er unike og gjentas ikke.
Et interessant faktum: To av bildene leder til selve Habr, men har ikke vært tilgjengelig på lenge. Dette er bildene http://www.habrahabr.ru/tmp/sup_blogs_preview.gif og http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Så tapt for 2006 33.3% bilder i publikasjoner.
2007
I 2007 økte antall publikasjoner betydelig, det samme gjorde antall bilder - 1 713 innlegg ble publisert. 599 innlegg inneholder 1 467 bilder. 1 bilder ble overført til Habrastorage, og 229 gikk tapt (16.2%).
Et interessant faktum: Publikasjon Topp 100 Mac OS-applikasjoner inneholder maksimalt 2007 bilder for 100 og inneholder ikke copyright-tekst.
I tillegg er noen av disse tapte bildene duplikater. Så en av dem forekommer 6 ganger i en publikasjon med kun 6 bilder. I tillegg gjentas bildet "Up.gif" 21 ganger, "Down.gif" 16 ganger og "Same.gif" 8 ganger fra ett domene. Og alle disse 45 bildene fra ett innlegg, som kun inneholder 47 bilder.
Det er 191 unike < img > igjen.
2008
Siden antallet publikasjoner på Habré bare har økt fra år til år, vil vår detektiv i 2008 gjennomgå 2 publikasjoner, samt 520 bilder. Vi la merke til at det var i 2 at antall bilder i publikasjoner endelig oversteg antall publikasjoner. Dessuten inneholder bare 969 2008 innlegg bilder, og maksimalt 1 elementer med grafisk informasjon presenteres i publikasjonen "Historien om Googles ferielogoer". 1 943 bilder er allerede lagret på Habrastorage, og 1 026 har gått tapt (34.6%).
Et interessant faktum: Det mest uventede bildet (eller rettere sagt, problemet i utformingen av publikasjonen) er lokalisert her. Som et resultat prøver Habr å laste ned bildet via http://#/.
Ris. 1. Generell statistikk over de vurderte
Er det mulig å gjenopprette i det minste noe?
Delvis restaurering er ikke vanskelig. For eksempel ville den lateste måten være å bruke Internet Archive в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.
Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.
Dessverre, selv om denne metoden fungerer i noen tilfeller, er det så vanskelig å gjenopprette minst halvparten av bildene. Derfor er neste trinn å sjekke krysspostering, originale oversettelser og selvfølgelig arkivkopier av originalsidene.
I tillegg kan du prøve å finne de ønskede bildene ved å bruke et av Habrs uoffisielle speil, som en gang fungerte og fortsatt lagrer noe av den kopierte informasjonen.
Det siste og vanskeligste alternativet er å bruke søkemotorer. Hvis du vet nøyaktig hva som skal være i bildet (det er en beskrivelse og kontekst), er det en sjanse til å finne filer med samme navn hvis de en gang ble kopiert av noen til en annen ressurs.
Naturligvis øker hvert påfølgende trinn søketiden ikke-lineært.
Det vi fant
Du er kanskje ikke så imponert over antallet bilder som er funnet så langt - det er 300 av dem (inneholdt i 140 publikasjoner fra 81 forfattere). Tar vi i betraktning antall «tap» (1), er resultatet ca 24.2%. Hvorfor mangler det færre bilder enn det var? Alle ubrukelige bilder (som visningstellere) og ikke-eksisterende bilder (som allerede nevnte http://#/, samt http://fig.jpg/ og så videre).
Hvordan kom du på et så rundt tall? Faktum er at omtrent 300 dager med søk tok slutt. Først skulle jeg gå til 333, men 300 ser ganske bra ut. I tillegg er for øyeblikket ca 33% alle «ofrene for letingen».
Ris. 2. Gjeldende søkeresultater
Alle funnet bilder (bortsett fra én .bmp, med det ville det være 301) er lastet opp til hsto.org, og lenker til dem og publikasjoner, samt indekser over bilder i dem, er gitt i neste avsnitt.
Funn
Så under spoileren er de vellykket funnet bildene, samt ID-en til publikasjonene, indeksen til bildet i teksten til publikasjonen (starter fra 1, ikke fra 0) og forfatteren av publikasjonen. Hvis du er forfatteren av den nevnte publikasjonen, og bildene som ble funnet er korrekte, vennligst korriger innleggene dine. Takk skal du ha!
Noen bilder er forresten faktisk fortsatt tilgjengelige for visning i publikasjoner, men er ikke overført til Habrastorage, og derfor kan de på et tidspunkt også bli utilgjengelige.
300 bilder
Forfatter
Publikasjons-ID
Indekser og lenker
Eksempel
Kanskje noen vil vurdere at det ikke gir noen mening å gjenopprette slik utdatert informasjon. Og dessuten var noen av bildene som ble funnet meningsløse selv da de ble publisert. Dette er utvilsomt sant.
All informasjon er viktig. I hvert fall fra historisk analyses synspunkt. For ikke å nevne det faktum at i enkelte opphavsrettsbeskyttede materialer spiller det en nøkkelrolle. Ja, for øyeblikket er ikke Habr engang 15 år gammel, og noen av kildene er fortsatt tilgjengelige, men over tid vil de bli færre og færre, og derfor er det verdt å tenke på forhånd om noe vil forbli til senere, eller om det vil være et evig "bilde ikke tilgjengelig."
Vel, ikke glem at plassholdere for utilgjengelige bilder rett og slett er irriterende. Selvfølgelig vil få mennesker lese "noen gamle ting", men det vil være slike mennesker. Derfor, siden disse publikasjonene fortsatt er tilgjengelige på Habré, bør innholdet deres være så fullstendig som mulig.
Dessverre støtter ikke Habrastorage foreløpig direkte nedlasting for alle bildeformater, men kanskje dette blir fikset en dag.
Det siste problemet som jeg vil nevne, og som du sikkert tenkte på, "hva om forfatteren ikke har brukt Habr på lenge og ikke er interessert i å rette opp gamle ting?" Dette spørsmålet har dukket opp i hodet mitt mer enn en gang, men løsningen her er ikke så vanskelig. Gamle publikasjoner kan alltid rettes UFO i person av moderatorer (du kan, Eksosfære?) eller administrasjon (Boomburum может выдать кому-то задание).
Hva tror du, er det verdt å prøve å gjenopprette i det minste noe?
Det var alt for i dag. Takk for oppmerksomheten og måtte alle bildene dine lastes opp til Habrastorage uten problemer! La dette ikke skje
PS Hvis du finner skrivefeil eller feil i teksten, vennligst gi meg beskjed. Dette kan gjøres ved å velge et tekststykke og trykke "Ctrl / ⌘ + Enter" hvis du har Ctrl / ⌘, enten via private meldinger. Hvis begge alternativene ikke er tilgjengelige, skriv om feilene i kommentarfeltet. Takk skal du ha!
PPS Kanskje du også vil være interessert i min andre Habr-forskning, eller du vil foreslå ditt eget emne for neste publikasjon, eller kanskje til og med en ny serie med publikasjoner.
Hvor finner du listen og hvordan du lager et forslag
All informasjon finnes i et spesielt depot Habra-detektiv. Der kan du også finne ut hvilke forslag som allerede er utlyst og hva som allerede er i arbeid.
Du kan også nevne meg (ved å skrive VaskivskyiYe) i kommentarene til en publikasjon som virker interessant for deg for forskning eller analyse.