Jeste li se ikada zapitali koliko informacija se gubi bez traga? Na kraju krajeva, informacije su ono zbog čega Habr postoji. Znate li šta se najčešće dešava sa resursima zasnovanim na objavama korisnika? Autori ubacuju slike, slike i video zapise sa sajtova trećih strana i nakon nekog vremena više nisu dostupni. Za to je nekada stvoren. Habrastorage. Praksa je pokazala da tamo niko (osim urednika i nekolicine entuzijasta) ne postavlja slike na svoju ruku. Stoga je administracija Habra u jednom trenutku automatizirala ovu funkciju - svaka slika koja se pojavi u publikaciji automatski se učitava u skladište i neće odatle nestati sve dok sam Habr postoji. Naravno, postoje izuzeci i nešto bi moglo poći po zlu, ali ne sada o njima.
Najveći problem u cijeloj ovoj šemi sa učitavanjem slika u Habrastorage nastao je tokom implementacije. U to vrijeme neke stare publikacije već nisu imale crteže, pa su tako i ostale. Danas ćemo pokušati saznati koliko je grafičkih informacija Habr izgubio od svog rođenja. Osim toga, možda možemo pronaći nešto što je nedostajalo? Ova "slika se ne može učitati" je dosadna, zar ne? Današnja detektivska priča posvećena je upravo tome. Hajde da počnemo!
Možda vas je do ovog članka dovelo spominjanje u tracker? Vjerovatno je neka slika nestala iz jedne od vaših starih publikacija, a ja sam je našao. Ako ne želite da pročitate ceo post, možete samo skrolovati do spojlera na samom kraju (odeljak Rezulʹtaty), koji navodi sve pronađene publikacije i slike. Hvala ti!
Uvod i metode
Naša detektivska priča počet će od samog početka (logično, zar ne?). Od početka Habr. Uostalom, što je objava ranije objavljena, veća je šansa da su slike s njega izgubljene negdje u istoriji. Zato ćemo krenuti od 2006. godine i krenuti malo naprijed.
U razmatranje su uključene sve publikacije iz 40 centara koji su trenutno na početku rangiranja. Potpuna lista ovih čvorišta je predstavljena ispod spojlera. Zapravo, mnogi od njih tada nisu postojali, ali kada su dodana nova čvorišta, publikacije su prenesene tamo.
Informacije su prikupljene pomoću skupa PHP skripti. Svaka publikacija je preuzeta, određen je sadržaj oznake i provjerio ima li oznaka unutra. Za svaku sliku pohranjuju se veze do slika, povezane sa ID-om publikacije na Habréu. Ove informacije se dalje analiziraju.
Šta je i kada objavljeno
2006
Na samom početku Habra nije bilo toliko publikacija kao sada, a još manje slika u njima. Ukupno, 2006 objava objavljena je u navedenim čvorištima u 05.06.2006. (počevši od 221.). 53 od ovih postova sadrže ukupno 75 slika. Maksimum slika (10 komada) u publikaciji "Deset sprava koje su promijenile svijet". 50 crteža je već na Habrastorageu. Još 25 je izgubljeno. Svi su jedinstveni i ne ponavljaju se.
Zanimljiva činjenica: Dvije slike vode do samog Habra, ali već duže vrijeme nisu dostupne. Ovo su slike http://www.habrahabr.ru/tmp/sup_blogs_preview.gif i http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Dakle, izgubljeno za 2006 33.3% slike u publikacijama.
2007
U 2007. značajno se povećao broj publikacija, kao i broj slika - objavljeno je 1 postova. 713 postova sadrži 599 slika. 1 slika je prebačeno u Habrastorage, a 467 je izgubljeno (16.2%).
Zanimljiva činjenica: Publikacija Top 100 Mac OS aplikacija sadrži maksimalno 2007 slika za 100. i ne sadrži tekst o autorskim pravima.
Osim toga, neke od ovih izgubljenih slika su duplikati. Dakle, jedan od njih se javlja 6 puta u jednom publikacije sa samo 6 slika. Takođe, slika “Up.gif” se ponavlja 21 put, “Down.gif” 16 puta, a “Same.gif” 8 puta sa jednog domena. I svih ovih 45 slika iz jedan post, koji sadrži samo 47 slika.
Preostalo je 191 jedinstvenih .
2008
Budući da se broj publikacija na Habréu iz godine u godinu samo povećavao, u 2008. naš detektiv će pregledati 2 publikacija, kao i 520 slika. Primijetili smo da je 2. godine broj slika u publikacijama konačno premašio broj publikacija. Štaviše, samo 969 postova sadrži slike, a u publikaciji su predstavljena maksimalno 2008 elementa grafičkih informacija.Istorija Googleovih prazničnih logotipa". 1 slike su već sačuvane na Habrastorage, a 943 je izgubljeno (34.6%).
Zanimljiva činjenica: Locirana je najneočekivanija slika (ili bolje rečeno, problem u dizajnu publikacije). ovdje. Kao rezultat toga, Habr pokušava preuzeti sliku putem http://#/.
Rice. 1. Opća statistika razmatranih
Da li je moguće vratiti barem nešto?
Djelomična restauracija nije teška. Na primjer, najlijenji način bi bio korištenje Internet Arhiva u pokušaju učitavanja sačuvanih stranica publikacije. Osim toga, možete pokušati "pronaći" same slike u arhivi koristeći direktne veze.
Lifehack: Morate provjeriti prisutnost slika u svim verzijama stranice u arhivi, a ne samo u najstarijoj i najnovijoj.
Nažalost, iako ova metoda radi u nekim slučajevima, tako je teško vratiti barem polovinu slika. Stoga je sljedeći korak provjera unakrsnog objavljivanja, originalnih prijevoda i, naravno, arhivskih kopija originalnih stranica.
Osim toga, možete pokušati pronaći željene slike pomoću jednog od Habrovih neslužbenih ogledala, koji su nekada radili i još uvijek pohranjuju neke od kopiranih informacija.
Posljednja i najteža opcija je korištenje pretraživača. Ako tačno znate šta bi trebalo da bude na slici (postoji opis i kontekst), postoji šansa da pronađete fajlove sa istim imenom ako ih je neko jednom kopirao na drugi resurs.
Naravno, svaki sljedeći korak nelinearno povećava vrijeme pretraživanja.
Šta smo našli
Možda nećete biti previše impresionirani brojem do sada pronađenih slika - ima ih 300 (sadržanih u 140 publikacija od 81 autora). Ako uzmemo u obzir broj “gubitaka” (1), rezultat je otprilike 24.2%. Zašto nedostaje manje slika nego što ih je bilo? Sve beskorisne slike (poput brojača pregleda) i nepostojeće slike (poput već spomenutog http://#/, kao i http://fig.jpg/ i tako dalje).
Kako ste došli do ovako okruglog broja? Činjenica je da je oko 300 dana potrage završeno. U početku sam htela da odem do 333, ali 300 izgleda prilično dobro. Osim toga, u ovom trenutku oko 33% sve "žrtve potrage".
Rice. 2. Trenutni rezultati pretrage
Sve pronađene slike (osim jedne .bmp, s njom bi bilo 301) se postavljaju na hsto.org, a veze do njih i publikacija, kao i indeksi slika u njima, dati su u sljedećem odjeljku.
Rezulʹtaty
Dakle, ispod spojlera su uspješno pronađene slike, kao i id publikacija, indeks slike unutar teksta publikacije (počevši od 1, a ne od 0) i autor publikacije. Ukoliko ste autor spomenute publikacije, a pronađene slike su tačne, ispravite svoje objave. Hvala ti!
Inače, neke slike su zapravo još uvijek dostupne za gledanje u publikacijama, ali nisu prebačene u Habrastorage, pa stoga u nekom trenutku mogu postati i nedostupne.
Možda će neko smatrati da vraćanje tako zastarjelih informacija nema smisla. Osim toga, neke od pronađenih slika bile su besmislene čak i kada su objavljene. Ovo je nesumnjivo tačno.
Svaka informacija je važna. Barem sa stanovišta istorijske analize. Da ne spominjemo činjenicu da u nekim materijalima zaštićenim autorskim pravima igra ključnu ulogu. Da, Habr trenutno nema ni 15 godina i neki od izvora su još uvijek dostupni, ali će ih vremenom biti sve manje i stoga vrijedi unaprijed razmisliti da li će nešto ostati za kasnije, ili će biti vječna "slika nije dostupna."
Pa, ne zaboravite da su čuvari mjesta za nepristupačne slike jednostavno dosadni. Naravno, malo ljudi će čitati „neke stare stvari“, ali takvih će biti. Stoga, budući da su ove publikacije još uvijek dostupne na Habré-u, njihov sadržaj treba biti što potpuniji.
Nažalost, Habrastorage još uvijek ne podržava direktno preuzimanje za sve formate slika, ali možda će to jednog dana biti popravljeno.
Poslednji problem koji bih želeo da pomenem, a na koji ste verovatno pomislili, „šta ako autor dugo ne koristi Habr i nije zainteresovan za ispravljanje starih stvari?“ Ovo pitanje mi se više puta pojavilo u glavi, ali rješenje ovdje nije tako teško. Stare publikacije se uvijek mogu ispraviti NLO u licima moderatora (možete, Egzosfera?) ili administracija (Boomburum može nekome dati zadatak).
Šta mislite, vrijedi li pokušati barem nešto obnoviti?
To je sve za danas. Hvala vam na pažnji i neka sve vaše slike budu postavljene na Habrastorage bez problema! Neka se ovo ne desi
PS Ako nađete bilo kakve greške u pisanju ili greške u tekstu, javite mi. To se može učiniti odabirom dijela teksta i pritiskom na "Ctrl / ⌘ + Enter" ako imate Ctrl / ⌘, bilo preko privatne poruke. Ako obje opcije nisu dostupne, napišite o greškama u komentarima. Hvala ti!
PPS Možda će vas zanimati i moja druga Habr istraživanja ili biste željeli predložiti svoju temu za sljedeću publikaciju, ili možda čak i novu seriju publikacija.
Gdje pronaći listu i kako napraviti prijedlog
Sve informacije se mogu naći u posebnom spremištu Habra detektiv. Tamo možete saznati i koji su prijedlozi već objavljeni, a šta je već u izradi.
Također, možete me spomenuti (pisanjem VaskivskyiYe) u komentarima na publikaciju koja vam se čini zanimljivom za istraživanje ili analizu.