Een voormalige kolenmijn waarin de opslagfaciliteit van het Arctic World Archive zal worden ondergebracht.
Vrije software is de hoeksteen van de moderne beschaving en het gemeenschappelijke erfgoed van de hele mensheid. Missie
Om dit te doen zal GitHub veel back-upkopieën maken op verschillende media, inclusief opslag voor de lange termijn
Op 2 februari 2020 zal een momentopname van de softwarecode van de mensheid worden gemaakt.
Het langetermijnproject voor gegevensopslag werd gelanceerd samen met de Long Now Foundation, het Internet Archive, de Software Heritage Foundation, Arctic World Archive en andere partners.
Project LOCKSS
Code die vandaag de dag van vitaal belang is, kan na verloop van tijd vergeten of verloren gaan. Het ergste is dat we in het geval van een mondiale catastrofe alle informatie zullen verliezen die is opgeslagen op “efemere” media: HDD, SSD, CD en DVD, ontworpen voor tientallen jaren, op tapes waarvan de voorwaardelijke levensduur van 30 jaar vereist strikte controle van temperatuur en vochtigheid.
De oplossing voor het probleem is het dupliceren van back-upkopieën, dat wil zeggen het archiveren van software door verschillende organisaties en in verschillende vormen. Dit project heet
De ontwerpers van het systeem gaan ervan uit dat hardware veel duurzamer kan zijn dan kortstondige media: daarom "zijn er een aantal mogelijke toekomsten waarin werkende moderne computers bestaan, maar hun software grotendeels verloren is gegaan."
GitHub herinnert ons aan veel verloren technologieën die nuttig hadden kunnen zijn:
GitHub-archief
GitHub Archive biedt drie niveaus van back-ups:
- heet: bijna realtime
- warm: bijgewerkt met tussenpozen van een maand tot een jaar
- koude: elke 5+ jaar bijgewerkt
Na elke actie van GitHub-gebruikers worden alle Git-gegevens gerepliceerd naar meerdere datacenters over de hele wereld. Git-back-ups, problemen, pull-aanvragen en alle gebruikersgegevens op GitHub worden op verschillende plaatsen opgeslagen. Deze informatie is in realtime beschikbaar via de GitHub API.
Bovendien wordt recursieve indexering georganiseerd door de GHTorrent-crawler, die archieven dagelijks of maandelijks uploadt. Via GH Archive kunnen afbeeldingen uit het archief worden verkregen met behulp van BigQuery-query's. Andere kopieën van de code zijn ondergebracht in de bekende Time Machine van het Internet Archive, die kopieën op meerdere locaties opslaat. Ten slotte zal de Software Heritage Foundation regelmatig GitHub crawlen en zijn openbare repository's toevoegen aan zijn archief, dat een openbare API heeft.
Arctic GitHub-repository
Op 2 februari 2020 zal GitHub een kopie maken van alle actieve openbare repositories - en deze in de GitHub Arctic repository plaatsen.
De gegevens worden opgeslagen op filmspoelen van 3500 meter lang, geleverd door Piql, een Noors bedrijf dat gespecialiseerd is in langdurige gegevensopslag. Volgens ISO-metingen heeft deze zilverhalogenide polyesterfolie een levensduur van 500 jaar. Uit gesimuleerde verouderingstesten is gebleken dat Piql-film informatie minstens twee keer zo lang vasthoudt.
Daarnaast werkt GitHub Archive samen met onderzoekers van het Microsoft Silica-project om alle openbare opslagplaatsen op kwartsglaswafels te branden met behulp van een femtoseconde-laser. Dit medium zal de gegevensveiligheid gedurende meer dan 10 jaar garanderen.
De Arctic GitHub-coderepository is gemaakt op basis van het Arctic World Archive (AWA) op een diepte van 250 meter in permafrost. Het archief bevindt zich in een voormalige kolenmijn op de archipel van Spitsbergen, niet ver van de Noordpool. De opwarming van de aarde zal slechts een paar meter permafrost beïnvloeden en zal de mijn in de nabije toekomst (enkele duizenden jaren) niet bedreigen.
Spitsbergen is gereguleerd
World Seed Vault in Svalbard
AWA is een gezamenlijk initiatief van het Noorse staatsmijnbedrijf Norske Spitsbergen Kulkompani (SNSK) en aanbieder van digitale conservering Piql AS. Historische en culturele gegevens uit Italië, Brazilië, Noorwegen, het Vaticaan en andere landen zijn daar al opgeslagen.
Rollen met GitHub-code worden opgeslagen in een container met stalen zijkanten in een afgesloten kamer. De momentopname van 02.02.2020 omvat alle actieve GitHub-repository's en een aanzienlijk deel van de inactieve (te oordelen naar sterren, afhankelijkheden, enz.), alle binaire bestanden tot 100 KB. Elke repository in een afzonderlijk tar-bestand. Alles zou op 200 spoelen van 120 GB moeten passen.
Samen met het archief zal er een voor mensen leesbare catalogus zijn en technische handleidingen over QR-decodering, bestandsformaten, karaktercoderingen en andere belangrijke metadata, zodat nakomelingen de gegevens terug naar de broncode kunnen converteren.
Het archief zal ook een algemene Tech Tree-gids bevatten voor het geval toekomstige lezers zonder werkende computers komen te zitten en de technologie helemaal opnieuw moeten opbouwen.
Bron: www.habr.com