GitHub heeft een repository van duizend jaar gemaakt om Open Source-repository's voor het nageslacht op te slaan

GitHub heeft een repository van duizend jaar gemaakt om Open Source-repository's voor het nageslacht op te slaan
Een voormalige kolenmijn waarin de opslagfaciliteit van het Arctic World Archive zal worden ondergebracht. foto: Guy Martin/Bloomberg Businessweek

Vrije software is de hoeksteen van de moderne beschaving en het gemeenschappelijke erfgoed van de hele mensheid. Missie GitHub Archiefprogramma's - bewaar deze code voor toekomstige generaties, zodat de geschiedenis van de Bibliotheek van Alexandrië nooit herhaald zal worden.

Om dit te doen zal GitHub veel back-upkopieën maken op verschillende media, inclusief opslag voor de lange termijn Arctische codekluis op Spitsbergen. Het bevindt zich in een voormalige kolenmijn op een diepte van 250 meter in permafrost en is ontworpen voor een houdbaarheid van minimaal 1000 jaar.

Op 2 februari 2020 zal een momentopname van de softwarecode van de mensheid worden gemaakt.

Het langetermijnproject voor gegevensopslag werd gelanceerd samen met de Long Now Foundation, het Internet Archive, de Software Heritage Foundation, Arctic World Archive en andere partners.

Project LOCKSS

Code die vandaag de dag van vitaal belang is, kan na verloop van tijd vergeten of verloren gaan. Het ergste is dat we in het geval van een mondiale catastrofe alle informatie zullen verliezen die is opgeslagen op “efemere” media: HDD, SSD, CD en DVD, ontworpen voor tientallen jaren, op tapes waarvan de voorwaardelijke levensduur van 30 jaar vereist strikte controle van temperatuur en vochtigheid.

De oplossing voor het probleem is het dupliceren van back-upkopieën, dat wil zeggen het archiveren van software door verschillende organisaties en in verschillende vormen. Dit project heet LOCKSS is nog begonnen bijna 20 jaar. Het programma werd in mei 2019 gepresenteerd LOCKSS 2.0-alfa - het eerste prototype van software voor gedistribueerde gegevensopslag sinds lange tijd met ondersteuning voor meerdere deelnemers en externe opslag.

De ontwerpers van het systeem gaan ervan uit dat hardware veel duurzamer kan zijn dan kortstondige media: daarom "zijn er een aantal mogelijke toekomsten waarin werkende moderne computers bestaan, maar hun software grotendeels verloren is gegaan."

GitHub herinnert ons aan veel verloren technologieën die nuttig hadden kunnen zijn: Romeins beton (zijn recept werd pas in 2014 herontdekt), antimalariamedicijn DFDT, kwijt tekeningen van de Saturn 5-raket. Het is gemakkelijk om je een toekomst voor te stellen waarin de software van vandaag wordt gezien als een vreemd, lang vergeten niet-essentieel onderdeel, totdat er een onverwachte behoefte aan ontstaat: "Net als elke back-up is het archiefprogramma van GitHub ook ontworpen voor een onvoorziene toekomst", zegt GitHub van het programma. website Archief.

GitHub-archief

GitHub Archive biedt drie niveaus van back-ups:

  • heet: bijna realtime
  • warm: bijgewerkt met tussenpozen van een maand tot een jaar
  • koude: elke 5+ jaar bijgewerkt

Na elke actie van GitHub-gebruikers worden alle Git-gegevens gerepliceerd naar meerdere datacenters over de hele wereld. Git-back-ups, problemen, pull-aanvragen en alle gebruikersgegevens op GitHub worden op verschillende plaatsen opgeslagen. Deze informatie is in realtime beschikbaar via de GitHub API.

Bovendien wordt recursieve indexering georganiseerd door de GHTorrent-crawler, die archieven dagelijks of maandelijks uploadt. Via GH Archive kunnen afbeeldingen uit het archief worden verkregen met behulp van BigQuery-query's. Andere kopieën van de code zijn ondergebracht in de bekende Time Machine van het Internet Archive, die kopieën op meerdere locaties opslaat. Ten slotte zal de Software Heritage Foundation regelmatig GitHub crawlen en zijn openbare repository's toevoegen aan zijn archief, dat een openbare API heeft.

Arctic GitHub-repository

Op 2 februari 2020 zal GitHub een kopie maken van alle actieve openbare repositories - en deze in de GitHub Arctic repository plaatsen.

De gegevens worden opgeslagen op filmspoelen van 3500 meter lang, geleverd door Piql, een Noors bedrijf dat gespecialiseerd is in langdurige gegevensopslag. Volgens ISO-metingen heeft deze zilverhalogenide polyesterfolie een levensduur van 500 jaar. Uit gesimuleerde verouderingstesten is gebleken dat Piql-film informatie minstens twee keer zo lang vasthoudt.

Daarnaast werkt GitHub Archive samen met onderzoekers van het Microsoft Silica-project om alle openbare opslagplaatsen op kwartsglaswafels te branden met behulp van een femtoseconde-laser. Dit medium zal de gegevensveiligheid gedurende meer dan 10 jaar garanderen.

De Arctic GitHub-coderepository is gemaakt op basis van het Arctic World Archive (AWA) op een diepte van 250 meter in permafrost. Het archief bevindt zich in een voormalige kolenmijn op de archipel van Spitsbergen, niet ver van de Noordpool. De opwarming van de aarde zal slechts een paar meter permafrost beïnvloeden en zal de mijn in de nabije toekomst (enkele duizenden jaren) niet bedreigen.

Spitsbergen is gereguleerd internationaal verdrag als een gedemilitariseerde zone. Volgens GitHub is het een van de meest afgelegen en geopolitiek stabiele menselijke nederzettingen op aarde. Vlakbij ligt de beroemde World Seed Vault, de belangrijkste hoop van de mensheid in het geval van een apocalyps.

GitHub heeft een repository van duizend jaar gemaakt om Open Source-repository's voor het nageslacht op te slaan
World Seed Vault in Svalbard

AWA is een gezamenlijk initiatief van het Noorse staatsmijnbedrijf Norske Spitsbergen Kulkompani (SNSK) en aanbieder van digitale conservering Piql AS. Historische en culturele gegevens uit Italië, Brazilië, Noorwegen, het Vaticaan en andere landen zijn daar al opgeslagen.

GitHub heeft een repository van duizend jaar gemaakt om Open Source-repository's voor het nageslacht op te slaan
foto: Guy Martin/Bloomberg Businessweek

Rollen met GitHub-code worden opgeslagen in een container met stalen zijkanten in een afgesloten kamer. De momentopname van 02.02.2020 omvat alle actieve GitHub-repository's en een aanzienlijk deel van de inactieve (te oordelen naar sterren, afhankelijkheden, enz.), alle binaire bestanden tot 100 KB. Elke repository in een afzonderlijk tar-bestand. Alles zou op 200 spoelen van 120 GB moeten passen.

Samen met het archief zal er een voor mensen leesbare catalogus zijn en technische handleidingen over QR-decodering, bestandsformaten, karaktercoderingen en andere belangrijke metadata, zodat nakomelingen de gegevens terug naar de broncode kunnen converteren.

Het archief zal ook een algemene Tech Tree-gids bevatten voor het geval toekomstige lezers zonder werkende computers komen te zitten en de technologie helemaal opnieuw moeten opbouwen.

Bron: www.habr.com

Voeg een reactie