GitHub hat ein tausend Jahre altes Repository erstellt, in dem es Open-Source-Repositories für die Nachwelt bewahren wird

GitHub hat ein tausend Jahre altes Repository erstellt, in dem es Open-Source-Repositories für die Nachwelt bewahren wird
Ein ehemaliges Kohlebergwerk, in dem das Lager des Arctic World Archive untergebracht sein wird. Foto: Guy Martin/Bloomberg Businessweek

Freie Software ist der Grundstein der modernen Zivilisation und das gemeinsame Erbe der gesamten Menschheit. Mission GitHub-Archivprogramme - Bewahren Sie diesen Code für zukünftige Generationen auf, damit sich die Geschichte der Bibliothek von Alexandria nie wiederholt.

Dazu erstellt GitHub viele Sicherungskopien auf unterschiedlichen Medien, auch zur Langzeitspeicherung Arktischer Code-Tresor auf Spitzbergen. Es befindet sich in einem ehemaligen Kohlebergwerk in 250 Metern Tiefe im Permafrost und ist auf eine Haltbarkeit von mindestens 1000 Jahren ausgelegt.

Am 2. Februar 2020 wird eine Momentaufnahme des Softwarecodes der Menschheit erstellt.

Das Projekt zur langfristigen Datenspeicherung wurde gemeinsam mit der Long Now Foundation, dem Internet Archive, der Software Heritage Foundation, dem Arctic World Archive und anderen Partnern ins Leben gerufen.

Projekt LOCKSS

Code, der heute lebenswichtig ist, kann mit der Zeit vergessen werden oder verloren gehen. Das Schlimmste ist, dass wir im Falle einer globalen Katastrophe alle Informationen verlieren, die auf „ephemeren“ Medien gespeichert waren: Festplatten, SSDs, CDs und DVDs, die für mehrere Jahrzehnte ausgelegt sind und deren bedingte Lebensdauer 30 Jahre beträgt strenge Kontrolle von Temperatur und Luftfeuchtigkeit.

Die Lösung des Problems ist die Vervielfältigung von Sicherungskopien, also die Archivierung der Software durch mehrere Organisationen und in unterschiedlicher Form. Dieses Projekt wurde aufgerufen LOCKSS hat schon begonnen fast 20 Jahre. Das Programm wurde im Mai 2019 vorgestellt LOCKSS 2.0-alpha - seit langem der erste Prototyp einer Software zur verteilten Datenspeicherung mit Unterstützung mehrerer Teilnehmer und externer Speicherung.

Die Entwickler des Systems gehen davon aus, dass Hardware wesentlich langlebiger sein kann als kurzlebige Medien: Daher „gibt es eine Reihe möglicher Zukünfte, in denen funktionierende moderne Computer existieren, ihre Software jedoch weitgehend verloren geht.“

GitHub erinnert uns an viele verlorene Technologien, die nützlich gewesen sein könnten: Römischer Beton (sein Rezept wurde erst 2014 wiederentdeckt), Malariamedikament DFDT, verloren Zeichnungen der Saturn-5-Rakete. Man kann sich leicht eine Zukunft vorstellen, in der die heutige Software als etwas uriges, längst vergessenes Unwesentliches angesehen wird, bis ein unerwarteter Bedarf danach entsteht: „Wie jedes Backup ist auch das Archivprogramm von GitHub für eine unvorhergesehene Zukunft konzipiert“, sagt der GitHub des Programms Website-Archiv.

GitHub-Archiv

GitHub Archive bietet drei Backup-Ebenen:

  • Heiß: fast in Echtzeit
  • Warm: Wird in Abständen von einem Monat bis zu einem Jahr aktualisiert
  • Kalt: alle 5+ Jahre aktualisiert

Nach jeder Aktion durch GitHub-Benutzer werden alle Git-Daten in mehrere Rechenzentren auf der ganzen Welt repliziert. Git-Backups, Issues, Pull Requests und alle Benutzerdaten auf GitHub werden an mehreren Orten gespeichert. Diese Informationen sind in Echtzeit über die GitHub-API verfügbar.

Darüber hinaus wird die rekursive Indizierung durch den GHTorrent-Crawler organisiert, der Archive täglich oder monatlich hochlädt. Über GH Archive können Bilder aus dem Archiv mithilfe von BigQuery-Abfragen abgerufen werden. Weitere Kopien des Codes befinden sich in der bekannten Time Machine des Internet Archive, die Kopien an mehreren Orten speichert. Schließlich wird die Software Heritage Foundation regelmäßig GitHub crawlen und ihre öffentlichen Repositories zu ihrem Archiv hinzufügen, das über eine öffentliche API verfügt.

Arctic GitHub-Repository

Am 2. Februar 2020 erstellt GitHub eine Kopie aller aktiven öffentlichen Repositories – und platziert sie im GitHub Arctic-Repository.

Die Daten werden auf 3500 Fuß langen Filmspulen gespeichert, die von Piql bereitgestellt werden, einem norwegischen Unternehmen, das sich auf die langfristige Datenspeicherung spezialisiert hat. Nach ISO-Messungen hat diese Silberhalogenid-Polyesterfolie eine Lebensdauer von 500 Jahren. Simulierte Alterungstests haben gezeigt, dass Piql-Folien Informationen mindestens doppelt so lange speichern.

Darüber hinaus arbeitet GitHub Archive mit Forschern des Microsoft Silica-Projekts zusammen, um alle öffentlichen Repositories mithilfe eines Femtosekundenlasers auf Quarzglaswafer zu brennen. Dieses Medium wird die Datensicherheit für mehr als 10 Jahre gewährleisten.

Das Arctic GitHub-Code-Repository wird auf Basis des Arctic World Archive (AWA) in einer Tiefe von 250 Metern im Permafrost erstellt. Das Archiv befindet sich in einem ehemaligen Kohlebergwerk auf dem Spitzbergen-Archipel, nicht weit vom Nordpol entfernt. Die globale Erwärmung wird nur wenige Meter Permafrost betreffen und stellt in naher Zukunft (mehrere tausend Jahre) keine Gefahr für die Mine dar.

Spitzbergen ist reguliert internationaler Vertrag wie eine entmilitarisierte Zone. Laut GitHub handelt es sich um eine der abgelegensten und geopolitisch stabilsten menschlichen Siedlungen der Erde. In der Nähe befindet sich das berühmte World Seed Vault, die wichtigste Hoffnung der Menschheit im Falle einer Apokalypse.

GitHub hat ein tausend Jahre altes Repository erstellt, in dem es Open-Source-Repositories für die Nachwelt bewahren wird
World Seed Vault in Spitzbergen

AWA ist eine gemeinsame Initiative des norwegischen staatlichen Bergbauunternehmens Norske Spitsbergen Kulkompani (SNSK) und des Anbieters für digitale Archivierung Piql AS. Dort sind bereits historische und kulturelle Daten aus Italien, Brasilien, Norwegen, dem Vatikan und anderen Ländern gespeichert.

GitHub hat ein tausend Jahre altes Repository erstellt, in dem es Open-Source-Repositories für die Nachwelt bewahren wird
Foto: Guy Martin/Bloomberg Businessweek

Rollen mit GitHub-Code werden in einem Behälter mit Stahlwänden in einer versiegelten Kammer aufbewahrt. Der Snapshot vom 02.02.2020 umfasst alle aktiven GitHub-Repositories und einen erheblichen Teil der inaktiven (gemessen an Sternen, Abhängigkeiten usw.), alle Binärdateien bis zu 100 KB. Jedes Repository in einer separaten TAR-Datei. Auf 200 120-GB-Spulen sollte alles passen.

Zusammen mit dem Archiv wird es einen für Menschen lesbaren Katalog und technische Handbücher zur QR-Dekodierung, Dateiformaten, Zeichenkodierungen und anderen wichtigen Metadaten geben, damit Nachkommen die Daten wieder in den Quellcode konvertieren können.

Das Archiv wird auch einen allgemeinen Tech-Tree-Leitfaden enthalten, für den Fall, dass zukünftige Leser keine funktionierenden Computer mehr haben und die Technologie von Grund auf neu aufbauen müssen.

Source: habr.com

Kommentar hinzufügen