Ein ehemaliges Kohlebergwerk, in dem das Lager des Arctic World Archive untergebracht sein wird.
Freie Software ist der Grundstein der modernen Zivilisation und das gemeinsame Erbe der gesamten Menschheit. Mission
Dazu erstellt GitHub viele Sicherungskopien auf unterschiedlichen Medien, auch zur Langzeitspeicherung
Am 2. Februar 2020 wird eine Momentaufnahme des Softwarecodes der Menschheit erstellt.
Das Projekt zur langfristigen Datenspeicherung wurde gemeinsam mit der Long Now Foundation, dem Internet Archive, der Software Heritage Foundation, dem Arctic World Archive und anderen Partnern ins Leben gerufen.
Projekt LOCKSS
Code, der heute lebenswichtig ist, kann mit der Zeit vergessen werden oder verloren gehen. Das Schlimmste ist, dass wir im Falle einer globalen Katastrophe alle Informationen verlieren, die auf „ephemeren“ Medien gespeichert waren: Festplatten, SSDs, CDs und DVDs, die für mehrere Jahrzehnte ausgelegt sind und deren bedingte Lebensdauer 30 Jahre beträgt strenge Kontrolle von Temperatur und Luftfeuchtigkeit.
Die Lösung des Problems ist die Vervielfältigung von Sicherungskopien, also die Archivierung der Software durch mehrere Organisationen und in unterschiedlicher Form. Dieses Projekt wurde aufgerufen
Die Entwickler des Systems gehen davon aus, dass Hardware wesentlich langlebiger sein kann als kurzlebige Medien: Daher „gibt es eine Reihe möglicher Zukünfte, in denen funktionierende moderne Computer existieren, ihre Software jedoch weitgehend verloren geht.“
GitHub erinnert uns an viele verlorene Technologien, die nützlich gewesen sein könnten:
GitHub-Archiv
GitHub Archive bietet drei Backup-Ebenen:
- Heiß: fast in Echtzeit
- Warm: Wird in Abständen von einem Monat bis zu einem Jahr aktualisiert
- Kalt: alle 5+ Jahre aktualisiert
Nach jeder Aktion durch GitHub-Benutzer werden alle Git-Daten in mehrere Rechenzentren auf der ganzen Welt repliziert. Git-Backups, Issues, Pull Requests und alle Benutzerdaten auf GitHub werden an mehreren Orten gespeichert. Diese Informationen sind in Echtzeit über die GitHub-API verfügbar.
Darüber hinaus wird die rekursive Indizierung durch den GHTorrent-Crawler organisiert, der Archive täglich oder monatlich hochlädt. Über GH Archive können Bilder aus dem Archiv mithilfe von BigQuery-Abfragen abgerufen werden. Weitere Kopien des Codes befinden sich in der bekannten Time Machine des Internet Archive, die Kopien an mehreren Orten speichert. Schließlich wird die Software Heritage Foundation regelmäßig GitHub crawlen und ihre öffentlichen Repositories zu ihrem Archiv hinzufügen, das über eine öffentliche API verfügt.
Arctic GitHub-Repository
Am 2. Februar 2020 erstellt GitHub eine Kopie aller aktiven öffentlichen Repositories – und platziert sie im GitHub Arctic-Repository.
Die Daten werden auf 3500 Fuß langen Filmspulen gespeichert, die von Piql bereitgestellt werden, einem norwegischen Unternehmen, das sich auf die langfristige Datenspeicherung spezialisiert hat. Nach ISO-Messungen hat diese Silberhalogenid-Polyesterfolie eine Lebensdauer von 500 Jahren. Simulierte Alterungstests haben gezeigt, dass Piql-Folien Informationen mindestens doppelt so lange speichern.
Darüber hinaus arbeitet GitHub Archive mit Forschern des Microsoft Silica-Projekts zusammen, um alle öffentlichen Repositories mithilfe eines Femtosekundenlasers auf Quarzglaswafer zu brennen. Dieses Medium wird die Datensicherheit für mehr als 10 Jahre gewährleisten.
Das Arctic GitHub-Code-Repository wird auf Basis des Arctic World Archive (AWA) in einer Tiefe von 250 Metern im Permafrost erstellt. Das Archiv befindet sich in einem ehemaligen Kohlebergwerk auf dem Spitzbergen-Archipel, nicht weit vom Nordpol entfernt. Die globale Erwärmung wird nur wenige Meter Permafrost betreffen und stellt in naher Zukunft (mehrere tausend Jahre) keine Gefahr für die Mine dar.
Spitzbergen ist reguliert
World Seed Vault in Spitzbergen
AWA ist eine gemeinsame Initiative des norwegischen staatlichen Bergbauunternehmens Norske Spitsbergen Kulkompani (SNSK) und des Anbieters für digitale Archivierung Piql AS. Dort sind bereits historische und kulturelle Daten aus Italien, Brasilien, Norwegen, dem Vatikan und anderen Ländern gespeichert.
Rollen mit GitHub-Code werden in einem Behälter mit Stahlwänden in einer versiegelten Kammer aufbewahrt. Der Snapshot vom 02.02.2020 umfasst alle aktiven GitHub-Repositories und einen erheblichen Teil der inaktiven (gemessen an Sternen, Abhängigkeiten usw.), alle Binärdateien bis zu 100 KB. Jedes Repository in einer separaten TAR-Datei. Auf 200 120-GB-Spulen sollte alles passen.
Zusammen mit dem Archiv wird es einen für Menschen lesbaren Katalog und technische Handbücher zur QR-Dekodierung, Dateiformaten, Zeichenkodierungen und anderen wichtigen Metadaten geben, damit Nachkommen die Daten wieder in den Quellcode konvertieren können.
Das Archiv wird auch einen allgemeinen Tech-Tree-Leitfaden enthalten, für den Fall, dass zukünftige Leser keine funktionierenden Computer mehr haben und die Technologie von Grund auf neu aufbauen müssen.
Source: habr.com