GitHub a créé un référentiel millénaire dans lequel il conservera les référentiels Open Source pour la postérité

GitHub a créé un référentiel millénaire dans lequel il conservera les référentiels Open Source pour la postérité
Une ancienne mine de charbon qui abritera les installations de stockage des Archives mondiales arctiques. photo: Guy Martin/Bloomberg Businessweek

Le logiciel libre est la pierre angulaire de la civilisation moderne et le patrimoine commun de toute l’humanité. Mission Programmes d'archives GitHub - préserver ce code pour les générations futures afin que l'histoire de la Bibliothèque d'Alexandrie ne se répète jamais.

Pour ce faire, GitHub va créer de nombreuses copies de sauvegarde sur différents supports, y compris le stockage à long terme Coffre-fort de codes arctiques au Spitzberg. Il est situé dans une ancienne mine de charbon à 250 mètres de profondeur dans le pergélisol et est conçu pour une durée de conservation d'au moins 1000 XNUMX ans.

Un instantané du code logiciel de l'humanité sera pris le 2 février 2020.

Le projet de stockage de données à long terme a été lancé conjointement avec la Fondation Long Now, Internet Archive, la Software Heritage Foundation, Arctic World Archive et d'autres partenaires.

Projet LOCKSS

Un code vital aujourd’hui peut être oublié ou perdu au fil du temps. Le pire, c'est qu'en cas de catastrophe mondiale nous perdrons toutes les informations qui étaient stockées sur des supports « éphémères » : HDD, SSD, CD et DVD, conçus pour plusieurs décennies, sur des bandes dont la durée de vie conditionnelle de 30 ans nécessite contrôle strict de la température et de l'humidité.

La solution au problème réside dans la duplication des sauvegardes, c'est-à-dire l'archivage des logiciels par plusieurs organisations et sous différentes formes. Ce projet appelé LOCKSS a encore commencé presque 20 ans. Le programme a été présenté en mai 2019 LOCKSS 2.0-alpha - le premier prototype de logiciel de stockage de données distribué depuis longtemps avec prise en charge de plusieurs participants et stockage externe.

Les concepteurs du système supposent que le matériel peut être beaucoup plus durable que les supports éphémères : par conséquent, « il existe un certain nombre d'avenirs possibles dans lesquels des ordinateurs modernes fonctionnels existent, mais leurs logiciels sont en grande partie perdus ».

GitHub nous rappelle de nombreuses technologies perdues qui auraient pu être utiles : béton romain (sa recette n'a été redécouverte qu'en 2014), médicament antipaludique DFDT, perdu dessins de la fusée Saturn 5. Il est facile d'imaginer un avenir dans lequel les logiciels d'aujourd'hui sont considérés comme un élément désuet et oublié depuis longtemps, jusqu'à ce qu'un besoin inattendu se fasse sentir : "Comme toute sauvegarde, le programme d'archivage de GitHub est également conçu pour un avenir imprévu", déclare le GitHub du programme. Archives du site Web.

Archives GitHub

GitHub Archive propose trois niveaux de sauvegardes :

  • Chaud: presque en temps réel
  • Chaud: mis à jour à intervalles d'un mois à un an
  • Froid: mis à jour tous les 5+ ans

Après toute action des utilisateurs de GitHub, toutes les données Git sont répliquées vers plusieurs centres de données à travers le monde. Les sauvegardes Git, les problèmes, les demandes d'extraction et toutes les données utilisateur sur GitHub sont stockés à plusieurs endroits. Ces informations sont disponibles en temps réel via l'API GitHub.

De plus, l'indexation récursive est organisée par le robot GHTorrent, qui téléchargera les archives sur une base quotidienne ou mensuelle. Grâce à GH Archive, les images de l'archive peuvent être obtenues à l'aide de requêtes BigQuery. D'autres copies du code sont hébergées dans la célèbre Time Machine d'Internet Archive, qui stocke des copies à plusieurs endroits. Enfin, la Software Heritage Foundation explorera régulièrement GitHub et ajoutera ses référentiels publics à ses archives, qui disposent d'une API publique.

Dépôt GitHub arctique

Le 2 février 2020, GitHub fera une copie de tous les référentiels publics actifs et les placera dans le référentiel GitHub Arctic.

Les données seront stockées sur des bobines de film de 3500 500 pieds fournies par Piql, une société norvégienne spécialisée dans le stockage de données à long terme. Selon les mesures ISO, ce film polyester aux halogénures d'argent a une durée de vie de XNUMX ans. Des tests de vieillissement simulés ont montré que le film Piql conserve les informations au moins deux fois plus longtemps.

De plus, GitHub Archive collabore avec les chercheurs du projet Microsoft Silica pour graver tous les référentiels publics sur des tranches de verre de quartz à l'aide d'un laser femtoseconde. Ce média assurera la sécurité des données pendant plus de 10 000 ans.

Le référentiel de code Arctic GitHub est créé sur la base de l'Arctic World Archive (AWA) à une profondeur de 250 mètres dans le pergélisol. Les archives sont situées dans une ancienne mine de charbon de l'archipel du Spitzberg, non loin du pôle Nord. Le réchauffement climatique n’affectera que quelques mètres de pergélisol et ne menace pas la mine dans un avenir proche (plusieurs milliers d’années).

Le Svalbard est réglementé traité international comme une zone démilitarisée. Il s’agit de l’un des établissements humains les plus isolés et géopolitiquement stables de la planète, selon GitHub. A proximité se trouve le célèbre World Seed Vault, le principal espoir de l’humanité en cas d’apocalypse.

GitHub a créé un référentiel millénaire dans lequel il conservera les référentiels Open Source pour la postérité
Svalbard World Seed Store

AWA est une initiative conjointe de la société minière publique norvégienne Norske Spitsbergen Kulkompani (SNSK) et du fournisseur de préservation numérique Piql AS. Des données historiques et culturelles de l'Italie, du Brésil, de la Norvège, du Vatican et d'autres pays y sont déjà stockées.

GitHub a créé un référentiel millénaire dans lequel il conservera les référentiels Open Source pour la postérité
photo: Guy Martin/Bloomberg Businessweek

Les bobines de code GitHub seront stockées dans un conteneur à parois en acier à l'intérieur d'une chambre scellée. L'instantané du 02.02.2020 inclura tous les référentiels GitHub actifs et une partie importante des référentiels inactifs (à en juger par les étoiles, les dépendances, etc.), tous les fichiers binaires jusqu'à 100 Ko. Chaque référentiel dans un fichier tar distinct. Tout devrait tenir sur 200 bobines de 120 Go.

Les archives seront accompagnées d'un catalogue lisible par l'homme et de manuels techniques sur le décodage QR, les formats de fichiers, les encodages de caractères et d'autres métadonnées importantes afin que les descendants puissent reconvertir les données en code source.

Les archives comprendront également un guide général de l'arbre technologique au cas où les futurs lecteurs seraient à court d'ordinateurs fonctionnels et devraient reconstruire la technologie à partir de zéro.

Source: habr.com

Ajouter un commentaire