Une ancienne mine de charbon qui abritera les installations de stockage des Archives mondiales arctiques.
Le logiciel libre est la pierre angulaire de la civilisation moderne et le patrimoine commun de toute l’humanité. Mission
Pour ce faire, GitHub va créer de nombreuses copies de sauvegarde sur différents supports, y compris le stockage à long terme
Un instantané du code logiciel de l'humanité sera pris le 2 février 2020.
Le projet de stockage de données à long terme a été lancé conjointement avec la Fondation Long Now, Internet Archive, la Software Heritage Foundation, Arctic World Archive et d'autres partenaires.
Projet LOCKSS
Un code vital aujourd’hui peut être oublié ou perdu au fil du temps. Le pire, c'est qu'en cas de catastrophe mondiale nous perdrons toutes les informations qui étaient stockées sur des supports « éphémères » : HDD, SSD, CD et DVD, conçus pour plusieurs décennies, sur des bandes dont la durée de vie conditionnelle de 30 ans nécessite contrôle strict de la température et de l'humidité.
La solution au problème réside dans la duplication des sauvegardes, c'est-à-dire l'archivage des logiciels par plusieurs organisations et sous différentes formes. Ce projet appelé
Les concepteurs du système supposent que le matériel peut être beaucoup plus durable que les supports éphémères : par conséquent, « il existe un certain nombre d'avenirs possibles dans lesquels des ordinateurs modernes fonctionnels existent, mais leurs logiciels sont en grande partie perdus ».
GitHub nous rappelle de nombreuses technologies perdues qui auraient pu être utiles :
Archives GitHub
GitHub Archive propose trois niveaux de sauvegardes :
- Chaud: presque en temps réel
- Chaud: mis à jour à intervalles d'un mois à un an
- Froid: mis à jour tous les 5+ ans
Après toute action des utilisateurs de GitHub, toutes les données Git sont répliquées vers plusieurs centres de données à travers le monde. Les sauvegardes Git, les problèmes, les demandes d'extraction et toutes les données utilisateur sur GitHub sont stockés à plusieurs endroits. Ces informations sont disponibles en temps réel via l'API GitHub.
De plus, l'indexation récursive est organisée par le robot GHTorrent, qui téléchargera les archives sur une base quotidienne ou mensuelle. Grâce à GH Archive, les images de l'archive peuvent être obtenues à l'aide de requêtes BigQuery. D'autres copies du code sont hébergées dans la célèbre Time Machine d'Internet Archive, qui stocke des copies à plusieurs endroits. Enfin, la Software Heritage Foundation explorera régulièrement GitHub et ajoutera ses référentiels publics à ses archives, qui disposent d'une API publique.
Dépôt GitHub arctique
Le 2 février 2020, GitHub fera une copie de tous les référentiels publics actifs et les placera dans le référentiel GitHub Arctic.
Les données seront stockées sur des bobines de film de 3500 500 pieds fournies par Piql, une société norvégienne spécialisée dans le stockage de données à long terme. Selon les mesures ISO, ce film polyester aux halogénures d'argent a une durée de vie de XNUMX ans. Des tests de vieillissement simulés ont montré que le film Piql conserve les informations au moins deux fois plus longtemps.
De plus, GitHub Archive collabore avec les chercheurs du projet Microsoft Silica pour graver tous les référentiels publics sur des tranches de verre de quartz à l'aide d'un laser femtoseconde. Ce média assurera la sécurité des données pendant plus de 10 000 ans.
Le référentiel de code Arctic GitHub est créé sur la base de l'Arctic World Archive (AWA) à une profondeur de 250 mètres dans le pergélisol. Les archives sont situées dans une ancienne mine de charbon de l'archipel du Spitzberg, non loin du pôle Nord. Le réchauffement climatique n’affectera que quelques mètres de pergélisol et ne menace pas la mine dans un avenir proche (plusieurs milliers d’années).
Le Svalbard est réglementé
Svalbard World Seed Store
AWA est une initiative conjointe de la société minière publique norvégienne Norske Spitsbergen Kulkompani (SNSK) et du fournisseur de préservation numérique Piql AS. Des données historiques et culturelles de l'Italie, du Brésil, de la Norvège, du Vatican et d'autres pays y sont déjà stockées.
Les bobines de code GitHub seront stockées dans un conteneur à parois en acier à l'intérieur d'une chambre scellée. L'instantané du 02.02.2020 inclura tous les référentiels GitHub actifs et une partie importante des référentiels inactifs (à en juger par les étoiles, les dépendances, etc.), tous les fichiers binaires jusqu'à 100 Ko. Chaque référentiel dans un fichier tar distinct. Tout devrait tenir sur 200 bobines de 120 Go.
Les archives seront accompagnées d'un catalogue lisible par l'homme et de manuels techniques sur le décodage QR, les formats de fichiers, les encodages de caractères et d'autres métadonnées importantes afin que les descendants puissent reconvertir les données en code source.
Les archives comprendront également un guide général de l'arbre technologique au cas où les futurs lecteurs seraient à court d'ordinateurs fonctionnels et devraient reconstruire la technologie à partir de zéro.
Source: habr.com