GitHub 创建了一个千年存储库,将在其中为子孙后代保存开源存储库

GitHub 创建了一个千年存储库,将在其中为子孙后代保存开源存储库
一个前煤矿,将容纳北极世界档案存储设施。 照片:盖伊·马丁/彭博商业周刊

自由软件是现代文明的基石,是全人类的共同遗产。 使命 GitHub 存档程序 - 为子孙后代保存此代码,以便亚历山大图书馆的历史永远不会重演。

为此,GitHub 将在不同介质上创建许多备份副本,包括长期存储 北极代码库 在斯匹次卑尔根岛。 它位于永久冻土层深处 250 米的前煤矿内,设计使用寿命至少为 1000 年。

人类软件代码快照将于2年2020月XNUMX日拍摄.

该长期数据存储项目是与Long Now基金会、互联网档案馆、软件遗产基金会、北极世界档案馆等合作伙伴共同启动的。

洛克斯项目

随着时间的推移,当今至关重要的代码可能会被遗忘或丢失。 最糟糕的是,一旦发生全球性灾难,我们将丢失存储在“临时”介质上的所有信息:HDD、SSD、CD 和 DVD,这些介质设计了几十年,磁带的条件使用寿命要求为 30 年严格控制温度和湿度。

解决该问题的方法是复制备份副本,即由多个组织以不同的形式对软件进行归档。 这个项目叫做 LOCKSS 已经开始了 近20年。 该计划于 2019 年 XNUMX 月提出 LOCKSS 2.0-阿尔法 - 第一个长期分布式数据存储的软件原型,支持多个参与者和外部存储。

该系统的设计者认为硬件比短暂的媒体更耐用:因此,“在许多可能的未来中,现代计算机都存在,但它们的软件大部分都丢失了。”

GitHub 让我们想起了许多曾经可能有用的失落技术: 罗马混凝土 (他的配方直到2014年才被重新发现), 抗疟药DFDT, 丢失的 土星 5 号火箭的图纸。 很容易想象,在未来,今天的软件会被视为古色古香、长期被遗忘的非必需品,直到出现意想不到的需求:“与任何备份一样,GitHub 的存档程序也是为不可预见的未来而设计的,”该程序的 GitHub 表示。网站存档。

GitHub 存档

GitHub Archive 提供三个级别的备份:

  • : 几乎实时
  • 温暖:每月到一年更新一次
  • :每 5 年以上更新一次

GitHub 用户执行任何操作后,所有 Git 数据都会复制到世界各地的多个数据中心。 Git 备份、问题、拉取请求以及 GitHub 上的所有用户数据都存储在多个位置。 此信息可通过 GitHub API 实时获取。

此外,递归索引由GHTorrent爬虫组织,每天或每月上传档案。 通过 GH Archive,可以使用 BigQuery 查询获取存档中的图像。 该代码的其他副本保存在互联网档案馆著名的时间机器中,该时间机器将副本存储在多个位置。 最后,软件遗产基金会将定期抓取 GitHub 并将其公共存储库添加到其存档中,该存档具有公共 API。

北极 GitHub 存储库

2 年 2020 月 XNUMX 日,GitHub 将复制所有活动的公共存储库 - 并将它们放置在 GitHub Arctic 存储库中。

数据将存储在 Piql(一家专门从事长期数据存储的挪威公司)提供的 3500 英尺胶片卷轴上。 根据 ISO 测量,这种卤化银聚酯薄膜的使用寿命为 500 年。 模拟老化测试表明,Piql 薄膜保留信息的时间至少是原来的两倍。

此外,GitHub Archive 正在与 Microsoft Silica 项目研究人员合作,使用飞秒激光将所有公共存储库刻录到石英玻璃晶圆上。 这种介质将确保数据安全一万年以上。

Arctic GitHub代码存储库是在永久冻土层深处250米的北极世界档案馆(AWA)的基础上创建的。 该档案馆位于距离北极不远的斯匹次卑尔根群岛的一个前煤矿内。 全球变暖只会影响几米的永久冻土,在不久的将来(几千年)不会威胁到矿山。

斯瓦尔巴群岛受到监管 国际条约 就像非军事区一样。 据 GitHub 称,它是地球上最偏远、地缘政治最稳定​​的人类住区之一。 附近是著名的世界种子库,这是人类在世界末日发生时的主要希望。

GitHub 创建了一个千年存储库,将在其中为子孙后代保存开源存储库
世界种子库斯瓦尔巴特群岛

AWA 是挪威国有矿业公司 Norske Spitsbergen Kulkompani (SNSK) 和数字保存提供商 Piql AS 之间的联合计划。 来自意大利、巴西、挪威、梵蒂冈等国家的历史和文化数据已经存储在那里。

GitHub 创建了一个千年存储库,将在其中为子孙后代保存开源存储库
照片:盖伊·马丁/彭博商业周刊

GitHub 代码卷将存储在密封室内的钢边容器中。 02.02.2020 年 100 月 200 日的快照将包括所有活动的 GitHub 存储库和大部分不活动的存储库(根据星号、依赖项等判断),所有二进制文件最大为 120 KB。 每个存储库都位于单独的 tar 文件中。 一切都应该适合 XNUMX XNUMX GB 线轴。

与存档一起的还有人类可读的目录和有关 QR 解码、文件格式、字符编码和其他重要元数据的技术手册,以便后代可以将数据转换回源代码。

该档案还将包括通用技术树指南,以防未来的读者用完可用的计算机而不得不从头开始重建技术。

来源: habr.com

添加评论