GitHub ha creato un repository millenario in cui conserverà i repository Open Source per i posteri

GitHub ha creato un repository millenario in cui conserverà i repository Open Source per i posteri
Un'ex miniera di carbone che ospiterà la struttura di stoccaggio dell'Arctic World Archive. foto: Guy Martin/Bloomberg Businessweek

Il software libero è la pietra angolare della civiltà moderna e il patrimonio comune di tutta l’umanità. Missione Programmi di archivio GitHub - preservare questo codice per le generazioni future affinché la storia della Biblioteca di Alessandria non si ripeta mai.

Per fare ciò, GitHub creerà molte copie di backup su diversi supporti, inclusa l'archiviazione a lungo termine Archivio del codice artico sullo Spitsbergen. Si trova in un'ex miniera di carbone a una profondità di 250 metri nel permafrost ed è progettato per una durata di almeno 1000 anni.

Il 2 febbraio 2020 verrà scattata un'istantanea del codice software dell'umanità.

Il progetto di archiviazione dei dati a lungo termine è stato lanciato insieme alla Long Now Foundation, all’Internet Archive, alla Software Heritage Foundation, all’Arctic World Archive e ad altri partner.

Progetto LOCKSS

Il codice che oggi è vitale può essere dimenticato o perso nel tempo. La cosa peggiore è che in caso di catastrofe globale perderemo tutte le informazioni archiviate su supporti “effimeri”: HDD, SSD, CD e DVD, progettati per diversi decenni, su nastri la cui durata di servizio condizionale di 30 anni richiede controllo rigoroso della temperatura e dell'umidità.

La soluzione al problema è la duplicazione delle copie di backup, ovvero l'archiviazione del software da parte di più organizzazioni e in forme diverse. Questo progetto chiamato LOCKSS è ancora iniziato quasi 20 anni. Il programma è stato presentato a maggio 2019 LOCKSS 2.0-alfa - il primo prototipo di software per l'archiviazione distribuita dei dati per lungo tempo con supporto per più partecipanti e archiviazione esterna.

I progettisti del sistema presumono che l'hardware possa essere molto più durevole dei media effimeri: quindi, "ci sono una serie di futuri possibili in cui esistono computer moderni funzionanti, ma il loro software è in gran parte perduto".

GitHub ci ricorda molte tecnologie perdute che avrebbero potuto essere utili: cemento romano (la sua ricetta è stata riscoperta solo nel 2014), farmaco antimalarico DFDT, perduto disegni del razzo Saturn 5. È facile immaginare un futuro in cui il software di oggi viene visto come un elemento non essenziale, caratteristico e dimenticato da tempo, finché non si presenta un'inaspettata necessità: "Come ogni backup, anche il programma di archivio di GitHub è progettato per un futuro imprevisto", afferma GitHub del programma. Archivio del sito web.

Archivio GitHub

GitHub Archive fornisce tre livelli di backup:

  • caldo: quasi in tempo reale
  • caldo: aggiornato ad intervalli da un mese ad un anno
  • freddo: aggiornato ogni 5+ anni

Dopo qualsiasi azione da parte degli utenti GitHub, tutti i dati Git vengono replicati su più data center in tutto il mondo. I backup Git, i problemi, le richieste pull e tutti i dati utente su GitHub sono archiviati in diversi posti. Queste informazioni sono disponibili in tempo reale tramite l'API GitHub.

Inoltre, l'indicizzazione ricorsiva è organizzata dal crawler GHTorrent, che caricherà gli archivi su base giornaliera o mensile. Attraverso GH Archive, è possibile ottenere immagini dall'archivio utilizzando query BigQuery. Altre copie del codice sono ospitate nella famosa Time Machine di Internet Archive, che memorizza le copie in più posizioni. Infine, la Software Heritage Foundation eseguirà regolarmente la scansione di GitHub e aggiungerà i suoi repository pubblici al suo archivio, che ha un'API pubblica.

Repository GitHub artico

Il 2 febbraio 2020, GitHub creerà una copia di tutti i repository pubblici attivi e li inserirà nel repository GitHub Arctic.

I dati verranno archiviati su bobine di pellicola da 3500 piedi fornite da Piql, una società norvegese specializzata nell'archiviazione di dati a lungo termine. Secondo le misurazioni ISO, questa pellicola di poliestere agli alogenuri d'argento ha una durata di 500 anni. Test di invecchiamento simulato hanno dimostrato che la pellicola Piql conserva le informazioni almeno il doppio del tempo.

Inoltre, GitHub Archive sta collaborando con i ricercatori del progetto Microsoft Silica per masterizzare tutti i repository pubblici su wafer di vetro al quarzo utilizzando un laser a femtosecondi. Questo mezzo garantirà la sicurezza dei dati per più di 10 anni.

Il repository del codice Arctic GitHub viene creato sulla base dell'Arctic World Archive (AWA) a una profondità di 250 metri nel permafrost. L'archivio si trova in un'ex miniera di carbone nell'arcipelago di Spitsbergen, non molto lontano dal Polo Nord. Il riscaldamento globale interesserà solo pochi metri di permafrost e non minaccerà la miniera nel prossimo futuro (diverse migliaia di anni).

Le Svalbard sono regolamentate trattato internazionale come una zona smilitarizzata. Secondo GitHub, è uno degli insediamenti umani più remoti e geopoliticamente stabili sulla Terra. Nelle vicinanze si trova il famoso World Seed Vault, la principale speranza dell’umanità in caso di apocalisse.

GitHub ha creato un repository millenario in cui conserverà i repository Open Source per i posteri
Svalbard World Seed Store

AWA è un’iniziativa congiunta tra la società mineraria statale norvegese Norske Spitsbergen Kulkompani (SNSK) e il fornitore di conservazione digitale Piql AS. Qui sono già archiviati dati storici e culturali provenienti da Italia, Brasile, Norvegia, Vaticano e altri paesi.

GitHub ha creato un repository millenario in cui conserverà i repository Open Source per i posteri
foto: Guy Martin/Bloomberg Businessweek

Le bobine del codice GitHub verranno archiviate in un contenitore con i lati in acciaio all'interno di una camera sigillata. Lo snapshot del 02.02.2020 includerà tutti i repository GitHub attivi e una parte significativa di quelli inattivi (a giudicare dalle stelle, dipendenze, ecc.), tutti i file binari fino a 100 KB. Ogni repository in un file tar separato. Tutto dovrebbe contenere 200 bobine da 120 GB.

Insieme all'archivio ci sarà un catalogo leggibile dall'uomo e manuali tecnici sulla decodifica QR, formati di file, codifiche di caratteri e altri metadati importanti in modo che i discendenti possano riconvertire i dati nel codice sorgente.

L'archivio includerà anche una guida generale all'Albero tecnologico nel caso in cui i futuri lettori rimangano senza computer funzionanti e debbano ricostruire la tecnologia da zero.

Fonte: habr.com

Aggiungi un commento