Un'ex miniera di carbone che ospiterà la struttura di stoccaggio dell'Arctic World Archive.
Il software libero è la pietra angolare della civiltà moderna e il patrimonio comune di tutta l’umanità. Missione
Per fare ciò, GitHub creerà molte copie di backup su diversi supporti, inclusa l'archiviazione a lungo termine
Il 2 febbraio 2020 verrà scattata un'istantanea del codice software dell'umanità.
Il progetto di archiviazione dei dati a lungo termine è stato lanciato insieme alla Long Now Foundation, all’Internet Archive, alla Software Heritage Foundation, all’Arctic World Archive e ad altri partner.
Progetto LOCKSS
Il codice che oggi è vitale può essere dimenticato o perso nel tempo. La cosa peggiore è che in caso di catastrofe globale perderemo tutte le informazioni archiviate su supporti “effimeri”: HDD, SSD, CD e DVD, progettati per diversi decenni, su nastri la cui durata di servizio condizionale di 30 anni richiede controllo rigoroso della temperatura e dell'umidità.
La soluzione al problema è la duplicazione delle copie di backup, ovvero l'archiviazione del software da parte di più organizzazioni e in forme diverse. Questo progetto chiamato
I progettisti del sistema presumono che l'hardware possa essere molto più durevole dei media effimeri: quindi, "ci sono una serie di futuri possibili in cui esistono computer moderni funzionanti, ma il loro software è in gran parte perduto".
GitHub ci ricorda molte tecnologie perdute che avrebbero potuto essere utili:
Archivio GitHub
GitHub Archive fornisce tre livelli di backup:
- caldo: quasi in tempo reale
- caldo: aggiornato ad intervalli da un mese ad un anno
- freddo: aggiornato ogni 5+ anni
Dopo qualsiasi azione da parte degli utenti GitHub, tutti i dati Git vengono replicati su più data center in tutto il mondo. I backup Git, i problemi, le richieste pull e tutti i dati utente su GitHub sono archiviati in diversi posti. Queste informazioni sono disponibili in tempo reale tramite l'API GitHub.
Inoltre, l'indicizzazione ricorsiva è organizzata dal crawler GHTorrent, che caricherà gli archivi su base giornaliera o mensile. Attraverso GH Archive, è possibile ottenere immagini dall'archivio utilizzando query BigQuery. Altre copie del codice sono ospitate nella famosa Time Machine di Internet Archive, che memorizza le copie in più posizioni. Infine, la Software Heritage Foundation eseguirà regolarmente la scansione di GitHub e aggiungerà i suoi repository pubblici al suo archivio, che ha un'API pubblica.
Repository GitHub artico
Il 2 febbraio 2020, GitHub creerà una copia di tutti i repository pubblici attivi e li inserirà nel repository GitHub Arctic.
I dati verranno archiviati su bobine di pellicola da 3500 piedi fornite da Piql, una società norvegese specializzata nell'archiviazione di dati a lungo termine. Secondo le misurazioni ISO, questa pellicola di poliestere agli alogenuri d'argento ha una durata di 500 anni. Test di invecchiamento simulato hanno dimostrato che la pellicola Piql conserva le informazioni almeno il doppio del tempo.
Inoltre, GitHub Archive sta collaborando con i ricercatori del progetto Microsoft Silica per masterizzare tutti i repository pubblici su wafer di vetro al quarzo utilizzando un laser a femtosecondi. Questo mezzo garantirà la sicurezza dei dati per più di 10 anni.
Il repository del codice Arctic GitHub viene creato sulla base dell'Arctic World Archive (AWA) a una profondità di 250 metri nel permafrost. L'archivio si trova in un'ex miniera di carbone nell'arcipelago di Spitsbergen, non molto lontano dal Polo Nord. Il riscaldamento globale interesserà solo pochi metri di permafrost e non minaccerà la miniera nel prossimo futuro (diverse migliaia di anni).
Le Svalbard sono regolamentate
Svalbard World Seed Store
AWA è un’iniziativa congiunta tra la società mineraria statale norvegese Norske Spitsbergen Kulkompani (SNSK) e il fornitore di conservazione digitale Piql AS. Qui sono già archiviati dati storici e culturali provenienti da Italia, Brasile, Norvegia, Vaticano e altri paesi.
Le bobine del codice GitHub verranno archiviate in un contenitore con i lati in acciaio all'interno di una camera sigillata. Lo snapshot del 02.02.2020 includerà tutti i repository GitHub attivi e una parte significativa di quelli inattivi (a giudicare dalle stelle, dipendenze, ecc.), tutti i file binari fino a 100 KB. Ogni repository in un file tar separato. Tutto dovrebbe contenere 200 bobine da 120 GB.
Insieme all'archivio ci sarà un catalogo leggibile dall'uomo e manuali tecnici sulla decodifica QR, formati di file, codifiche di caratteri e altri metadati importanti in modo che i discendenti possano riconvertire i dati nel codice sorgente.
L'archivio includerà anche una guida generale all'Albero tecnologico nel caso in cui i futuri lettori rimangano senza computer funzionanti e debbano ricostruire la tecnologia da zero.
Fonte: habr.com