Sauvegarder Internet.

( Message d’origine posté sur un forum de discussion le 18 décembre 2007)

Aujourd’hui je vais vous parler d’un projet un peu fou qui me trotte dans la tête depuis quelques temps déjà : la sauvegarde du contenu de valeur sur Internet. Qu’est-ce que j’entends par là ? Depuis une dizaine d’année Internet a pénétré nos usages de façon considérable, le Web a transformé notre façon d’échanger. Aujourd’hui, même s’il est encore bien tôt (par rapport à notre espérance de vie par exemple), je pense que le Réseau a atteint un premier stade de maturité. Et nous avec. Comme tout nouvel outil, il avait besoin d’être appréhendé et après deux bulles successives (la première, celle des startups & co, la seconde, celle du 2.0, user generated content) je pense que l’engouement aveugle commence à se faire plus mature, que le soufflé commence à retomber pour laisser entr’apercevoir l’essentiel, ce qui survit aux modes et ce qui fait la valeur du réseau mondial.

Désormais, il existe pléthore de sites et de blogs qui sont de grande qualité car tenus et rédigés par des professionnels, par des acteurs impliqués chacuns dans leur domaine, bref, par des gens qui savent de quoi ils parlent. Interviews, cours, récits, débats, Internet est une nouvelle couche-support de l’activité sociale et créative humaine. Pas forcément meilleure que les autres “couches-support”, mais bel et bien existante et intégrée a notre activité.

Dés lors, il m’apparaît primordial de protéger, de consigner, de sauvegarder ce que le web produit d’intéressant, de révélateur, d’un point de vue social, historique, artistique. Nous avons les bibliothèques, nous avons les discothèques, les ludothèques, les musées, nous protégeons déjà tout cela, pourquoi attendre pour protéger ce début d’histoire si riche et tellement tumultueux qu’est la naissance, l’apprivoisement par ses utilisateurs et la diffusion d’Internet ?

Le concret - existant :

Archive.org : The wayback machine.
Ce site utilise un robot Java d’indexation appelé Heritrix. Wikipédia nous dit : Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première sortie officielle a eu lieu en janvier 2004. Il y a 4 ans. Hélas c’est un robot, il ne filtre donc pas le contenu qu’il archive et si l’exhaustivité empreinte d’humanisme est belle, dans un premier temps elle n’est pas envisageable, je pense. Sans compter que pour le moment, Heritrix est loin d’être parfait, les utilisateurs d’archive.org le savent bien.

Le dépot légal Internet - Bibliotheque Nationale de France.
La BNF a lancé son programme de protection du contenu Internet en 1999. Les premiers tests ont été faits en 2001-2002 comme nous l’apprend l’historique intéressant. A la question “pourrons-nous consulter les archives” voici la réponse actuelle :

Citation:
La loi prévoit que les archives seront consultables sur place dans les salles de recherche de la BnF, comme les autres collections issues du dépôt légal.

Elle introduit en effet une exception au droit d’auteur et aux droits voisins au profit des organismes dépositaires, qui leur permettra de reproduire sur tout support et par tout procédé les œuvres pour les besoins du dépôt légal.

Le texte prévoit que les conditions de sélection et de consultation des informations collectées doivent être fixées par décret en Conseil d’Etat après avis de la CNIL. Des garanties seront nécessaires au regard de la loi informatique et Libertés avant que ces données soient mises à la disposition des chercheurs. La consultation des archives ne sera possible que dans l’emprise de la BnF (niveau recherche) et par des chercheurs dûment accrédités.

Et la, selon moi, ça ne colle pas avec la mentalité Internet.

De mémoire il existe d’autres programmes étrangers et internationaux, je m’étais documenté il y a presque 2 ans, mais tous impliquent des dizaines d’universités ou d’organismes d’état. J’en avais parlé avec un des intervenants que j’avais eu en cours et qui avait bossé en R&D dans des grosses boites de télécommunication / informatique, il m’avait dit que ce genre de projets lorsqu’ils étaient initiés avec tant d’acteurs avaient une inertie bien trop importante qui ne collait pas avec la rapidité de changement d’internet, ce que je pense aussi. Moi je crois au pouvoir des utilisateurs, on en vient donc à mon idée.

Le concret - à venir ? :

Mes observations : le nombre de personnes qui disposent d’un espace FTP explose. La capacité de stockage en ligne explose elle aussi, on voit apparaître des solutions de sauvegarde de fichiers décentralisées, des solutions d’interopérabilité entre nos disques durs et nos FTP, des synchronisations transparentes. Le nombre d’Internautes qui regrettent au moins la disparition d’un site, d’une video, d’une image bref d’un contenu qui n’est plus en ligne doit être pas loin des 80%.

Mon idée : Et si tout le monde créait un répertoire, nommons-le par exemple STW (pour save the web, on repassera pour l’inventivité), à la racine de son espace FTP Et si chacun prenait soin, de temps à autre, d’y copier un contenu qu’il a apprécié, en suivant une certaine charte pour permettre d’en identifier la source, l’auteur et la date de sauvegarde, à la manière des creative commons. Images, fichiers flash, screencasts ou même fichiers texte, captures d’écran, que sais-je. Et si nous faisions ensuite un site permettant de référencer ces répertoires et d’effectuer des recherches sur leur contenu ? On obtiendrait une solution de sauvegarde réactive, répartie sur des milliers d’utilisateurs donc accessible (archive.org est down au moment ou je tape ce post) dont la redondance serait une force bref, ça pourrait être cool non ? On pourrait même imaginer un plugin firefox qui à la manière de ces “aspirateurs de site” qu’on pouvait acheter en 1997 à la Fnac pour surfer plus vite permettrait en un clic de sauvegarder de la meilleure façon qui soit la page sur laquelle on se trouve directement dans son répertoire STW ? Un peu à l’image d’un SETI at home mais au lieu d’exploiter la puissance de calcul non utilisée on utiliserait l’espace de stockage non utilisé…

Bref, je rêve de voir un système du genre se mettre en place. Vous en pensez quoi, des personnes intéressées ? Je pense lancer un site prochainement pour mettre un peu en forme ces idées, pourquoi pas lancer une mailing list et essayer de rassembler des gens (pas trop, mais compétents) pour faire sortir le bébé.

________________

Message d’origine posté sur un forum de discussion le 18 décembre 2007, un développeur qui avait bossé chez Microsoft sur des problématiques de moteur de recherche avait pris contact avec moi, il faudrait que j’arrive à poser les bases du truc pour reprendre contact avec lui et voir comment attaquer.

Les premiers mails autour de cette idée que j’ai retrouvé remontent au 29 aout 2006, je voulais alors proposer cette idée aux Gobelins (le 05 septembre 2006) pour en faire un projet de seconde année. J’avais eu une autre idée qui était celle d’un annuaire des services “2.0″ utilisés par nos amis afin de pouvoir les suivre en un unique lieu, idée motivée devant le constat de la multiplication des profils (un pour myspace, un pour flickr, un pour delicious, un pour twitter…), elle s’apparentait peu ou prou à ce qu’a fait Friendfeed.

Si je poste ceci aujourd’hui c’est car France Inter a consacré une émission à cette thématique, “J’ai mes sources : faut-il sauvegarder Internet et comment le faire“. Je compte l’écouter ce soir. Je suis convaincu que cette problématique est on-ne-peut-plus d’actualité, s’il y a bien quelque chose qui m’énerve sur Internet c’est la volatilité de ses acteurs. La raison est simple, on est tous pour la plupart des technophiles et du coup la nouveauté nous excite, elle nous excite tellement qu’on veut toujours faire quelque chose qui exploite cette nouveauté. Les widgets, la recommandation utilisateur, le tactile, la 3D… Et du coup on en oublie des choses moins sexy mais tout autant intéressantes, tout autant porteuses de business…

A titre indicatif, voici quelques sites que je jugeais intéressants, qui selon moi avaient rassemblé du contenu riche, et qui sont morts ces six derniers mois :

LOUNGE72.COM
PIXELSURGEON.COM
MADE-IN-STRATOR.COM
NICETOMEETYOU / NTMY.ORG

Je ne veux pas qu’Internet reste un éternel amas de présent, sans histoire, je ne veux pas ne pas être capable de montrer à mes gosses les sites sur lesquels je surfais, je ne veux pas -si j’enseigne un jour l’histoire de l’art numérique- être dans l’impossibilité de trouver des matériaux pour montrer à mes étudiants les diverses tendances graphiques qui ont rythmé les débuts d’Internet. Je pense que mon idée et son application méritent d’être poussées un peu plus loin, et au delà de mon idée je pense que le problème mérite qu’on s’y intéresse. Si un jour Étienne Mineur effaçait son blog, si Peter Gabor ou Xavier Senente faisaient de même, je pense que du contenu vraiment intéressant serait perdu et que ce serait dommage. A ce jour la pérennité du contenu sur Internet est on ne peut moins certaine.

Et vous, vous en pensez quoi ?

3 Responses to “Sauvegarder Internet.”


  1. 1 Xavier SENENTE

    Entièrement d’accord ! Je suis moi même, en tant qu’enseignant, confronté à ce problème régulièrement. Combien de fois m’est il arrivé de vouloir montrer un site qui venait juste de changer de version ou tout simplement d’être supprimé. J’ai bien tenté d’utiliser les aspirateurs de site pour conserver une trace de certains d’entre eux, mais cela reste limité (comment faire pour les sites flash par exemple ?)

  2. 2 SOYMALAU

    Pour les sites flash ça s’apparente parfois presque à du hack, je passe par la source quand je veux retrouver les SWF, souvent je suis obligé de décompiler pour remonter les loadMovie et télécharger les différents morceaux un par un. Mais pour cela, avec l’explosion des espaces de stockages et des débits (synchronisés bientôt avec la Fibre), je pense que le screencasting (capture vidéo de ce qu’il se passe à l’écran, avec le curseur etc) en taille 1:1 et l’upload en temps réel peuvent être une bonne alternative. Ça ne permettrait pas de reproduire l’interactivité (dans le sens permettre aux gens de naviguer à leur tour) mais au moins de la “capturer”. En attendant des solutions meilleures…

    J’ai écouté l’émission sur France Inter, et le monsieur de l’INA parle carrément de permettre de naviguer sur des couches passées d’Internet. Je ne suis pas convaincu de la pertinence et de l’intérêt de reproduire Internet à un temps -T donné, je pense qu’il serait bien suffisant de consigner les contenus sans forcément reproduire tous les liens entre eux, il faudrait repasser par un moteur de recherche central pour passer de l’un à l’autre.

    En attendant je sauve ce que je peux sur Archive.org

  3. 3 malau

    Je suis en train d’uploader des choses ici : http://soymalau.com/SAVE.zip

    Il y a du super vieux genre 2002 / 2001 (Vectorlounge, 123Klan…)

Leave a Reply