Un système d’exploitation et un petit film stocké dans l’ADN

par Houssen Moshinaly · Publié 3 mars 2017 · Mis à jour 7 octobre 2017

Une nouvelle stratégie permet d’améliorer le stockage dans l’ADN. Les chercheurs ont ainsi pu stocker un système d’exploitation et un petit film sur l’ADN.

Suivez-nous sur notre page Facebook et notre canal Telegram

À mesure que la science progresse, elle génère tellement de données que les disques durs n’arrivent plus à suivre. Depuis quelques années, les chercheurs se tournent vers la nature en stockant de l’information dans l’ADN. Dans une nouvelle étude publiée dans Science, des chercheurs de l’université de Columbia et du New York Genome Center (NYGC) montrent qu’un algorithme conçu pour la vidéo en streaming sur un téléphone peut déverrouiller tout le potentiel de stockage des cellules ADN en compressant plus d’informations dans les 4 nucléotides de base. Et ils démontrent que la technologie est très fiable.

L’ADN est le stockage idéal parce qu’il est ultra-compact et il peut durer des centaines de milliers d’années s’il est préservé dans un endroit sec et froid. Ainsi, on a pu découvrir de l’ADN préservé dans les ossements d’un ancêtre des humains qui datait de 430 000 dans une grotte en Espagne.

L’ADN ne se dégrade pas au fil du temps contrairement aux cassettes ou aux DVD et il ne devient pas obsolète selon Yaniv Erlich, un professeur d’informatique au Columbia Engineering. Erlich et sa collègue Dina Zielinski, professeure adjointe au NYGC, ont choisi 6 fichiers pour l’écriture sur l’ADN. Ainsi, on a un système d’exploitation, un film français de 1895 intitulé L’Arrivée d’un train en gare de La Ciotat, un bon d’achat d’Amazon de 50 dollars, un virus informatique, une plaque de Pioneer et une étude sur la théorie de l’information de Claude Shannon de 1948.

Ils ont compressé ces fichiers dans un fichier Master et ils ont fractionné les données en de courtes chaines de code binaire composé de 1 et de 0. En utilisant un algorithme qui corrige les effacements appelés Fountain Codes, ils ont comprimé aléatoirement les changements dans ce qu’on appelle des Droplets et ils ont cartographié les 1 et les 0 dans chaque Droplet sur les bases nucléotides de l’ADN qui sont l’A, G, C et le T. L’algorithme a supprimé les combinaisons de lettres connues pour créer des erreurs et ils ont ajouté un code-barre pour chaque Droplet pour aider à restaurer les fichiers plus tard.

En tout, ils ont généré une liste numérique de 72 000 brins d’ADN d’une longueur de 200 bases et ils l’ont envoyé dans un fichier texte à une startup spécialisée dans la synthèse de l’ADN appelé Twist Bioscience. Cette firme transforme les données numériques en informations biologiques. 2 semaines plus tard, ils ont reçu une fiole contenant des molécules d’ADN.

Pour restaurer leurs fichiers, ils ont utilisé une technologie de séquençage pour lire les brins d’ADN suivi par un logiciel qui convertit le code génétique dans le binaire. Et ils ont restauré les fichiers sans aucune erreur.

Les chercheurs ont également démontré qu’on pouvait créer des copies illimitées des fichiers avec leur technique d’encodage en multipliant les échantillons d’ADN via la Réaction en chaîne par polymérase (PCR) et que ces copies, et même des copies de ces copies, pouvaient être restaurées sans aucune erreur. Finalement, les chercheurs ont démontré que leur stratégie de codage peut stocker jusqu’à 215 pétabytes (environ 1 000 térabytes) dans un seul gramme d’ADN. Pour les chercheurs, c’est la plus haute densité de stockage qui a été créé.

En théorie, la capacité du stockage sur l’ADN est limitée par les 2 valeurs binaires pour chaque nucléotide, mais les contraintes biologiques de l’ADN et la nécessité d’inclure de l’information redondante pour la restauration et la lecture des fragments a réduit cette capacité à 1,8 valeur binaire par base de nucléotide.

Avec la technique des Fountain Codes, l’équipe a pu mettre une moyenne de 1,6 bit pour chaque base de nucléotide et c’est 60 % supérieur à d’autres techniques de stockage sur l’ADN. Mais le stockage sur l’ADN coute encore très cher. Les chercheurs ont dépensé 7 000 dollars pour synthétiser l’ADN pour stocker 2 Mo de donnée et 2 000 dollars pour lire ces données. Même si le prix du séquençage ADN a énormément baissé, ce n’est pas la même chose pour la synthèse de l’ADN. Mais on peut réduire les couts si on produit des molécules de faible qualité et des stratégies comme les Fountain Codes permettent de réduire les erreurs moléculaires.

Source : Revue Science (http://science.sciencemag.org/cgi/doi/10.1126/science.aaj2038)