Nouvel outil de calcul plus précis pour le séquençage d’ARN à lecture longue

par Houssen Moshinaly · 21 janvier 2023

Suivez-nous sur notre page Facebook et notre canal Telegram

Au cours du voyage du gène à la protéine, une molécule d’ARN naissante peut être coupée et jointe, ou épissée, de différentes manières avant d’être traduite en protéine. Ce processus, connu sous le nom d’épissage alternatif, permet à un seul gène de coder plusieurs protéines différentes. L’épissage alternatif se produit dans de nombreux processus biologiques, comme lorsque les cellules souches mûrissent en cellules spécifiques aux tissus. Dans le contexte de la maladie, cependant, l’épissage alternatif peut être dérégulé. Par conséquent, il est important d’examiner le transcriptome – c’est-à-dire toutes les molécules d’ARN qui pourraient provenir de gènes – pour comprendre la cause première d’une maladie.

Cependant, historiquement, il a été difficile de “lire” les molécules d’ARN dans leur intégralité car elles sont généralement longues de milliers de bases. Au lieu de cela, les chercheurs se sont appuyés sur le soi-disant séquençage d’ARN à lecture courte, qui brise les molécules d’ARN et les séquence en morceaux beaucoup plus courts – quelque part entre 200 et 600 bases, selon la plate-forme et le protocole. Des programmes informatiques sont ensuite utilisés pour reconstruire les séquences complètes des molécules d’ARN. Le séquençage d’ARN à lecture courte peut fournir des données de séquençage très précises, avec un faible taux d’erreur par base d’environ 0,1 % (ce qui signifie qu’une base est déterminée de manière incorrecte pour 1 000 bases séquencées). Néanmoins, il est limité dans les informations qu’il peut fournir en raison de la courte durée des lectures de séquençage. À bien des égards, le séquençage d’ARN à lecture courte revient à diviser une grande image en plusieurs pièces de puzzle qui ont toutes la même forme et la même taille, puis à essayer de reconstituer l’image.

Récemment, des plates-formes «à lecture longue» capables de séquencer des molécules d’ARN de plus de 10 000 bases de bout en bout sont devenues disponibles. Ces plateformes ne nécessitent pas que les molécules d’ARN soient décomposées avant d’être séquencées, mais elles ont un taux d’erreur par base beaucoup plus élevé, généralement entre 5 % et 20 %. Cette limitation bien connue a gravement entravé l’adoption généralisée du séquençage d’ARN à lecture longue. En particulier, le taux d’erreur élevé a rendu difficile la détermination de la validité de nouvelles molécules d’ARN précédemment inconnues découvertes dans une condition ou une maladie particulière.

Pour contourner ce problème, des chercheurs de l’hôpital pour enfants de Philadelphie (CHOP) ont développé un nouvel outil de calcul qui peut découvrir et quantifier plus précisément les molécules d’ARN à partir de ces données de séquençage d’ARN à lecture longue sujettes aux erreurs. L’outil, appelé ESPRESSO (Error Statistics PRomoted Evaluator of Splice Site Options), a été signalé aujourd’hui dans Avancées scientifiques.

“Le séquençage de l’ARN à lecture longue est une technologie puissante qui nous permettra de découvrir la variation de l’ARN dans les maladies génétiques rares et d’autres conditions, comme le cancer”, a déclaré Yi Xing, PhD, directeur du Centre de médecine computationnelle et génomique du CHOP et auteur principal. de l’étude. “Nous sommes probablement à un point d’inflexion dans la façon dont nous découvrons et analysons les molécules d’ARN. La transition du séquençage d’ARN à lecture courte au séquençage à lecture longue représente une transformation technologique passionnante, et des outils informatiques qui interprètent de manière fiable les données de séquençage d’ARN à lecture longue sont nécessaires de toute urgence. .”

ESPRESSO peut découvrir et quantifier avec précision différentes molécules d’ARN du même gène – connues sous le nom d’isoformes d’ARN – en utilisant uniquement des données de séquençage d’ARN à lecture longue sujettes aux erreurs. Pour ce faire, l’outil de calcul compare toutes les longues lectures de séquençage d’ARN d’un gène donné à son ADN génomique correspondant, puis utilise les schémas d’erreur des longues lectures individuelles pour identifier en toute confiance les jonctions d’épissage – les endroits où la molécule d’ARN naissante a été coupée et joints – ainsi que leurs isoformes d’ARN pleine longueur correspondantes. En trouvant des zones de correspondances parfaites entre les longues lectures de séquençage d’ARN et l’ADN génomique, ainsi qu’en empruntant des informations sur toutes les longues lectures de séquençage d’ARN d’un gène, l’outil est capable d’identifier des jonctions d’épissage et des isoformes d’ARN hautement fiables, y compris celles qui n’ont pas été précédemment documentés dans les bases de données existantes.

Les chercheurs ont évalué les performances d’ESPRESSO à l’aide de données simulées et de données sur de vrais échantillons biologiques. Ils ont constaté qu’ESPRESSO fonctionne mieux que plusieurs outils actuellement disponibles, à la fois en termes de découverte d’isoformes d’ARN et de quantification de celles-ci. Les chercheurs ont également généré et analysé plus d’un milliard de longues lectures de séquençage d’ARN couvrant 30 types de tissus humains et trois lignées cellulaires humaines, fournissant une ressource utile pour étudier la variation du transcriptome humain à la résolution des isoformes d’ARN de pleine longueur.

“ESPRESSO résout un problème de longue date de séquençage d’ARN à lecture longue et pourrait ouvrir la voie à de nouvelles opportunités de découverte”, a déclaré le Dr Xing. “Nous prévoyons qu’ESPRESSO sera un outil utile pour les chercheurs pour explorer le répertoire d’ARN des cellules dans divers contextes biomédicaux et cliniques.”

Ce travail a été soutenu en partie par le réseau translationnel d’immuno-oncologie (IOTN) de l’initiative Cancer Moonshot du National Cancer Institute (U01CA233074), d’autres financements des National Institutes of Health (R01GM088342, R01GM121827 et R56HG012310), ainsi qu’un National Institutes of Health Subvention de formation T32 en génomique computationnelle (T32HG000046).