Un modèle de langage naturel relance la conception de protéines avec la création d’enzymes actives

par Houssen Moshinaly · 28 janvier 2023

Suivez-nous sur notre page Facebook et notre canal Telegram

Les scientifiques ont créé un système d’IA capable de générer des enzymes artificielles à partir de zéro. Lors de tests en laboratoire, certaines de ces enzymes fonctionnaient aussi bien que celles trouvées dans la nature, même lorsque leurs séquences d’acides aminés générées artificiellement divergeaient considérablement de toute protéine naturelle connue.

L’expérience démontre que le traitement du langage naturel, bien qu’il ait été développé pour lire et écrire du texte, peut apprendre au moins certains des principes sous-jacents de la biologie. Salesforce Research a développé le programme d’IA, appelé ProGen, qui utilise la prédiction du prochain jeton pour assembler des séquences d’acides aminés en protéines artificielles.

Les scientifiques ont déclaré que la nouvelle technologie pourrait devenir plus puissante que l’évolution dirigée, la technologie de conception de protéines lauréate du prix Nobel, et qu’elle dynamiserait le domaine de l’ingénierie des protéines, vieux de 50 ans, en accélérant le développement de nouvelles protéines pouvant être utilisées pour presque tout. de la thérapeutique au plastique dégradant.

“Les conceptions artificielles fonctionnent bien mieux que les conceptions inspirées par le processus évolutif”, a déclaré James Fraser, PhD, professeur de bio-ingénierie et de sciences thérapeutiques à l’UCSF School of Pharmacy et auteur des travaux, qui ont été publiés le 26 janvier. , dans Biotechnologie naturelle.

“Le modèle linguistique apprend des aspects de l’évolution, mais il est différent du processus évolutif normal”, a déclaré Fraser. “Nous avons maintenant la capacité d’ajuster la génération de ces propriétés pour des effets spécifiques. Par exemple, une enzyme qui est incroyablement thermostable ou qui aime les environnements acides ou qui n’interagira pas avec d’autres protéines.”

Pour créer le modèle, les scientifiques ont simplement introduit les séquences d’acides aminés de 280 millions de protéines différentes de toutes sortes dans le modèle d’apprentissage automatique et l’ont laissé digérer les informations pendant quelques semaines. Ensuite, ils ont affiné le modèle en l’amorçant avec 56 000 séquences de cinq familles de lysozymes, ainsi que des informations contextuelles sur ces protéines.

Le modèle a rapidement généré un million de séquences, et l’équipe de recherche en a sélectionné 100 à tester, en fonction de leur ressemblance avec les séquences de protéines naturelles, ainsi que du caractère naturaliste de la “grammaire” et de la “sémantique” des acides aminés sous-jacents des protéines AI.

Sur ce premier lot de 100 protéines, qui ont été criblées in vitro par Tierra Biosciences, l’équipe a fabriqué cinq protéines artificielles à tester dans des cellules et a comparé leur activité à une enzyme présente dans les blancs d’œufs de poule, connue sous le nom de lysozyme de blanc d’œuf de poule. (HEWL). Des lysozymes similaires se trouvent dans les larmes, la salive et le lait humains, où ils se défendent contre les bactéries et les champignons.

Deux des enzymes artificielles étaient capables de décomposer les parois cellulaires de bactéries avec une activité comparable à HEWL, mais leurs séquences n’étaient identiques qu’à environ 18% l’une de l’autre. Les deux séquences étaient identiques à environ 90 % et 70 % à toute protéine connue.

Une seule mutation dans une protéine naturelle peut l’empêcher de fonctionner, mais lors d’un autre cycle de dépistage, l’équipe a découvert que les enzymes générées par l’IA montraient une activité même lorsqu’aussi peu que 31,4 % de leur séquence ressemblaient à une protéine naturelle connue.

L’IA a même pu apprendre comment les enzymes devaient être façonnées, simplement en étudiant les données de séquence brutes. Mesurées avec la cristallographie aux rayons X, les structures atomiques des protéines artificielles semblaient juste comme elles le devraient, bien que les séquences ne ressemblaient à rien de vu auparavant.

Salesforce Research a développé ProGen en 2020, basé sur une sorte de programmation en langage naturel que leurs chercheurs ont initialement développée pour générer du texte en anglais.

Ils savaient d’après leurs travaux précédents que le système d’IA pouvait apprendre par lui-même la grammaire et le sens des mots, ainsi que d’autres règles sous-jacentes qui rendent l’écriture bien composée.

“Lorsque vous formez des modèles basés sur des séquences avec beaucoup de données, ils sont vraiment puissants dans l’apprentissage de la structure et des règles”, a déclaré Nikhil Naik, PhD, directeur de la recherche sur l’IA chez Salesforce Research et auteur principal de l’article. “Ils apprennent quels mots peuvent coexister, ainsi que la compositionnalité.”

Avec les protéines, les choix de conception étaient presque illimités. Les lysozymes sont petits comme les protéines, avec jusqu’à environ 300 acides aminés. Mais avec 20 acides aminés possibles, il y en a un nombre énorme (20³⁰⁰) des combinaisons possibles. C’est plus que de prendre tous les humains qui ont vécu à travers le temps, multipliés par le nombre de grains de sable sur Terre, multipliés par le nombre d’atomes dans l’univers.

Compte tenu des possibilités illimitées, il est remarquable que le modèle puisse générer si facilement des enzymes de travail.

« La capacité de générer des protéines fonctionnelles à partir de rien et prêtes à l’emploi démontre que nous entrons dans une nouvelle ère de conception de protéines », a déclaré Ali Madani, PhD, fondateur de Profluent Bio, ancien chercheur chez Salesforce Research, et l’auteur de l’article. premier auteur. “Il s’agit d’un nouvel outil polyvalent à la disposition des ingénieurs en protéines, et nous sommes impatients de voir les applications thérapeutiques.”

Informations complémentaires : https://github.com/salesforce/progen