Tech

L’IA générative visualise de nouvelles structures protéiques | Nouvelles du MIT

La biologie est une tapisserie fascinante mais subtile. Situé dans le cœur se trouve l’ADN, le maître tisserand qui code les protéines et qui est responsable de la régulation de nombreuses fonctions biologiques vitales dans le corps humain. Cependant, notre corps est comme une machine finement réglée, susceptible de perdre son harmonie. Après tout, nous sommes confrontés à un monde naturel implacable et en constante évolution : agents pathogènes, virus, maladies et cancer.

Imaginez si nous pouvions accélérer la production de vaccins ou de médicaments pour les agents pathogènes nouvellement apparus. Et si nous disposions d’une technologie d’édition de gènes capable de produire automatiquement des protéines pour corriger les erreurs d’ADN qui causent le cancer ? La recherche d’identification de protéines capables de se lier fortement à des cibles ou d’accélérer des réactions chimiques est vitale pour le développement de médicaments, les diagnostics et de nombreuses applications industrielles, mais il s’agit souvent d’une entreprise à long terme et coûteuse.

Pour améliorer nos capacités d’ingénierie des protéines, les chercheurs du MIT CSAIL ont créé « FrameDiff », un outil informatique permettant de créer de nouvelles structures protéiques au-delà de ce que la nature a produit. L’approche d’apprentissage automatique génère des «cadres» qui s’alignent sur les propriétés inhérentes des structures protéiques, ce qui lui permet de construire de nouvelles protéines indépendamment des conceptions préexistantes, facilitant ainsi des structures protéiques sans précédent.

« Dans la nature, la conception de protéines est un processus à combustion lente qui prend des millions d’années. Notre technologie vise à fournir une réponse pour résoudre les problèmes créés par l’homme qui évoluent beaucoup plus rapidement que le rythme de la nature », déclare Jason Yim, doctorant au CSAIL. . Un auteur sur un nouvel article sur le travail. « L’objectif, en termes de cette nouvelle capacité à générer des structures de protéines synthétiques, déverrouille une myriade de capacités améliorées, telles que de meilleurs lieurs. Cela signifie concevoir des protéines qui peuvent se lier à d’autres molécules de manière plus efficace et sélective, avec des ramifications étendues liées à l’administration ciblée de médicaments et la technologie des biocapteurs, car cela pourrait conduire au développement de meilleurs biocapteurs Cela pourrait également avoir des implications en biomédecine et au-delà, offrant des possibilités telles que le développement de protéines photosynthétiques plus efficaces, la création d’anticorps plus efficaces et l’ingénierie de nanoparticules pour la thérapie génique . « .

READ  Hopium et Saint-Gobain Sekurit ont signé un partenariat pour développer Māchina .

Encadrement de cadre

Les protéines ont des structures complexes, composées de nombreux atomes reliés par des liaisons chimiques. Les atomes les plus importants qui définissent la forme tridimensionnelle d’une protéine sont appelés le « squelette », qui ressemble un peu au squelette d’une protéine. Chaque triplet d’atomes le long du squelette partage le même schéma de liaisons et de types d’atomes. Les chercheurs notent que ce modèle peut être exploité pour créer des algorithmes d’apprentissage automatique en utilisant des idées de géométrie différentielle et de probabilité. C’est là qu’interviennent les cadres : mathématiquement, ces triades peuvent être modélisées comme des objets solides appelés « cadres » (courants en physique) qui ont une position et une rotation tridimensionnelles.

Ces cadres fournissent à chaque trio suffisamment d’informations pour connaître leur environnement spatial. La tâche de l’algorithme d’apprentissage automatique consiste alors à apprendre à animer chaque image pour construire le squelette protéique. En apprenant la structure des protéines existantes, nous espérons que l’algorithme se généralisera et pourra créer de nouvelles protéines jamais vues auparavant dans la nature.

La formation d’un modèle pour construire des protéines par « diffusion » consiste à injecter du bruit qui déplace de manière aléatoire tous les cadres et déforme la forme de la protéine d’origine. Le travail de l’algorithme consiste à déplacer et à faire pivoter chaque image jusqu’à ce qu’elle ressemble à la protéine d’origine. Malgré sa simplicité, le développement de la diffusion sur les référentiels nécessite des techniques de calcul stochastique sur les variétés de Riemann. Sur le plan théorique, les chercheurs ont développé la « diffusion SE (3) » pour apprendre les distributions de probabilité qui relient de manière non intuitive les composants de translation et de rotation de chaque cadre.

READ  Fuite : les écouteurs WF-1000XM5 de Sony seront plus petits, plus légers et se chargeront plus rapidement

L’art de la diffusion subtile

En 2021, DeepMind a introduit AlphaFold2, un algorithme d’apprentissage en profondeur pour prédire les structures protéiques 3D à partir de leurs séquences. Lors de la création de protéines synthétiques, il y a deux étapes fondamentales : la génération et la prédiction. Générer signifie créer de nouvelles structures et séquences protéiques, tandis que « prédire » signifie savoir quelle est la structure 3D de la séquence. Ce n’est pas un hasard si AlphaFold2 utilise également des frameworks pour modéliser des protéines. SE(3) Diffusion et FrameDiff ont été inspirés pour pousser encore plus loin l’idée de cadrage en incorporant des cadres dans des modèles de prolifération, une technique de génération d’IA devenue extrêmement populaire dans la création d’images, comme Midjourney, par exemple.

Les cadres et principes communs entre la génération et la prédiction de la structure des protéines signifiaient que les meilleurs modèles des deux extrêmes étaient compatibles. En collaboration avec l’Institute for Protein Design de l’Université de Washington, la diffusion SE(3) est déjà utilisée pour créer et valider expérimentalement de nouvelles protéines. Plus précisément, ils ont combiné la diffusion SE (3) avec RosettaFold2, un outil de prédiction de la structure des protéines très similaire à AlphaFold2, entraînant une «diffusion RF». Ce nouvel outil a rapproché les concepteurs de protéines de la résolution de problèmes critiques en biotechnologie, notamment le développement de liants protéiques hautement spécifiques pour la conception accélérée de vaccins, l’ingénierie de protéines homologues pour la délivrance de gènes et des échafaudages robustes pour la conception d’enzymes.

Les efforts futurs de FrameDiff incluent l’amélioration de la généralité pour les problèmes qui combinent plusieurs exigences de la biologie telles que la pharmacologie. Une autre extension est la généralisation des modèles à toutes les modalités biologiques, y compris l’ADN et les petites molécules. L’équipe émet l’hypothèse qu’en étendant la formation de FrameDiff à davantage de données de base et en améliorant son processus d’optimisation, elle peut générer des infrastructures dotées de capacités de conception comparables à RFdiffusion, tout en conservant la simplicité inhérente à FrameDiff.

READ  "Synduality" est un jeu de tir de science-fiction se déroulant dans un monde post-apocalyptique

Ignorer le modèle de prédiction structurelle prédéfini [in FrameDiff] Cela ouvre des possibilités pour la génération rapide de structures qui s’étendent sur de grandes longueurs « , déclare le biologiste computationnel de Harvard, Sergei Ovchinnikov. L’approche innovante des chercheurs offre une étape prometteuse pour surmonter les limites des modèles de prédiction structurelle actuels. Bien qu’il s’agisse encore d’un travail préliminaire, il représente Un pas encourageant dans la bonne direction. Ainsi, la vision de la conception de protéines, qui joue un rôle central dans la résolution des défis les plus pressants de l’humanité, semble de plus en plus à portée de main, grâce au travail de pionnier de l’équipe de recherche du MIT.

Yim a rédigé l’article aux côtés de Brian Trippe de l’Université de Columbia, du centre de science des données du CNRS Paris Valentin de Bortoli, du chercheur postdoctoral de l’Université de Cambridge Émile Mathieu, du professeur de statistiques de l’Université d’Oxford et du chercheur principal de DeepMind Arnaud Doucet. Les professeurs du MIT Regina Barzilay et Tommy Jaccola ont conseillé la recherche.

Le travail de l’équipe a été soutenu en partie par la clinique MIT Abdul Latif Jameel pour l’apprentissage automatique en santé, les subventions EPSRC, le partenariat Microsoft Research et l’Université de Cambridge Thrive, le programme de bourses de recherche pour les diplômés de la National Science Foundation, une subvention NSF Expeditions, l’apprentissage automatique pour Pharmaceutical Discovery and Synthesis Consortium et DTRA Discovery pour les contre-mesures médicales contre les menaces nouvelles et émergentes, le DARPA Accelerated Molecular Discovery Program et la Sanofi Computational Grant for Antibody Design. Cette recherche sera présentée lors de la conférence internationale sur l’apprentissage automatique en juillet.

Cunégonde Lestrange

"Gourou de Twitter. Écrivain en herbe. Fauteur de troubles typique. Entrepreneur. Étudiant hipster."

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer
Fermer