Étiquette : open source

Evo 2 : Un Modèle d’IA Révolutionnaire pour la Compréhension des Génomes

L’Arc Institute, une organisation de recherche à but non lucratif, a publié un manuscrit sur la création d’Evo 2, un modèle d’IA fondamental capable de comprendre et de construire des génomes complets d’organismes. Ce modèle se distingue par sa taille sans précédent, ayant été formé sur des organismes eucaryotes, incluant ainsi une vaste gamme d’organismes allant des amibes aux êtres humains, avec un ensemble de formation contenant 9,3 trillions de paires de bases. Les chercheurs ont développé deux variantes d’Evo 2, l’une avec 7 milliards de paramètres et l’autre avec 40 milliards de paramètres, utilisant une fenêtre de contexte d’un million de paires de bases. Ce modèle est open source, incluant le code d’entraînement, le code d’inférence, ainsi que les paramètres et les données d’entraînement provenant d’OpenGenome2. Le manuscrit décrit en détail le processus d’entraînement du modèle, qui a été conçu pour prédire la prochaine paire de bases d’ADN, en s’inspirant des modèles de langage de grande taille. Evo 2 a montré la capacité de prédire les effets des mutations sur les fonctions essentielles, une première pour les eucaryotes, en apprenant à évaluer la probabilité que des mutations affectent les codons de début et de fin. Les chercheurs ont validé cette capacité en testant les prédictions contre des séquences d’ARN connues. L’analyse a révélé que le modèle de 40 milliards de paramètres était nettement plus performant que celui de 7 milliards. Evo 2 a été capable de prédire des mutations dans le gène BRCA1, qui sont souvent liées à des cas de cancer du sein, surpassant même des modèles spécialisés. En plus de ses capacités prédictives, les chercheurs ont également examiné le processus de pensée d’Evo 2, qui a pu identifier des caractéristiques associées aux séquences phagiques liées à CRISPR dans les bactéries E. coli. Le modèle a réussi à reconnaître des mutations de décalage de cadre et des codons d’arrêt prématurés, tout en identifiant des exons et des introns dans le génome du mammouth laineux, malgré le fait qu’il n’ait jamais été formé sur ce dernier. En tant qu’IA générative, Evo 2 a été utilisé pour générer des génomes, qui possédaient de nombreuses caractéristiques naturelles. Cependant, les chercheurs n’ont pas créé de structures physiques basées sur les sorties d’Evo 2, mais ils estiment que le modèle pourrait, avec un entraînement approprié, être utilisé pour générer des structures génétiques efficaces. Pour éviter que ce modèle open source ne soit utilisé à des fins de bioterrorisme, les chercheurs ont exclu intentionnellement les maladies infectieuses de l’ensemble de formation et ont testé le modèle pour s’assurer qu’il ne pouvait pas générer de résultats utiles concernant ces maladies. Malgré cela, ils reconnaissent qu’il est impossible d’empêcher des personnes mal intentionnées de former le modèle avec de telles données. Evo 2 pourrait avoir des avantages significatifs pour le diagnostic et le traitement de la dysfonction mitochondriale et de l’instabilité génomique, en identifiant et en comprenant mieux les mutations liées à l’âge. Bien que rien n’ait encore été réalisé à partir des résultats d’Evo 2, ce modèle pourrait potentiellement être utilisé pour des thérapies géniques ciblées. Le manuscrit a été publié sur le site web de l’Arc Institute, et bien qu’il ne soit pas passé par un processus de révision par les pairs, la profondeur et le détail des explications ainsi que l’expertise des chercheurs renforcent la crédibilité de ses affirmations. En tant qu’outil open source pour la communauté de recherche, il deviendra rapidement évident si Evo 2 peut réellement contribuer à l’oncologie, au développement de traitements pour les maladies génétiques ou à des impacts directs sur le vieillissement au niveau génétique. Source : https://www.lifespan.io/news/a-generative-foundational-ai-model-for-genetics/?utm_source=rss&utm_medium=rss&utm_campaign=a-generative-foundational-ai-model-for-genetics