
Evo 2 学习了从猛犸象到细菌等所有生物共享的遗传语言。来源:Arc Institute
来源 ARC INSTITUTE
翻译 科研圈bot
2025 年 2 月首次以预印本形式发布的 DNA 基础模型 Evo 2,今日正式发表于《自然》(Nature)。该模型基于涵盖整个生命树的逾 10 万种生物 DNA 进行训练,能够识别不同生物体基因序列中的模式——这些模式若通过实验研究可能需要数年才能发现。该机器学习模型可精准识别人类基因中的致病突变,并能设计出与简单细菌基因组相当长度的全新基因组。
Evo 2 由弧线研究所(Arc Insititute)与英伟达的科学家联合开发,汇聚了斯坦福大学、加利福尼亚大学伯克利分校及旧金山分校的合作力量。该模型的代码已在 GitHub 平台公开,并作为弧线研究所与英伟达加速科研合作的一部分,集成至英伟达 BioNeMo 框架中。弧线研究所还携手人工智能研究实验室 Goodfire,开发出可解析模型机制的视觉化工具,能揭示该模型在基因组序列中学习识别的关键生物学特征与规律。Evo 团队已全面公开其训练数据、训练与推理代码及模型权重,使之成为迄今为止规模最大、完全开源的人工智能模型。
在其前身 Evo 1 仅基于单细胞基因组训练的基础上,Evo 2 作为迄今生物学领域最大的人工智能模型,其训练数据涵盖了来自超过 12.8 万个完整基因组及宏基因组数据的 9.3 万亿个核苷酸——这些构成 DNA 或 RNA 的基本单元。除了扩展的细菌、古菌和噬菌体基因组库,Evo 2 还纳入了真核生物界中人类、植物及其他单细胞与多细胞物种的信息。
“我们开发的 Evo 1 和 Evo 2 标志着生成生物学这一新兴领域的关键突破,这些模型使计算机能够以核苷酸的语言进行读取、书写和思考,”弧线研究所联合创始人、核心研究员,加州大学伯克利分校生物工程助理教授,同时也是该论文的资深合著者 Patrick Hsu 表示,“Evo 2 对生命之树具有普适性理解,可应用于从预测致病突变到设计人造生命潜在代码的众多任务。我们期待看到研究界在这些基础模型之上构建出怎样的成果。”
Evo 2 在 AWS 平台的英伟达 DGX Cloud AI 上进行了数月的训练,动用了超过 2000 块英伟达 H100 GPU,并得到英伟达研究员和工程师的协作支持。该模型能一次性处理长达 100 万个核苷酸的基因序列,从而理解基因组中相距较远部分之间的关联。实现这一技术突破需要研究团队重新构思 AI 模型如何快速处理并推理如此规模的数据。最终诞生的 StripedHyena 2 人工智能架构,使 Evo 2 的训练数据量达到 Evo 1 的 30 倍,单次推理的核苷酸数量提升至 8 倍以上。
该模型已展现出足够的通用性,能够识别影响蛋白质功能与生物体适应性的基因变异。例如,在对乳腺癌相关基因 BRCA1 变体的测试中,Evo 2 在区分良性突变与潜在致病突变方面的预测准确率超过 90%。这类精准洞见可通过锁定人类疾病的遗传诱因、加速新药研发进程,节省原本需要投入细胞或动物实验的大量时间与研究经费。
自预印本发布一年来,研究人员已将该模型应用于多个科学领域——从预测阿尔茨海默病患者的遗传疾病风险,到评估家养动物物种的变异影响。研究团队还利用 Evo 2 设计了功能性合成噬菌体,展现出治疗抗生素耐药性细菌的潜在应用前景。
除了遗传分析外,Evo 2 还有望用于开发新型生物工具或疗法。该研究的合著者、计算生物学家 Hani Goodarzi 表示:“若想实现基因疗法仅在神经元中激活以避免副作用,或仅在肝细胞中发挥作用,可设计一种仅在这些特定细胞内可启动的遗传元件。”他补充道:“这种精准控制有助于开发更具靶向性且副作用更少的治疗方案。”
研究团队设想,以 Evo 2 为基础可以构建更专业的 AI 模型。"可以将其粗略地比作操作系统内核——你可以基于它开发各种不同的应用程序,"论文合著者、弧线研究所首席技术官 Dave Burke 表示。"从预测单个 DNA 突变如何影响蛋白质功能,到设计在不同细胞类型中表现各异的遗传元件,随着我们持续优化模型、研究人员以创新方式运用它,我们预计 Evo 2 将展现出超乎想象的广泛应用前景。"
考虑到潜在的伦理与安全风险,科学家们将感染人类及其他复杂生物体的病原体排除在 Evo 2 的基础数据集之外,并确保模型不会就这些病原体的相关查询返回具有可操作性的答案。
英伟达数字生物学负责人 Anthony Costa 表示:"Evo 2 从本质上推动了我们对生物系统的理解。通过独特的架构和同类规模最大的集成数据集,它克服了以往生物基础模型在规模上的局限,其生物学知识泛化能力超越了迄今为止所有模型。弧线研究所的广泛开源,相当于为全球科学家配备了一位新搭档,共同应对人类最紧迫的健康与疾病挑战。"
原文链接:
https://www.eurek___alert.org/news-releases/1118060
论文信息
【标题】Genome modelling and design across all domains of life with Evo 2
【作者】Brixi, G., Durrant, M.G., Ku, J. et al.
【期刊】Nature
【时间】04 March 2026
【DOI】https://doi.org/10.1038/s41586-026-10176-5
【摘要】All of life encodes information with DNA. Although tools for genome sequencing, synthesis and editing have transformed biological research, we still lack sufficient understanding of the immense complexity encoded by genomes to predict the effects of many classes of genomic changes or to intelligently compose new biological systems. Artificial intelligence models that learn information from genomic sequences across diverse organisms have increasingly advanced prediction and design capabilities1,2. Here we introduce Evo 2, a biological foundation model trained on 9 trillion DNA base pairs from a highly curated genomic atlas spanning all domains of life to have a 1 million token context window with single-nucleotide resolution. Evo 2 learns to accurately predict the functional impacts of genetic variation—from noncoding pathogenic mutations to clinically significant BRCA1 variants—without task-specific fine-tuning. Mechanistic interpretability analyses reveal that Evo 2 learns representations associated with biological features, including exon–intron boundaries, transcription factor binding sites, protein structural elements and prophage genomic regions. The generative abilities of Evo 2 produce mitochondrial, prokaryotic and eukaryotic sequences at genome scale with greater naturalness and coherence than previous methods. Evo 2 also generates experimentally validated chromatin accessibility patterns when guided by predictive models3,4 and inference-time search. We have made Evo 2 fully open, including model parameters, training code5, inference code and the OpenGenome2 dataset, to accelerate the exploration and design of biological complexity.
【链接】https://www.nature.com/articles/s41586-026-10176-5