从DNA学习：生物学领域的重大挑战

引言

近年来，人工智能（AI）在各个领域取得了突破性进展，自然语言处理领域更是如此。大型语言模型（LLM）的出现，让我们看到了AI在理解和生成人类语言方面的巨大潜力。然而，生物学领域却相对落后。DNA作为生命的基本代码，蕴藏着丰富的生物信息，但我们对它的理解还远远不够。

DNA：生物学的语言

DNA就像一门复杂的语言，包含着关于生命运作的全部信息。它由四种碱基（A. ��T、C、G）组成，排列组合形成基因，进而决定了生物体的性状和功能。然而，与人类语言不同，DNA语言更加复杂，包含着多种模态，例如DNA、RNA和蛋白质。这些模态相互关联，共同构成生命活动的复杂网络。✅

Evo：一个突破性的DNA模型

为了更好地理解和利用DNA信息，斯坦福大学Hazy Research团队开发了一个名为Evo的生物基础模型。Evo是一个长上下文模型，能够处理超过65万个token的DNA序列，并进行预测和生成任务。

Evo的训练数据来自270万个原核生物和噬菌体基因组，包含3000亿个token。它基于StripedHyena架构，结合了旋转注意力机制，并通过高效的上下文扩展技术，将上下文长度扩展到131000个token。

Evo的亮点

跨模态学习： Evo能够学习DNA、RNA和蛋白质之间的关系，在蛋白质功能预测方面取得了与专门的蛋白质模型（如ESM2和ProGen）相当的性能，即使没有被明确地展示蛋白质编码区域。
全基因组理解： Evo能够预测基因的必要性，即哪些基因对于生物体的生存至关重要。它可以通过分析DNA突变来预测基因的必要性，而无需进行实验室实验。
生成能力： Evo能够生成新的分子、系统，甚至整个基因组。它可以设计新的CRISPR系统，这为创建新的基因编辑工具开辟了新的途径。

DNA建模的挑战

DNA建模面临着许多挑战，其中最主要的是：

DNA的扩展规律

为了更好地理解DNA模型的扩展规律，Hazy Research团队进行了DNA扩展规律实验。他们训练了300个模型，涵盖了Transformer++、Mamba、Hyen和StripedHyena等多种架构，并通过改变模型大小和数据集大小来观察模型性能的变化。

实验结果表明，Transformer++在DNA建模方面表现较差，而Hyen和StripedHyena则表现出更好的扩展率。这表明，自然语言模型的架构不一定适用于DNA建模。

机械架构设计

未来方向

Evo的出现为生物学研究开辟了新的可能性。未来，研究人员将继续努力改进Evo模型，并将其应用于更多领域，例如：

结论

从DNA学习是生物学领域的重大挑战，也是人工智能领域的重要机遇。Evo模型的出现标志着生物学研究进入了一个新的时代。随着人工智能技术的不断发展，我们有理由相信，未来我们将能够更好地理解和利用DNA信息，为人类健康和社会发展做出更大的贡献。

参考文献

[1] Hazy Research. (2024). Learning from DNA: a grand challenge in biology. Hazy Research Blog. https://hazyresearch.stanford.edu/blog/2024-03-14-evo