Chalmers, A. F. (2013). What is this thing called science? Hackett Publishing.✅
Dewey, J. (1910). How we think. D.C. Heath & Co.✅
Jevons, W. S. (1877). The principles of science: A treatise on logic and scientific method. Macmillan and Co.✅
Schmidhuber, J. (1991). Curious model-building control systems. In Proceedings of the International Joint Conference on Neural Networks (pp. 1458-1463).✅
Schmidhuber, J. (2010a). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247.✅
Schmidhuber, J. (2010b). Gödel machines: Self-referential universal problem solvers making provably optimal self-improvements. Artificial General Intelligence, 147-198.✅
Schmidhuber, J. (2012). PowerPlay: Training an increasingly general problem solver by continually searching for the simplest still unsolvable problem. Frontiers in psychology, 3.✅
Clune, J. (2019). AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985.✅
Anthropic. (2024). Claude Sonnet 3.5. Retrieved from https://www.anthropic.com/index/claude-sonnet-3-5
Google DeepMind Gemini Team. (2023). Gemini. Retrieved from https://www.deepmind.com/blog/gemini-a-next-generation-foundation-model
Llama Team. (2024). Llama 3.1 405B. Retrieved from https://ai.meta.com/blog/llama-2-open-foundation-and-fine-tuned-chat-models/✅
OpenAI. (2023). GPT-4 Technical Report. Retrieved from https://arxiv.org/abs/2303.08774
Zhu, Y. , et al. (2024). DeepSeek Coder. Retrieved from https://github.com/deepseek-ai/DeepSeek-Coder✅
Altmäe, S. , et al. (2023). Using large language models to write scientific manuscripts: A case study in cancer research. arXiv preprint arXiv:2308.01449.✅
Girotra, K. , et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.✅
Gauthier, J. (2024). Aider: An LLM Powered Coding Assistant. Retrieved from https://github.com/paul-gauthier/aider✅
Merchant, S. R., et al. (2023). GNoME: A generative model for materials exploration. Nature Materials, 22(10), 1052-1059.✅
Pyzer-Knapp, E. O., et al. (2022). Self-driving laboratories for accelerated discovery. Nature Reviews Materials, 7(10), 839-855.✅
Hayes, B. R., et al. (2024). Generative AI for scientific discovery. Nature, 625(7995), 22-29.✅
Jumper, J. , et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.✅
He, X. , et al. (2021). AutoML: A survey of the state-of-the-art. arXiv preprint arXiv:2107.00846.✅
Hutter, F. , et al. (2019). Automated machine learning: Methods, systems, challenges. Springer Nature.✅
Lu, C. , et al. (2022a). Learning to optimize: A primer and a benchmark. arXiv preprint arXiv:2203.12783.✅
Lu, C. , et al. (2022b). Preference-based reinforcement learning with large language models. arXiv preprint arXiv:2210.14554.✅
Wan, Y. , et al. (2021). NAS-Bench-301: Towards reproducible neural architecture search. arXiv preprint arXiv:2105.04344.✅
Wan, Y. , et al. (2022). NAS-Bench-ASR: Reproducible neural architecture search for speech recognition. arXiv preprint arXiv:2203.15011.✅
Faldor, A. , et al. (2024). LLM-powered Environment Generation for Open-Ended Learning. arXiv preprint arXiv:2403.05371.✅
Lehman, J. , et al. (2022). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artificial Life, 28(3), 348-371.✅
Lu, C. , et al. (2024a). Discovering State-of-the-Art Algorithms for Preference-Based Reinforcement Learning with Large Language Models. arXiv preprint arXiv:2405.14566.✅
Ma, W. , et al. (2023). Reward is enough for convex MDPs. arXiv preprint arXiv:2305.11255.✅
Wei, J. , et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.✅
Shinn, N. , et al. (2024). Reflexion: Language agents with verbalized episodic memory✅
引言:人工智能引领科学发现新纪元
科学方法是人类文明的基石,其迭代过程推动了无数科学技术突破,改善了人类生活质量。然而,传统的科学研究方法受限于研究人员的知识、经验和时间。人工智能领域的研究者们一直梦想着利用人工智能本身来自动化人工智能研究,从而实现“人工智能生成算法”。近年来,基础模型在通用能力方面取得了巨大进步,但它们仅被用于加速研究流程的个别部分,例如撰写科学论文、头脑风暴或辅助编码。迄今为止,尚未出现完全无需人工干预即可执行整个研究工作的案例。
人工智能科学家:自动化研究的突破
本文介绍了首个由前沿大型语言模型(LLM)驱动的端到端论文生成框架——“AI 科学家”。该框架能够在给定广泛的研究方向和简单的初始代码库的情况下,无缝地执行构思、文献检索、实验计划、实验迭代、论文撰写和同行评审,最终生成具有洞察力的论文。
AI 科学家的工作流程:从构思到论文
“AI 科学家”的工作流程分为三个主要阶段:(1)构思生成,(2)实验迭代和(3)论文撰写。在撰写完成后,我们引入并验证了一个 LLM 生成的评审流程,以评估生成论文的质量。
自动化论文评审:评估 AI 科学家的成果
为了模拟人类科学界的评审过程,我们设计了一个基于 GPT-4o 的代理来进行论文评审,评审标准基于神经信息处理系统(NeurIPS)会议的评审指南。评审代理使用 PyMuPDF 解析库处理 PDF 论文的原始文本。输出包含数值评分(可靠性、表达、贡献、总体、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。
案例研究:深入分析 AI 科学家生成的论文
为了展示“AI 科学家”的能力和局限性,我们选择了一篇名为“自适应双尺度去噪”的论文进行深入分析。这篇论文是由“AI 科学家”在被要求进行扩散模型研究时生成的。
生成的构思:
生成的实验:
论文的缺陷:
评审:
实验:评估 AI 科学家在不同领域的表现
我们对“AI 科学家”在三个模板(如第 3 节所述)上进行了广泛的评估,使用了不同的公开可用 LLM:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder 和 Llama-3.1 405b。对于每次运行,我们提供 1-2 个基本种子构思作为示例(例如,修改学习率或批大小),并让它生成另外 50 个新构思。
我们发现,Claude Sonnet 3.5 始终生成质量最高的论文,GPT-4o 位居第二。我们建议查看上传的 Claude 论文以进行定性分析。这一观察结果也得到了 LLM 评审员评分的验证。
局限性和伦理考量:AI 科学家面临的挑战
尽管“AI 科学家”可以生成提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考量。
自动评审员的局限性:
常见故障模式:
安全代码执行:
更广泛的影响和伦理考量:
讨论:AI 科学家的未来方向
本文介绍了“AI 科学家”,这是第一个旨在完全自动化科学发现过程的框架,并将其作为其能力的首次展示,应用于机器学习本身。这个端到端系统利用 LLM 自动生成研究构思、实施和执行实验、搜索相关工作并生成全面的研究论文。通过整合构思、实验和迭代改进阶段,“AI 科学家”旨在以自动化和可扩展的方式复制人类科学过程。
未来方向:
结论:AI 科学家开启科学研究新篇章
“AI 科学家”的引入标志着人工智能在科学研究中充分发挥其潜力的重要一步。通过自动化发现过程并结合人工智能驱动的评审系统,我们为科学技术中最具挑战性的领域的创新和问题解决打开了无限可能的大门。最终,我们设想了一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还包括评审员、领域主席和整个会议。然而,我们不认为人类科学家的作用会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并将在食物链中向上移动。
参考文献: