借一步网

分类： AI

生成代码世界模型：结合大型语言模型和蒙特卡罗树搜索
引言

在人工智能领域，能够对世界进行建模是智能体实现目标的关键能力。当面对新的环境时，智能体必须迅速理解其机制，以便制定计划并实现目标。在这种情况下，自然语言条件可以帮助智能体将当前观察与过去的知识联系起来，从而更好地理解世界。因此，通过自然语言向智能体传递关于新任务的信息，具有特别的前景。

近年来，大型语言模型（LLMs）在自然语言处理领域取得了革命性的进展，并为世界建模提供了巨大的机会。然而，将LLMs与世界模型结合的最佳方式尚不明确。在这篇文章中，我们介绍了一种新的方法，即通过编写Python代码来生成RL（强化学习）世界模型。

代码世界模型（Code World Models）

什么是代码世界模型？

代码世界模型（CWM）是由LLMs生成的一种世界模型，这些模型以Python代码的形式存在，专门用于基于模型的强化学习（RL）。与直接使用LLMs进行规划相比，调用代码具有精准、可靠、可解释和高效的优点。然而，编写合适的代码世界模型需要理解复杂的指令、生成具有非平凡逻辑的精确代码，以及通过单元测试和环境轨迹反馈自我调试长程序。

为了解决这些挑战，我们提出了GIF-MCTS（Generate, Improve and Fix with Monte Carlo Tree Search），这是一种新的代码生成策略，用于优化LLMs的代码生成能力。

代码世界模型的框架

在模型基础的强化学习问题设置中，我们将环境表示为具有状态空间、动作空间、转移函数和标量奖励函数的马尔可夫决策过程。世界模型的任务是准确表示转移函数和奖励函数。

我们假设：
1. 环境是确定的且完全可观察的。
2. 提供的环境自然语言描述足够详细，可以推断出观察空间以及转移和奖励函数的逻辑。
代码世界模型基准（CWMB）

为了全面测试不同环境下的世界模型生成，我们定义了一个新的基准，包括18个难度不同的RL环境。每个环境都有相应的自然语言描述和精心设计的轨迹数据集。这个基准旨在通过提供的数据学习准确合成代码世界模型，并在不同复杂度的环境中评估不同的代码生成方法。

GIF-MCTS：生成、改进和修复

我们提出的GIF-MCTS方法使用蒙特卡罗树搜索（MCTS）来生成和优化代码世界模型。GIF-MCTS的主要流程包括选择、扩展、评估和价值回溯。

动作类型

GIF-MCTS方法包括三种主要动作类型：
1. 生成新行：利用LLM的随机采样能力，在树的不同分支中生成不同的代码片段。
2. 改进预测：LLM会被提示改进现有代码，并提供错误预测的输入示例及其预期输出。
3. 修复错误：当代码包含语法或运行时错误时，LLM会尝试修复这些错误，并提供修复逻辑。
实验

基准

我们在三个基准上评估了GIF-MCTS的性能：新的CWMB、流行且具有挑战性的编码基准APPS，以及语言条件网格世界RTFM。GIF-MCTS在所有三个基准上都超过了现有方法，包括APPS的“Competition”部分，CWMB的更难连续环境以及RTFM。

实验结果

使用GIF-MCTS生成的代码世界模型能够成功用于规划，生成的基于模型的RL智能体在样本效率和推理速度上显著提高。我们展示了在多个环境中使用合成的CWM进行成功的规划，结果表明CWM在推理速度上比直接查询LLM快四到六个数量级，同时在CWM准确时，其性能可以与访问真实世界模型的oracle规划器相匹敌。

讨论

限制

尽管代码世界模型（CWM）框架是一个令人兴奋的基于模型规划的方向，但我们仍依赖于环境的确定性和完全可观察性的假设。未来的工作可以探索如何将该方法扩展到包含随机性和部分可观察环境中。

此外，提供能够合理转换为Python函数的环境描述（例如记录关键变量的手册）也是一个潜在问题。在没有可用描述的情况下，预处理技术（例如图像到文本模型）可能是解决这一问题的一种方法。

结论

我们提出了一种新的框架，即代码世界模型（CWM），通过结合大型语言模型（LLM）和蒙特卡罗树搜索（MCTS），为基于模型的强化学习（RL）智能体构建世界模型。我们的实验表明，GIF-MCTS方法在多个基准上都表现优异，能够生成高效且可解释的代码世界模型，并显著提高基于模型的RL智能体的样本效率和推理速度。

未来的研究可以继续完善代码生成方法，优化底层LLM模型，并探索如何将CWM应用于更复杂的环境中。我们相信，CWM框架将推动开发出更快、更可解释且样本效率更高的基于模型的RL智能体。

致谢

本文的研究得到了芬兰研究理事会（旗舰计划：芬兰人工智能中心FCAI，资助编号352986、358246）和欧盟（H2020资助101016775和NextGenerationEU）的支持。我们感谢CSC为本项目提供的LUMI超级计算机的访问权限，该计算机由EuroHPC联合企业所有，由CSC（芬兰）和LUMI联盟主办。

参考文献
- Ha, D. , & Schmidhuber, J. (2018). World models.✅
- Hendrycks, D. , Basart, S., Kadavath, S., et al. (2021). Measuring coding challenge competence with apps.✅
- Kocsis, L. , & Szepesvári, C. (2006). Bandit based monte-carlo planning.✅
- Lin, J. , Du, Y., Watkins, O., et al. (2023). Learning to model the world with language.✅
- Tang, H. , Key, D., & Ellis, K. (2024). Worldcoder, a model-based llm agent: Building world models by writing code and interacting with the environment.✅
- Zhong, V. , Rocktäschel, T., & Grefenstette, E. (2020). RTFM: Generalising to new environment dynamics via reading.✅
这篇文章不仅介绍了代码世界模型和GIF-MCTS方法的理论基础，还通过实验验证了其在多个基准上的优越性能。希望未来的研究能够进一步提升这一领域的发展，为人工智能和强化学习带来更多突破。
2024-05-30
微软中国员工迁移海外：背后的原因与影响
近日，多位网友在社交媒体上爆料称，微软中国区Azure云平台的AI团队为主的数百名员工收到公司邮件，询问他们是否愿意迁移至其他地区工作。目的地包括美国、澳大利亚、爱尔兰等国家。公司将负责亲属签证问题，员工需要在6月7日前给出答复。本文将探讨这一消息背后的原因及其可能带来的影响。

微软的回应与员工的困惑

对于这一消息，微软方面回应称，公司有一小部分员工得到可以选择国际轮岗的机会。员工可以选择接受轮岗，或者继续在现在的岗位工作。微软在运营管理全球业务的过程中，一直有向员工提供内部轮岗机会的机制。

然而，一些员工对此表示困惑。一位微软员工对记者表示，这是5月14日刚出的消息，一些员工突然收到有关征询迁移至海外工作邮件，要求在6月7日前回答去还是不去。“大家都很懵”，此前并没有感受到任何预兆，尤其是拖家带口的员工，“需要考虑的事情更多”。有同事认为这是一种“变相裁员”，虽然可以选择不去，但也因此对留在公司的未来产生了担忧。

迁移计划的具体安排

据了解，微软中国C+AI的ML团队可以转到美国西雅图，Azure团队转到澳洲，DevDiv（开发平台事业部）则维持现状。已经有员工的家属表示，家属所在的小组被整个迁至澳大利亚，线上开会时“会上有300多号人”，涉及北京、上海和苏州的员工。两个人商量一整晚到凌晨三点，也没得出什么结论。

另有接近微软人士表示，Azure ML和Azure Core（基础设施）这两个组中与AI业务相关的数百人获得“打包”出国的机会，目的地包括美国、加拿大、澳大利亚和新西兰，是指定的（目的地），并不能随便挑选。

背后的原因

全球业务整合

微软在全球范围内进行业务整合，尤其是AI和云计算业务。这种整合有助于公司在全球范围内更有效地配置资源，提升业务协同效应。

国际轮岗机制

微软一直以来都有向员工提供内部轮岗机会的机制。通过国际轮岗，员工可以获得更广泛的工作经验和视野，有助于个人职业发展。

亚太市场竞争压力

根据国际咨询机构Gartner发布的最新云计算市场追踪数据报告，2023年，微软Azure在亚太地区云计算IaaS市场排名第三，份额为16.1%。阿里云排名第一，市场份额为22.2%，亚马逊AWS排名第二，份额为16.5%。微软在亚太市场面临激烈的竞争压力，可能希望通过业务调整来应对市场挑战。

可能带来的影响

员工心理压力

员工突然收到迁移通知，且需要在短时间内做出决定，这无疑会给员工带来巨大的心理压力。尤其是有家庭的员工，需要考虑更多因素，如孩子的教育、配偶的工作等。

公司内部稳定性

这种大规模的迁移计划可能会影响公司内部的稳定性。一些员工可能会选择离职，而不是接受迁移，导致团队的不稳定和人才流失。

对亚太市场的影响

微软在亚太地区的云计算市场份额已经处于劣势，此次迁移计划可能会进一步影响公司在这一地区的业务发展。如何平衡全球业务整合与区域市场竞争，是微软需要仔细考量的问题。

结语

微软中国员工迁移海外的消息引发了广泛关注和讨论。这一计划背后有多重原因，包括全球业务整合、国际轮岗机制以及应对亚太市场竞争压力等。然而，这一计划也给员工带来了巨大的心理压力，并可能影响公司内部的稳定性和区域市场的业务发展。在未来的执行过程中，如何平衡这些因素，将是微软面临的重要挑战。

参考文献
- 社交媒体爆料
- 微软员工采访
- Gartner云计算市场追踪数据报告，2023年
2024-05-30

分类： AI

生成代码世界模型：结合大型语言模型和蒙特卡罗树搜索

引言

代码世界模型（Code World Models）

什么是代码世界模型？

代码世界模型的框架

代码世界模型基准（CWMB）

GIF-MCTS：生成、改进和修复

动作类型

实验

基准

实验结果

讨论

限制

结论

致谢

参考文献

微软中国员工迁移海外：背后的原因与影响

微软的回应与员工的困惑

迁移计划的具体安排

背后的原因

全球业务整合

国际轮岗机制

亚太市场竞争压力

可能带来的影响

员工心理压力

公司内部稳定性

对亚太市场的影响

结语

参考文献