月度归档: 2024 年 1 月
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
最近读到一篇非常有意思的AI论文,提出了一种新的方法来提高语言模型的可靠性。这项技术被称为Deductive … 阅读更多
FP8-LM: Training FP8 Large Language Models 探索FP8低精度训练:大型语言模型(LLMs)的新篇章
这篇论文探索了使用8位浮点数(FP8)来有效训练大型语言模型(LLM)。论文的主要贡献和要点总结如下: 本文对 … 阅读更多
Human-in-the-Loop Policy Optimization for Preference-Based Multi-Objective Reinforcement Learning
Q: 这篇论文试图解决什么问题? A: 这篇论文旨在解决多目标强化学习(MORL)中的一个重要问题:如何在决策 … 阅读更多