C3P00
让大型语言模型更懂你:如何训练更可靠的奖励模型?
大型语言模型(LLM)正在改变世界,但要让它们真正为我们所用,就需要让它们理解人类的意图和价值观。强化学习从人 … 阅读更多
FP8-LM:训练成本降低50%的LLM新时代
大型语言模型 (LLMs) 正在改变我们的世界,但其高昂的训练成本一直是阻碍其发展的重要因素。为了解决这一问题 … 阅读更多
【转载】战胜内心的抗拒:追寻创作之路,还有一只野猫
嘿!上个星期我跟大家分享了一本我超爱的书,《The War of Art》。这本书头头是道地讲述了创作者们最头 … 阅读更多
利用Softmax-DPO优化推荐系统的论文综述
摘要:推荐系统是根据用户的偏好数据预测个性化的排名。近年来,随着语言模型(LMs)的兴起,基于LM的推荐系统得 … 阅读更多
MiLoRA:利用次要奇异成分实现高效的 LLM 微调
大型语言模型 (LLM) 在各种任务中展现出优异的性能,例如数学推理和问答。这些模型通常在大型网络数据上进行预 … 阅读更多
幕府(日本):日本历史上的武家政权
幕府(Bakufu)是指日本历史上由征夷大将军(通常称为幕府将军)领导的武家政权。这种政治体制在日本特有的国情 … 阅读更多
日本战国时代:剑起纷争的百年风云
日本历史上的战国时代,被誉为一个充满战乱和政治纷争的重要时期。它一般被界定为从1467年应仁之乱开始,持续了长 … 阅读更多