🌏
突破强化学习瓶颈:Group Relative Policy Optimization (GRPO) 的设计与实现
强化学习 (Reinforcement Learning, RL) 近年来在大规模语言模型 (LLM) 优化中扮演了重 ... 阅读更多
🌐 跨任务场景中的通用链式思维提示:GeM-CoT 机制的探索与实现
引言 在自然语言处理 (NLP) 领域,随着大型语言模型 (LLMs) 的发展,链式思维 (Chain-of-Thoug ... 阅读更多
🌟 关键词的魔力:Bag-of-Keywords 损失在对话生成中的应用
引言 在自然语言处理 (NLP) 领域,对话生成是一个充满挑战的任务。传统的语言建模 (LM) 损失虽然在多种生成任务 ... 阅读更多