美团开源龙猫大模型LongCat-Flash：5600亿参数的混合专家模型详解

基本介绍

美团开源的龙猫大模型LongCat-Flash是一个拥有5600亿参数的混合专家（MoE）模型。它不仅在性能上追求卓越，更通过一系列架构和训练上的创新，实现了惊人的计算效率和高级的Agent能力。

LongCat-Flash在保证强大能力的同时，将计算资源用在”刀刃”上。它并非在处理每个任务时都激活全部5600亿参数，而是通过精巧的设计，实现了动态的资源分配。在处理每个词元（token）时，仅需动态激活186亿至313亿的参数（平均约270亿），实现了性能与效率的完美平衡。

创新设计特点

“零计算”专家机制 (Zero-computation Experts)

LongCat-Flash最具创新性的设计之一是”零计算”专家机制。模型可以智能地判断输入内容中不同部分的重要性，并将计算量较小的任务（例如常见的词语、标点符号）分配给一个特殊的”零计算”专家。该专家不进行实际的复杂运算，直接返回输入，从而极大地节省了算力。

Python

# 零计算专家示例代码
class ZeroComputationExpert:
    def forward(self, input_tensor):
        # 直接返回输入，不进行计算
        return input_tensor
    
    def compute_cost(self):
        # 计算成本为零
        return 0

快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE)

在大规模MoE模型中，不同”专家”模块之间的通信延迟往往是性能瓶颈。为此龙猫大模型引入了快捷连接混合专家模型。ScMoE架构通过引入一个快捷连接，有效地扩大了计算和通信的重叠窗口，显著提升了训练和推理的吞吐量，让模型的响应速度更快。

Python

# ScMoE架构简化示例
class ScMoE(nn.Module):
    def __init__(self, input_dim, output_dim, num_experts):
        super().__init__()
        self.gate = nn.Linear(input_dim, num_experts)
        self.experts = nn.ModuleList([Expert(input_dim, output_dim) for _ in range(num_experts)])
        self.shortcut = nn.Linear(input_dim, output_dim)  # 快捷连接
        
    def forward(self, x):
        gate_scores = self.gate(x)
        expert_outputs = [expert(x) for expert in self.experts]
        combined_output = combine_expert_outputs(gate_scores, expert_outputs)
        shortcut_output = self.shortcut(x)  # 快捷连接计算
        return combined_output + shortcut_output  # 合并结果

为Agent而生的多阶段训练流程

为了让模型不仅能”聊天”，更能成为能解决复杂任务的”智能代理”，LongCat-Flash经历了一个精心设计的多阶段训练流程。该流程包括大规模预训练、针对性地提升推理和代码能力的中期训练，以及专注于对话和工具使用能力的后训练。这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。

Python

# 多阶段训练流程伪代码
def multi_stage_training():
    # 第一阶段：大规模预训练
    model = pretrain_model_on_large_corpus(corpus_size="20T tokens")
    
    # 第二阶段：中期训练 - 提升推理和代码能力
    model = fine_tune_on_reasoning_and_code(model, reasoning_datasets, code_datasets)
    
    # 第三阶段：后训练 - 专注于对话和工具使用
    model = fine_tune_on_dialogue_and_tools(model, dialogue_datasets, tool_usage_datasets)
    
    return model

性能特点

LongCat-Flash的工程优化成果最终体现在了用户可感知的性能和成本上：

100+

词元/秒 (TPS)
推理速度

$0.7

每百万输出词元
运营成本

128k

长文本上下文
支持能力

模型在代码、推理和工具调用等多个方面展现出与业界领先模型相媲美的竞争力。在官方的技术报告中，强调了LongCat-Flash是在一个包含数万个加速器的大规模集群上完成训练的。在短短30天内完成超过20万亿词元的训练量，足以证明其背后基础设施的强大与工程优化的卓越。

性能评估对比

美团的LongCat-Flash模型在各项基准测试中展现出了非常强劲且极具竞争力的性能。它不仅在多个方面与业界顶尖的开源模型（如DeepSeek V3.1, Qwen3）旗鼓相当，甚至在某些特定能力上实现了超越。

评估指标	LongCat-Flash	DeepSeek V3.1	Qwen3 MoE	Kimi-K2
MMLU	89.71	89.50	89.60	89.40
MMLU-Pro	82.68	82.50	82.70	82.40
ArenaHard-V2	86.50	85.20	88.20	86.30
CEval	90.44	90.20	90.50	90.10
IFEval	89.65	88.90	89.70	89.60
COLLIE	57.10	55.80	56.90	56.50

在通用领域能力方面，LongCat-Flash表现稳定且出色。在衡量模型综合知识水平的MMLU/MMLU-Pro测试中，LongCat-Flash的得分与DeepSeek V3.1、Qwen3 MoE和Kimi-K2处于同一梯队，证明了其扎实的基础知识和推理能力。

在指令遵循能力方面，LongCat-Flash表现尤为突出。在IFEval上，LongCat-Flash的得分名列前茅，超越了DeepSeek V3.1，与Kimi-K2和Qwen3 MoE并驾齐驱。在COLLIE测试中，LongCat-Flash取得了57.10的高分，在所有参与对比的模型中排名第一。这强有力地证明了它在执行需要调用工具、与环境交互的复杂”智能代理”（Agent）任务方面的卓越能力。

开放与应用

目前，LongCat-Flash模型已经发布在Hugging Face和Github社区，并遵循MIT许可协议。全球学术界和产业界的研究者、开发者都可以自由地使用和探索这个强大的模型，共同推动AI技术的发展。

官方资源链接

官网：https://longcat.ai

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

Github：https://github.com/meituan-longcat/LongCat-Flash-Chat

LongCat-Flash的开源，为AI社区提供了一个强大的工具，有望推动大模型技术在更多领域的应用和创新。其高效的计算能力和优秀的Agent能力，使其在复杂任务处理、智能助手、代码生成等领域具有广阔的应用前景。

美团开源龙猫大模型LongCat-Flash

info 基本介绍

lightbulb 创新设计特点

“零计算”专家机制 (Zero-computation Experts)

快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE)

为Agent而生的多阶段训练流程

speed 性能特点

assessment 性能评估对比

public 开放与应用

官方资源链接

发表评论 取消回复

基本介绍

创新设计特点

性能特点

性能评估对比

开放与应用

发表评论取消回复