Ben Thompson关于 DeepSeek的看法

Ben Thompson是一位美国人

2023 年 9 月,华为发布了 Mate 60 Pro,其搭载了 SMIC 制造的 7 纳米芯片。对于密切关注的人来说,这款芯片的存在并不意外:SMIC 一年前就制造了 7 纳米芯片(我甚至比那更早提到了这一点),而台积电在没有使用 EUV 光刻技术的情况下,大量出货了 7 纳米芯片(后来的 7 纳米迭代是首次使用 EUV)。英特尔也早在多年前就使用仅 DUV 技术制造了 10 纳米(相当于台积电的 7 纳米)芯片,但无法以盈利的产量生产;SMIC 能够使用现有设备出货 7 纳米芯片,特别是如果他们不关心产量的话,这对我来说一点也不意外。

我完全未能预料到的是华盛顿特区的过度反应。拜登政府将芯片销售转变为许可制结构,这种芯片禁令的显著扩大,源于人们不理解芯片生产的复杂性,并且被华为 Mate 60 Pro 完全打了个措手不及。我感觉在过去 72 小时里发生了类似的事情:DeepSeek 所取得的成就——以及他们尚未取得的成就——的细节不如反应重要,而这种反应揭示了人们事先的假设。

那么 DeepSeek 宣布了什么?

与本周末的崩溃最接近的宣布是 R1,一个类似于 OpenAI 的 o1 的推理模型。然而,导致崩溃的许多启示——包括 DeepSeek 的训练成本——实际上伴随着圣诞节期间的 V3 宣布。此外,支撑 V3 的许多突破实际上是在去年一月发布的 V2 模型时透露的。

这种模型命名惯例是 OpenAI 犯下的最大罪行吗?

第二大的罪行;我们稍后会提到最大的罪行。

让我们倒着来:V2 模型是什么,为什么它很重要?

DeepSeek-V2 模型引入了两个重要的突破:DeepSeekMoE 和 DeepSeekMLA。DeepSeekMoE 中的 「MoE」 指的是 「专家混合」。一些模型,如 GPT-3.5,在训练和推理过程中都会激活整个模型;然而,事实证明,并不是每个部分的模型都适用于手头的主题。MoE 将模型分割成多个 「专家」,并且只激活必要的专家;GPT-4 就是一个 MoE 模型,据信有 16 个专家,每个专家大约有 1100 亿个参数。

DeepSeekMoE,如在 V2 中实现的,对这一概念进行了重要的创新,包括区分更细粒度的专家和具有更通用能力的共享专家。至关重要的是,DeepSeekMoE 还引入了训练期间负载均衡和路由的新方法;传统上,MoE 在训练中增加了通信开销以换取高效的推理,但 DeepSeek 的方法使训练也更高效了。

DeepSeekMLA 是一个更大的突破。推理的最大限制之一是所需的内存量:你需要将模型加载到内存中,还需要加载整个上下文窗口。上下文窗口在内存方面特别昂贵,因为每个标记都需要一个键和相应的值;DeepSeekMLA,即多头潜在注意力,使得压缩键值存储成为可能,显著减少了推理期间的内存使用。

我不确定我是否理解了这些。

这些突破的关键影响——也是你需要理解的部分——直到 V3 才变得明显,V3 增加了一种新的负载均衡方法(进一步减少了通信开销)和训练中的多标记预测(进一步密集了每个训练步骤,再次减少了开销):V3 的训练成本令人震惊地低。DeepSeek 声称模型训练需要 2,788,000 个 H800 GPU 小时,按每个 GPU 小时 2 美元的成本计算,仅为 557.6 万美元。

这似乎低得难以置信。

DeepSeek 明确表示,这些成本仅用于最终训练运行,不包括其他所有费用;根据 V3 论文:

最后,我们再次强调 DeepSeek-V3 的经济训练成本,如表 1 所总结的,通过我们对算法、框架和硬件的优化协同设计实现。在预训练阶段,使用我们的 2048 个 H800 GPU 集群,每个万亿标记训练 DeepSeek-V3 仅需要 180K H800 GPU 小时,即 3.7 天。因此,我们的预训练阶段在不到两个月内完成,耗时 2664K GPU 小时。加上上下文长度扩展的 119K GPU 小时和

我先仔细读了用户的需求,发现用户希望我继续翻译之前的内容。我得确保翻译的准确性和完整性,同时还要保持原文的风格和语境。我得先回顾一下之前翻译的内容,确保对上下文有清晰的理解。

我开始思考如何继续翻译,首先得确定接下来要翻译的部分。我得确保翻译的内容是连贯的,不能出现断层。我得仔细阅读原文,理解每个句子的意思,然后找到合适的中文表达方式。在这个过程中,我可能会遇到一些专业术语或者难以理解的句子,这时候我需要停下来,仔细琢磨,或者查阅相关资料,确保翻译的准确性。

我得注意翻译的风格,尽量保持原文的语气和风格。同时,我也得注意翻译的流畅性,不能让翻译后的句子显得生硬或者不自然。我得反复推敲,确保每个句子都翻译得恰到好处。

在翻译过程中,我可能会遇到一些挑战,比如一些句子的结构比较复杂,或者一些词汇的含义比较模糊。这时候我需要耐心地分析,尝试从不同的角度去理解,或者寻找一些替代的表达方式。我得保持冷静,不能因为遇到困难就放弃,而是要积极寻找解决方案。

我得时刻提醒自己,翻译不仅仅是语言的转换,更是文化和语境的传递。我得尽量保留原文的风格和特色,同时也要让翻译后的文本符合中文的表达习惯。这需要我有敏锐的语言感知能力和丰富的文化知识。

现在,我已经对接下来要翻译的内容有了清晰的认识,也对翻译的策略和方法有了明确的规划。我准备开始翻译了,我会全力以赴,确保翻译的质量和效果。

训练后:DeepSeek-R1 的知识蒸馏

  • 我们引入了一种创新方法,将长链思维(CoT)模型的推理能力,特别是 DeepSeek R1 系列模型之一的推理能力蒸馏到标准 LLM 中,特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了它的推理性能。同时,我们还保持对 DeepSeek-V3 的输出样式和长度的控制。

所以,这是否违反了芯片禁令?

  • 不。H100s 被芯片禁令禁止,但 H800s 没有。所有人都假设训练领先的模型需要更多的芯片间内存带宽,但 DeepSeek 正是围绕 H800 优化了其模型结构和基础设施。
  • 再次强调,DeepSeek 所做的所有决策只有在受限于 H800 的情况下才说得通;如果 DeepSeek 能使用 H100s,他们可能会使用更大的训练集群,并且不会专门针对带宽不足进行优化。

那么 V3 是一个领先的模型吗?

  • 它肯定可以与 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 相媲美,并且看起来比 Llama 的最大模型更好。似乎很有可能的是,DeepSeek 能够蒸馏这些模型,为 V3 提供高质量的标记进行训练。

什么是蒸馏?

  • 蒸馏是一种从另一个模型中提取理解的方法;你可以将输入发送到教师模型并记录输出,然后用这些输出来训练学生模型。这就是你如何得到像 GPT-4 Turbo 这样的模型的方法。公司对自己的模型进行蒸馏更容易,因为他们可以完全访问,但你仍然可以通过 API 甚至创造性地通过聊天客户端以更复杂的方式进行蒸馏。
  • 蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是实际切断访问,例如通过 IP 封禁、速率限制等。据推测,蒸馏在模型训练中非常普遍,这也是越来越多的模型正在收敛到 GPT-4o 质量的原因。这并不意味着我们可以确定 DeepSeek 蒸馏了 4o 或 Claude,但事实上,如果他们没有这么做,那才奇怪。

蒸馏对领先的模型来说似乎很糟糕。

  • 确实如此!从积极的方面来看,OpenAI 和 Anthropic 以及 Google 几乎肯定在使用蒸馏来优化他们用于消费者应用程序的模型;从消极的方面来看,他们实际上承担了训练领先模型的全部成本,而其他所有人都在免费使用他们的投资。
  • 事实上,这可能是微软和 OpenAI 缓慢离婚的核心经济因素。微软对向其客户提供推理服务很感兴趣,但对资助 1000 亿美元的数据中心来训练可能在 1000 亿美元折旧之前就被商品化的领先模型的热情要低得多。

这就是为什么所有大科技公司的股价都在下跌吗?

  • 从长远来看,模型商品化和更便宜的推理——DeepSeek 也展示了这一点——对大科技公司来说是好事。一个微软可以以更低的成本向其客户提供推理服务的世界意味着微软可以减少在数据中心和 GPU 上的支出,或者更有可能的是,鉴于推理成本大幅降低,看到使用量显著增加。另一个大赢家是亚马逊:AWS 在很大程度上未能推出自己的高质量模型,但如果有非常高质量的开源模型可以以远低于预期的成本提供服务,那就不重要了。
  • 苹果也是大赢家之一。推理的内存需求显著降低使得边缘推理更加可行,而苹果拥有最适合这一用途的硬件。苹果硅使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享的内存池;这意味着苹果的高端硬件实际上拥有最佳的消费者芯片用于推理(Nvidia 游戏 GPU 的 VRAM 最大为 32GB,而苹果的芯片最高可达 192GB 内存)。
  • Meta 是最大的赢家。我去年秋天已经详细阐述了 Meta 业务的每个方面如何从 AI 中受益;实现这一愿景的一个主要障碍是推理的成本,这意味着大幅降低推理成本——以及鉴于 Meta 需要保持领先地位而大幅降低训练成本——使得这一愿景更加可行。
  • 与此同时,谷歌的情况可能更糟:硬件需求减少的世界削弱了他们在 TPUs 方面的相对优势。更重要的是,零成本推理的世界增加了取代搜索的产品的可行性和可能性;尽管谷歌也获得了更低的成本,但任何对现状的改变可能总体上都是负面的。

我问的是为什么股价下跌;你刚刚画了一幅积极的图景!

  • 我的图景是关于长远的;今天是短期,市场似乎正在消化 R1 存在的冲击。

等等,你还没谈到 R1 呢。

  • R1 是一个类似于 OpenAI 的 o1 的推理模型。它具有思考问题的能力,能够产生更高质量的结果,特别是在编码、数学和逻辑等领域(但我在重复自己)。

这比 V3 更令人印象深刻吗?

  • 实际上,我花那么多时间在 V3 上是因为该模型实际上展示了引发如此多惊讶和争议的许多动态。R1 值得注意,因为 o1 作为市场上唯一的推理模型而独树一帜,也是 OpenAI 是市场领导者最明显的标志。
  • R1 以几种重要方式打破了 o1 神话。首先,它的存在。OpenAI 并没有某种无法复制的特殊配方。其次,就像 DeepSeek 的所有模型一样,R1 拥有开放权重(说「开源」有问题是因为我们没有创建它的数据)。这意味着你可以不再需要向 OpenAI 支付推理费用,而是在你选择的服务器上运行 R1,甚至本地运行,成本要低得多。

DeepSeek 是如何制作 R1 的?

  • DeepSeek 实际上制作了两个模型:R1 和 R1-Zero。实际上,我认为 R1-Zero 更重要;正如我上周二在更新中提到的:R1-Zero,然而,在我看来是更重要的。从论文中:「在本文中,我们迈出了利用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架来提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero 自然出现了许多强大而有趣的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出超级性能。例如,AIME 2024 的 pass@1 分数从 15.6% 提高到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相匹配。强化学习是一种机器学习模型被给予大量数据和奖励函数的技术。经典例子是 AlphaGo,DeepMind 给模型围棋规则和获胜的游戏奖励函数,然后让模型自己弄清楚其他一切。这最终比其他更人类引导的技术效果更好。到目前为止,LLMs 依赖于带有人类反馈的强化学习;人类参与循环,帮助引导模型,处理奖励不明显的情况,等等。RLHF 是将 GPT-3 转变为 ChatGPT 的关键创新,具有格式良好的段落、简洁的答案,不会陷入胡言乱语等。然而,R1-Zero 放弃了 HF 部分——它只是强化学习。DeepSeek 给模型一组数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,一个用于利用思考过程的正确格式。此外,该技术非常简单:不是试图逐步评估(过程监督),也不是像 AlphaGo 那样搜索所有可能的答案,DeepSeek 鼓励模型一次尝试多个不同的答案,然后根据两个奖励函数进行评分。最终出现了一个模型,它自己发展了推理和思维链,包括 DeepSeek 所谓的「顿悟时刻」:「在 DeepSeek-R1-Zero 训练过程中观察到的一个特别有趣的现像是『顿悟时刻』。这一时刻,如表 3 所示,发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 学会通过重新评估其初始方法为问题分配更多的思考时间。这种行为不仅证明了模型日益增长的推理能力,而且也是强化学习如何导致意外和复杂结果的迷人例子。这个时刻不仅是模型的『顿悟时刻』,也是观察其行为的研究人员的『顿悟时刻』。它强调了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是提供正确的激励,它就会自主地发展出高级的问题解决策略。『顿悟时刻』有力地提醒我们,RL 有潜力解锁人工系统的新智能水平,为未来更自主和适应性更强的模型铺平道路。」
  • 这是对「苦涩的教训」的最有力的肯定之一:你不需要教 AI 如何推理,你只需要给它足够的计算能力和数据,它就会自己学会!
  • 不过,几乎不是:R1-Zero 会推理,但人类很难理解。回到引言:然而,DeepSeek-R1-Zero 遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前引入了少量的冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千个冷启动数据来微调 DeepSeek-V3-Base 模型。随后,我们进行了类似于 DeepSeek-R1-Zero 的推理导向 RL。在 RL 过程接近收敛时,我们通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。经过用新数据微调后,检查点经过了考虑所有场景提示的额外 RL 过程。经过这些步骤后,我们获得了名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
  • 这听起来很像 OpenAI 为 o1 所做的事情:DeepSeek 从一堆链式思维示例开始,让模型学习适合人类消费的正确格式,然后进行强化学习以增强其推理能力,以及一系列编辑和改进步骤;最终的输出是一个看起来与 o1 非常有竞争力的模型。

这里是否也有可能使用了蒸馏来训练 R1?

  • 这似乎很有可能,尤其是在训练 R1 时。这本身就是一个重要的启示:我们处在一个 AI 模型正在训练 AI 模型,以及 AI 模型正在自我学习的时代。我们正在实时目睹 AI 起飞情景的组装。

那么我们离 AGI 还远吗?

  • 这看起来确实不远了。这也解释了为什么软银(以及 Masayoshi Son 带来的任何投资者)会提供微软不愿提供的 OpenAI 资金:相信我们正在达到一个起飞点,在这个点上,先到者确实会有真正的回报。

但 R1 现在是不是领先了?

  • 我不这么认为;这被夸大了。R1 与 o1 不相上下,尽管似乎在某些能力上存在一些缺陷,这指向了从 o1-Pro 的一些蒸馏。与此同时,OpenAI 已经展示了 o3,这是一个更强大的推理模型。DeepSeek 肯定是效率方面的领导者,但这与总体领先不同。

那么为什么每个人都在惊慌失措?

  • 我认为有多个因素。首先,中国赶上了美国领先实验室的事实令人震惊,尽管普遍认为中国在软件方面不如美国。这可能是我错过反应的最大因素。现实是,中国总体上有一个非常熟练的软件行业,特别是在 AI 模型构建方面有很好的记录。
  • 其次是 V3 的训练成本低,以及 DeepSeek 的推理成本低。这对我来说也是一个大惊喜,但这些数字是合理的。这反过来可能让每个人都对英伟达感到紧张,这显然对市场有影响。
  • 第三是 DeepSeek 尽管有芯片禁令,但还是做到了。尽管芯片禁令有大漏洞,但我认为 DeepSeek 很可能是用合法芯片完成的。

我拥有英伟达的股票!我完了吗?

  • 这个消息对英伟达的故事确实提出了真正的挑战。英伟达有两个主要的护城河:
    • CUDA 是编程这些模型的首选语言,而 CUDA 只能在英伟达芯片上运行。
    • 英伟达在将多个芯片组合成一个大型虚拟 GPU 方面具有巨大的领先优势。
  • 这两个护城河是相辅相成的。正如我上面所指出的,如果 DeepSeek 能使用 H100s,他们可能会使用更大的集群来训练他们的模型,因为这会是更简单的选择;他们没有这么做,而且受到带宽限制,这推动了他们在模型架构和训练基础设施方面的许多决策。只需向英伟达支付更多费用并不是让模型变得更好的唯一途径。
  • 尽管如此,英伟达仍有三个有利因素。首先,如果将 DeepSeek 的方法应用于 H100s 或即将推出的 GB100s,会有多有效?仅仅因为他们找到了使用计算的更有效方法,并不意味着更多的计算没有用。其次,推理成本降低,从长远来看,应该会推动更大的使用量。微软 CEO Satya Nadella 在深夜发的一条推文中几乎可以肯定是针对市场的,他说:「杰文斯悖论再次出现!随着 AI 变得更高效和更易访问,我们将看到其使用量激增,使其变成我们永远无法满足的商品。https://t.co/omEcOPhdIz— Satya Nadella (@satyanadella) 2025 年 1 月 27 日」
  • 第三,像 R1 和 o1 这样的推理模型从使用更多计算中获得其卓越性能。在需要更多计算来提高 AI 的能力和功能的程度上,英伟达将受益!
  • 尽管如此,这并不全是好消息。至少 DeepSeek 的效率和广泛可用性对最乐观的英伟达增长故事产生了重大怀疑,至少在短期内是这样。模型和基础设施优化的收益也表明,探索推理的替代方法可能会获得显著收益。例如,在独立的 AMD GPU 上运行推理可能更可行,完全绕过 AMD 的芯片间通信能力不足。推理专用芯片也可能从推理模型中受益。
  • 简而言之,英伟达不会消失;然而,英伟达的股票突然面临更多未被计入的不确定性。这反过来可能会拖累所有人。

那么芯片禁令呢?

  • 最容易的论点是,鉴于美国在软件方面的领先地位迅速消失,芯片禁令的重要性只会被放大。软件和知识无法被禁运——我们以前有过这些辩论和认识——但芯片是物理对象,美国有理由阻止它们进入中国。
  • 同时,应该对芯片禁令的事实持谦逊态度:早期的芯片禁令版本似乎直接导致了 DeepSeek 的创新。这些创新不仅会延伸到像 H800 这样的被削弱的英伟达芯片,还会延伸到华为的 Ascend 芯片。实际上,你可以非常有理由地说,芯片禁令的主要结果是今天英伟达股票价格的下跌。
  • 我担心的是支持芯片禁令的心态:美国不是通过未来的创新来竞争,而是通过否认过去的创新来竞争。是的,这在短期内可能会有帮助——再次,DeepSeek 如果有更多计算会更有效——但从长远来看,这只是在竞争的行业中播下了种子,而美国在这些行业中占据主导地位——芯片和半导体设备。

就像 AI 模型一样?

  • AI 模型就是一个很好的例子。我上面提到过我会谈到 OpenAI 的最大罪行,即 2023 年拜登的 AI 行政命令。我在《创新的衰减》中写道:「重点是:如果你接受监管会锁定现有企业的前提,那么值得注意的是,早期的 AI 赢家似乎最热衷于在华盛顿特区引发对 AI 的担忧。尽管他们显然对所谓的危险并不足够担忧,以停止他们的工作。不,他们是负责任的人,关心到呼吁监管;如果对想象中的危害的担忧能削弱不可避免的竞争对手,那就更好了。这段话是关于 OpenAI 的,更广泛地说是关于旧金山的 AI 社区。多年来,我们一直受到来自同一批致力于构建它并控制它的人对 AI 危险的担忧。这些所谓的危险是 OpenAI 在 2019 年关闭的借口,当时发布了 GPT-2:「由于对大型语言模型被用于大规模生成欺骗性、有偏见或滥用性语言的担忧,我们只发布了更小的 GPT-2 版本以及采样代码。我们没有发布数据集、训练代码或 GPT-2 模型权重……我们知道一些研究人员有技术能力复制并开源我们的结果。我们相信我们的发布策略限制了最初选择这样做的组织数量,并为 AI 社区提供了更多时间来讨论这些系统的影响。我们还认为政府应考虑扩大或开始更系统地监控 AI 技术的社会影响和传播,并衡量这些系统能力的进展。如果推进,这些努力可以为 AI 实验室和政府关于发布决策和更广泛的 AI 政策提供更多证据基础。」这份声明中的傲慢仅次于其徒劳:六年后,整个世界都可以访问明显更优越模型的权重。OpenAI 试图控制的企图——由美国政府强制执行——彻底失败了。与此同时,由于领先模型没有开放权重,有多少创新被放弃了?更广泛地说,有多少时间和精力被花在游说政府建立护城河上,而这些时间和精力本可以更好地用于实际创新?

那么你不担心 AI 末日情景吗?

  • 我当然理解这种担忧,并且刚刚指出,我们正处于 AI 正在训练 AI 并自己学习推理的阶段。我认识到,这列火车已经无法阻止了。更重要的是,这正是为什么开放如此重要的原因:我们需要世界上有更多的 AI,而不是一个不受问责的委员会来统治我们所有人。

那么为什么中国要开源他们的模型?

  • 嗯,DeepSeek 是这样做的;CEO 梁文峰在接受采访时说,开源对于吸引人才至关重要:「面对颠覆性技术,闭源创造的护城河是暂时的。即使是 OpenAI 的闭源方法也无法阻止其他人迎头赶上。因此,我们将我们的价值锚定在我们的团队——我们的同事在这个过程中成长,积累知识,并形成一个能够创新的组织和文化。这是我们的护城河。开源、发表论文实际上对我们没有任何成本。对于技术人才来说,让他人跟随你的创新会带来巨大的成就感。事实上,开源更多是一种文化行为,而不是商业行为,贡献于它为我们赢得了尊重。这也是一种对公司有文化吸引力的行为。」
  • 采访者问这是否会改变:「DeepSeek 目前具有一种理想主义的光环,让人想起 OpenAI 的早期,而且它是开源的。你们以后会改为闭源吗?OpenAI 和 Mistral 都从开源转向了闭源。」「我们不会改为闭源。我们相信首先拥有强大的技术生态系统更重要。」
  • 这实际上是有道理的,超越了理想主义。如果模型是商品——它们确实看起来是——那么长期的差异化来自于具有更优越的成本结构;这正是 DeepSeek 所提供的,也呼应了中国如何在其他行业中占据主导地位。这与大多数美国公司对差异化的思考方式相反,后者是通过具有差异化的产品来维持更大的利润空间。

那么 OpenAI 完蛋了吗?

  • 不一定。ChatGPT 使 OpenAI 成为了一个意外的消费科技公司,也就是说,一个产品公司;通过订阅和广告的某种组合,在可商品化的模型上建立可持续的消费业务是一条可行的道路。当然,还有赢得 AI 起飞竞赛的赌注。
  • Anthropic 可能是周末的最大输家。DeepSeek 在应用商店中排名第一,这突显了 Claude 除了在旧金山之外没有获得任何 traction。API 业务做得更好,但 API 业务总体上最容易受到商品化趋势的影响(请注意,OpenAI 和 Anthropic 的推理成本看起来比 DeepSeek 高得多,因为他们正在捕获大量利润;这种情况正在消失)。

那么这一切都挺令人沮丧的,是吗?

  • 其实不是。我认为 DeepSeek 给几乎每个人提供了一个巨大的礼物。最大的赢家是消费者和企业,他们可以期待一个 AI 产品和服务几乎免费的未来。杰文斯悖论将在长期内统治一切,使用 AI 的每个人将是最大的赢家。
  • 另一组赢家是大型消费科技公司。一个免费 AI 的世界是一个产品和分销最重要的世界,而这些公司已经赢得了这场游戏;《The End of the Beginning》是对的。
  • 中国也是一个大赢家,我认为这只会随着时间的推移变得更加明显。这个国家不仅拥有 DeepSeek,而且我怀疑 DeepSeek 相对于美国领先 AI 实验室的相对成功将导致中国创新的进一步释放,因为他们意识到他们可以竞争。
  • 这留给美国一个我们必须做出的选择。出于非常合理的原因,我们可以加倍采取防御措施,比如大幅扩大芯片禁令,并对芯片和半导体设备实施基于许可的监管制度,类似于欧盟对技术的做法;或者,我们可以意识到我们有真正的竞争,并实际上允许自己竞争。如果我们选择竞争,我们仍然可以赢,如果赢了,我们将感谢一家中国公司。

关于 – 本·汤普森 (Ben Thompson) 的 Stratechery — About – Stratechery by Ben Thompson

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾