
ECE 教授 Kangwook Lee 对中国新 AI Deepseek 进行了深入分析,讨论了它的构建方式以及它对 AI 未来的意义。
中国人工智能公司Deepseek于2024年12月24日发布了新的通用大型语言模型(LLM)Deepseek-V3 ,并于1月20日发布了用于完成复杂逻辑任务的AI模型Deepseek-R1,同时开源了权重和训练方法。
这些模型的计算精度与 OpenAI 模型相似,但训练成本却只是后者的一小部分,这在 LLM 社区引起了轰动。但是什么让它们如此高效呢?
威斯康星大学麦迪逊分校电气与计算机工程系助理教授Kangwook Lee表示,Deepseek-R1 的性能与 OpenAI 的 o1模型相似,o1 模型是 OpenAI 最新的 LLM,具有比之前的 ChatGPT-4o 更先进的推理能力。
与 ChatGPT 一样,Deepseek-V3 和 Deepseek-R1 都是非常大的模型,总共有 6710 亿个参数。每个 token 激活 370 亿个参数,token 是 AI 模型处理的最小基本数据单位。参数和 token 的概念在Transformer架构(大多数 AI 模型都基于的深度学习网络)中至关重要。
“[Deepseek 的] 模型非常大,但他们只在测试时激活了其中的一小部分,”Lee 说。“因此,所使用的有效参数数量与他们拥有的参数数量有很大不同。”
Deepseek 的模型大幅提升了效率
一些人工智能专家认为 Deepseek是从 OpenAI 中提炼出来的,换句话说,将旧模型中的知识转移到了新模型中。尽管 Deepseek-R1 和 OpenAI 的 o1 模型都基于 Transformer 架构,并使用监督微调和强化学习等训练方法,但这两个模型背后的许多创新是不同的。
Deepseek-V3 和 Deepseek-R1 采用稀疏混合专家 ( MoE ) 转换器方法,而非非 MoE密集方法。Deepseek 的模型不会像更常见的密集方法那样使用模型的所有参数来处理每个标记,而是使用其参数的不同指定部分(称为“专家”)来处理不同的标记。
李将变压器比作一个电路——密集方法在生成令牌时会使用电路的每个组件,而稀疏 MoE 方法只会使用电路的一小部分。
“在生成过程中,基本上只有一个电路……同一个电路用于生成单个单词或标记,然后你一遍又一遍地重复这个过程,”Lee 说。“Mixture-of-experts 为模型或电路的某些部分设置了一些标签,每次使用时它只启用其中很小的一部分。有一个小模型决定你要使用哪个部分,因此模型内部有路由:给定输入,我需要使用哪个子部分。”
Deepseek 在之前的 MoE 模型上进行了改进,通过为不常使用的专家增加权重或偏差,以确保他们在未来步骤中得到使用,从而提高了系统的效率。
“[MoE 模型] 往往会在依赖单个专家的情况下崩溃,”Lee 说道。“他们一遍又一遍地使用相同的子部分,而不使用模型的其余部分。[Deepseek] 希望利用他们拥有的所有专家来鼓励多样化和更高的利用率。”喜欢你正在阅读的内容吗?将《每日红衣主教报》的内容发送到你的收件箱电子邮件
跨节点 MoE训练在 Deepseek 等大型模型中很常见,指的是将不同的“专家”安置在不同的图形处理单元 (GPU) 中。李表示,尽管只使用一名专家来处理一个 token,但为了管理目的,每个专家都必须可访问。专家必须跨 GPU 相互通信才能产生一致的输出,这会减慢处理时间。由于美国对最快的技术 H100 GPU 向印度和中国的贸易实施限制,许多股东认为非西方公司缺乏处理能力,无法与西方 LLM 竞争性地训练 LLM。Deepseek 的算法最大限度地减少了 GPU 之间的通信,使它们能够使用较差的硬件和不到一半的处理能力。
Deepseek 的创新推动了人工智能的下一个“阶段”
Deepseek 在有限资源下实现性能最大化的另一种方式是使用多头潜在注意力 ( MLA ),这是一种将大量数据向量压缩为更小、更易于管理的维度以节省内存的策略。人工智能中的注意力机制是一种为输入数据的特定部分分配不同权重或值的方式,以便模型可以专注于更重要的信息。本质上,多头注意力策略允许模型同时将注意力集中在输入的不同部分。
“[Deepseek] 希望让它更快,”Lee 说。“这些向量非常大,而且数量庞大,因为你有多个头。[Deepseek] 希望将它们变成 50 维,而不是 1000 维的向量。这种在不丢失太多信息的情况下投影到较低维度,然后在进行一些处理后上升到原始维度的方法并不是一种很新的技术。”
大多数 AI 模型只能通过给定一串数据来预测下一个标记或单词。该单词被添加到前一个输入中,并用于预测下一个标记,依此类推。但 Deepseek-R1 使用了多标记预测训练,该训练可训练 AI 模型一次预测多个标记,而无需将第一个预测的标记反馈到输入中以生成第二个标记。
“[大多数模型] 只学习如何预测下一个单词,我们从未训练模型预测下一个标记,”Lee 说。“但你也可以训练模型不仅预测下一个标记,还可以预测两个标记、三个标记或四个标记。这个想法在非常小规模的研究方面已经流传了大约一年,表明它有一些好处。”
Deepseek 主要采用浮点 8 ( FP8 ) 混合精度训练框架,而不是更常见的 FP16 框架。本质上,FP8 混合精度训练允许 Deepseek 在结果不会影响最终准确性的情况下使用较小范围的数据进行训练,从而节省数据处理成本。
“通常我们使用 16 位或 32 位来表示数字。但 32 位太贵了。因此,为了从中榨取更多的硬件资源,人们使用 16 位。这就是标准。混合精度意味着有时使用 8 位,有时使用 16 位。因此他们使用这些位数,分配给不同的组件,”Lee 说。
Deepseek 与领先模型在训练前和训练后存在差异,这是 AI 训练过程的两个独立阶段。在训练前,大量数据(如代码、留言板文本、书籍和文章)被输入到 AI 的转换模型中,并学习生成类似的数据。
在后期训练中,AI 学会了如何针对用户查询生成具体答案。Deepseek-R1 使用了一种称为长思路链方法的后期训练技术,其中查询以多个步骤或逻辑链的形式进行回答,这些步骤或逻辑链构建成最终解决方案。Deepseek-R1 是第一个使用此方法并在基准测试中表现良好的已发布大型模型。它在强化学习步骤后使用了两种类型的监督微调来增强模型。这是不典型的,因为大多数模型在强化学习步骤之前都使用监督微调。
Lee 对预训练的差异印象最为深刻,例如使用 FP8 混合精度训练、MoE 模型和 MLA。
“所有其他参与者在架构、训练算法等方面都使用几乎相同的解决方案,”Lee 说道。“他们在竞相看谁的扩展性更好,他们主要关注如何制作更好的数据。对于预训练部分,他们中的大多数人都在做同样的事情。[Deepseek] 引入的每项更改都是以前存在的,但他们利用了过去开发但不知何故逐渐消失的这些好主意,并找到了一个非常好的组合来解决他们的实际挑战。”
在过去的几个月里,除了其他研究之外,李的实验室一直在尝试在小型计算系统上重建 OpenAI 的 o1 模型。但 OpenAI 从未为其模型发布开源软件,这给李的研究带来了复杂性。Deepseek 的开源代码提供了有关生成这两个工作 AI 模型的方法的见解。
“当时他们没有过多谈论训练方法,”李说。“强化学习是他们分享的关键词之一,但他们没有谈论细节,当时有四五种不同的猜测。我从这几种猜测中挑选了一种,我和我的实验室学生一起努力重现 [OpenAI 的] o1 模型所做的工作。事实证明,OpenAI 采用了一种不同的想法——它是在我们提交论文之前提出的。但现在我们想看看这两种不同的方法是否能产生协同效应。”
强化学习是所有人工智能模型在后期训练中常用的工具,通过该工具,模型可以在给定训练数据输入的情况下预测特定的输出。李将强化学习描述为与人工智能模型玩棋盘游戏。
“棋盘的当前状态是输入状态,”李说。“根据状态,我采取行动。然后它会更新状态,因为对手也会玩游戏。现在我看到了新状态,我采取另一个行动……这在游戏中一次又一次地重复。”
当游戏结束时,获胜者的行为被视为良好行为。在模型中,良好数据集被赋予正值,不良数据集被赋予负值。该模型被激励重复积极行为并减少消极行为,其方式类似于心理学领域中的正强化和负强化的概念。每个新“游戏”都会生成一个新的数据集。
李将新发明分为几个阶段:第一阶段,探索高风险的想法并选择一个;第二阶段,改进这些想法。李表示,Deepseek 的 R1 模型似乎预示着进入第二阶段,比许多研究人员预期的要早。
“我认为这更像是第一阶段和第二阶段之间的自然过渡,”李说。“第一阶段更多的是开发新想法,探索疯狂的想法,寻找路径。但接下来,谁会开得更快呢?”
Deepseek 的出现带来了其他新的 AI 创新,特别是因为提供开源模型权重邀请所有开发人员提出改进建议。新模型包括中国制造商阿里巴巴的Qwen模型,该公司声称该模型超越了 Deepseek-R1。OpenAI 的 ChatGPT 还更新了一项新的 Reason 功能,该功能与 Deepseek-R1 中的 Chain-of-Thought 结构非常相似。凭借 Deepseek-V3 和 Deepseek-R1,Deepseek 打破了当前 AI 强国的平衡,为 AI 训练效率树立了新的先例。