DeepSeek的蒸馏技术是这一领域的佼佼者,它不仅攻克了传统蒸馏的瓶颈,还在多模态数据处理等前沿领域取得了突破性进展。本文将深入剖析DeepSeek蒸馏技术的核心原理、创新策略以及未来发展方向,带你一探究竟,领略AI模型优化的奥秘与魅力。

模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。
在机器学习中,模型蒸馏是一种优化技术,通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。教师模型通常具有较高的性能,但计算成本高昂,而学生模型则更加轻量级,推理速度更快,且内存占用更少。
蒸馏技术的核心在于知识的传递和压缩。具体来说,教师模型通过其复杂的结构和大量的参数,学习到了数据中的复杂模式和特征。学生模型则通过模仿教师模型的输出,学习这些模式和特征,从而获得类似的性能。
蒸馏过程通常包括以下几个步骤:
教师模型的训练:首先训练一个性能强大的教师模型,该模型通常具有大量的参数和复杂的结构。
数据准备:从教师模型中提取推理数据样本,这些数据将用于训练学生模型。
学生模型的训练:使用教师模型的输出作为监督信号,对较小的学生模型进行训练。
优化与调整:通过调整学生模型的结构和参数,使其在保持高效的同时,尽可能接近教师模型的性能。
DeepSeek的蒸馏技术将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型到小型高效模型的知识迁移。这种结合方式不仅提升了模型的性能,还显著降低了计算成本。
数据蒸馏通过优化训练数据,帮助小模型更高效地学习。DeepSeek利用强大的教师模型生成或优化数据,这些数据包括数据增强、伪标签生成和优化数据分布。例如,教师模型可以对原始数据进行扩展或修改,生成丰富的训练数据样本,从而提高数据的多样性和代表性。
在模型蒸馏方面,DeepSeek通过监督微调(SFT)的方式,将教师模型的知识迁移到学生模型中。具体来说,DeepSeek使用教师模型生成的800,000个推理数据样本对较小的基础模型(如Qwen和Llama系列)进行微调。这一过程不包括额外的强化学习(RL)阶段,使得蒸馏过程更加高效。
数据蒸馏与模型蒸馏的结合,使得DeepSeek的蒸馏模型在推理基准测试中取得了显著的性能提升。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上实现了55.5%的Pass@1,超越了QwQ-32B-Preview(最先进的开源模型)。这种结合方式不仅提高了模型的性能,还降低了计算资源的需求,使得模型更适合在资源受限的环境中部署。
DeepSeek在知识迁移策略上进行了多项创新,以实现高效的知识传递和模型优化。
DeepSeek采用了多种高效的知识迁移策略,包括基于特征的蒸馏和特定任务蒸馏。基于特征的蒸馏通过将教师模型中间层的特征信息传递给学生模型,帮助学生模型更好地捕捉数据的本质特征。特定任务蒸馏则针对不同的具体任务,如自然语言处理中的机器翻译和文本生成,对蒸馏过程进行针对性优化。
这些策略的优化使得DeepSeek的蒸馏模型在多个基准测试中表现优异。例如,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上实现了72.6%的Pass@1,在MATH-500上实现了94.3%的Pass@1。这些结果表明,DeepSeek的蒸馏模型不仅在性能上接近甚至超越了原始的大型模型,还在计算效率上具有显著优势。
DeepSeek的蒸馏模型架构设计充分考虑了效率与性能的平衡,通过精心设计的模型结构,实现了从大型复杂模型到小型高效模型的知识迁移。
教师模型:DeepSeek选择的教师模型是其自主研发的大型语言模型DeepSeek-R1,该模型具有671B参数,具备强大的推理能力和广泛的知识覆盖。教师模型的强大性能为蒸馏过程提供了丰富的知识基础。
学生模型:学生模型则基于Qwen和Llama系列架构,这些架构在计算效率和内存占用方面表现出色。通过选择这些架构,DeepSeek确保了学生模型在资源受限的环境中能够高效运行。
层次化特征提取:DeepSeek的蒸馏模型采用了层次化特征提取机制。教师模型在处理输入数据时,会生成多层特征表示,这些特征表示包含了数据的丰富语义信息。学生模型通过学习这些特征表示,能够更好地理解数据的结构和模式。
多任务适应性:为了提高模型的泛化能力,DeepSeek的蒸馏模型设计了多任务适应性机制。学生模型不仅学习教师模型的输出,还针对不同的任务需求进行优化。例如,在自然语言处理任务中,学生模型能够根据具体的任务(如文本分类、机器翻译等)调整自身的结构和参数,从而更好地适应任务需求。
参数共享与压缩:DeepSeek采用了参数共享和压缩技术,以进一步优化模型的存储和计算效率。通过共享部分参数,学生模型在保持性能的同时,显著减少了参数数量和存储需求。
轻量化模块设计:在学生模型中,DeepSeek引入了轻量化模块设计。这些模块在保持模型性能的同时,大幅降低了计算复杂度。例如,使用轻量级的注意力机制模块,使得学生模型能够高效地处理长文本输入。
DeepSeek的蒸馏模型训练过程包括多个关键步骤,通过精心设计的训练策略和优化方法,确保了模型的高效训练和性能提升。
数据来源:训练数据主要来自教师模型生成的推理数据样本。DeepSeek使用教师模型对大量输入数据进行处理,生成高质量的输出数据,这些数据作为学生模型的训练样本。 数据增强:为了提高数据的多样性和代表性,DeepSeek采用了数据增强技术。通过对原始数据进行扩展、修改和优化,生成了丰富的训练数据样本,从而提高了学生模型的学习效率。
监督微调(SFT):DeepSeek采用监督微调的方式,将教师模型的知识迁移到学生模型中。具体来说,学生模型通过学习教师模型的输出概率分布,调整自身的参数,以尽可能接近教师模型的性能。
损失函数设计:在训练过程中,DeepSeek设计了混合损失函数,结合了软标签损失和硬标签损失。软标签损失鼓励学生模型模仿教师模型的输出概率分布,而硬标签损失则确保学生模型正确预测真实标签。通过这种混合损失函数,学生模型能够在保持高效的同时,学习到教师模型的关键知识。
温度参数调整:在蒸馏过程中,DeepSeek引入了温度参数来调整软标签的分布。较高的温度参数可以使分布更加平滑,从而帮助学生模型更好地学习教师模型的输出。随着训练的进行,温度参数逐渐降低,以提高蒸馏效果。
动态学习率调整:为了提高训练效率,DeepSeek采用了动态学习率调整策略。通过根据训练进度和模型性能动态调整学习率,确保了模型在训练过程中的稳定性和收敛速度。
正则化技术:为了避免过拟合,DeepSeek在训练过程中引入了正则化技术。例如,使用L2正则化项来约束模型的参数,防止模型过于复杂,从而提高模型的泛化能力。
通过这些训练过程和优化方法,DeepSeek的蒸馏模型不仅在性能上接近甚至超越了原始的大型模型,还在计算效率和资源占用方面表现出色,为资源受限场景下的应用提供了强大的支持。

DeepSeek的蒸馏模型在推理效率方面表现出显著的提升,这主要得益于模型结构的优化和蒸馏技术的应用。通过将知识从大型复杂模型(教师模型)迁移到小型高效模型(学生模型),DeepSeek的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著的优化。
计算资源优化:蒸馏模型的参数量大幅减少,例如DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。这使得模型在推理时所需的计算资源大幅减少,更适合在资源受限的环境中部署。
内存占用减少:由于参数量的减少,蒸馏模型在内存占用方面也表现出色。以DeepSeek-R1-Distill-Llama-8B为例,其内存占用仅为原始模型的1/80左右。这意味着模型可以在更小的内存空间中运行,降低了硬件要求。
推理速度提升:推理速度是衡量模型效率的重要指标。DeepSeek的蒸馏模型在推理速度上实现了显著提升。例如,DeepSeek-R1-Distill-Qwen-32B在处理复杂的推理任务时,推理速度比原始模型提高了约50倍。这种速度的提升使得模型能够更快地响应用户请求,提供实时的推理结果。
尽管蒸馏模型的参数量大幅减少,但通过高效的知识迁移策略,DeepSeek的蒸馏模型在性能上仍然能够接近甚至超越原始的大型模型。这种性能的保持主要得益于以下几个方面:
性能保持策略:DeepSeek采用了多种策略来确保蒸馏模型的性能。例如,通过监督微调(SFT)的方式,将教师模型的推理数据样本用于学生模型的训练。这种策略使得学生模型能够学习到教师模型的关键知识和推理模式,从而在性能上接近教师模型。
基准测试结果:在多个基准测试中,DeepSeek的蒸馏模型表现优异。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024基准测试中实现了55.5%的Pass@1,超越了QwQ-32B-Preview(最先进的开源模型)。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上实现了72.6%的Pass@1,在MATH-500上实现了94.3%的Pass@1。这些结果表明,蒸馏模型在推理任务上不仅能够保持高性能,还能在某些情况下超越原始模型。
与原始模型的对比:通过对比蒸馏模型和原始模型的性能,可以更直观地了解蒸馏技术的效果。例如,DeepSeek-R1-Distill-Llama-70B在AIME 2024上实现了70.0%的Pass@1,在MATH-500上实现了94.5%的Pass@1。这些结果与原始的DeepSeek-R1模型相比,虽然在绝对性能上略有差距,但在计算效率和资源占用方面的优势使其在实际应用中更具价值。
通过这些策略和实验结果,DeepSeek的蒸馏模型在保持高性能的同时,显著降低了计算成本和资源需求,为资源受限场景下的应用提供了强大的支持。
尽管DeepSeek的蒸馏技术在提升模型性能和降低计算成本方面取得了显著成效,但蒸馏技术仍面临“隐性天花板”的挑战。这一挑战主要体现在学生模型的性能难以超越教师模型的固有能力,限制了模型在新领域或复杂任务中的扩展性。
研究表明,通过蒸馏训练的学生模型总是受到教师模型能力的限制。无论蒸馏过程多么复杂,学生模型都无法真正超越教师模型的性能。例如,在多模态数据处理任务中,学生模型在面对复杂的图像与文本融合任务时,其推理能力往往受限于教师模型的固有模式,难以实现更深层次的创新。
多模态数据的蒸馏是当前蒸馏技术面临的另一大挑战。多模态数据包括图像、文本、语音等多种模态,其复杂性和多样性使得蒸馏过程更加困难。
多模态数据的复杂性主要体现在以下几个方面:
数据融合难度大:不同模态的数据具有不同的特征和结构,如何有效地将这些数据融合在一起,是多模态蒸馏的关键问题。例如,图像数据通常是高维的像素矩阵,而文本数据则是离散的词序列,将这两种数据融合需要复杂的特征提取和映射技术。
语义对齐困难:不同模态的数据在语义层面上需要对齐,才能实现有效的知识迁移。例如,在图像与文本的对齐任务中,需要确保图像中的物体与文本中的描述能够准确对应,这需要强大的语义理解能力。
计算资源需求高:多模态数据的处理需要大量的计算资源,尤其是在蒸馏过程中,需要同时处理多个模态的数据,这进一步增加了计算复杂度。
自大 DeepSeek-v3 惊艳全场后:DeepSeek-V3 是怎么训练的|深度拆解
昨天晚上,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网:
R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
R1 上线 API,对用户开放思维链输出
R1 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini
最离谱的是,价格只有 OpenAI 的几十分之一



下面,让我们以更加系统的方式,来看看这次的 R1,是这么炼成的。
本文将从性能、方法、蒸馏、展望几个纬度来拆解 V3,所用到的图表、数据源于其论文:《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。
公众号后台回复:DSR1,获得详细报告。
先插入一句:除了 R1 之外,DeepSeek 还发布了 R1-Zero
R1-Zero 基于 DeepSeek-V3-Base,纯粹通过 RL (强化学习) 训练,无 STF (监督微调)
R1 则基于 R1-Zero,先利用少量人工标注的高质量数据进行冷启动微调,然后再进行 RL
纯强化学习的有效性:R1-Zero 的训练,证明了仅通过 RL,无 SFT ,大模型也可以有强大的推理能力。在 AIME 2024 上,R1-Zero 的 pass@1 指标从 15.6% 提升至 71.0%,经过投票策略 (majority voting) 后更是提升到了 86.7%,与 OpenAI-o1-0912 相当 (表 2,第 7 页)。
“顿悟”现象的出现:训练过程中,R1-Zero 出现了“顿悟”现象,能够自发地学习到新的、更有效的推理策略 。
蒸馏比小型模型直接 RL 更有效:将 R1 的推理能力蒸馏到小型模型 (如 Qwen 系列和 Llama 系列),比直接在这些小型模型上应用 RL 效果更好 (表 5,第 14 页)。例如,R1-Distill-Qwen-7B 在 AIME 2024 上得分 55.5%,远超 QwQ-32B-Preview;R1-Distill-Qwen-32B 更是取得了 72.6% 的惊人成绩 。这说明大型模型在 RL 过程中学到的推理模式具有通用性和可迁移性。
冷启动数据的价值:R1 相较于 R1-Zero,仅通过引入少量高质量的冷启动数据,便提升了 RL 的效率和最终性能。
论文在多个维度对 R1 的性能进行了评估,涵盖了知识密集型任务、推理密集型任务、长文本理解任务和开放式问答任务,并与多个业界领先的基线模型进行了对比。在评估中,对比了包括 DeepSeek-V3、Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini 以及 OpenAI-o1-1217 在内的模型:

上表来自于论文中的表 4,阅读课得出以下结论:
R1 在推理任务上表现出色,特别是在 AIME 2024 (美国数学邀请赛)、MATH-500 (数学竞赛题) 和 Codeforces (编程竞赛)等任务上,取得了与 OpenAI-o1-1217 相媲美甚至超越的成绩。
在 MMLU (90.8%)、MMLU-Pro (84.0%) 和 GPQA Diamond (71.5%) 等知识密集型任务基准测试中,性能显著超越了 DeepSeek-V3 模型。
在针对长上下文理解能力的 FRAMES 数据集上,R1 的准确率达到了 82.5%,优于 DeepSeek-V3 模型。
在开放式问答任务 AlpacaEval 2.0 和 Arena-Hard 基准测试中,R1 分别取得了 87.6%的 LC-winrate 和 92.3%的 GPT-4-1106 评分,展现了其在开放式问答领域的强大能力。
架构思路:纯粹的强化学习训练模式。 没有任何 SFT 数据的情况下,通过纯粹的强化学习。
算法应用:直接在 DeepSeek-V3-Base 模型上应用 GRPO 算法进行强化学习训练。
奖励机制:使用基于规则的奖励机制,包括准确性奖励和格式奖励,来指导模型的学习。
训练模板:采用了简洁的训练模板,要求模型首先输出推理过程 (置于

“顿悟”时刻:R1-Zero 的训练过程中还出现了“顿悟”现象。例如,表 3 (第 9 页) 展示了一个 R1-Zero 在解决一道数学题时的中间版本输出。在这个例子中,模型在推理过程中突然意识到可以“重新评估”之前的步骤,并尝试用一种新的方法来解题。

性能表现: 展示了 R1-Zero 在 AIME 2024 基准测试上的性能变化曲线。随着 RL 训练的进行,模型的 pass@1 指标从最初的 15.6% 稳步提升至 71.0%,达到与 OpenAI-o1-0912 相当的水平。(第 7 页,图 2)。

在 AIME 2024、MATH-500 等数学推理任务上,以及 GPQA Diamond 等知识问答任务上,R1-Zero 均取得了与 OpenAI-o1-0912 相媲美的成绩,部分任务甚至有较大的领先。(第 7 页,表 2)

架构思路:在 DeepSeek-V3-Base 模型的基础上,先利用少量高质量的 “冷启动” (Cold Start) 数据进行微调,然后再进行强化学习。 这种方法结合了监督学习和强化学习的优势,既可以利用人类的先验知识引导模型,又可以发挥强化学习的自学习和自进化能力。
冷启动阶段:使用数千个高质量的人工标注样本对 DeepSeek-V3-Base 模型进行微调,作为强化学习训练的初始模型。为了构建高质量的冷启动数据,DeepSeek 团队尝试了多种方法,包括:
使用带有长 CoT 的 few-shot prompting。
直接提示模型生成带有反思和验证的详细解答。
收集 R1-Zero 的输出,并进行人工标注和格式化。
面向推理的强化学习:在冷启动阶段之后,R1 采用了与 R1-Zero 类似的强化学习训练流程,但针对推理任务进行了特别优化。为了解决训练过程中可能出现的语言混杂问题,R1 引入了一个语言一致性奖励 (Language Consistency Reward),该奖励根据 CoT 中目标语言单词的比例来计算。
拒绝采样与监督微调:当面向推理的强化学习收敛后,R1 利用训练好的 RL 模型进行拒绝采样 (Rejection Sampling),生成新的 SFT 数据。与之前的冷启动数据不同,这一阶段的 SFT 数据不仅包含推理任务,还涵盖了其他领域的数据,例如写作、角色扮演、问答等,以提升模型的通用能力。
面向全场景的强化学习:在收集了新的 SFT 数据后,R1 会进行第二阶段的强化学习训练,这一次,训练的目标不再局限于推理任务,而是涵盖了所有类型的任务。此外, R1 采用了不同的奖励信号和提示分布, 针对不同的任务类型进行了优化。例如, 对于数学、代码和逻辑推理等任务, 采用基于规则的奖励;对于开放式问答、创意写作等任务, 则采用基于模型的奖励。
R1 采用的核心算法是 Group Relative Policy Optimization (GRPO) 算法,并辅以精心设计的奖励机制来指导模型的学习。与传统的需要构建 Critic 模型来估计状态值函数的算法不同,GRPO 通过比较一组样本的奖励来估计优势函数 (Advantage),降低了训练过程的复杂度和所需的计算资源。GRPO 算法的目标函数和优势函数的计算公式在论文的 2.2.1 章节 (第 5 页) 中有详细的数学描述。

R1-Zero 的奖励系统,主要以下两类:
准确性奖励 (Accuracy Rewards): 评估模型生成的响应是否正确。对于具有确定性答案的任务 (例如数学题),模型需要将最终答案放在特定格式 (例如,放在一个方框内) 中,以便进行自动验证。对于代码生成任务 (例如 LeetCode 题目),则利用编译器对生成的代码进行测试。
格式奖励 (Format Rewards): 强制模型将推理过程放在 think
R1-Zero 采用了一种简洁的训练模板 (表 1,第 6 页),要求模型首先输出推理过程,然后给出最终答案。模板如下:

其中,prompt 会在训练过程中,被替换为具体的推理问题。
DeepSeek 团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。他们使用 R1 生成的 800K 数据,对 Qwen 和 Llama 系列的多个小模型进行了微调。表 5 (第 14 页) 展示了模型蒸馏的结果。

可以看出:
经过 R1 蒸馏的小模型,在推理能力上得到了显著提升,甚至超越了在这些小模型上直接进行强化学习的效果。 例如,R1-Distill-Qwen-7B 在 AIME 2024 上的得分达到了 55.5%,远超 QwQ-32B-Preview。
R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并与 o1-mini 相当。
表 6 (第 14 页) 对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。 结果表明,直接在 Qwen-32B-Base 上进行强化学习,只能达到与 QwQ-32B-Preview 相当的水平,而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明,R1 学到的推理模式具有很强的通用性和可迁移性,可以通过蒸馏的方式传递给其他模型。

在论文的最后,DeepSeek 团队也探讨了 R1 模型的局限性,并提出了未来的研究方向:
局限性:
通用能力:R1 的通用能力 (例如函数调用、多轮对话、复杂角色扮演和 json 输出) 仍落后于 DeepSeek-V3。
语言混杂:R1 在处理非中英文问题时,可能会出现语言混杂现象。
提示词工程:R1 对提示词较为敏感,使用 few-shot 提示可能会降低其性能。
软件工程任务:由于 RL 训练的评估周期较长,R1 在软件工程任务上的性能提升有限。
未来工作:
探索如何利用长 CoT 提升 R1 在通用能力上的表现。
解决 R1 的语言混杂问题。
优化 R1 的提示词策略。
将 RL 应用于软件工程任务,提升 R1 在该领域的性能。
继续探索更有效的强化学习算法和奖励机制,进一步提升模型的推理能力。
研究如何将 R1 的推理能力更好地应用于实际场景,例如科学研究、代码生成、药物研发等。
DeepSeek 团队在研究过程中也尝试了一些其他方法,但并未取得理想的效果,例如:
Process Reward Model (PRM): PRM 的构建和训练都存在较大挑战,且容易导致奖励“hack”。
Monte Carlo Tree Search (MCTS): MCTS 在 token 生成任务中面临搜索空间过大的问题,且 value model 的训练较为困难。
DeepSeek 通过强化学习(RL)引入了一种创新方法,以提升大型语言模型(LLMs)的推理能力,这一方法在他们近期发布的论文《DeepSeek-R1》中有详细阐述。这项研究在通过纯强化学习而无需大量监督微调来增强 LLM 解决复杂问题的能力方面,代表了一个重要的进展。
DeepSeek-R1 不是一个单一的模型,而是一系列模型,包括:DeepSeek-R1-Zero 和 DeepSeek-R1。
让我说明一下 DeepSeek-R1 和 DeepSeek-R1-Zero 之间的关键区别:
DeepSeek-R1-Zero 代表团队使用纯强化学习而不进行任何监督微调的初步实验。他们从基础模型开始,直接应用强化学习,让模型通过试错过程发展推理能力。虽然这种方法取得了令人印象深刻的结果(在 AIME 2024 上达到 71% 的准确率),但在可读性和语言一致性方面存在一些显著的限制。该模型拥有 6710 亿个参数,采用混合专家(MoE)架构,每个标记激活相当于 370 亿个参数。这个模型展现出了新兴的推理行为,如自我验证、反思和长链思维(CoT)推理。
相比之下,DeepSeek-R1 使用了更复杂的多阶段训练方法。它不是纯粹依赖强化学习,而是在应用强化学习之前,首先在一小部分经过精心挑选的示例(称为“冷启动数据”)上进行监督微调。这种方法解决了 DeepSeek-R1-Zero 的局限性,同时实现了更好的性能。该模型同样保持了 6710 亿参数,但在响应的可读性和连贯性方面表现更佳。
训练方法论:
DeepSeek-R1-Zero 的训练过程非常简单:
DeepSeek-R1 的训练过程则包括四个不同阶段:
性能指标:
局限性与未来工作
论文承认了几项需要改进的领域:
未来的工作将重点解决这些限制,并扩展模型在函数调用、多轮交互和复杂角色扮演场景等方面的能力。
开源与许可: DeepSeek-R1 及其变体在 MIT 许可下发布,促进了开源合作和商业使用,包括模型蒸馏。此举对于促进创新和降低 AI 模型开发的门槛至关重要。
模型格式: 两种模型及其蒸馏版本均提供 GGML、GGUF、GPTQ 和 HF 等格式,允许灵活地在本地部署。
DeepSeek 聊天平台提供了一个用户友好的界面,可以无需任何设置即可与 DeepSeek-R1 互动。
访问步骤:

对于编程访问,DeepSeek 提供了与 OpenAI 格式兼容的 API,允许集成到各种应用中。
使用 API 的步骤:
a. 获取 API 密钥:
b. 配置你的环境:
c. 进行 API 调用:

两种模型(R1 和 R1-Zero):

本地运行的软件工具:
Ollama:你可以使用 Ollama 在本地提供模型服务:Ollama 是一个用于在你的机器上本地运行开源 AI 模型的工具。你可以在 Ollama 下载页面 下载它。
接下来,你需要本地下载并运行 DeepSeek R1 模型。
Ollama 提供了不同大小的模型——基本上,模型越大,AI 越聪明,但需要更好的 GPU。以下是模型系列:
为了开始实验 DeepSeek-R1,建议从较小的模型开始,以熟悉设置并确保与你的硬件兼容。你可以通过打开终端并执行以下命令来启动这个过程:
ollama run deepseek-r1:8b1.5B 版本(最小):
ollama run deepseek-r1:1.5b
8B 版本:
ollama run deepseek-r1:8b
14B 版本:
ollama run deepseek-r1:14b
32B 版本:
ollama run deepseek-r1:32b
70B 版本(最大/最智能):
ollama run deepseek-r1:70b
通过 Ollama 向本地下载的 DeepSeek-R1 发送请求:
Ollama 提供了一个 API ,可以以编程方式与 DeepSeek-R1 互动。确保 Ollama 服务器在本地运行后再进行 API 请求。你可以通过运行以下命令启动服务器:
ounter(lineollama serve
服务器启动后,你可以使用 curl 发送请求,如下所示:
ounter(lineounter(lineounter(lineounter(lineounter(linecurl -X POST <http://localhost:11434/api/generate> -d '{"model": "deepseek-r1","prompt": "你的问题或提示内容"}'
将“你的问题或提示内容”替换为你希望提供给模型的实际输入。该命令向本地 Ollama 服务器发送一个 POST 请求,服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。
本地运行/访问模型的其他方法包括:
vLLM/SGLang: 用于本地提供模型。对于蒸馏版本,可以使用类似以下的命令:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — enforce-eagerllama.cpp: 你也可以使用 llama.cpp 在本地运行模型。
从 DeepSeek-R1-Zero 到 DeepSeek-R1 的这一进展,代表了研究中的重要学习历程。虽然 DeepSeek-R1-Zero 证明了纯强化学习的可行性,但 DeepSeek-R1 展示了将监督学习与强化学习相结合如何能够创建一个更强大且实用的模型。
DeepSeek R1 是由国内团队开发的高性能开源大模型。详细介绍可以看这里:甚至比 OpenAI-O1表现更好! 我测了 DeepSeek R1,结论只有两个字:牛逼!

那本文将介绍其蒸馏版本在普通家用笔记本上的部署和使用,之所以选择蒸馏版本,是因为蒸馏版本通过模型蒸馏技术实现了算力需求的大幅降低。而且在数学、编程等领域表现出众,可处理复杂逻辑推理任务,如果你不了解蒸馏技术文末也会提供相关的拓展知识
1 支持 AVX2 指令集的 CPU(近几年的笔记本通 常都支持)
2 内存建议 32GB 以上获得流畅体验
3 存储空间预留 10GB 以上
4 可选 NVIDIA 显卡实现 CUDA 加速
环境安装:
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.14.1source /home/$USER/.bashrc获取模型:
curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf下载服务端:
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm部署界面:
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gztar xzf chatbot-ui.tar.gz启动服务:
wasmedge --dir .:. --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf llama-api-server.wasm --prompt-template llama-3-chat --ctx-size 8096然后访问 http://localhost:8080 开始对话
如果是想通过 API访问,因为提供了OPENAI 接口的兼容处理,请求接口直接就是"http://localhost:8080/v1",大模型调用时使用 DeepSeek-R1-Distill-Llama-8B
模型蒸馏技术是通过大模型对小模型的"教导"实现知识迁移
在这个过程中,教师模型(大模型)会将其学到的特征、决策边界和推理能力等知识,通过特殊的训练方式传授给学生模型(小模型)
具体来说,大模型会生成带有软标签的训练数据,这些软标签包含了更丰富的分布信息,而不是简单的 0/1 分类
学生模型通过模仿教师模型的输出分布进行学习,从而在保持核心能力的同时大幅减少参数量,最终实现模型的轻量化
DeepSeek R1 正是通过这种技术,将原始的数百亿参数压缩到了 8B,同时保持了优秀的性能表现
Rust + WebAssembly 技术栈的选择体现了现代应用部署的革新思路。Rust 语言以其内存安全和高性能著称,编译后的代码性能接近 C++。而 WebAssembly 作为一种底层字节码格式,可以将高级语言编译成在浏览器中近乎原生速度运行的代码。
这两种技术的结合,整个运行时环境仅需 30MB,还实现了真正的跨平台部署能力。由于 WebAssembly 的沙箱特性,应用运行在隔离的环境中,提供了额外的安全保障。
同时,这种架构天然支持容器化部署,可以无缝集成到现代云原生基础设施中,在大模型部署场景下,这种技术组合相比传统的 Python 方案,显著减少了环境依赖,提升了部署效率,降低了维护成本。
本地部署的 DeepSeek R1 成为知识管理的得力工具。比如上下文理解,建立文档间的知识图谱,发现潜在关联,对话形式为用户提供精准的文档解读服务
在软件开发领域,类似于实时的代码补全建议,分析代码中的潜在问题。根据代码上下文自动生成单元测试,确保代码质量。对于复杂的重构需求,能提供详细的重构建议和实施步骤,大大提升开发效率
数据分析场景下,本地部署的 DeepSeek R1 可以智能识别数据特征,提供个性化的数据清洗策略。基于数据内容和分析目标,生成专业的分析报告,包括数据趋势、异常值检测和相关性分析。甚至能数据可视化,可深成适合的图表类型,直观地展示数据的变化!