MoE 微调
混合专家(MoE)模型与普通稠密模型的核心差异在于MoE的稀疏激活机制,它通过门控网络动态选择部分专家处理输入,显著降低计算成本(如DeepSeek-v3每次仅激活5.5%参数)。
微调混合专家(MoE)模型与普通模型的核心差异深度研究报告
本报告旨在深入剖析和比较微调混合专家(Mixture-of-Experts, MoE)模型与传统普通(稠密)模型之间的核心差异。基于当前大语言模型的发展趋势,MoE架构因其在扩展模型容量与控制计算成本之间的独特平衡能力而备受关注 [26, 50]。然而,这种架构上的根本性转变也带来了全新的挑战和机遇。本报告将从技术原理、训练过程、性能表现、资源消耗、优化策略及应用场景等多个维度,对两种模型的微调差异进行全面而深刻的分析。
架构基础与稀疏激活机制:MoE模型的本质区别
混合专家模型(MoE)与普通(稠密)模型最根本的区别在于其独特的架构设计,特别是“稀疏激活”(Sparse Activation)机制。这一特性是理解两者在微调阶段所有其他差异的基础。MoE模型源于1991年Michael I. Jordan等人提出的自适应混合专家系统 [6, 49],其核心思想是将一个复杂的任务分解给多个专门化的子模型(即“专家”)来处理,并由一个“门控网络”(Gating Network)根据输入数据动态地决定如何组合这些专家的输出 [5, 6]。在现代Transformer架构中,MoE层通常被用来替代前馈网络(Feed-Forward Network, FFN)层,因为FFN层往往占据了模型总参数的绝大部分(例如,在PaLM模型中占比高达90%)[10, 13]。
MoE架构的基本构成包括三个部分:一组独立的专家模型、一个门控网络以及一个用于联合优化的机制 [6, 7]。专家本身是小型的神经网络,每个都专注于处理特定类型的数据或任务 [6]。当一个输入(如一个token)进入MoE层时,门控网络会对其进行分析,并输出一个概率分布,该分布决定了每个专家的权重 [2]。随后,输入被路由到得分最高的K个专家(Top-K Routing)进行处理 [5, 9]。最终的输出是这K个专家处理结果的加权和 [2]。这种机制被称为条件计算(Conditional Computation),因为它仅计算处理当前输入所需的那部分模型参数,从而实现了巨大的计算效率提升 [10, 48]。
与之相对,普通稠密模型的结构则要简单得多。在每个Transformer层中,输入都会经过一个完整的、密集的FFN层进行处理,模型的所有参数都参与到每一次前向传播和反向传播中 [36]。这意味着稠密模型的计算成本与其参数规模呈线性关系增长。虽然这种设计确保了模型的稳定性和易于训练的特点,但它也限制了模型在不显著增加推理成本的情况下所能达到的参数规模上限 [7]。
稀疏激活机制是MoE模型的核心优势所在,它使得模型可以在保持极高的参数总量的同时,将单次推理的实际计算量控制在一个较低的水平 [3, 25]。例如,拥有6710亿总参数的DeepSeek-v3模型,在每次处理token时仅激活其中的370亿个参数 [3, 9]。同样,Mixtral 8x7B模型拥有467亿总参数,但在推理时每token仅激活约129亿参数 [33, 34]。这种解耦参数量与计算量的能力,使得MoE成为构建超大规模、高性能模型的主流选择 [26, 50]。然而,这种架构上的本质区别也直接导致了微调阶段一系列复杂问题的产生,如负载均衡、专家专业化和过拟合风险等,这些问题在传统的稠密模型微调中几乎不存在 [6, 7]。
训练与更新流程:参数更新与梯度传播的根本不同
在微调过程中,MoE模型与普通模型的另一个关键差异体现在参数更新和梯度传播的流程上。这一差异源于MoE的稀疏激活特性,它改变了哪些模型参数实际参与计算以及如何接收梯度信号。
对于普通稠密模型,微调过程非常直观。在前向传播中,输入通过整个网络,计算出损失;在反向传播中,损失函数的梯度会逐层传播,更新网络中的每一个参数 [2]。由于所有参数都参与到计算中,因此它们的梯度计算和更新都是全量且同步的。微调一个稠密模型通常意味着更新模型中的绝大多数参数,尽管可以通过冻结部分层(如仅微调顶层)来减少计算量和防止灾难性遗忘 [44]。
相比之下,MoE模型的训练和微调过程要复杂得多。在前向传播中,只有被门控网络选中的专家(Top-K experts)才会处理对应的输入token,并参与到计算中 [1, 7]。在反向传播时,梯度流也遵循同样的稀疏路径。具体来说,只有那些在前向传播中活跃的专家的参数以及门控网络的参数会接收到非零的梯度并被更新 [1, 2]。未被激活的专家,其参数在整个批次中梯度始终为零,不会发生任何变化 [1]。
这种“按需更新”的机制带来了双重影响。一方面,它极大地降低了每次迭代的计算开销,因为只有一小部分参数需要进行矩阵乘法和梯度更新。另一方面,这也引入了一个严峻的挑战:专家更新的异步性和不平衡性。不同的专家在每个批次中可能被激活的频率和数量截然不同。一些处理高频模式的专家可能会频繁更新,而另一些处理罕见模式的专家则可能长时间得不到梯度信号。这种不平衡可能导致专家学习到的模式不稳定,甚至出现“路由崩溃”(Routing Collapse)现象,即门控网络总是将输入路由到少数几个固定的专家,导致大量专家闲置和参数浪费 [29, 45]。
为了应对这一挑战,MoE的训练流程必须包含额外的组件和约束。最主要的是辅助损失(Auxiliary Loss)或负载均衡损失(Load-Balance Loss) [4, 28]。这个损失项的目标是促使门控网络产生的路由分布尽可能接近均匀分布,即每个专家理论上应该处理相同数量的输入 [13]。通过在总损失函数中加入一项与专家利用率偏差相关的惩罚项,可以强制所有专家得到均衡的训练机会,从而缓解更新不平衡的问题 [1, 10]。此外,噪声注入(如Noisy Top-k Gating)也是一种常用的技术,它通过为门控分数添加随机噪声来鼓励探索更多专家,提升路由的多样性 [4]。因此,MoE的微调不再是简单的端到端训练,而是一个需要协同优化专家网络、门控网络和负载均衡器的复杂过程。
性能表现与泛化能力:微调后的效果差异与适用场景
在微调之后,MoE模型与普通模型在性能表现和泛化能力方面展现出显著的差异,这些差异主要体现在对指令微调的敏感度、多任务学习能力以及特定任务上的短板。
首先,MoE模型从**指令微调(Instruction Tuning)**中获益匪然远大于普通稠密模型 [8, 32, 34, 38]。研究《MoEs Meets Instruction Tuning》明确指出,经过指令微调后,Flan-MoE模型的性能提升幅度显著超过了对应大小的Flan-T5(稠密模型) [27, 32]。例如,FLAN-ST32B模型(MoE)相比FLAN-PALM62B(稠密)在MMLU基准测试上以三分之一的计算量取得了更高的准确率,并且其性能提升比值也更高 [27, 32]。这种优势的背后逻辑在于,MoE的稀疏架构允许模型通过微调来发展出高度专业化的专家模块。不同的专家可以学会处理不同类型的任务指令,从而在多任务环境中实现更优的泛化和更低的负迁移风险 [27, 34]。相比之下,稠密模型的所有参数都需要同时服务于所有任务,难以像MoE那样形成如此精细的功能划分。
其次,在**多任务学习(Multi-task Learning)**方面,MoE模型表现出更强的能力 [8, 34]。由于其模块化的设计,新任务可以通过引入新的专家或调整路由策略来集成,而不会严重干扰旧任务的知识,这对于避免灾难性遗忘至关重要 [29]。LoRA与MoE结合的研究(如MoRAMoE)进一步证明了这一点,通过将LoRA模块作为专家,模型能够有效学习新任务而不损害预训练知识 [42]。
然而,MoE模型并非万能,在某些场景下其表现可能不及甚至劣于同等规模的稠密模型。
| 场景对比 | MoE 模型 | 稠密模型 |
|---|---|---|
| 指令微调收益 | 显著受益,性能提升幅度更大 [27, 32] | 受益较少,性能提升幅度较小 [27, 32] |
| 多任务学习 | 泛化能力强,支持新任务引入新专家,减轻负迁移 [29, 34] | 所有参数需服务所有任务,存在任务冲突风险 |
| 知识密集型任务 | 表现优异,如TriviaQA等 [8, 52] | 表现良好 |
| 重理解/推理任务 | 表现可能较差,不如大型稠密模型 [8, 34, 41] | 表现通常更稳健 |
| 小规模/单一任务微调 | 容易过拟合,泛化能力不足 [8, 38, 55] | 表现更稳定可靠 [55] |
| 多语言任务 | 可能因过度优化主语言而表现下降 [27] | 通常具有更均衡的多语言能力 |
一个关键的弱点是在重理解和推理任务上,如SuperGLUE基准测试集 [8, 34, 41]。研究发现,经过指令微调的稀疏模型在这些需要深度语义理解的任务上,其性能可能不如参数相当但未经稀疏化的稠密模型 [34, 41]。这可能是因为MoE的专家专业化机制虽然擅长记忆和模式识别,但在需要综合全局信息进行复杂逻辑推理时,其局部化的专家结构反而成为一种限制。
此外,MoE模型在多语言任务上也暴露出局限性。例如,FLAN-MOE模型在TyDiQA和MGSM等多语言基准测试中表现不佳,推测原因可能是其在微调过程中过度优化了英语相关任务,导致对其他语言的理解能力受损 [27]。这表明MoE模型的泛化能力在不同维度上可能存在不均衡。最后,在小规模或单一任务的微调场景下,MoE模型更容易出现过拟合问题 [8, 38]。这是因为其庞大的总参数量使得模型有更多的自由度去“记住”训练数据中的噪声,而强大的正则化(如dropout)是必不可少的 [34, 38]。相比之下,参数规模较小的稠密模型在这种场景下通常更为稳定和可靠 [55]。
资源消耗与显存占用:内存需求与计算开销的全面对比
在微调阶段,MoE模型与普通模型在资源消耗,特别是内存(VRAM)占用和计算开销方面存在显著差异。这种差异直接影响了模型的可训练性、训练速度和硬件要求。
最核心的矛盾点在于显存占用。尽管MoE模型在推理时通过稀疏激活大幅降低了实际计算量(例如,Mixtral 8x7B的推理计算量相当于一个12.9B参数的稠密模型 [19, 34]),但其微调过程却面临着严峻的内存挑战。在微调时,为了执行反向传播,模型需要加载所有专家的参数,以便计算和更新梯度 [8, 31]。这意味着微调MoE所需的VRAM空间等同于其总参数量所对应的内存,而非仅仅是激活参数量。例如,Mixtral 8x7B模型拥有46.7B的总参数,微调时需要准备相当于一个47B参数的稠密模型的VRAM,这比其推理时的计算量要高出数倍 [8, 14, 34]。对于更大的模型如DeepSeek-v3(总参数671B),其微调显存需求更是惊人 [3]。相比之下,全量微调一个同等规模的稠密模型也需要加载全部参数,但在小规模模型上,其内存占用的绝对值仍然低于总参数量巨大的MoE模型 [44]。这一特性是MoE模型在微调阶段的主要瓶颈之一,限制了其在资源有限设备上的应用。
在计算开销方面,情况则恰恰相反。MoE模型的优势在此体现得淋漓尽致。由于每次前向和后向传播仅激活一小部分专家,其实际的浮点运算(FLOPs)消耗远低于同等规模的稠密模型 [25, 54]。例如,采用MoE架构的GLaM模型(1.2万亿参数)的计算量仅为GPT-3(1750亿参数)的三分之一 [25]。Switch Transformer在使用top-1路由策略时,能够将预训练速度提升高达4倍 [19, 33, 52]。这种计算效率的提升使得在有限的计算预算内训练更大规模的模型成为可能,或者在同等时间内完成更多轮次的训练,从而加速模型迭代。
然而,这种计算效率的提升是以通信开销为代价的。在分布式训练环境中,MoE模型的稀疏激活机制引入了一种特殊的通信操作——All-to-All。在前向传播中,每个GPU需要将其负责的token按照门控网络的路由决策发送给负责相应专家的GPU,然后在后向传播中再将梯度汇集回来 [10, 25]。这个操作的通信量与活跃的专家数量(即top-k值)成正比,且随GPU节点数量的增多而增加 [25]。当top-k值较大时(如DeepSeek v2的topk=6),All-to-All的通信开销会变得非常可观,甚至可能超过计算时间,成为训练的瓶颈 [37]。相比之下,稠密模型的分布式训练主要依赖于数据并行,其内部的All-reduce通信开销虽然也很大,但其通信模式相对简单且成熟。因此,MoE的微调不仅考验单卡显存,还对集群间的网络带宽提出了极高要求。
总结来说,MoE模型在微调阶段呈现出一种“内存杀手”和“计算节俭者”的二元对立形象。它用巨大的VRAM需求换取了高效的训练计算,但同时也引入了复杂的分布式通信挑战。这使得MoE模型的微调实践成为一个在总参数量、激活专家数、批量大小、学习率和集群配置之间进行复杂权衡的艺术。
微调策略与超参数调优:MoE模型的独特挑战与优化方法
由于架构和训练机制的根本不同,微调MoE模型需要一套与稠密模型截然不同的策略和技巧。这些策略主要围绕解决专家更新不平衡、防止过拟合以及找到最优超参数组合等问题展开。
1. 专家与门控的协同训练
MoE的微调不仅仅是更新专家和门控网络那么简单,更重要的是让它们协同进化。一个常见的错误做法是完全冻结MoE层,因为这会导致性能急剧下降 [27, 32]。一种有效的策略是冻结部分组件,仅更新另一部分。研究表明,在微调时,冻结MoE层而仅更新非MoE层(如注意力层)可以获得接近全量微调的效果,同时大大加快速度和降低显存消耗 [28, 34, 38]。ST-MoE的研究发现,仅微调非MoE FFN参数(FFN)甚至能达到与全量微调相近的性能 [33]。这表明在MoE架构中,非专家部分的参数可能主导着模型性能的提升。另一种策略是冻结门控网络,轻微冻结门控有时能略微提升性能 [27, 32],因为稳定的路由有助于已学专家知识的巩固。
2. 负载均衡与路由稳定性
这是MoE微调中最核心的挑战之一。为了解决专家利用率不均的问题,除了在损失函数中加入标准的负载均衡损失外 [10, 13],研究人员还探索了多种高级方法。例如,DeepSeek-v3采用了无辅助损失的负载均衡策略,通过引入可学习偏置来动态调整专家的激活概率,巧妙地绕开了传统辅助损失的弊端 [3]。另一项创新是动态门控,它允许模型自适应地调整每次激活的专家数量,以更好地匹配输入的复杂度 [17]。此外,一些研究引入了对比损失,鼓励被选中的专家之间具有高相似度,而未被选中的专家之间具有低相似度,从而提升路由的鲁棒性 [29]。
3. 防止过拟合与超参数选择
MoE模型因其庞大的总参数量,在微调时极易过拟合,尤其是在数据量有限的小型任务上 [8, 34, 38]。为此,必须采取更强的正则化措施。最常见的方法是提高dropout率 [34, 38, 51]。同时,在超参数选择上也有其特殊性。研究普遍建议**使用较小的批量大小(batch size)和较高的学习率(learning rate)**来微调MoE模型 [8, 28, 34, 38]。较小的批量大小增加了梯度的随机性,有助于打破专家之间的静态分工,促进更均衡的学习。而较高的学习率则能更快地推动参数更新。此外,关闭辅助损失有时也被证明是一种有效的正则化手段,尽管这可能增加令牌被丢弃的风险,但能在不影响模型质量的前提下起到防止过拟合的作用 [8, 34]。
4. 参数高效微调(PEFT)的结合
MoE与PEFT技术的结合开辟了新的微调范式。MoE-LoRA将LoRA模块本身作为专家,通过路由机制进行选择和组合 [42, 45]。这种混合方法既能利用LoRA的参数高效性,又能发挥MoE的专家专业化优势。HydraLoRA等变体进一步通过共享LoRA的A矩阵来减少不同专家间的任务干扰 [39]。此外,**共享专家(Shared Expert)**的设计也是一种重要的策略,它包含一个始终被激活的通用专家,用于处理所有输入,而路由专家则处理特定任务或领域的知识,这有助于提升模型的泛化能力和减少参数冗余 [3, 13, 14]。
综上所述,MoE模型的微调是一个充满挑战但又极具潜力的领域。成功的微调不再是一套通用的规则,而是需要针对具体模型架构、任务需求和可用资源进行精细化调整的科学与艺术。
系统工程与未来展望:MoE微调的实践挑战与发展趋势
微调MoE模型不仅是算法层面的挑战,更是一场深刻的技术系统工程变革。从底层硬件加速到分布式训练框架,再到具体的微调实践,MoE的广泛应用催生了一系列创新技术和解决方案。
1. 分布式并行与通信优化
MoE模型的稀疏激活机制天然地与**专家并行(Expert Parallelism, EP)**相结合,即将不同的专家分布在不同的GPU或节点上进行计算 [10, 13]。这是MoE特有的并行策略,与稠密模型常用的张量并行(Tensor Parallelism, TP)和数据并行(Data Parallelism, DP)共同构成了MoE的并行体系 [37]。EP的核心通信操作是All-to-All,它在专家并行组内执行,负责根据门控网络的输出将token分发给对应的专家 [10]。然而,All-to-All操作的通信开销巨大,是MoE训练和推理的主要瓶颈 [25, 45]。为了克服这一瓶颈,业界开发了多种优化技术:
- 通信压缩与调度: DeepSpeed-MoE和Tutel等框架通过融合All-to-All操作、使用更高效的通信库(如SCCL替换NCCL)和通信压缩技术来降低开销 [22, 53]。
- 分层All-to-All: 通过在GPU拓扑结构中组织通信组,将通信复杂度从O§降低到O(G+p/G),显著提升了扩展性 [53]。
- 无放弃MoE (Dropless MoE): MegaBlocks等框架通过块稀疏矩阵乘法等技术,实现了在不丢弃任何令牌的情况下高效执行稀疏训练,解决了传统MoE中因容量因子限制而导致的令牌丢失问题 [28, 45, 46]。
- 专家卸载与缓存优化: FastMoE、fMoE等系统通过将不活跃的专家卸载到CPU或SSD,并智能管理KV Cache,进一步优化了推理延迟和资源利用率 [17, 25]。
2. 推理加速与资源管理
在微调后的推理阶段,MoE的稀疏性依然能带来巨大优势。推理系统的优化重点在于减少延迟和提升吞吐量。DeepSpeed-MoE的推理体系通过固定专家路由、优化稀疏KV缓存管理和实现低延迟的AllToAll通信,实现了推理性能的大幅提升 [16]。微软的DeepSpeed-MoE推理加速了4.5倍,成本降低了9倍 [41]。此外,知识蒸馏也成为一个重要方向,通过将一个庞大复杂的稀疏MoE模型蒸馏成一个更小的稠密模型,可以在保留大部分稀疏性带来的性能增益的同时,获得更友好的推理体验 [17, 41]。
3. 未来展望:MoE与其他技术的融合
MoE架构的未来发展将更加注重与其它先进技术的深度融合。
- 混合架构的兴起: Snowflake Arctic等模型采用了混合专家架构(Hybrid-MoE),即在稠密模型的基础上叠加一个MoE分支,这种设计既保留了稠密模型的稳定性和泛化能力,又利用了MoE的计算效率和多任务处理能力,实现了17倍的计算节省 [54, 55]。
- 与参数高效微调(PEFT)的共生: MoE-LoRA、MoC-System等工作的涌现表明,PEFT技术将在MoE时代扮演更重要的角色。未来的微调可能不是选择“MoE还是PEFT”,而是“MoE with PEFT”。通过为每个专家配备轻量级的PEFT模块,可以实现更灵活、更高效的模型定制。
- 动态与自适应MoE: 当前的MoE架构大多是静态的,即专家数量和路由策略在训练和推理时固定。未来的研究将探索更动态的MoE,例如根据输入的复杂度动态调整激活的专家数量,或者在运行时根据任务需求动态创建或合并专家,以实现极致的灵活性和效率。
总而言之,MoE模型的微调正在推动整个AI生态系统向前发展。它不仅要求我们在算法层面进行创新,更迫使我们重新思考硬件、软件和系统工程的协同设计。随着优化技术的不断成熟,MoE有望成为未来构建下一代大规模智能模型的基石。
参考文献
- MoE详解(重点是反向传播的实现) 原创 - CSDN博客 https://blog.csdn.net/
weixin_41174300/article/details/142740605 - 混合专家模型(MoE)_moe模型怎么训练 - CSDN博客 https://blog.csdn.net/
weixin_45894377/article/details/145508878 - MOE 大模型架构与机制详解—— 以DeepSeek‑v3 为例 - 知乎专栏 https://
zhuanlan.zhihu.com/p/22570639120 - 混合专家模型MoE算法原理与应用 - 知乎专栏 https://zhuanlan.zhihu.com/p/
1905734643715667218 - 深度解读混合专家模型(MoE):算法、演变与原理 - Zilliz https://zilliz.com.cn/blog/
what-is-mixture-of-experts - 混合专家模型(MoE):原理、架构与挑战 - 知乎专栏 https://zhuanlan.zhihu.com/p/
1899933652290364689 - 大模型的研究新方向:混合专家模型(MoE) https://aidc.shisu.edu.cn/b7/a5/
c13626a178085/page.htm - 混合专家模型(MoE) 详解- 智源社区 https://hub.baai.ac.cn/view/33855
- 混合专家模型(MoE)架构详解:高效扩展LLM的新范式 - 冷月清谈 https://
www.xinfinite.net/t/topic/12685 - 探秘Transformer系列之(21)— MoE - 罗西的思考- 博客园 https://www.cnblogs.com/
rossiXYZ/p/18800825 - 混合专家模型Mixture-of-Experts (MoE) 原创 - CSDN博客 https://blog.csdn.net/
m0_64768308/article/details/133963803 - 完全激活稀疏大模型,Q-Sparse突破LLM推理效能- Microsoft Research https://
www.microsoft.com/en-us/research/articles/q-sparse/ - 算法、系统和应用,三个视角全面读懂混合专家(MoE) - 长亭百川云 https://
rivers.chaitin.cn/blog/cqi89gp0lnedo7thpqvg - DeepSeek开源周背后的思考:榨干硬件每一滴性能 - PPIO.com https://ppio.com/blogs/
post/deepseekkai-yuan-zhou-bei-hou-de-si-kao-zha-gan-ying-jian-mei-yi-di-xing-neng-cai-nengshi-fang-aimo-xing-de-zhen-zheng-qian-li - [PDF] 高效训练百万亿参数预训练模型的系统挑战和对策 - ZTE https://www.zte.com.cn/
content/dam/zte-site/res-www-zte-com-cn/mediares/magazine/publication/com_cn/article/
202202/008___L.pdf - DeepSpeed MoE 系列指南(四):稀疏激活推理优化与低延迟专家 … https://
blog.csdn.net/sinat_28461591/article/details/147566212 - 专家混合模型(MOE)推理优化技术全景:从模型到硬件的深度解析 https://
zhuanlan.zhihu.com/p/18788701543 - 动态稀疏激活机制如何提高MoE模型的性能 - 月光AI博客 https://blog.moontak.com/id/
529806/ - 稀疏激活大模型推理优化:突破效率瓶颈的曙光 - CSDN博客 https://blog.csdn.net/
Liudef06/article/details/149269251 - Azure AI实现参数激活率的LLM训练- 梁友泽的博客 https://www.liangyouze.com/t/
Azure%20AI%E5%AE%9E%E7%8E%B0%E5%8F%82%E6%95%B0%E6%BF%80%E6%B4%BB%E7%8E%87%E7%9A%84LLM%E8%AE%AD%E7%BB%83.html - [PDF] DeepSeek-R1是怎样炼成的? https://www.sciengine.com/doi/pdf/
BA270A27B4F945829C5826E69B3FA413 - DeepSpeed MoE 系列指南(二):跨节点专家并行与AllToAll 通信 … https://
blog.csdn.net/sinat_28461591/article/details/147553891 - 【人工智能】DeepSeek的混合专家模型(MoE)介绍- 个人文章 https://
segmentfault.com/a/1190000046130131 - MoE:專家混合模型的技術全解 - Medium https://medium.com/@akiraxtwo.dev/moe-
%E5%B0%88%E5%AE%B6%E6%B7%B7%E5%90%88%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%8A%80%E8%A1%93%E5%85%A8%E8%A7%A3-5bacd5c385cc - [PDF] 大模型时代的混合专家系统优化综述 - 计算机研究与发展 https://crad.ict.ac.cn/cn/
article/pdf/preview/10.7544/issn1000-1239.202440016.pdf - 大模型时代的混合专家系统优化综述 - 计算机研究与发展 https://crad.ict.ac.cn/article/
doi/10.7544/issn1000-1239.202440016?viewType=HTML - 【LLM技术论文】《Mixture-of-Experts Meets Instruction Tuning https://
zhuanlan.zhihu.com/p/678317469 - 万字长文详解MoE - 超越ChatGPT的开源混合专家模型 - 知乎专栏 https://
zhuanlan.zhihu.com/p/674162664 - 混合专家模型在大模型微调领域进展_moe损失函数 - CSDN博客 https://blog.csdn.net/
2401_85375298/article/details/142650762 - MoE 系列超详细解读(二):V-MoE:视觉领域的稀疏门控混合专家模型 https://
zhuanlan.zhihu.com/p/652536107 - 【大模型理论篇】Mixture of Experts(混合专家模型, MOE) 原创 https://blog.csdn.net/
weixin_65514978/article/details/141459273 - GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群 https://
www.thepaper.cn/newsDetail_forward_23770228 - 什么是混合专家? - IBM https://www.ibm.com/cn-zh/think/topics/mixture-of-experts
- 混合专家模型(MoE)详解 https://huggingface.co/blog/zh/moe
- Single-gated MoE : CV领域MoE模型应用原创 - CSDN博客 https://blog.csdn.net/
cold_code486/article/details/133768319 - 【LLM】训练一个6B大模型要多少显存?全量微调vs 参数高效微调 https://
blog.csdn.net/qq_54445177/article/details/147100927 - 腾讯大模型面试:MoE训练用TP还是EP? 原创 - CSDN博客 https://blog.csdn.net/
m0_59164304/article/details/144751601 - 混合专家模型(MoE) 详解 - GitHub https://github.com/huggingface/blog/blob/main/zh/
moe.md - 探秘Transformer系列之(29)— DeepSeek MoE - 罗西的思考- 博客园 https://
www.cnblogs.com/rossiXYZ/p/18835426 - Mistral&LLama MoE:混合专家模型初探-极市开发者社区 https://www.cvmart.net/
community/detail/8611 - 大模型新趋势之MoE:现状、挑战及研究方向 - 新浪财经 https://finance.sina.com.cn/
tech/roll/2024-11-05/doc-incuvzsp2476047.shtml - 大模型微调新范式:当LoRA遇见MoE - 知乎专栏 https://zhuanlan.zhihu.com/p/
683637455 - AIGC周报精选-微调框架介绍 - 知乎专栏 https://zhuanlan.zhihu.com/p/692340830
- LLM高效微调详解-从Adpter、PrefixTuning到LoRA-AI.x-AIGC专属社区 https://www.
51cto.com/aigc/579.html - MoE-Sys 文章记录-高性能计算 - Haibin’s blog https://www.haibinlaiblog.top/index.php/
moesys/ - 【DeepSeek-R1背后的技术】系列一:混合专家模型(MoE) 原创 https://blog.csdn.net/
sinat_16020825/article/details/145429390 - DeepSeek R1 深度剖析:从MoE 架构、原生CoT,到大规模强化学习 … https://www.eleyufo.com/archives/2024
- MoE 高效训练的A/B 面:与魔鬼做交易,用「显存」换「性能」 - 53AI https://www.
53ai.com/news/2024052754827 - MoE(Mixture of Experts)的相关问题 - 稀土掘金 https://juejin.cn/post/
7314519123177996300 - 大模型时代的混合专家系统优化综述 - 计算机研究与发展 https://crad.ict.ac.cn/article/
doi/10.7544/issn1000-1239.202440016 - Mixture of Experts Explained - 李理的博客 http://fancyerii.github.io/2023/12/18/MoEexplained/
- 深入解析“混合专家模型(Mixtral of Experts)” [译] - 宝玉的分享 https://baoyu.io/
translations/llm/mixture-of-experts-explained - LLM 学习笔记-Deepspeed-MoE 论文- marsggbo - 博客园 https://www.cnblogs.com/
marsggbo/p/17883514.html - Transformer 架构对比:Dense、MoE 与Hybrid-MoE 的优劣分析原创 https://
blog.csdn.net/XianxinMao/article/details/144712303 - Transformer 架构对比:Dense、MoE 与Hybrid-MoE 的优劣分析 https://2048.csdn.net/
6807559ac89bb16498843b8c.html
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)