长三角经济圈

首页>长三角经济圈>长三角观察

科大讯飞与华为联手实现大模型领域新突破

  原标题:科大讯飞与华为联手实现大模型领域新突破

  国产算力适配先进算法创新

  今年1月,中国人工智能公司深度求索发布了令人瞩目的DeepSeek-R1模型,采取创新的MoE架构和高效的训练方法,使得其在保持高性能的同时实现了较低的算力需求。这是大模型平衡规模与效率的一次重要探索,众多主流大模型企业也纷纷加码MoE架构创新。

  近日,科大讯飞携手华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理。这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案。

  “术业有专攻”的MoE模型

  想要了解科大讯飞与华为的这次突破的意义,需要先了解一下什么是MoE模型。

  MoE模型全称Mixture of Experts,即混合专家模型,是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心工作设计思路是“术业有专攻”,通过将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。

  通俗来说,就是这个大模型内部有一群擅长不同技术的“专家”,当我们遇到问题时,系统就会分析问题、把大问题拆解成一个个小问题,然后选出一个“专家组合”,让不同的专家解答对应的小问题,“专业的人干专业的事”,再形成最终的答案。

  举个例子,MoE模型类似一个酒店的后厨,后厨里面有徽菜、川菜、粤菜等不同菜系的大厨,这些大厨就是专家。客人点完菜,后厨接到任务后,就由对应菜系的大厨来做。

  那么问题来了,当一个客人下了单,需要做很多道菜,该怎么合理分工、布置任务,让徽菜大厨只做徽菜,而不是分工错误去做了川菜?

  这就需要提到MoE模型的一个关键组成部分——门控网络。门控网络就像是一个智能“调度员”,可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务,从而更高效、准确地工作。

  门控网络就像后厨中的厨师长,不需要自己做菜,但是他很清楚每个厨师的能力,会根据客人的点单,安排擅长做不同菜的厨师来工作,避免资源浪费。

  因此,MoE模型的一个优势就是减少计算成本,比传统模型训练成本更低,提高模型性能。

  加码MoE架构创新

  近年来,MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,成为字节、阿里以及科大讯飞等国内主流大模型企业纷纷加码的对象。从通信优化到国产算力适配,一场围绕效率与生态的竞逐赛已然展开。

  3月1日,DeepSeek发布了“开源周”后的“彩蛋”,首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。

  DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“DeepSeek的671B参数模型在处理每个问题时,实际被激活的专家模型参数仅约37B,算力需求降低至传统架构的约二十分之一。”一位业内人士指出。

  技术角逐中,国内主流AI企业纷纷跟上。3月6日,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。阿里云称,该模型采用密集架构(Dense),尽管参数仅为32B,但性能却能与满血版DeepSeek-R1这类MoE模型相媲美。

  “不过,MoE架构虽然能有效降低算力消耗,但在分布式训练过程中,仍然面临着跨设备通信开销巨大的挑战。”科大讯飞有关负责人表示。

  近日,科大讯飞与华为的联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理。联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成昇腾集群上的验证和部署。

  通过算子融合、混合并行策略和通信计算并行优化等一系列创新,科大讯飞在国产算力上实现了显著性能提升:单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。

  国产算力迎发展机遇

  DeepSeek成为“国产大模型之光”,引发现象级关注,根源在于其算法上实现了诸多引领行业的创新,并且选择了开源,但其背后所用的仍然是英伟达提供的算力。

  近期我国人工智能和大模型产业受到遏制和打压不断升级,在这一背景下,以DeepSeek为代表的国产大模型的算法突破,能否与国产算力支撑适配,显然已经成为一项事关我国大模型和人工智能长远发展的急务。

  基于此次科大讯飞携手华为所做的首个基于国产算力的MoE模型训推方案,科大讯飞称,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek-V3和R1的高效推理。

  值得注意的是,近期,科大讯飞深度推理大模型星火X1也完成升级,在模型参数量比业界同行少一个数量级的情况下,星火X1的数学能力全面对标DeepSeek-R1和OpenAI o1,在中文数学各项任务中均实现领先。科大讯飞始终坚定走国产化道路,星火X1也是当前唯一采用全国产算力训练的深度推理大模型。

  算力供应是AI技术的底层支撑,自主可控方能“防患于未然”。从DeepSeek点燃开源之火,到字节、阿里争相技术共享,再到科大讯飞实现国产算力突破,国内MoE赛道已形成“效率迭代”与“自主可控”的双重叙事。

  国产算力突破关乎技术主权与供应链安全,在AI基础设施竞争白热化的当下,战略意义显而易见。

  不少咨询机构的研报均指出,DeepSeek等头部模型的发展让AI应用加速落地,持续放大算力需求,同时降低AI行业进入门槛与成本,长期看将推动总需求上升而非下降,加速推理算力需求的提升。AI算力国产化势在必行,国产算力迎来重要发展机遇。

声明:本媒体部分图片、文章来源于网络,版权归原作者所有,如有侵权,请联系删除:025-84707368,广告合作:025-84708755。
68
收藏
分享