曾昭睿 陈经伟:Deepseek重要里程碑技术改进下的期盼与现实

选择字号:   本文共阅读 3056 次 更新时间:2025-05-27 22:24

进入专题: Deepseek  

曾昭睿   陈经伟  

 

DeepSeek的重要里程碑意义在于实现高效计算与低成本训练,并以开源和低成本策略推动AI普惠。这不仅是一场技术革新,更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制,打破欧美闭源垄断,推动技术民主化,重构全球AI生态,推动行业从“算力军备竞赛”转向效率优化;同时,以工程智慧突破硬件限制,重塑国际社会对中国技术能力的偏见与盲区。然而,其发展仍面临地缘政治、技术竞争、商业模式、数据安全及社会认知等诸多围堵和挑战。中国面对AI霸权能否突破封锁,取决于技术韧性,也需在品牌叙事、合规策略等生态协同上实现系统性升级,并应坚定对外开放信念,充分利用美西方围堵下“替代方案”需求为国内企业带来的机遇,守得云开见月明。

一、DeepSeek的重要里程碑意义:降本增效的重要改进

当前大模型的常规范式有预训练模型与推理模型两种。从技术上来说,更为大众熟知的OpenAI GPT系列以及DeepSeek-V3模型都属于预训练模型。而OpenAIo1与DeepSeek-R1则属于推理模型,这是一种新的范式,即模型会自己通过思维链逐步分解复杂问题,一步步反思,再得到相对准确并且富有洞察力的结果。DeepSeek的重要里程碑意义在于,其实现高效计算与低成本训练,并以开源和低成本策略推动AI普惠。

(一)高效计算与低成本训练

一是DeepSeek具有独特技术路径,实现算法创新。相比于OpenAI的GPT-4和Anthropic的Claude等先进模型,DeepSeek-R1不仅在事实核查和减少幻觉生成方面表现优异,还在数学和编程等STEM(科学、技术、工程、数学)领域展现了强大能力。其成功得益于算法创新、强化学习技术、优化的硬件配置、数据处理、系统优化等原因。在模型训练范式上,研究团队突破性地采用大规模强化学习(Large-scale RL)作为核心训练方式,相较于传统依赖海量标注数据的监督微调(Supervised Fine-tuning,SFT)方法,这一革新策略有效提升了模型的复杂推理能力,为预训练语言模型的优化开辟了全新研究方向。

DeepSeek-V3的基础架构建立在Transformer框架之上,其关键技术突破体现在两大核心架构创新。其一是多头潜在注意力机制(MLA):通过改进注意力机制的计算效率,该技术使推理成本实现数量级下降,解决了大模型应用中的核心瓶颈问题。其二是动态优化的混合专家系统(MoE):构建每层含256个路由专家和1个共享专家的特殊架构,创新性提出LossFree算法,在消除传统Auxiliary Loss引发的梯度扰动问题的同时,巧妙实现专家负载均衡,突破了模型收敛性与计算效率难以兼得的业界难题。综合评估显示,DeepSeek-V3不仅成为当前性能最强的开源模型,还达到了与GPT-4和Claude-3.5-Sonnet等顶级闭源模型几乎相当的水平。DeepSeek-R1在后训练阶段,采用大规模强化学习优化基础模型,并通过知识蒸馏技术将学习成果迁移至小型模型,从而提升其性能表现,其效果优于直接对小型模型进行强化学习训练。开源的DeepSeek-R1及其API将支持学术界开发更优秀的小型模型。

二是兼顾效率与成本,实现低成本的模型开发。AI及半导体行业分析机构Semi Analysis在报告“DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts”中称,DeepSeek预训练成本远非该模型的实际投入,其进行估算得出,DeepSeek购买GPU的总花费是25.73亿美元,其中购买服务器的费用为16.29亿美元,运营费用为9.44亿美元,DeepSeek-V3模型的净算力成本约558万美元。可对比2024年7月Meta发布开源AI模型Llama 3.1,该模型采用了超过1.6万个英伟达H100 GPU,并在包含超过15万亿个tokens的数据集上完成训练,相当于7500亿个单词,可估算其成本超过6000万美元,相比之下Deepseek-V3的训练成本仅不到其十分之一。ReepSeek-V3训练只花了不到十分之一。近年来,美国的人工智能实验室一直在努力提高模型质量,而不是追求价格低廉、速度快且性能好的模型。DeepSeek或许指向一条更具工程化思维的道路,其性能媲美谷歌和OpenAI模型,但开发成本却仅占其一小部分,实现真正的“降本保质”。

(二)以开源和低成本策略推动AI普惠

2018年图灵奖得主、Meta首席科学家杨立昆参加约翰霍普金斯大学的一个讲座时发言称,对DeepSeek崛起的正确解读,应是开源模型正在超越闭源模型。在此之前,开源社区最有力的支柱是Meta的4 000亿参数模型Llama3。尽管Meta祭出4 000亿参数的Llama3试图扛起开源大旗,但其与GPT-4等顶尖闭源模型存在代际差距的现实,曾让技术理想主义者们陷入迷茫。

技术透明化是DeepSeek革命性突破的核心。通过开源6710亿参数的基础模型和独特的知识蒸馏体系,为开发者提供了强大的工具和丰富的资源。其发布的V3/R1模型技术报告分别达到50页和150页的惊人厚度,完整披露了从架构设计到训练技巧的每个技术细节。这份“AI制造说明书”的详尽程度,使得具备同等算力的团队完全能够复现模型性能。开发者社区将其誉为“教科书级的技术披露”,这种开放精神与硅谷巨头们的技术黑箱形成鲜明对比,推动了技术自主性、多样化和个性化的发展。

更具颠覆性的是DeepSeek采用的MIT开源协议。相较于传统开源协议的商业限制,MIT协议允许无保留的二次开发和商业化应用。当OpenAI和Anthropic仍在构筑专利壁垒时,DeepSeek已搭建起全球协作的创新平台——任何开发者都能基于其模型进行微调改进,而企业客户则可直接将其集成到商业产品中。

这种“技术平权”正在引发链式反应。中小型企业首次获得与科技巨头同台竞技的AI能力。正如Linux当年打破操作系统垄断,DeepSeek的开源策略正在人工智能领域掀起一场去中心化的技术革命。当知识壁垒被彻底打破,AI发展的加速度或将超出所有人预期。

二、DeepSeek带来的行业变革

DeepSeek不仅是一场技术革新,更是一次全球AI竞争逻辑的重构。其通过开源生态、效率优化与成本控制,打破欧美闭源垄断,推动技术民主化;同时以工程智慧突破硬件限制,重塑国际社会对中国技术能力的认知。

(一)DeepSeek冲击市场与竞争格局

一是重构全球AI生态,推动行业从“算力军备竞赛”转向效率优化。大模型训练需要“上万加速卡”的论调被打破,DeepSeek以“高性能+低成本+开源”,在数学推理、代码生成等关键指标上媲美GPT-4,例如,DeepSeek-V3在数学竞赛任务(如Math 500测试)中的准确率达90.2%,在代码生成任务中准确率达到95%,显著高于GPT-4的90%。

二是DeepSeek的开源模式打破了闭源模型的商业壁垒。DeepSeek-V3的API服务价格仅为GPT-4的十分之一左右,且支持本地部署与定制开发,能够赋能中小企业和开发者。开源社区(如Hugging Face)围绕其技术形成活跃生态,Meta等企业甚至“逆向借鉴”其架构。此举推动全球AI竞争从“技术封闭垄断”转向“开源生态共建”,加速在医疗诊断、金融分析等垂直领域的应用落地。

(二)Deepseek冲击美国对中国的偏见与盲区

一是冲击美国AI技术霸权。在美国H100芯片禁令下,DeepSeek通过PTX指令集优化、计算单元重分配等底层优化策略,在H800芯片上实现高效训练,仅用2000块H800芯片完成模型开发,远低于欧美企业动辄上万芯片的投入。这一实践证明,中国并非依赖硬件堆砌,而是通过工程创新突破技术封锁,挑战美国“硬件优势即竞争力”的固有认知。

二是冲击美国长期秉持的科技例外论以及与之相伴的排外主义。一方面,是美国狭隘的技术精英论。在美国社会中,存在着一种有害且狭隘的思维定式,使得科技精英们坚信只有他们才能够引领全球科技潮流。另一方面,美国对中国科技发展的认知存在显著的盲区。西方媒体在报道中国科技时,往往过分关注地缘政治博弈,或热衷于探讨国家政策对产业发展的影响。然而,这种片面的视角忽略了一个关键事实:中国科技进步的核心动力源于超过十亿中国人民的智慧与努力。他们不是单纯依赖政府推动,而是凭借自主创新能力,推动着科技的发展。中国科技行业的规模之庞大,市场潜力之巨大,以及国内竞争的激烈程度,都是西方媒体报道中常被忽视的重要维度。这些充满创造力的中国人,才是中国科技生态系统的中流砥柱。

三、DeepSeek面临的挑战

DeepSeek作为中国AI领域的突破性力量,尽管在技术性能、成本控制和开源生态方面取得了显著成就,但其发展仍面临多维度挑战,涉及地缘政治、技术竞争、商业模式及社会认知等多个层面。

(一)地缘政治与技术封锁压力

一是国际禁令与市场准入限制。美国以“国家安全”为由对DeepSeek实施技术封锁,甚至推动立法要求中美在AI领域“脱钩”。韩国等国家也以数据隐私风险为由限制其应用,导致DeepSeek在国际市场拓展受阻。此类政策不仅直接限制其商业落地,还可能引发其他国家效仿,形成连锁反应。

二是硬件供应链的脆弱性。尽管DeepSeek通过算法优化降低了对高端芯片的依赖,但美国对H100等芯片的出口管制仍威胁其长期发展。国产芯片(如华为昇腾)虽在崛起,但性能与生态成熟度尚无法完全替代英伟达产品,硬件自主可控仍是隐忧。

(二)技术竞争与生态博弈

一是国际巨头的技术反制。Deepseek的出现让英伟达股价遭遇重挫,单日内蒸发6000亿美元。在2025年GTC大会上,英伟达推出NVIDIA Blackwell Ultra GPU,并声称已构建帮助 GPU 计算渗透到各行各业的CUDA生态,在NVIDIA Blackwell架构深度优化的NVIDIA开放生态推理开发工具链的支持下,DeepSeek-R1模型的推理性能破世界记录,单用户推理速度超过每秒250个token,峰值吞吐量超过每秒30000个token。这一操作旨在维护英伟达的“算力护城河”,向世界宣称AI推理仍需要大量英伟达GPU和高性能网络,削弱业界对DeepSeek的算法优势的利好预判。同时,OpenAI等企业加速GPT-4模型迭代,将加剧技术竞赛压力。

二是开源生态的可持续性争议。DeepSeek的开源策略虽快速构建了开发者生态,但也面临技术被逆向借鉴的风险。例如,Meta等企业可能基于其架构开发竞争性产品,削弱其技术壁垒。此外,开源模式下存在依赖API服务盈利等商业变现难题,可能限制长期投入能力。

(三)数据隐私与安全问题

一是数据隐私保护及数据安全问题。模型通过反向推断,可能会泄露训练数据中的敏感信息,需要采取技术措施防止模型反向推断,保护数据隐私;在引入新的数据处理活动或技术之前,需要进行数据隐私影响评估,识别潜在的隐私风险;在处理敏感数据时,采用数据匿名化技术,去除或屏蔽个人身份信息,降低数据泄露带来的风险。

二是合规性与法规遵守问题。全球范围内对AI监管趋严,如欧盟的《人工智能法案》等,迫使DeepSeek投入更多资源应对合规审查,增加运营成本。

(四)技术路径与商业模式的平衡

一是硬件-算法协同优化面临极限。DeepSeek通过算法优化显著提升算力效率,但随着模型复杂度增加,边际效益可能递减。需持续突破架构创新,比如在算法设计、硬件支持以及实际应用中,进一步研究动态路由、稀疏激活推动AI架构创新的潜力,以维持优势。

二是面临垂直领域落地碎片化的挑战。尽管Deepseek已在医疗、金融、文旅等领域初步应用,但不同行业的需求差异大,如医疗需高精度诊断,文旅需实时交互等,定制化开发可能稀释其作为通用模型的成本优势。

(五)市场信任与舆论挑战

一是美西方的污名化叙事。美西方媒体一贯企图通过污名化指控打压中企,比如指责DeepSeek“窃取技术”或存在数据安全风险,试图通过舆论战削弱其国际公信力,此类指控虽无实证,但可能影响企业与政府对DeepSeek的采用意愿,尤其是在欧美市场。

二是用户认知与品牌重塑难题。美国科技巨头(如英伟达、谷歌)通过长期积累的品牌优势,仍占据用户心智。DeepSeek需在技术优势之外,强化“高效+普惠”的品牌叙事,以突破既有市场认知惯性。

四、中国AI未来:守得云开见月明

未来,DeepSeek能否突破封锁,不仅取决于技术韧性,更需在品牌叙事、合规策略及生态协同上实现系统性升级。正如光伏、超算等领域的逆袭历史所示,外部压力或将成为催化中国AI“技术韧性”的另类动力。

(一)技术创新

一是面对算力困境,中国应进一步加强算力、存力和运力三者合一。从芯片到集群是一个复杂的技术发展和应用拓展过程,涉及芯片设计、制造、集群架构设计以及应用场景等多个方面,通过统一的大模型技术生态栈解决算力瓶颈,或将成为可行路径之一。

二是创新训练方式,从构架、算法上进行优化,以弥补中国在算力领域的差距。例如,可以尝试通过模型结构选择与调整、模型压缩技术等进行架构优化;尝试通过优化算法选择、超参数调优、分布式训练等进行算法优化。

(二)生态建设

一是品牌叙事,中国AI企业可以以“工程化、高效、普惠”的品牌叙事,突破既有市场认知惯性。

二是生态协同,通过开放合作、技术协同、场景赋能、产学研用一体化,促进产业链上下游协同发展、推动数据共享与开放。并加速应用落地进程,推动AI技术与经济社会的深度融合。

(三)坚定对外开放的决心

开放包容、自由竞争才是促进创新的良方。资本流向受到全球产业发展需求和技术进步的双重影响。面对美国在硬件领域的围堵,中国应继续扩大开放,积极回应国内外对AI的广阔需求。

一是把握国内企业发展机遇,美围堵政策导致各国和各企业寻找“替代方案”的需求增加,而利益和安全是决定资本流向的底层逻辑,意味着资本或可加速中国实现技术突破,完善产业链,扩张国内企业的全球化布局。

二是坚定扩大开放的决心,积极参与全球AI治理,加强联盟合作以及推动AI技术的合法应用,承担大国责任与担当。

 

曾昭睿:中国银河证券博士后科研工作站博士后

陈经伟:中国社会科学院金融研究所副研究员

原文载于《科技中国》2025年第4期

    进入专题: Deepseek  

本文责编:SuperAdmin
发信站:爱思想(https://www.aisixiang.com)
栏目: 科学 > 科学评论
本文链接:https://www.aisixiang.com/data/163133.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。

评论(0)

Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统