DeepSeek的冲击之后,中美人工智能“军备竞赛”将进入不限速阶段?

歪脑
·
·
IPFS
·
中国新创公司深度求索(DeepSeek)在今年推出了最新的DeepSeek-R1模型。最重要的是,DeepSeek训练成本低廉且相对开源,官方称模型开发用的是英伟达A800降速晶片,这是英伟达在美国晶片禁令下对中国市场推出的“替代产品”,且据称训练运行成本不到600万美元,只能算是美国行家花费的“零头”。

原文刊载于歪脑

文|夏念梓
原文发布时间|02/06/2025

2024年年底,美国人工智能实验室OpenAI推出了全新人工智能模型o1的首个完整版本。OpenAI骄傲地向公众展示o1所具有的推理能力,并将它誉为“世界上最聪明”、“最接近人类思维方式”的人工智能模型。可仅仅不到两个月,OpenAI的霸主地位遭遇了史无前例的挑战。

中国新创公司深度求索(DeepSeek)在今年推出了最新的DeepSeek-R1模型,在多项数学和推理基准测试中表现出色,被独立测评机构列为仅次于OpenAI的o1模型,超越包括Google、Anthropic和Meta的同类闭源产品。最重要的是,DeepSeek训练成本低廉且相对开源,官方称模型开发用的是英伟达A800降速晶片,这是英伟达在美国晶片禁令下对中国市场推出的“替代产品”,且据称训练运行成本不到600万美元,只能算是美国行家花费的“零头”。

哀鸿遍野VS弹冠相庆,我们刚目睹了中美科技冷战中的拐点?

美国总统特朗普的私人顾问、创投家安德立森(Marc Andreessen)将此形容为“AI的史普尼克时刻”。“史普尼克时刻”意指苏联抢先美国发射“史普尼克1号”(Sputnik 1)人造卫星的事件,象征冷战时期太空竞赛的起点。美国AI业界也出现担忧的声音,只因价廉物美的DeepSeek打破了长久以来的“英伟达(Nvidia)信仰”,原本以为牢不可破的“晶片优势”轻易就被突围了。DeepSeek推出不足一个月,已取代ChatGPT成为Apple商店中排名第一的免费应用程式。业内人士认为,这对美国来说是巨大的警号,并将美国和中国之间的这场人工智能竞赛提升为“AI战争”。在上周的“黑色星期一”(1月27日),美股重挫,科技股大跌,曾是华尔街宠儿的英伟达股价插水17%。虽然英伟达在随后重回高位,但这次震荡反映出市场对美国AI产业保持领先的信心有所动摇。

而在中国,狂热的科技粉和爱国者纷纷为DeepSeek的“弯道超车”而欢欣鼓舞,为国产AI“偷袭珍珠港”、成功“打脸”美国而激动不已。360创办人周鸿祎用“逆天”来形容DeepSeek的表现,并称DeepSeek是对抗美国AI技术霸权的“复仇者联盟战队”成员之一。他预言,中美AI竞争日益激烈,但最终胜利一定是中国的。

似乎中美双方都认为,两国正在人工智能领域展开一场剑拔弩张、你追我赶的竞赛,但暂时无人能预言这场冷战或AI“军备竞赛”的最终结果。我带着疑问去问了ChatGPT和DeepSeek同样的问题,“中美之间存在人工智能竞赛(AI Race)吗?谁是赢家?”,看看这两个中美顶尖AI模型是否能给出独到洞见。令人意外却又不意外的是,两个语言模型都“客套”地告诉我:“‘谁是赢家’这个问题非常复杂,评判标准不一,中美两国各有优势,而人工智能竞赛并非一场‘零和游戏’。” 不知道它们的开发者是否会认同这样的观点,但至少连ChatGPT和DeepSeek都承认中美之间的确存在着充满张力的人工智能竞争。

神秘的“东方力量”,DeepSeek的横空出世

我还向DeepSeek询问了“DeepSeek是如何绕过美国晶片禁令而推出R1模型”的问题,毕竟OpenAI已深耕AI界十年,而这个成立两年的新创公司能推出相媲美的优秀模型,简直是AI界“大卫和哥利亚”的故事。DeepSeek告诉我,它之所以能绕过晶片限制,主要得益于算法优化、分布式计算、软件创新和硬件协同设计方面的优势。

简单来说,受限于美国对先进人工智能晶片的出口管制,DeepSeek自称依靠各种工程和模型架构上的提升和效率优化来弥补硬件上的短板。事实上,这不是DeepSeek第一次尝试在成本和产出上超越同行。之前推出的V3和稍早前的V2模型都在不断刷新性价比,被称为引发中国大型语言模型(LLM)价格战的源头。有中国内地媒体称DeepSeek为“AI界拼多多”,这令以往习惯蒸馏和套壳的国内大厂,包括腾讯、百度、阿里等纷纷被迫降价。如今,这场价格战打到了国际上,轮到硅谷巨擘们招架不住了。要知道,Anthropic执行长阿莫迪(Dario Amodei)曾透露,美国公司已花费了10亿美元来训练新一代AI模型。

DeepSeek的创始人、拥有浙江大学信息与通信工程研究生学位的梁文锋在一次访问中谈到,DeepSeek从一开始走的就是非“大厂”模式。梁认为中国公司习惯了“搭便车”,让美国做技术创新,然后拿过来做应用变现。作为一家测重研究探索的公司,DeepSeek希望成为贡献者,勇于从源头优化模型架构。

在美国“更多晶片、更大模型”的研发模式碾压下,DeepSeek显然不具有同等的晶片购买力、算力和模型搭建力,若它不走同业“大厂”改攻下游应用的老路,而是尝试开辟第三条路线,透过改进人工智能模型的基础结构来有效利用有限的资源;这无疑是突破性的。

在R1模型一炮而红之后,DeepSeek背后神秘的母公司“幻方量化”(High-Flyer)也被挖了出来。幻方量化是一家成立于2015年的对冲基金、量化基金和人工智能公司。在 2023 年,创始人之一梁文锋决定投资成立子公司DeepSeek,主攻通用人工智能。而幻方量化在美国晶片禁令前已储备过万张A100晶片。Deepseek于成立同年的10月发布了第一个大型语言模型DeepSeek-Coder。

超高性价比是否名副其实?一些针对DeepSeek的疑虑

惊艳业界的同时,DeepSeek也引发不少疑虑。

言论审查

首先就是所有中国制AI的通病:言论审查。目前,DeepSeek尚属“弱审查”机制,用户有可能绕过它的“敏感词”系统,或让机器人在自我审查前,闪现敏感内容。但直球询问有关中国国家主席习近平和天安门事件的问题,DeepSeek就拒绝回答,要求用户“换个话题聊聊”。

有数据显示,DeepSeek在提供新闻与资讯的准确率只有17%,落后ChatGPT、Gemini等同类产品。

隐瞒成本?

虽说开源,但DeepSeek并未披露训练数据以及训练细节。不少人认为,R1模型省钱的秘方就在这些不公开的训练资料里,怀疑DeepSeek隐瞒了部分的训练花销,以降低研发成本。

而业内广泛流传的关于“DeepSeek用远低于ChatGPT的成本达到相同效果”的说法也带有误导性。有专业媒体在研读了DeepSeek发表的报告后发现,在R1问世之前,DeepSeek在建设相关的深度学习训练平台上投入的资金高达十多亿元,这些前期投资并未被计算在内。而且这600万美元的成本很可能只是模型总成本的一小部分,DeepSeek在硬件以及开发过程中的投入才是大头。

谎报晶片?

此外,虽然DeepSeek宣称自己使用的是A800降速晶片,但公司囤积了超万张A100晶片,的确容易诱发外界联想。而美国Scale AI公司执行长Alexandr Wang在电视节目上透露,他相信中国拥有的H100晶片数量超过外界想像。囤积和使用这些被美国出口禁令限制的先进晶片是中国AI界“不能说的秘密”, DeepSeek可能是通过监管漏洞或者不合规的途径获得了这些晶片,这或许将引发美方的调查。

未经授权使用数据?

最新进展还包括微软(Microsoft)和OpenAI正在调查DeepSeek是否通过“蒸馏”技术,也就是“利用OpenAI专有模型来训练其AI大模型。这使得DeepSeek能够以较低的成本在特定任务上达到类似的效果。”以及是否以未经授权的方式,获取了源自OpenAI技术的数据输出。微软的安全研究人员声称在去年有怀疑可能与DeepSeek有关联的个人,使用了OpenAI应用程式编程介面(API)窃取大量数据。

虽然蒸馏(distillation)的行为在业内是常见的操作,但OpenAI认为由于API是付费的专有服务,服务条款中订明未经授权和许可不能“利用输出结果开发与OpenAI竞争的模型”。

不过,有批评声音指出,事件暴露出API在使用过程中存在潜在安全风险。更有创作者指责OpenAI也是内容盗取者。包括《纽约时报》在内的八间美国媒体早前提起诉讼,指控OpenAI未经授权使用新闻内容训练AI系统。

此前,有报道已披露DeepSeek在使用ChatGPT的数据输出做培训之用,当被问到“你是哪一种模型(model)”时,DeepSeek认为自己是ChatGPT,“I am ChatGPT”,并声称自己来自2023年发布的ChatGPT 4版本。ChatGPT 4有部分公开数据集,目前尚不清楚DeepSeek使用了哪些ChatGPT的数据做训练,也无法确定这是否涉及违规和盗用。这种情况也可能是由于数据库有限而在训练中造成的错误,DeepSeek并非第一个自我识别错误的模型,谷歌的Gemini在中文对话下会说自己是百度的文心一言。

资安风险?

DeepSeek英文版本的私隐政策条文指,DeepSeek会将收集的资讯储存在位于中华人民共和国的安全伺服器中(We store the information we collect in secure servers located in the People's Republic of China.) ,这令外界担心DeepSeek会和TikTok一样,产生个人资料外泄的情况。有报道指,美国海军基于“潜在安全和道德问题”,要求人员避免以任何形式使用中国公司的DeepSeek模型。

与此同时,DeepSeek在一周内也发生多次当机事件,且声称收到大量恶意攻击,不得不限制新用户注册。

值得注意的是,美国科创界对DeepSeek的不信任,也加深了美国政府对该技术的担忧和敌意,反之亦然。有美政客认为,DeepSeek之所以便宜,是因为那是“偷来的”,美国国家安全部门应该展开调查,查明中国是否在盗取美国的知识产权。美国总统特朗普在对DeepSeek短暂表达赞赏后,很快转变风向站到了他的硅谷新盟友这一边,开始关注DeepSeek对美国潜在的国安风险及对美国国家利益的损害。

这是开源的胜利,还是中国的超越?

目前,Deepseek发布的所有模型皆为开源模型,所有人都能在网上免费获取这些模型的报告和代码。全球的科创人员和公司亦可以直接研究和使用模型。

Meta首席人工智能科学家、2018年图灵奖得主杨立昆(Yann LeCun)在社交平台上写到,DeepSeek的惊人表现不是代表了“中国在人工智能上超越美国”,而是“开源模型正超越闭源模型”。杨立昆认为,DeepSeek R1建基于包括Meta的PyTorch和Llama在内的开放研究和开源代码,而成果又以开源的方式回馈社区获益。这是开源模式赋能的过程,非闭源可比拟。

在人工智能领域,“开源vs闭源”是业界辩论的老命题了。所谓的开源模式是分享人工智能技术的代码、模型和工具,供任何人查看、修改和使用,包括Google的TensorFlow、上文提到Meta的PyTorch以及Hugging Face的Transformers,都是业界鼎鼎有名的开源技术。而闭源模式,也叫专用模式(proprietary model)则是指人工智能技术被企业视为内部资产,其技术细节、代码和模型通常不公开,仅供内部使用或授权。OpenAI在初始阶段所发布的都是开源模型,但之后技术转为专用,虽然有助保留核心优势,但其封闭性被同行甚至是OpenAI的前员工诟病。

DeepSeek的成功无疑代表了开源模型对闭源的一次胜利,相信整个开源社群会在此基础上进一步壮大力量,这种颇具理想主义的技术乌托邦本就是众人拾柴火焰高。英伟达的顶级人工智能研究员、前OpenAI员工Jim Fan在 X 上赞美道:“一家非美国公司正在保持OpenAI最初的使命。真正开放的前沿研究,为所有人赋能。”

但这并不能消除美国和中国竞争者间的敌意。对于美中两国领导人来说,人工智能不仅是一项科技创新,更是重大的技术变革;而历史上每一次技术变革的出现,都改变了当时国际地缘政治和军事影响力的平衡,从而令特定国家跃升为全球的领导者。AI不但可以为人类的生活带来便利,实现劳动力自动化来促进经济,更可以投入军事和国防中,成为新式武器来提升国力。OpenAI在最新的蓝图中,就告诫美国政界和社会预防“中国共产党借人工智能来加强国际影响力”。

令美方坐立难安的是, 如果DeepSeek能提供免费、开源的优质服务,谁会再花钱购买OpenAl或其他供应商的付费服务呢?这也意味着会有更多国家的科研人员、新创企业,包括美国的中下游AI公司,将优先选用DeepSeek相对透明、公开的版本。中国的AI程序和模型将有可能替代美国的领先技术,成为全球人工智能的技术标准。如果中国的人工智能能保持这一透明度和优越性,那么假以时日,中国的AI技术不仅会与美国并驾齐驱,甚至将超越这一大洋彼岸的对手。

晶片出口管制不起效?禁令禁不了创新

中国在2017年发布《新一代人工智能发展规划》,目标是在2030年前达到世界领先水平。但在2022年,拜登政府公布了晶片出口管制措施,旨在切断中国与训练大型语言模型所必需的先进半导体的联系。华盛顿认为,若没有尖端晶片,北京将很难达到2030年领导全球人工智能技术的目标,以保持美国在人工智能领域的领导地位;北京也认同,美国这一出口禁令无异于“卡脖子”。

在禁令颁布前,如前文提到的,包括DeepSeek在内中国开发者已开始囤积大量即将受到限制的晶片。 同时,中方采用多种方式绕过美国的出口管制——简单来说,就是走私,包括利用中国境外的空壳公司购买受限制的晶片,或透过离岸云端供应商租用晶片存取权限来规避出口管制。 路透社曾报道,华为生产的一款产品中被发现使用了受限的台积电晶片。

此外,美国公司也在努力对抗政府禁令,将技术卖给中国,以求丰厚的利润。一些规格较弱的晶片仍可销往中国。英伟达在2022年底设计出中国“特供版”减速晶片A800和H800(DeepSeek自称使用的就是A800),以期保住中国市场份额。 但美国商务部裁定这两款晶片的规格仍偏高,于是在2023年底再加强管制,封杀A800和H800的销中之路。英伟达随后推出的第二代“中特供”,算力只剩下顶版的七分之一,被中国用户讥讽为“阉割版”,纷纷取消购买订单。

在美国收紧出口管制的初期,的确拖慢了中国人工智能开发的速度。两年后,出口管制已无法阻止中国AI发展的提速。2024年,腾讯、快手和阿里巴巴接连推出了几款令人印象深刻的人工智能应用,外界觉察到中国正在缩小与美国的差距。谷歌前执行长施密特(Eric Schmidt)在2024年5月曾断言,美国在人工智能领域与中国保持着两到三年的领先优势。然而到了11月,施密特改变了态度。他引用阿里巴巴和腾讯的进步作为中国正在迎头赶上的证据,他说: “我以为我们对晶片施加的限制会让它们望而却步。” 

得益于“举国体制”,中国当局在发展人工智能领域采取的集中式、政府主导的战略,透过直接的国家资金投入支持特定的人工智能项目,并建立芯片工厂、国家超级计算中心等大型基础设施。这一“集中力量办大事”的优势,非美国的私营企业主导模式可比拟。而中国庞大的数据资源和充足的人才库,也为人工智能的发展增色不少。

亦或者,晶片禁令的效用本就有限,它的作用被盲目自信的美国人夸大了。禁令无法削弱中国科研人员和公司的创新能力,而限制更进一步激发了创造力。这也不是中国第一次在有限的条件下实现科技的突破。六十年代“中国人勒紧裤腰带研制出原子弹”,说的就是在国际政治陷入孤立,又处于经济最困难时期的中国成功推进核武计划,发射了第一颗原子弹,从而跻身“拥核国家”。

中美人工智能竞赛不再限速,谁来关心AI安全性和伦理问题?

在DeepSeek发布的两周内,中国内地科创头部公司阿里巴巴表示会推出新产品,其功能将超越DeepSeek的R1模型。OpenAI也放话会推出更成熟的o3模型,拉开和敌手的距离。科技发展日新月异,DeepSeek所带来的震荡很可能很快会随着新一代模型的出现而淡去。但这不会令白宫放松对中国的出口管制,甚至可能会再收紧禁令,以及加增关税来限制中方。

鹬蚌相争的代价,可能是人工智能技术的“安全与广泛受益”(safe and broadly beneficial)的使命被忽略。

2023年,在经历了内斗、高层出走和重组的“宫斗”戏码后,OpenAI重整了公司发展的方向,将产品的推广和营利正式置于人工智能安全性之上。元老兼首席科学家苏茨克维离开了OpenAI,而他一直提倡的就是希望在大模型设计和训练中,透过融入人类价值和安全约束措施,确保人工智能始终可控, 能够安全地惠及人类而不是威胁人类。

OpenAI在成立之初,组织定位为非营利研究组织,希望透过与不同团队的自由合作,向公众开放AI相关专利及研究成果,确保通用人工智能能造福人类社会。但是研究人工智能需要大量资金的投入,在现实和梦想的夹缝中,OpenAI选择奔赴在商业化的路上不回头(这也引发了马斯克(Elon Musk)和OpenAI的官非)。不只如此,Meta也解散了专门负责“人工智能安全发展”的 Responsible AI 团队,大部分成员被分配到开发生成式AI产品的团队。

特朗普在上任后允许“国家队下场”,他宣布将联合多家美国科创企业,发起名为“星际之门”(Stargate Project)的人工智能基建投资计划,于未来4年投入5000亿美元建设全新的人工智能基础设施,加速尖端晶片、算法研究和相关人才的培训。同时,特朗普还撤销了拜登前总统在2023年签署的《关于安全、可靠和可信地开发和使用人工智能的行政命令》。《行政命令》旨在加强联邦政府对AI的安全监管,减少人工智能对消费者、工人和国家安全构成的风险。取消之后,人工智能发展将不再限速。

在可预见的未来,中美在人工智能上的竞速将呈螺旋式上升。但中美当权者皆忽视的是,在零和游戏的前设下,对人工智能无限制的加速推进,与人工智能开发者建造安全、可控、造福人类的AI技术的最初设想,或渐行渐远,甚至背道而驰。

当不少美国鹰派人物对中国人工智能技术超越美国,保持着高度警惕和最大敌意,指责北京将把人工智能技术用于监控和审查时,世人还应警惕全球人工智能开发者和当权者对这项技术的剥削和滥用。Gmail的创始人Paul Buchheit在DeepSeek推出后预言,一旦中国在这场人工智能军备竞赛中获胜,人类将正式成为动物园里的动物,困在永久的封锁和监控中。事实上,这段话适用于世界上所有觊觎人工智能的统治者。

(歪脑的专栏、评论和分析文章均属文章作者观点,不代表本网立场。)

歪脑网站
歪脑Instagram
歪脑Youtube
歪脑Facebook

All rights reserved

Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!