DeepSeek与人工智能多重技术路线的治理启示

2025-03-12 15:22 来源:电子政务杂志
浏览量: 收藏:0 分享

贾开上海交通大学国际与公共事务学院长聘副教授,博士生导师

  一、技术革命及其多重路线

  技术革命之于人类社会演化的重要性不言而喻,但这种影响的不确定性却始终作为一个“大问题”困扰着研究者与实践者。举例而言,技术革命往往与大国竞争联系在一起,掌握“领先技术(leading sector technology)”的国家被认为能够在国际权力结构中处于优势地位,纺织业蒸汽革命之于英国的崛起以及化学工业之于德国的发展都是支撑该论断的典型案例。[1]但更丰富的研究却指出,“领先技术”理论只不过体现了技术决定论的简化逻辑,其并不能完全概括技术与社会相互影响的复杂性:一方面,面对相同的技术革命,不同国家可能形成差异化但却都有效的技术应用模式,例如同处于蒸汽革命背景下,美国形成了批量生产的大工业模式,法国仍然保留了分散化生产的“灵活专业化”模式,而英国则被认为介于二者之间[2];另一方面,技术革命的影响并不会自然而然发生,其仍然受限于诸多治理要素能否“同频共振”,例如在美国历史上,电气化技术革命从出现到真正促进全要素生产率增长迟滞了50年,期间“福特制”劳动分工的普及、产业标准制度的建立、劳资协商与社会福利体系的重构都是关键改革。[3]

  在上述两方面复杂性约束下,不仅技术革命的社会影响结果在不同国家会体现出异质性,技术革命本身也会在此过程中表现出多元化的发展路径,以致于我们并不能判定究竟何为“领先技术”,而这也反过来突出了多重“技术路线”概念的重要性。[4]“技术路线”概念是相对于将技术方案视为“最优、唯一、必然”的决定论观点而言,其更强调针对相同的功能性问题,我们事实上存在多条解决路线,而不同路线的差异不仅仅体现在技术实现层面,其往往还反映了解决问题的不同价值理念,以及评价技术绩效的不同指标。同时,一旦我们接受了技术路线的多样性假设,具体技术路线的选择便体现了不同社会因素博弈和妥协的政治性。

  尽管多重技术路线概念更真实地反映了技术与社会演化史,但当身处变革之中,受限于研究者与实践者的“技术想象力”,我们往往“视一点而难观全貌”,即只能注意到表现出来的特定技术路线而难以看到其他技术路线的潜在可能性,而所谓的“颠覆性革命”却往往来自后者。

  受益于人工智能的快速创新与迭代应用,当前我们又一次进入了技术革命的黄金时期。从历史经验来看,识别并鼓励多重技术路线的发展以形成适配各国自身制度环境的技术路线,从而释放出技术革命之于社会演化的最大推动力,是比追求“领先技术”更重要也更实用的国家战略。以此为理论视角我们不难发现,2025年初迅速引起全球关注乃至震荡的“DeepSeek”现象,其价值并不在于一劳永逸地实现了低成本通用人工智能技术,而是在冲击“规模定律(Scaling Law)”作为既有大语言模型发展路线的同时,释放了人们的“技术想象力”,使我们能够看到人工智能的多重技术路线,并在此基础上开启了新一轮人工智能发展与变革浪潮。

  二、规模定律瓶颈及人工智能的发展“迷思”

  规模定律(Scaling Law)可被理解为“模型能力随网络、训练时间、训练数据的线性扩展而增长”的经验规律。以2022年底OpenAI发布ChatGPT为标志性事件,规模定律基本上主导了大语言模型的发展逻辑,并影响了各大厂商乃至各国产业政策的发展思路。在过去3年里,人们已经习惯于更多的数据、更多的算力投入能够带来模型性能指数级增长的技术发展预期,而这也在事实上孕育了“通用人工智能将在未来几年(2026或2027年)里到来”的“乌托邦”想象。在此过程中,相关研究或实践也试图为这一经验假设找到科学基础。例如Anthropic公司首席执行官达里奥·阿莫代伊借用物理学“1/f噪声”和“1/x分布”现象指出,与物理学中很多自然现象叠加会呈现出高斯分布的规律类似,训练时间、数据、网络规模的增加使得模型能够捕捉到更多的语言模式与特征,并因此能够持续提升模型能力。

  进入2024年下半年后,现实的发展并没有完全支持规模定律的经验假设。布隆伯格在2024年11月的报道中援引OpenAI内部人士的观点指出,下一代旗舰Orion模型表现并没有达到公司预期,因此不能被视为类似于GPT4相比于GPT3或者GPT3.5相比于GPT的跨越式发展;类似情况同样出现在Google和Anthropic这两大巨头身上,Gemini和Opus3.5都面临着持续大量投入下模型表现不及预期的困境。在此背景下,越来越多的行业标杆人物开始反思乃至批评规模定律的合理性,并出现了三种以规模定律为基准的改革路线。

  第一,“调适性路线”仍然坚持规模定律的有效性,但在规模增长的对象和方式上则做出重要调整,典型代表是OpenAI于2024年9月发布的o1模型雏形。o1模型与之前GPT技术路线的最重要差别是在推理时计算而非预训练时计算,即允许模型在不重新训练的情况下通过推理时的额外计算来提高性能,而这也因此改变了传统规模定律聚焦于训练网络、时间、数据的局限。

  第二,“混合型路线”寻求规模定律与其他技术路线(例如符号主义路径)的混合以在兼顾相对优势的同时,对冲规模定律边际效用减弱的不足,典型案例是谷歌的AlphaGeometry模型。AlphaGeometry的创新性在于符号模型与大语言模型的结合,前者体现为该领域知识积累的推理数据库,后者则是在给定前提和基础图的情况下找到概率最高的辅助线方案。二者结合的关键是基于推理数据库创造出大量合成数据,并基于合成数据的预训练来找到辅助线构建的模式与规律。

  第三,“变革性路线”完全放弃了对于规模定律的继续追求,转而对深度学习等当前主流技术路线的根本原则做出改变,代表性案例如杰弗里·辛顿提出的“非永生计算机”理念。辛顿认为,深度学习算法权重或网络的调整不应局限在软件程序层面,而应该延伸至硬件层面以使得计算机结构也会伴随学习过程而被改变,并伴随学习的变化或结束而失效(因此“非永生”)。辛顿甚至提出,非永生计算机可能是解决规模定律能源消耗问题的“唯一可能性”。

  尽管现有实践体现出了探索不同技术路线的初步努力,但此种探索仍然具有高度不确定性,我们并不能提前预知何种技术路线的探索是有效的,而这也自然将影响对此种探索的资源投入。如果考虑到规模定律本身仍然具有自我强化的路径依赖效应,那么与此偏离的多重技术路线探索将面临更大的资源约束挑战。由此,从公共政策的角度讲,我们或许正在积累人工智能技术范式变迁的巨大风险:一方面锁定于规模定律的瓶颈约束,另一方面又迟疑于新技术路线的探索投入。正是在这样的人工智能“迷思”中,DeepSeek的出现带来了转机。

  三、DeepSeek与人工智能多重技术路线的治理启示

  从百度搜索或谷歌搜索指数来看,DeepSeek在互联网的热度开始于2025年1月中旬,标志性事件是DeepSeekV3和R1两个模型的发布,而其核心特征可被总结为两点,即“性能-成本”有效性及其可获得性:一方面,在DeepSeek官网发布的技术文件中,V3模型是当前市场上唯一一个同时兼顾高准确性、低成本、高性能三维指标的大语言模型[5];另一方面,V3和R1模型均以开源模式开放,不仅证明了开源模型能够实现堪比闭源模型能力的可能性,而且也在实质上推进了大模型应用的普惠性,回应了当前人工智能领域存在的“公-私”分化格局。[6]从前述人工智能发展“迷思”的当前背景来看,DeepSeek这两方面突破的重要性是显而易见的:其用事实上的成功证明偏离规模定律的其他技术路线探索是值得的,而实现这种成功的关键机制则是正处于质疑“漩涡”中的开源模式。

  DeepSeek的“性能-成本”优势是其最受关注的表面特征。尽管从不同测算标准会得到不同结果,不过一般认为,在达到相同性能水平的情况下,DeepSeek将大模型使用成本拉低至1/50,而训练成本则可能低至1/100。换言之,DeepSeek扭转了规模定律的一般认知,其并不是通过训练网络、时间、数据的线性扩展来增加模型性能,而是以巧妙的工程设计实现了性能上的超越,这也再次回到了本文的讨论,并能够成为支持向多重技术路线探索倾斜更多公共政策资源的最好注脚。

  不过DeepSeek的意义还不仅限于此,同等重要乃至更重要的启示还在于促进了人工智能发展与治理模式改革,而这又主要体现为围绕开源的争议方面。开源作为软件乃至数字经济时代一般意义上的知识生产与再生产模式,已经得到了广泛的认可和支持。但开源这一基础模式在人工智能时代却正在遭遇新挑战,并引发了持续性的广泛争议:支持者认为,人工智能与其他软件技术一样,仍然应以开源模式展开,这是数字时代促进创新及普及应用的最佳模式,只有在开放过程中才可能形成普遍的创新生态;相比之下,反对者却认为,大模型时代的安全风险和商业竞争表明开源人工智能是“不负责任”的,即人工智能的强大能力很可能使之被误用而开源则为此提供了工具或渠道。观点上的差异直接影响了现实实践的发展,当前人工智能领域日益形成了开源与闭源两种生态且后者还有不断增长的趋势。

  一般认为,DeepSeek并没有形成重大的算法突破,而是基于已有开源模型架构及知识的再组合,以在此重组过程中通过精巧的重新洗牌产生了更好结果。以此为基础,DeepSeek进一步以代码、权重同时开源的方式回馈了开源社区,乃至将详细的开发过程及支撑性的训练应用环境都全部开放以支持用户的自由使用、修改和分发。如果说DeepSeek之前,开源人工智能的支持者只能秉持开源的价值信念并因此难以说服反对者,那么DeepSeek的成功实践则以令人信服的结果论证了开源之于大模型发展的重要性。换言之,DeepSeek证明,大模型体系的内在复杂性并没有被完整揭示出来,通过不同角度、不同方式的挖掘将可能持续优化模型性能,而这种优化技巧将不可能在实验室中以闭源形式完成,体现众人智慧的开源模式将再次表现出其强大潜力,并在此过程中真正释放出多重技术路线的“想象力”。

  事实上,DeepSeek并非孤例,LLaMA模型早在2023年初开源后引发的系列创新同样令人印象深刻:斯坦福研究者的Alpaca仅用52K数据微调以及不到600美元的训练成本就达到了GPT-3.5的可比性能,UCBerkeley、CMU等多个大学联合研究的Vicuna以不到300美元的训练成本达到了GPT-4的可比性能,而UCBerkeleyAI Research Institute(BAIR)发布的Koala模型利用网络高质量数据训练在至少一半的情况下达到了ChatGPT的可比性能。在此对比视角下,人工智能将不再局限于大国竞争的变量或对象,开源使得全球性的人工智能公共产品成为可能,而这也将是推动人工智能普惠发展的关键。

↓↓了解更多资讯,请识别下方二维码↓↓

  1701840725(1).jpg

国脉集团

国脉集团是数据资产化专业服务机构,为数据资源拥有者提供专业、规范、合规的全流程数据资产化服务,包括培训、咨询和产品设计等,实现数据资源价值最大化。主要服务于政府数据管理机构、央国企数据运营企业、城市数据运营平台和数据富集型平台企业,打造数据资产网、数据资产研究院和产业专家网络等支撑体系,同时在营商环境与政务领域继续保持领先优势。

主要课程

主要课程包括数据资产入表、数据经纪人、公共数据运营和政府CDO、数据精品等精品课程。

主要服务

数据资产化服务:数据资产化战略布局、数据资产入表、数据产品开发及交易等关键任务;

数据要素×项目服务:政策扶持、案例奖项申报、金融支撑和市场变现;

数据产业园区和试验区咨询服务:园区规划、咨询、资源导入

标签:

责任编辑:chenshanliang
在线客服