近几年,“AI大模型”俨然是AI界的“当红明星”,从国外的谷歌、微软、英伟达,到国内的浪潮信息、阿里、百度,都在不遗余力的布局AI大模型,而AI大模型的参数量更是屡创新高。
近期,财联社邀请到浪潮信息人工智能软件研发总监吴韶华博士和复旦大学管理学院张诚教授做客鲸平台直播间,与财联社科创板日报记者黄心怡就AI大模型与人工智能产业发展的关系展开了一场高端对话。
AI大模型的出现,让很多产业人士认为这项技术会改变信息产业格局,即基于数据的互联网时代、基于算力的云计算时代之后,将进入基于大模型的AI时代。在未来,人工智能像供水供电一样流向终端,流向用户、流向企业,谁能先做到这点,谁就会在AI产业布局中获得先发优势。
什么是AI大模型?吴韶华博士从技术角度给出解释,AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。例如浪潮信息于去年9月推出的2457亿参数的大模型“源 1.0”,一个模型就能提供聊天、对话、知识问答、写作等各类应用。
张诚教授从应用角度指出,大模型与训练数据、预训练等构成了AI的基础架构,这种基础架构即浪潮信息提出的“算法基础设施”,在此基础上,可以支持算法更高效地融入当前企业各类业务所使用的工具软件,形成算法应用价值的商业变现。
大模型加速AI产业化进程
当前人工智能落地面临长尾场景应用的“碎片化”和应用开发的“高门槛”等挑战,而AI大模型是解决AI产业化应用痛点的一剂良方。
吴韶华博士提出,AI大模型将对AI模型的构建及应用产生极大影响,它会将传统烟囱式的、碎片化的AI应用开发转向集中式开发。一方面AI大模型具备很好的泛化能力,一个模型可以支撑各类不同应用,有效缓解碎片化开发反复建模的困境;另一方面,围绕AI大模型构建的算法基础设施,比如浪潮“源1.0”大模型开放的API、开源的应用代码等,使开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于AI大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。
张诚教授则认为,AI大模型代表了人工智能技术向产品化、产业化落地的趋势,这个趋势的持续发展会深刻改变产业格局。同时,人们对AI的认知、行业对其能力的评估都将越来越体系化。
AI大模型的“先天优势”为其加速AI产业化发展奠定了基础。在数字经济的未来,AI大模型以及包含大模型在内的人工智能模型,凭借优秀的数据价值挖掘能力,较高的应用智能化水平,将会成为数字经济的智能化核心,甚至会成为数字经济中的智能大脑。
当然,AI大模型的发展也并非一蹴而就的。吴韶华博士指出,AI大模型的构建,首先需要大规模、高质量数据集的支撑,数据集的质量很大程度上决定了模型的质量。在大规模高质量数据集上,目前不但缺少相关配套软件,也缺少数据集质量评测标准;其次还有模型算法以及训练算力等方面的挑战。张诚教授则认为,当前AI大模型和企业提升劳动效率需求的结合是最大的挑战,也就是如何让AI大模型在生产中真正发挥生产力作用。
挑战只是暂时的,AI大模型代表了人工智能技术发展的方向。吴韶华博士和张诚教授坚信,AI大模型会在技术上产生更多的突破,也会对应用的规模化落地产生更好的促进作用。
采访实录
吴韶华:AI大模型的出现带来一种新的现象,它将AI应用的开发从碎片化、烟囱式的开发,转变成集中式开发,这种开发范式的变化,有望缓解当前人工智能落地难的问题,更好的赋能人工智能应用创新。
吴韶华:浪潮信息将大模型看作算法基础设施,这种基础模型在算法层面的能力,还要联合服务软件才能在应用中发挥出来。因此,在应用支撑上模型和服务软件共同形成一种类似于算法基础设施的作用。
黄心怡: 您认为AI大模型的应用价值有多大?对于推进人工智能规模化落地能否起到作用?
其次,大模型也可以使研发人员聚焦在应用开发的核心要素上。在算法基础设施层面,包括浪潮信息构建的源 1.0都是开源开放的,开发者不需要关心底层搭建的技术,就能直接调用源1.0的大模型能力。这种能力把AI应用的开发往上推了一大步,让开发者聚焦应用最核心的业务逻辑,把跟模型相关的内容放在模型层面或算法基础设施的层面。比如,基于源1.0搭建的“剧本杀”游戏,可以直接复用源1.0的开源代码,开发过程基本不需要写代码和调试代码,就完成了整个应用的构建,此时,开发者能把更多精力放在剧情内容等创意的创作上。
总结一下,大模型一方面会将AI应用的开发从烟囱式转变到集中式开发,另一方面大模型降低了AI应用的开发难度,让开发者能够更聚焦在核心业务逻辑上,这是大模型给AI的应用落地带来的两大益处。
张诚:大模型和AI产业的发展是一个必然趋势,对这种趋势的未来判断其实通过回顾信息技术的商业应用历史来对照。上世纪90年代早期管理信息系统(MIS)刚开始在商业得到应用的时候,企业往往需要18个月到36个月才能完成信息系统的建设和流程的配合。但是到了最近二十年,相关产品越来越标准,3个月到12个月就能完成中等规模信息系统的设计和上线应用。从新技术发展来说,早期很重的项目定制化咨询方式,到现在越来越多的系统以产品化、标准化的方式复制实施。
吴韶华:剧本杀就是一个典型的案例,在大模型出现之前,如果要做这样一个游戏,需要很强大的模型,这个模型既要有对话能力,也要有逻辑推理能力,这对于模型的开发、数据的选择门槛很高。
我们在源1.0开放过程中也遇到了很多类似情况,比如一个模型即可以支撑用户的随机闲聊,公文写作,还可以支持一些特定场景的各类任务,这些在没有大模型和算法基础设施支撑之前,用户需要有自己的算法人员,从头开始收集数据、标注数据,然后做模型等,经过一系列研发流程,最后才能走到最核心的业务逻辑上。
第一个问题涉及商业运营的基本利益原则:技术带来的生产效率提升超过技术投入,企业才愿意去使用它。随着技术成本不断降低,达到收益-成本的均衡点后,自然会有越来越多的企业愿意接受,现在只是企业在等待均衡点到达的合适时间点。关键是第二个问题,涉及企业竞争优势和可持续发展的战略问题,即企业究竟需要什么样的AI可以产生超越竞争者的竞争优势。这个问题不完全是由技术决定的,而是由企业需求决定的。特别是实体企业,比如像制造业、传统服务业,人在哪个地方做不好,哪个地方的生产效率或者转换效率就会很低,如果用技术能够解决、改变,技术与生产的结合就会非常重要。
假设把技术看成一种推动力,哪些业务场景是AI真正能够紧密结合在企业流程里,能够解决企业实际的生产需求或者某个决策需求,同时经济和社会收益都是值得去做的,那么AI大模型就能顺利落地。所以,从应用的角度来看,大模型可能会遇到的瓶颈就是怎样和实体企业的劳动效率提升和形成竞争优势这两个需求结合起来。
吴韶华:大模型在技术上仍面临着较大挑战。首先大模型的构建过程中面临大规模、高质量的数据集开发。数据集的质量决定了模型的质量,大规模的、高质量数据集的构建,是一个比较普遍的挑战。不管是语言、文字等单模态数据,还是多模态数据,都面临类似问题。
第一是在软件及方法方面,业界缺少开源软件,也缺少数据集构建和数据集质量评测的相关标准。我们在构建数据集的时候,基本上从零起步,从软件、算法的角度构建了一个关于数据集的端到端开发平台。多模态数据集更是如此,多模态数据可能会包含文字、图像、语音、视频等,它不仅需要原始数据,还需要对原始数据进行对齐,这更进一步增强了数据集构建的难度。大模型需要海量数据来做支撑,海量数据的收集本身就是一件比较有挑战的事情。
构建数据集后,需要一个大规模集群来做训练。以源1.0为例,在2128颗业界最先进的GPU集群上开展训练。大规模集群算力的获取就是一个比较大的挑战。此外,怎么用好这个集群,加速训练过程,进而降低算力成本开销,也同样充满挑战。
大模型带来了很多新的机会,随着技术的成熟,还会涌现更多机会。比如建模,AI大模型带来的集中式建模能力将有效缓解碎片化应用开发的痛点。同时,大模型本身也能孵化出新型应用,比如大模型具有很强的对话、交流能力,可以很好的赋能元宇宙的虚拟人场景。大模型对多模态信息的强大处理能力,也会孵化出来更丰富的多模态应用。
张诚:在过去的十年,更多的是人工智能和大模型的宣传,尝试,探索阶段。接下来的十年会,对人工智能的应用会更好、也会更成熟,企业更懂得人工智能、大模型技术是什么、什么时候应用,同时还会很专业的评定收入产出比,评定人工智能对企业造成的成本增减,亦即获得收益之间的平衡。当AI大模型的应用越来越成熟,我们就可以期待接下来每一年都比以前会更好。
张诚:大模型代表了人工智能技术发展向产品化、产业化落地的趋势,这个趋势继续下去,会更深刻改变产业的格局。