论坛报告|汪雪锋教授:大数据背景下技术预测研究进展探析

2019-01-22 10:04 来源:农业图书情报
浏览量: 收藏:0 分享

  论坛简介

  2019全国图书情报青年学术论坛于1月7号在冰城哈尔滨胜利落下帷幕。此次论坛云集了来自北京大学、清华大学、中国科学院、南京大学、武汉大学、复旦大学,北京理工大学、黑龙江大学、中国农业科学院、中国科学技术信息研究所、中国医学科学院等50余家科研院所图书情报领域的专家学者。

  2019年论坛主题“新兴技术、前沿追踪与最佳实践”,共22场学术报告。(专家报告请关注公众号的后续报道)。

  专家简介

image.png

  汪雪锋,北京理工大学教授、博士生导师,美国佐治亚理工学院公共政策学院访问学者,致力于技术创新管理、科技文本挖掘、科技情报挖掘、技术预测和科技评价等方向研究工作,主持国家重点研发计划、国家自然科学基金面上/青年/应急项目、国家科技支撑计划、国家863计划和国家科技重大专项等国家或省部级科研项目30余项,发表论文100余篇,其中SCI/SSCI检索论文21篇,获省部级科研奖励 3项,合作开发完成的智能化科技文本挖掘与可视化软件平台(ITGInsight)得到国内科技情报服务机构关注。现任国家自然科学基金同行评议专家、中国科学学与科技政策研究会理事、北京运筹学会理事、中国科学技术情报学会知识组织专业委员会委员、国家新闻出版广电总局富媒体数字出版内容组织与知识服务重点实验室学术委员会委员,《农业图书情报》、《情报工程》杂志编委,以及国内外多个学术期刊审稿专家等。

  大数据背景下技术预测研究进展探析

  01概念辨析

  1.1  技术预测 VS 技术预见

  1.2  新兴技术 VS 颠覆性技术

  颠覆性创新 VS 渐进式创新

  02需求驱动的技术预测

  03数据驱动的技术智能预测

  04技术预测的未来研究思考

  报告内容

  概述一下研究背景,美国国家情报大学科技情报学院院长布莱恩•福尔摩斯在2018年5月发表“科技情报的一个转折点”文章,表明美国政府首次将“科技情报”一词明确纳入国家安全战略,且非常关注全球科技发展趋势的预测,强调了科技情报研究的高度重要性。另外,武汉大学马费成老师在分析大数据为科技情报研究带来的机遇和挑战时,指出大数据技术的发展拓展了情报学的研究域,创新了情报学的研究方法,增加了数据获取的渠道、方式和规模,提供了新的研究工具,增加了研究人员的参与度。而从管理决策来说,以前研究强调需求驱动的管理决策,而大数据背景下则更多强调数据驱动的管理决策。技术预测是管理决策研究的一个重要方面,因此,这个报告主要和大家分享一下需求驱动的技术预测和数据驱动的技术智能预测。

  01概念辨析

  1.1 技术预测VS技术预见

  技术预测,很多时候也叫技术机会分析,关于技术预测与技术预见的概念辨析主要有三种观点,目前得到较多认可的是技术预测与技术预见是存在区别的。技术预测于1959年被提出,技术预见概念则可能出现在1996年,技术预测是要识别对未来有应用前景的技术,它考虑的是技术本身的发展规律,而技术预见则是强调在未来较长时间内,对科学、技术、经济和社会发展的系统研究,不单纯看技术本身的发展规律。

  具体来说,技术预测是从军事领域应用向民用应用的发展,它不太关注环境和资源的承受能力,本身就只考虑技术本身。而技术预见强调在宏观上从多个维度进行综合考虑。从驱动因素出发,技术预测是基于技术的驱动,而技术预见是在技术本身发展驱动的模式之下,考虑社会和市场拉动的因素。从整个时间上考量,技术预测一般是3-5年,而技术预见更多是强调5-30年。技术预见很多时候是用德尔菲法,而技术预测目前主要是基于文本分析和科学计量的方法。

  1.2 新兴技术VS颠覆性技术

  颠覆性创新 VS 渐进式创新

  新兴技术&颠覆性技术这两方面,目前还没有一个公知的概念。他们之间有非常多的交叉,并且会涉及到很多颠覆性创新和渐进式创新的概念。新兴技术是指即将到来,并预计在15年间可能发挥重大影响的技术,而颠覆性技术则是强调市场的应用,它是市场驱动的,所以说颠覆性技术是不连续的创新,而新兴技术除了关注不连续的创新,也关注渐进式创新。在特征方面,有一些相同的地方,比如说新颖性、不确定性、影响力。另外新兴技术强调快速的增长性和一致性,颠覆性技术强调灵活性,主要是要如何快速的融入市场,去颠覆现有市场的格局,所以说区别因素是存在差别的。新兴技术强调技术性能和功能的改进,而颠覆性技术更多强调是市场机会的识别,在这里面有很多会涉及不同的创新模式。

  02需求驱动技术预测

  2.1 国内外研究对比

  在中文的CSSCI论文中可以看到,技术预见出现的频率明显多于技术预测,和技术预见联系最紧密的是德尔菲法,而技术预测的方法非常的分散。具体到研究论文内容会发现,国内主要是介绍关于技术预见的一些活动,里面会提到德尔菲方法。而国外的探讨有一些类似, forecast是预测,foresight是预见,总体来说国外技术预测的论文要比技术预见的论文相对多一些。而从核心的技术来说,技术预见国外对德尔菲法关注的比较少,这是国外和国内很重要的区别。同样是技术预测,方法体系来说也是非常分散的。

  2.2 关于技术预测的几个主要研究问题

  主要包括三个方面。(1)针对某个基础领域的技术识别。(2)针对特定技术领域的技术演化轨迹与趋势分析。(3)针对目标公司的战略规划制定,这些研究经常做情报学的学者都可以看到这些方法。整体方法的演变,最开始是从专家判断的方法,到了2000年左右是基于技术生命周期和S曲线的分析,随着发展就慢慢的转到结构化的分析,到目前比较热门的就是短文本的挖掘。还有最近从2011年开始,以美国fuse项目推动的全文本挖掘,使人工智能、深度学习方法得到很好的应用,当然这是一个探索的过程。最初我们是基于专家判定的数据,有一些定性和定量的方法,比如德尔菲法,情景分析法,技术路线图以及改进的德尔菲法等。而随着科技文献和专利数量的激增,慢慢转向基于专利/文献数量定性和定量的方法,比如说生命周期方法,逻辑和S曲线的分析。随后这是基于专利或者是文献的著录项目,采用文献计量和科学计量的方法进行预测,比如说引证,共词,IPC分析,社会网络分析,根据这样综合的方法来开展相关研究。随着发展,到了目前短文本挖掘,例如基于标题和摘要等数据,具体也看到了LDA、SAO、SVM、机器学习,技术路线图,聚类分析等方法,在这里国内外学者做了很多研究,当然我们团队也主要在这方面开展了一些工作和积累,在此基础上,我们团队也开发了自己的分析软件ITGInsight。最新的发展,就是基于美国国家情报高级研究计划局2001年启动的智能化全文本挖掘,来支撑我们的识别和预测。

  03在大数据背景下数据驱动的技术智能预测

  3.1背景介绍

  目前技术的智能预测是基于美国国家情报计划高级研究计划局的FUSE项目,这个FUSE项目最后的一个词exposition(博览会),就是要利用大量的文献和数据来发现最新的动态和热点,并定期识别出新兴技术进行评估。它的两个特点,一是自动化和智能化开展新兴技术的识别和预测,二是系统化和持续化的新兴技术的预测。

  在这个项目背景下,引入了机器学习,人工智能和深度学习等技术,来实现大数据背景下新兴技术识别和预测相关研究。系统原型是基于大规模的异构信息网络,在这个异构信息网络输入目前比较热门的科学概念,通过一系列的运算之后,发现科学概念的显著度,基于科技文献和专利文献的全文数据和引文数据来构建异构信息网络,主要内容包括人,机构,paper和patent,形成一个交互关联的网络,基于这个网络去做多维度的分析和判断,得到最终的结果。这个系统有两个核心模块,第一个就是做科技情报分析会用到的预处理和特征抽取,特征抽取有很多不同的特征确定,比如说资助信息等。之后对这样的知识库进行处理之后,成为增强的知识库,形成整体的基础。第二就是新兴技术提名与说明。说明主要是做解释,输入一个科学概念,它在现有的一些基础特征之上,根据它本身的特点去进行匹配,形成指标计算,之后得到一个整体影响的分数,然后再来解释这样的结果,进行分析,最后是评价这个结果。整体来说,它是一个非常完整的系统,是整体所构建的智能预测系统。

  3.2关键技术

  (1)新兴技术的理论——核心技术

  主要强调三个方面,第一个就是跨学科背景下信息技术的产生。跨学科的研究很可能促进科技突破,这个科技突破是新兴技术颠覆性技术研究的基础,但是这个科技突破并非全部是跨学科研究导致的,它是在跨学科背景下新兴技术产生的非常重要的观点。第二是科技争论背景下新兴技术的产生。这里要强调的是,科技领域内新兴以及重要技术的出现通常以“社区”(Community)为单位出现在复杂网络中。在这里面它有三个不同的维度,第一是彼此间无合作,无引用;第二是有引用,而且明确与其它工作进行了对比;第三是强调强烈的对比,跟其他工作的区别。在2014年有一篇关于新兴技术的论文主要强调了新兴技术的特征, 他们认为“Novelty (Newness)和Growth”是大家公认的新兴技术特征,除此以外“Noticeable和Unexpected”也是新兴技术两个非常显著的特征。关于科学和演化过程的研究一般集中在领域、学科、专业、问题四个层面,新兴技术的识别和预测应站在专业层面,而不是问题层面或者是上升一个层次的学科或领域层面。在这样一些理论基础上,论文提出一个同期全局微观模型来做新兴技术的识别。

  (2)关于文本特征的研究

  文本特征研究主要强调六个方面,文献类型,文档结构,实体识别,关联数据,以及引文情感分析,还有论证区间。在这里重点说一下论证区间,论证区间主要强调某项工作和别人的区别,通过这样的论证区间标注,能够识别这项工作的创新程度。比如说论证区间里面涉及的“contrast relation”,这个可以帮助有关人员识别某项科学问题的不同应用场景、不同研究方法等,这里也做了一些案例,具体方法集中在单词层面和语法层面。第二个是引文情感分析。这个情感分析目前国内外都做得比较多,仅是对中英文论文简单做了计量分析。这里面可以看到,目前关于引文情感分的析,国外侧重深度学习和机器学习的应用,而国内是强调侧重机器学习方法的应用。

  (3)关于术语识别

  术语识别主要是解决名词短语识别,非登录词、技术形容词等短语识别问题。具体操作时首先要进行分词、词性标注,在此基础上形成候选短语。此外,还包括一些缩略语的抽取问题,需要说明的是,随着技术的发展,缩略语的使用也可以作为判断技术成熟程度的一个标准。最后,会对抽取结果进行规范,计算分布排名。会用三个指数,D、W、R进行表示。关于指数D的计算涉及三个指标:TFIDF是常用的指数,另外是KLD,主要是测度术语在Foreground和Background的概率分布差异;还有一个DRDC,是用来测量术语在不同细分领域的差异,通过D*W*R三个指数来进行术语排名。还有一个方面是技术术语的抽取,主要是两个流程:首先应用常规的语言规则挑选侯选词,之后通过机器学习算法来计算它是技术术语还是非技术术语。为了得到训练数据,首先设置了三个判别准则进行人工标注,之后进行特征抽取,通过最大熵模型进行一个二分类的判断。

  (4)指标设计

  在指标设计上,可以结合前面的新兴技术理论,从Slient Debate,Active Disagreement,Topical Uncertainty三个维度进行指标的设计。再有,设计一个完整的结构,将基础指标结合网络特性,计算一个术语的显著度。比如,我们在进行分析的时候,首先根据我们的用户需求确定我们的模式,将该模式匹配网络结构特性,最终挑选网络结构下的基础指标来计算术语显著度。

  具体预测时,它基于前面的基础信息网络,从六个维度,采用树增强朴素贝叶斯算法进行未来显著度的分析。构建的时候要区分科学领域和技术领域的术语,这里面共同点就是要从技术本身的发展规律进行分析,不同点主导的行为实体(基金源等)会有一些差异。在科学领域的指标上,可以看到Extent、Novelty、Growth、Connectivity与技术领域的四个方面是一致的。但是有一个不同的地方就是弹性(Resilience),举例来说,包括资助来源来自政府、企业、个人,或者是专利不同类型等等。在技术领域,后面还有Complex Indicators,它其实是可以融入到前面的。

  (5)解释系统

  在解释系统方面,展示最终的结果是怎么来的,要提升系统的透明度和有效性,也就是说forecast部分包含哪些证据,分析之后展示这个结果的合理性。

  在具体应用方面,就是关于科学概念和新兴技术的显著度预测,在这里面我刚才讲了,科学概念是输入一个术语,而预测新兴技术的时候是根据文本进行加工之后得到了我们感兴趣的信息,所以说这里会把这样一些信息论证引入合作网络,进行文本情感的分析等等进行相应的研究,结果会基于science\Naturegtf\PNAS(GTF标准)进行对比,验证结果的有效性。整个预测过程,是采用逻辑回归算法。新兴技术未来显著度的预测,是输入大量科技文献以及专利数据,系统应用自然语言处理技术,极性指标的构建,以上指标在科技文献和专利过程以及不同的领域中要考虑它的差异,也就是说如何建立科学合适的测试指标是研究的侧重点。

  04技术预测的未来研究思考

  第一,我们前面讲了主要是基于科技文献和专利文献,未来是不是可以考虑构建来源更加广泛的异质信息网络?我们知道在大数据背景下,我们有很多网络数据,这些数据之间是不是能构成更加广泛的异构信息网络。

  第二,构建更加科学合理的指标体系实现新兴技术、颠覆性技术的识别与预测,目前关于新兴技术属性的研究主要是新颖性,快速性,连贯性和不确定性等几个方面,每个方面都有一些测度方法。在新兴技术和颠覆性技术的预测方面,都是基于需求驱动和传统科学计量方法,这些方法在目前大数据背景下是不适用的,那如何构建更加合理的指标体系,真正实现大数据背景下的新兴技术和颠覆性技术的识别和预测,应该是我们未来研究的一个重点。

标签:

责任编辑:bozhihua
在线客服