演讲人:马费成 演讲地点:武汉大学樱顶老图书馆 演讲时间:2018年6月
在这个快速变革和发展的新时代,人文社会科学研究的内涵与外延处在不断深化和拓展之中,电子踪迹、社交媒体、数字文本以及空间位置信息等大规模数据已经广泛渗透应用于人文社会科学研究之中,当代人文社会科学研究的新场景值得我们重视和思考。
推进大数据、人工智能等信息技术与人文社会科学研究深度融合
近日,市民在呼和浩特玉泉区大数据应用产业基地体验VR眼镜。新华社发
当代人文社会科学研究的新场景
大数据时代,从典型案例探析研究新动向
人文社会科学研究的真正价值源自于研究问题。把握人文社会科学研究的发展趋势在于寻求研究问题的解决路径。相同的研究问题可以从不同学科领域、不同角度以及不同侧重点进行分析。在大数据时代,运用信息技术有助于人们更加深入透彻地了解人文社会科学研究中的新动向,例如,进一步跟踪和关注以下具体研究问题。
推进大数据、人工智能等信息技术与人文社会科学研究深度融合
【演讲人简介】马费成,1947年出生,武汉大学人文社会科学资深教授、国家教学名师、教育部人文社会科学重点研究基地武汉大学信息资源研究中心首席科学家、武汉大学大数据研究院院长。长期从事情报学理论方法、信息资源规划与管理等领域的教学科研工作,承担国家社会科学基金重大项目、教育部哲学社会科学重大课题攻关项目、国家自然科学基金重点项目等国家及省部级科研项目30余项,出版著作20余部,发表论文200余篇。
第一,实时洞察热点事件。大数据在各行各业的应用,能够即时且最大化的体现数据价值。如央视新闻采用百度定位数据展示春运人口流动图景;印度研制的MogIA人工智能系统用网络数据四次成功预测美国大选结果;谷歌研发的GFT流感趋势预测系统基于用户搜索记录预测美国的流感趋势;等等。过去用传统数据进行研究具有很大的时滞性,而实时性数据的获取,能够有效提升人们发现世界的真实度,人文社会科学研究也可以得到更多有意义的结论。
第二,解读人类行为规律。社交媒体数据为解读人类行为规律或行为倾向提供了很好的机遇。在过去,研究人的行为主要通过问卷、访谈、实验等方法。现在社交媒体成为提供数据的重要场所,研究人员不需要被测对象响应和配合,也不需要等待被测对象,因此给人文社会科学研究提供了很大方便。
第三,用科学来破解文学争议。如辨别红楼梦前80回和后40回作者是否为同一作者以及《静静的顿河》的作者之争等等,这些文学问题都可以通过统计分析、数据挖掘、机器学习等手段进行分析。这种用数学解决文学问题的方法有一个形象的说法叫“文学指纹”,即像识别指纹一样来识别不同作家的文学风格倾向。同样,这也体现出文学在研究思维上发生的重大转变。
第四,宏观分析历史变化。大数据为全面、宏观的分析历史变化提供了充分条件。如武汉大学社会学系龚为纲博士用网络数据分析西方社会民粹主义思潮的历史演变;Maximilian Schich等学者用名人出生地和死亡地的数据研究文化艺术中心的历史迁移问题;等等。过去的研究很难对历史变化有整体性把握,研究结论往往与研究者个人视野有很大关系,只能分析解决局部问题,而数据处理技术和分析手段出现后,我们能够通过数据的直观展示了解到历史变化过程以及历史事物。
第五,探究重大社会问题。通过数据中隐藏的规律来揭示重大社会问题。过去应对复杂非线性社会问题,最常用的是实证化研究,当时这些研究的解释力度不够。而现在可以用“数据发现逻辑”,解决以往难以攻克的社会问题,有助于国家相关政策的制定以及维护社会稳定。
我认为,如果数据方法和分析手段运用得当,真正融入人文社会科学的重要问题中,那便是优秀的、具有影响的研究成果。
技术环境变化,创造有利研究条件
从当前人文社会科学研究场景中可以看出,有许多研究以前行不通而现在可以进行了。实际上是技术环境变化创造了有利的研究条件。
比如说,现实世界的转换路径:数字化。数字化是一个时代感很强的术语,也是一种常见的现实应用场景,指将复杂多变的信息对象,如声音、颜色、图形、图像等,转换为二进制,由计算机统一处理。从而人们可以在另外一个世界(空间)去研究原来现实中的一些问题。数字化的理念以及数字化工具和技术能力应用于很多领域,解决了许多基础性问题,如数字化书籍、报纸杂志、图书馆、博物馆等等。
再比如,取之不尽的数据来源:物联网。物联网技术是在互联网基础上实现“物物互联”。这里的“物”能够为认识社会经济现象提供好的研究基础和平台。对于人文社会科学研究而言,取之不尽的数据是科学新发现的源泉,物联网所带来的研究魅力在于数据的获取空前方便。物联网可以获取海量的实时数据,而这些数据是运用传统工具和手段所不能获取的。
还有就是即时可用的计算环境:云计算。云计算的概念从2006年的搜索引擎大会上提出,到现在已经10多年。它主要是指一种计算资源的共享,带来数据分布式存储和计算,这种分布式存储和计算使得研究人员不再担心传统数据存储和处理的局限。传统统计学的目标是用尽可能少的数据来发掘出尽可能重大的发现,长此以往,研究人员就形成了减少数据收集的习惯,这种缩减实际上是一种人为的限制。而云计算意味着更大的临时存储空间和计算环境,因此给了研究人员一个信心:面对复杂的研究对象,不需要做过多的精减。
值得重视的移动泛在的信息行为:智能手机和终端。人人持有的智能手机和终端形成了信息获取和信息生产的泛在环境。用户不仅可以无时无刻、随时随地生产数据,还可以获取数据、传递数据。现在,很多数据通过移动手机和终端不断产生、不断传递,使得信息传递模式、人类信息行为表现都呈现出新的特征,而且移动信息服务又与生活经济发展密切相关。这样的变化不仅为研究信息传播、用户行为提供了支持,而且也丰富了人文社会科学的研究途径。
无孔不入的时空分析:GIS技术。地理信息系统(GIS)技术与人文社会科学研究特别相关,GIS是上世纪60年代研究地理的学者提出来的,主要是为了获取、存储、检索、分析、显示空间的定位数据,随着技术的发展和成熟,其发挥的作用也愈发显著。人文社会科学研究之所以要重视GIS技术,因为其研究对象不仅有时间属性,还有空间属性。人文社会科学中很多现象并不能像自然科学研究中用数学、物理、化学的方法来测量,但是GIS技术为直接或间接研究人文社会科学空间提供了可能。
数字与现实世界融合:VR/AR技术。虚拟现实/增强现实(VR/AR)技术借助3D模型、感知交互、渲染处理、网络传输等技术,将仿真和现实物理空间融为一体,建造第二自然(也可以称为拟象),实现对物理空间的原型事物的模拟和构建,以及对无原型事物的生成和创造。这类技术可以充分模拟现实世界可能发生的现象、发展的状态,未来可能会成为人文社会科学研究的实验室或者试验场。
不同数据来源提供研究保障
计算机技术的发展极大地改变和丰富了人文社会科学研究的数据来源。依据不同的标准,可以将人文社会科学研究的数据细分为不同的类别,针对性地应对不同研究。
依据数据产生的方式,人文社会科学研究数据可以分为被动产生的数据、主动产生的数据和自动产生的数据。被动产生的数据,表示被人和机器共同控制。主要来源于一些业务运营管理系统,伴随移动的运营活动产生并记录在数据库中,如超市、医院、研究机构、交通部门的管理系统中产生的数据。主动产生的数据,表示人的主动权(控制权)较大。这类数据是用户在不同的移动手机和终端,为了交流、交易而产生的数据。自动产生的数据,表示数据的主动权完全归于机器。这类数据主要为机器和传感器数据,如射频识别(RFID)信息、GPS等定位系统数据等。
依据数据的来源,人文社会科学研究数据可以分为电子踪迹、用户生成内容(UGC)、数字化文本和空间位置数据。电子踪迹数据指用户在使用互联网以后留下来的踪迹,主要包括点击流和搜索日志,如用户点击网络情况、浏览情况以及IP地址等等都属于电子踪迹范围。用户生成内容(UGC)数据,包括社交媒体数据,以及采用群体智慧机制的互联网百科数据等等。数字化文本是电子化处理后形成的文本数据,包括各类数字化图书馆网络数据库存储的文本数据等。空间位置数据是利用GPS等定位系统获取的定位数据。
依据数据的实时性,人文社会科学研究数据可以分为热数据和冷数据。人文社会科学的研究问题与数据实时性具有一定的关系。有些研究是利用实时性数据研究现实性问题,有些研究是利用档案性数据研究传统性问题。这就反映出研究中数据的热度。据此,可以将反映实时动态的实时性数据称为热数据,将保留多年的档案性成熟数据称为冷数据。
新场景中的新老问题需要重视
在新的技术环境和数据产生条件下,人文社会科学研究的问题出现了变化,从本质上讲,这些变化主要包括以下两类。
第一类是新场景中的老问题。这类问题是人文社会科学研究中一直都存在,只是过去传统技术条件下没有办法揭示的问题。如上述的文学指纹问题、社会思潮以及文化艺术中心变迁问题等等。这些问题,在新场景中借助新的数据来源和获取方式、处理分析工具,能够顺利得到解决。另外,在社会科学当中长期争执的整体与局部的问题,也是这类传统的问题。
第二类是新场景中的新问题。在新场景当中也出现了过去没有的问题,比如说互联网、数字技术、VR/AR技术所带来的虚拟空间,随之出现的虚拟社区、虚拟企业、人造现实、第二自然,以及由此产生的虚拟犯罪问题、伦理问题,人文科学关注的人的价值问题,实际上都是新场景中的全新问题。这些全新问题今天已经有人提出,但是目前很少看到这方面研究,而这些问题对人类的影响重大。
当代人文社会科学研究的新视野
人文社会科学与自然科学应当相互学习借鉴
人文社会科学和自然科学不同之处主要表现在自然科学现象具有同质性,而人文社会科学现象具有异质性。所以自然科学研究强调可重复性。不同的研究人员做同一个实验,其结果应该是相同的且可以重复。但人文社会科学研究不一样,因为人文现象、社会现象具有异质性,这种异质性导致了人文社会科学研究的差异性。尽管两者有不同,但自然科学家和人文社会科学家还是要相互学习和借鉴。不能强调它们的区别,而忽视了共性。很多自然科学的理论、方法、技术,都能够运用于人文社会科学研究;人文社会科学的研究也可以为自然科学提供很好的场景和指导。
当前,很多自然科学家开始关注人文社会科学中的问题,这值得鼓励。人文社会科学只有成为一个开放的学科,才能在新的方法、理论、技术上产生质的飞跃。但同时要引起人文社会科学家重视的是,当自然科学家关注这些问题的时候,如何让本领域的社会科学家们继续发挥主导作用。
注重不同研究取向和方式的结合
数据驱动与模型驱动相结合。传统研究强调模型驱动,通过提出构想、假设,收集数据来验证模型。但模型驱动的局限是只能在有限的范围内,通过有限的参数、有限的变量来提炼出模型。许多模型是在小世界范围内非常理想的假设条件之下提出来的。当然,模型驱动也有其明显的优势:直接、简洁、具有理论吸引力。但在有限场景当中,它只能解决部分的问题,而且没有办法应对丰富多样的数据来源,所以要把两者结合起来,强调模型驱动,也要强调数据驱动。
演绎逻辑和归纳逻辑相结合。无论是演绎逻辑还是归纳逻辑,在大数据支持的研究中都可以采用。从演绎逻辑出发,使用大数据进行检验,可以称之为理论驱动或模型驱动;从归纳逻辑出发,使用大数据进行描述和分析,可以称之为数据驱动。两种逻辑并存,理论驱动和数据驱动并存,可能是使用大数据进行研究的一个特点。以往的抽样数据研究,主要是理论驱动和演绎逻辑;而质性研究,主要是数据驱动和归纳逻辑。大数据将两种逻辑结合起来,可能是其优势所在。
相关分析与因果分析相结合。在大数据出现时,人们认为因果分析不再重要了,认为大数据只重视相关分析。这是一种误解,因果分析仍然非常重要。从古希腊开始,西方哲学就把因果关系作为科学的核心,因为任何科学问题都要从原因分析结果,从事物之间的因果关系来发现基本的规律。但在大数据环境中,发现“因”和“果”之间的关系并不那么容易。因果关系其实有三个非常重要的条件:首先,因果是一种时序关系,“因”在前,“果”在后;其次,因果之间有实证的相关性;再次,因果关系不是第三变量的结果。这三个条件在大数据环境下很难揭示,但不能以此来否认因果关系的重要性。相关关系是因果关系的必要条件,在相关关系基础之上分析因果关系,这样可以避开人文社会科学在因果分析中的内生性问题。
空间分布与时间序列分析相结合。时间和空间是界定人类社会发展和人类文明的基本维度。其实人文社会科学在很长一段时间里面,非常强调时序分析,因为时序分析是和因果关系非常密切联系在一起的。上世纪七十年代以后,由于技术的发展,出现了对空间位置的发现和揭示,所以开始关注到空间问题,这里的空间不仅仅是地理空间,还包括权力空间、关系空间、心理空间、信息空间等等这样一些社会空间。除了时间之外,空间的位置分布也非常重要。时间和空间共同被视为社会现象的环境或舞台。对于许多人文社会科学现象,如果只关注时间,而忘记空间,那么很可能就丢掉了相关性;而如果忽视时间,那就在很大程度上忽视了因果性。其实这两者有非常密切的关系,缺一不可。
部分探索与整体研究相结合。为什么要强调这个问题?因为历来很多社会科学家、哲学家都是反对整体性研究的,他们认为从整体上去认识社会发展的规律是不可能的。波普尔就是这个学派的代表。但在科学当中,无论是自然科学、人文社会科学,“整体”在任何时候都非常重要。当今人文社会科学的新场景提供了一个认识总体、研究总体、检验总体、测试总体的条件。所以可以把整体和局部结合起来认识各种复杂的人文社会科学现象和问题。
人工分析与工具应用相结合。古人云“工欲善其事,必先利其器”。在当前的大数据场景下,不仅要重视传统的人工分析,还要重视工具的运用,尤其是人工分析和工具的应用相结合。不同领域数据的长期积累和快速增长带来了新的数据分析要求,相关的处理、分析和可视化等技术迎面而来。而且在不同问题上需要不同的工具和方法,这些工具和方法并不容易被掌握和诠释。因此,人文社会科学研究如何吸收和利用这些强大的技术手段,将传统的人工分析与工具应用相结合,这是在研究过程中需要注意的。
有形与无形研究工具的产生
纵观几百年科学研究的历史,不难发现,任何学科的发展都离不开特定的研究工具。正如显微镜对于生物学、天文望远镜对于天文学发展那样,人文社会科学的发展同样离不开特定研究工具的发明和使用。这些研究工具既包括有形研究工具,也包括无形研究工具。
互联网+时代的有形研究工具,是大数据催生数据分析手段。有形研究工具主要是以数据分析、加工、处理、获取的这些工具为代表。例如在数据采集阶段,根据不同领域的数据来源有不同的数据采集工具,有日志采集、网络数据采集,传感器数据采集;在数据存储阶段,除了关系型数据库和数据仓库,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势;在数据分析阶段,传统的分析方法无法满足数据分析需求时,出现了新的大数据处理工具,包含:批数据处理、流数据处理、以及非结构化数据处理工具。在数据呈现阶段,除了面向大数据主流应用的可视化技术,还有人机交互技术等等。
无形研究工具是网络环境变革传统研究方法。网络环境消除了物理空间的限制,许多在线下进行的研究可以在线上进行,在网络环境中,人文社会科学研究以传统的研究方法为基础,不断呈现出新的思路和方法。这些思路和方法形成了许许多多无形研究工具,包括互联网实验法、在线数据分析法、众包、虚拟民族志、文化组学等等。作为一种全新的社会形态,网络环境为各项社会信息活动提供了新的存在空间,由此获得改进和创新的人文社会科学研究方法。
未来研究需关注的几大问题
尽管当代的很多技术、方法对人文社会科学研究至关重要,但也带来了很大的影响,所以在应用过程当中还需要关注以下问题。
一是数据碎片化和模糊化。数据来源于不同的时间和空间,因此大数据往往具有多元性和涌动性。对科学研究而言,允许一定的模糊性,但需要重视这个度,对数据要采取去语境化、规范化的操作,把大数据、来自不同场景的海量数据变成智慧数据,才能够支持人文社会科学研究。
二是隐私与安全。这是人们非常关注的问题。在大数据环境下,既要强调数据开放,又要强调隐私保护,就形成了矛盾。解决这个问题,不仅需要法律的改进,还需要技术上的突破。
三是技术障碍。大数据应用于人文社会科学研究,必然涉及很多新的工具、技术问题。数据从获取、分析到呈现,还有各种各样的无形研究工具都离不开技术。实际上也给人文社会科学研究人员提出了挑战,如果技术没有掌握,会不会陷入望“数”兴叹的尴尬境地?应对技术障碍,人文社会科学研究人员首先应该掌握一定的技术工具和方法,同时也需要加强与其他学科领域的技术人员的合作。
四是研究对象的社会文化意义。从人文社会科学角度看,任何数据在人文社会科学当中其实都是人及其行为的符号,是人类自身活动的结果,是一种具有社会文化意义的建构行动。忽略人所在的社会文化的价值本性,而无限放大数据效益及其影响力,可能会收到相反的效果。如果人及其行为都仅仅被看作一个个孤零零的数据符号,就很难从个体数据去推导群体样态和社会构成。
五是人文社会科学的美学价值。在人文社会科学研究中,研究者个人的价值取向和个性非常突出。如果在大数据的场景当中,泯灭这种研究的个性,也就牺牲了研究的初衷。因为人文社会科学,除了与自然科学一样要发现客观事物发展规律,还承载着传播传统文化、促进现代文明的历史使命。所以不能忽视它的美学价值,美学价值源于研究人员的个性,也是人文社会科学研究的个性。
六是人文社会科学的抽象思维和思辨。无论是人文社会科学,还是自然科学,都要强调抽象思维。不仅要强调抽象思维,还要强调思辨,在大量的事实观察的基础之上,抽象、揭示、发现规律。无论用什么样的方法去获取数据,这些数据都只是研究的素材,并不代表世界是怎么运作的,而世界的运行规律隐藏在这些数据当中,需要主体通过抽象思维去揭示和发现这些规律。
七是人文社会科学的科学想象。为什么哲学家会比自然科学家更能发现自然的规律?实际上这是因为哲学家视野更抽象、站得更高。就像爱因斯坦、牛顿这样的大科学家,其实他们首先就是一个哲学家。爱因斯坦通过思想实验发现了相对论,牛顿通过观察、思考和科学灵感揭示了经典力学的规律,曹雪芹想象和描绘的“太虚幻境”早就为我们展示了今天才有的VR/AR技术场景。所以特别强调利用这些没有生命的数据和工具,去发现活生生的“人”的行为,通过科学的想象和实践去发现重要规律,这也是人文社会科学研究在任何时候都不可忽略的。
数字化时代为人文社会科学研究带来了新的历史发展机遇,新的研究场景以及新视野、新方法、新工具的出现,意味着中国特色哲学社会科学研究体系的构建应把握大数据驱动下的研究特点与规律,紧跟信息技术发展步伐,不断推进人文社会科学理论体系的创新和研究方法的创新。换言之,不仅要主动运用数据思维和有形无形的研究方法来回答和解决好我国改革发展所面临的重大理论和实践问题,还要立足国际学术前沿,熟练推进大数据、人工智能等信息技术与人文社会科学研究的深度融合,并针对当前人文社会科学研究的关键问题,提出中国学者的原创性理论贡献,进而全方位、全领域、全要素地建构数字化时代人文社会科学研究体系。