随着大数据应用的日渐普及,深入挖掘大数据的价值、将大数据变现以及更有针对性地采集大数据,正在成为业界关注的焦点。这次我们邀请到合肥工业大学教授、博导、计算机与信息学院院长汪萌,来看看他对于多媒体大数据的一些看法。
汪萌
合肥工业大学教授、博导,计算机与信息学院院长。国家杰出青年科学基金获得者,入选教育部青年长江学者、中组部万人计划。研究领域为模式识别、人工智能、多媒体信息处理。发表论文200余篇,引用11000余次,入选科睿唯安2016-2018年度“全球高被引科学家”。担任IEEE TKDE、IEEE TCSVT、IEEE TNNLS、IEEE TMM等国际期刊编委。获国家自然科学二等奖1项、省部级科技奖励3项。
Q:您能解释一下什么是多媒体信息处理?在大数据语境下,未来的发展方向是什么?
汪萌:多媒体信息处理的概念很广,我们主要是从事多媒体内容分析的研究。多媒体数据是什么?顾名思义就是视频、图片、音频的数据,我们通过模式识别的技术手段,挖掘多媒体里面包含的内容,对于人物、物品的特点做出内容判断,浅层次的角度理解是发掘多媒体的“人”“物”“景”;高层次的角度是通过多媒体里面的事物挖掘“事情的经过”来“讲故事”。让计算机像人一样去理解或者看懂音频、视频、图像,这也是我们未来整体的目标。
Q:您和您的团队现在的研究工作更侧重哪个方向?
汪萌:我们团队的研究主线是多媒体内容分析,主要分为三个阶段。在2008年之前,多媒体内容分析主要是为搜索去服务,用模式识别的技术去识别视频、图片里面的内容,主要是用人工标注数据+计算机建模的技术去识别一些简单语义概念。第二阶段是2008年以后,因为互联网web2.0上网的人越来越多,用户产生了交互的数据,渐渐有了大数据的雏形。例如很多用户上传图片在分享时会给图片打上标签,在社交网络中分享时也会进行评论,这些交互过程产生了大量数据,这些数据隐藏了有用的信息量,虽然其中的噪声严重,但也是很有价值的。之后6、7年的时间,我们运用计算机手段进行数据清洗,尝试从杂乱无章的数量去里面挖掘有用的信息,并对多媒体内容来进行描述或数据分析,它的好处是免去繁琐的人工标注的劳动,这开始有互联网数据分析的性质。第三阶段,由于深度学习算法和硬件性能的快速发展,我们从网上杂乱无章的内容又切换回了模型+大数据,运用新的模型+算法配合大规模的训练数据,可以转换为制作好的模型,这不同于早期的模型技能简单、有限,标记收集很难的情况。现在主要采用神经网络模型,类似脑细胞传递神经信号的方式,例如一张图上有很多像素,神经网络链接像素输出一些标号信息。
Q:多媒体大数据技术目前的功能和具体应用有哪些体现?这对推动政府信息和公共数据开放共享有哪些有益之处?
汪萌:多媒体大数据技术主要应用于搜索系统,以图像、视频、音频或文字作为查询条件,基于内容相似性度量,在海量数据中查找相关多媒体信息的技术。帮助用户从海量的网络多媒体数据中准确、迅速地查找需要的信息。还有是现在很流行的“人脸识别”,这是基于人的脸部特征信息进行身份识别的一种生物识别技术。通常采用摄像机或摄像头采集含有人脸的图像或视频流,自动检测和跟踪人脸进行识别。现在人脸识别已经广泛应用于身份识别、活体检测、创意相机、人脸美化、社交平台等场景中。另外,我们也做过“问答”技术的研究应用,类似于市政相关服务大厅里问答的系统。这种自助服务应用,有些问答不适合用文字的回复,例如用户提出出行路线的问题,给予视频图片的回复就更适合,这将给用户提供更便捷和个性化的体验。
Q:合工大在大数据行业领域做了哪些研究工作?
汪萌:主要分为三个团队。一是做多媒体内容分析;二是研究智能机器人;三是做大数据信息处理,近期,合工大在大数据领域的一个成果是“华谱系统”, 这是一个根据姓氏追溯起源,是帮助大家更进一步了解自己的姓氏派别的系统,我们通过在网上发布,寻求大家的参与,基于大家的信息提供,再加上我们数据整理拼接,希望最终可以形成华夏姓氏谱。
Q:您对现在的高校大数据人才建设和大数据研究发展生态有怎样的看法?
汪萌:现在大家都很重视大数据的人才培养。前段时间,北大和南大有辩论是否需要在高校开设“大数据”和“人工智能”专业,最终总结还是根据不同学校情况采取不同应对,对于大多数的高校还是需要开设新的专业培养人才,当然这些专业开设本质上市场驱动,市场需要这些人才。今年,合工大也申请开设了“大数据”“人工智能”的新专业,建成了“大数据”创新创业基地,学校下一步还将建设新的实验室和大规模存储的计算中心。
站在高校的角度来说,高校缺乏大量的数据与计算资源,而企业缺乏人才,如何合作互补是关键。企业以邀请高校人才以访问、顾问的形式协助企业研究,这种协调创新的合作是比较好的模式。但还有很多企业以高薪聘请年轻老师或学生,使得这些人不能沉下心来把研究做的更深入,这是“杀鸡取卵”不是一个健康的合作模式。
Q:请您对行业发展方向进行评价和预测?
汪萌:现在大家已经有说法,是大数据时代过渡到人工智能时代。数据相当于“燃料”的角色,最终还是需要“喂”给某个引擎,才能实现一个智能的功能。现在大家主要是在研究如何把引擎做好,如何挖掘杂乱无章中的有效数据。现在很多智能企业背后还是有非常庞大的人工标注团队,主要就是整理有用数据,选出有价值的信息。目前,大家还在研究从噪声很强的内容里自动挖掘目标的方法。