王彤:大数据创新内容生产

2016-08-22 09:08 来源:人民网-传媒频道
浏览量: 收藏:0 分享

大数据,演讲实录

人民日报媒体技术公司大数据产品经理王彤

  由人民日报社与中共深圳市委、深圳市政府联合主办的2016媒体融合发展论坛技术分论坛在深圳举行,人民日报媒体技术公司大数据产品经理王彤先生发表题为“大数据创新内容生产”的演讲。

以下是人民日报媒体技术公司大数据产品经理王彤演讲全文:

  诸位领导和来宾大家下午好!我是人民日报媒体技术股份有限公司媒体技术部的大数据产品经理——王彤。

  现在大数据驱动模式带来越来越多好处,比如像电子商务系统,比如像搜索领域,比如像广告领域,都带来了质的变化。我今天跟大家分享的是:“使用大数据技术,为我们内容生产到底带来什么便利?”

  首先我们回顾一下“传统的媒体”制作方式是什么样的?

  假设一个记者,他想写篇文章,他可能通过读者的爆料或者网络上的热点来寻找话题,然后他通过面对面访谈或者借助于搜索引擎,尽可能想了解事物的全貌,最后完成写稿、审稿、发布等一系列工作。但是这个流程存在什么问题?对于一些短期突发事件很难快速捕捉,对于一件持续时间较长的新闻事件,比如像马航事件跨时2年,如果让一个记者现在写一篇马航事件完整性的报道,确实具有非常强的挑战性。

  其次,我们生产流程过于冗长很难满足现今受众快速消费的趋势,另外我们缺少很好的信息反馈机制,比如说纸媒,我们只能说这份报纸卖了多少,而对一个网站性文章只能了解大概的点击量如何,但是网友心声,对这个事情的态度,他的想法、观点,我们是无从可知的。

  基于此,我们人民日报中央厨房,改变了原有的内容流程,创新性的创造了六大全新生产角色。为了能更好为中央厨房的六个角色提供数据支撑,我们提供了三大服务,主要是为记者编辑写稿服务的生产服务辅助服务,还有了解网民心声媒体舆情服务,还有为每一个记者创造个性化工作区的记者工作台。

  “新闻热点”对一个媒体人来说是非常关注的,如何发现热点,这是一直困扰他们的问题,我们系统可以通过不同纬度,比如时间、地点、领域、行业等多个角度来说,帮助大家找到一个最新的热点,哪些问题是我们目前要解决的。同时,有一些事件可能刚刚发生,但并不一定可能会演变成热点,我们怎么办?我们可能系统里边从里边进行标注,会告诉大家这些潜在热点可能在哪些方面存在?

  同时比如说王宝强的离婚事件,这是一个热点话题,我们可以通过关键字的搜索的方式,可以定制这个话题。这样未来关于王宝强离婚方面的热点新闻会不断推送给我们。同时我们支持头条分析功能,比如基于媒体的PCT的分析,比如基于网民的UGC分析,还有基于纸媒头条相关的分析,还有一个是媒体生命指数,让我们更好地了解一个事件大体的生命周期有哪些?

  这是我们系统(ppt展示),我在8·18当天截的屏,我们统计湖南省,当天最热门的事件,第一个全国性事件,就是女职工要休痛经假的问题。第二个是长沙火车站要求收空调费用。

  刚才我说了,一个媒体记者非常关注的事情是如何立题、选题?我们提供了非常丰富的选题辅助模块,帮助媒体人员和记者人员进行选题操作。比如记者可以通过我们的系统中找到哪些突发事件可能是一个他选题的方向。哪些最热的新闻事件,可能是他的选题方向。搜索引擎里面搜索的关键词也可能是他的选题方向,还有目前微信、微博里面所关注的内容,可能也是记者的选题方向。我们会对每一个事件进行“全过程化”的事件演变分析,完整展现事件整个的发展脉络,同时我们可以通过地域、时间等方面,对事情的关联性进行分析,可以对以前的历史事件进行比较,比如同一个事情在过去怎么样处理,在过去一个问题用什么样的观点进行表述。

  同时,我们还提供新闻媒体的反馈服务,知道这篇文章,到底作为一名受众他持有什么样子的观点?

  这是我们现在系统中提供的推荐选题模块,可以对通过热点事件、突发事件、关键词,和搜索,比如像百度搜索、微信等等排行找到我们需要的题目进行新闻创作。

  我选择了“魏泽西事件”作为新闻演化分析的展示,在图片右边(ppt展示)中可以完整看到事情发展的脉络,从一开始国家关注,到百度回应,再到相关自媒体曝光民营医院问题,最后魏泽西父亲发布魏泽西去世的消息。

  我们可以通过性别、年龄、地域三方面进行受众分析,还可以收集网民对新闻事件情感性分析,支持还是反对?喜欢还是不喜欢?同时通过对于整个事件的梳理,我们可以建立事件人物图表。

  当一个选题确定以后,我们希望尽可能提供完整的个性化素材支持,所以我们提供了素材订阅功能。同时我们系统支持将第三方的素材库接入到我们本身的系统。现在的素材内容有真有假,质量有好有坏,所以我们建立了一套丰富的素材评定系统,方便记者和编辑进行素材编辑工作。

  在个性化素材的订阅功能中,系统可以通过通过不同时间维度、地域维度、行业维度定制我们个人所需的素材。而这些素材通常也可以成为我们选题的一种方向。

  另外一部分是机器人写稿,是目前比较火热的场景。现在一些新闻,比如财经类新闻,或者体育类新闻,大量使用机器人写稿的模式,我们在这方面也做了相关的尝试。

  我们提供了一套“舆情服务”,可以通过行业和突发事件,了解全网的舆情态势,而且可以对不同的机构,不同事件、品牌、产品和不同的人物,进行舆情定制,产生适应的舆情报告。同时我们还可以分析相关每个舆情机构、舆情人物里面人物关系、机构关系,以及口碑分析。

  这个是我们整体的系统架构图,我们大概分为七大组成部分:第一点是我们的“数据源”,我们现在目前所拥有的数据包含几大部分:

  一部分是目前视频媒体相关信息,还有一些新闻门户类信息,另外还包括一些社交网络性的信息,比如像现在的微信、微博、Linkedin等等这些产品,都在把相关数据接入到我们这边,我们建立了庞大的分布式存储和计算架构,同时我们有一套很完善的个性化搜索体系,可以实时为我们素材搜索和信息搜索提供帮助。基于自然语言处理和深度学习技术,我们产生了一整套的完整的算法组建基础库,分别针对于热点挖掘、话题基本面挖掘,话题成因三方面的进行建设。通过这些基础算法的组件,为我们的新闻热点的发现,新闻的编写还是舆情服务等上层应用提供了基础支撑。

  最后给大家分享一个目前比较火热的“王宝强案例”,这个是我们借助我们系统,8·18当天的数据,分析得到的相关信息。在8·18那天王宝强离婚案,大概报道数量超过118条,因为是奥运期间,所以像跆拳道58公斤夺冠的信息等奥运相关事件信息也获得了比较高的排名。当我们去除高频词以后,我们会发现王宝强事件两位男女主人公,王宝强、马蓉占了差不多50%的数据,我们通过分类、聚类、去重处理后,发现王宝强离婚事件热度达到98.9%,相当于所有媒体都在关注此事件,同时中国奥运相关事件也获得了64.3%的热度。这部分是我们摘取的网民的意见,大家可以看到好评意见是23%,大部分是表达王宝强的可怜,而更多是关于马蓉的负面信息,尽然达到70%多之多,大都是对与马蓉的辱骂性的词语。

  这部分是我们对整体的王宝强事件的情感性分析,我们发现从16号开始,虽然正负面消息都有,但仍属于波澜不惊状况。从8月16日开始,因为相关恶性事件跌出,更大程度勾起网民对此事件的关注,所以从8月17日以后,大家发现无论正面信息还是负面信息,都会到达一个极大的波峰。

  这个是刚才我给大家演示的新闻事件的一个演化性分析,我们可以完整的了解到,从王宝强发表离婚声明的8月14日开始,到8月16日王宝强出轨信息爆出的,整个的事件发展脉络。

  我们可以通过拓扑图方式,了解一篇新闻文章从原创到转载的整个网络态势情况。这个是我们基于知识图谱所创建与王宝强相关的人物关系图谱。

  我们对王宝强新闻事件的人员进行了简单的分析会发现,关注这个事件的人,主要是什么?主要是有新闻阅读习惯的人群,还有对于搞笑内容关注的人群。这说明什么问题?很多人把该事件当成一种娱乐化的新闻进行消费的,抱着看热闹的心态。我们可以看到关注财经、户外。游戏的受众对此新闻关注涉少。同样采用知识图谱的技术,我们还发现对王宝强事件感兴趣的人,同时对下列若干明星,比如像徐峥等同样抱有很大兴趣。

  现在网络上信息错综复杂,有好有坏,真假难辨,所以我们建立了一套完整的信息的质量的评价系统。通过信息的出处、转载量等相关指标作为一个评定标准,对文章的质量和可信度产生一定的量化分析。

  这个是我们基于SISA指数进行传播影响力指数的分析。

  这就是我基于大数据对于内容生产方面所提供的支持,主要是包含了三大部分:“生产方面的支持,网民舆情支持,还有创建了一套记者专属的工作台“。目前我们还希望平台的能力进一步提升,我们欢迎更多的数据源接入到我们平台,需要有更多的算法提高我们算法准确度,来提高我们服务的质量。所以说,希望通过我们进一步地努力,可以为我们媒体生产带来进一步的提高,谢谢大家!

标签:

责任编辑:admin
在线客服