为了贯彻落实国家大数据发展战略,推动大数据产业的快速发展,8月2日,在工业和信息化指导下,由拓尔思、达晨创投、中国电子信息产业发展研究院、清华大学、华为、亚马逊等70多家单位发起参与的中国大数据产业生态联盟在北京成立。
拓尔思成为首批中国大数据产业生态联盟的理事单位
拓尔思副总裁刘瑞宝刘总受邀成为“中国大数据产业生态联盟”专家委员会专家委员
荣誉顾问:
杨学山 北京大学教授、工业和信息化部原副部长
主任委员:
孙家广 中国工程院院士、国家企业信息化应用支撑软件工程技术研究中心主任
梅 宏 中国科学院院士、北京理工大学副校长
专家委员:
樊会文 中国电子信息产业发展研究院副院长
杜小勇 中国人民大学信息学院院长
王建民 清华大学软件学院副院长
王 霞 清华大数据产业联合会秘书长
窦 勇 达晨创业投资有限公司西南分公司总经理、大数据项目负责人
刘瑞宝 北京拓尔思信息技术股份有限公司副总裁
……
拓尔思大数据风采亮相大会
8月3日,挖掘数据新势力的论坛中,拓尔思总裁施水才先生受邀,在大会作了《从大数据到大知识》的主题演讲。
《从大数据到大知识》演讲摘要
非常感谢大会给拓尔思这次机会参加本次大数据产业生态大会,特别感谢达晨创投刘总,2007年在大数据没有提出之前,达晨就投资了拓尔思,如今,达晨在大数据产业布局方面还在不断增长。
今天,演讲的题目是从大数据到大知识,主要讲大知识。分为三方面的内容:大数据商业模式创新;传达一个从大数据到大知识的理念;浅谈一下拓尔思的实践:TRS CKM和TRS 水晶球。
大数据:技术和商业模式创新
从大数据本身的发展来说,计算的实时化、数据的关联化以及应用的关联化跟传统媒介、海量数据对比,有不同的地方。
1、应用场景、落地最重要
从应用来说,结合近几年的实践。技术、语言都很重要,但最重要的是应用场景,即大数据的落地,拓尔思同样也要拿业绩事实说话。
因为数据本身存在的问题,现在数据交易的模式基本就是建立一个数据的联盟。数据的优化是个长期的过程,不能脱离行业和用户来看数据,在很多已有数据中进行分析,发现数据并不是都有用。
从大数据到大知识,非结构化数据如何结构化是很重要的一点,借助新鲜的需求和技术,最终形成一种知识。
大数据卖的是技术、解决方案、数据交易,但更重要的是在商业模式上要有一种大数据的思维。现在受大数据驱动的商业模式(免费增值、云平台、开放型的商业模式、长尾商业模式):
另外一些商业公司,比如优步、利用业务数据进行优化业务增值变现;百分点、利用数据通过第三方变现;基于移动的Saas来做积累用户或行业数据实现收费+变现(餐饮),征信服务等。
2、大知识、物联网、人工智能
从大数据的技术发展趋势来看,技术上是开源、柔性选择、弹性架构,第二从数据收集管理到分析挖掘预测,第三是机器学习、人工智能的应用。
从大数据产业发展趋势来看,一是从把握感知到智慧决策,二是当前应用热点(精准营销、安全和情报分析、金融、公共服务),三是当前投资热点(金融科技(Fintech)、教育(Edtech),健康医疗大数据),四是下一阶段关键词:大知识、物联网、人工智能。
从Big Data Landscape2012年至2016年的数据来看,4年发生了3个变化。从技术上,从通用架构到需求细分;二是从计算分析为主到学习和理解,现在有关机器学习和人工智能的东西;第三个就是说从分析数据到构建知识。
从大数据到大知识
1、Venture Scanner 人工智能创业公司统计
Venture Scanner 做了一个人工智能创业公司统计,那么从图谱中可以看到机器学习到自然语言处理等等很多创业公司。
2、知识图谱使大数据真正地活起来
第一,搜索引擎的智能化-大规模知识图谱,比如说查找“马云”,百度和搜狗给出的结果是不一样的,尤其是网页右边提供的内容。第二,机器人的时代:即将到来的BOTs时代-机器学习、NLP和知识图谱,竞争的焦点在于入口 AI 技术和生态系统。国内有很多人在做这方面的测试,有望成为一个新的操作系统平台。第三个就是被神话的Palantir,做大数据的都知道拉登和庞氏骗局,对应它的两个产品,而它的核心是知识管理和协作。
无论是智能搜索、虚拟聊天机器人,还是大数据独角兽都不离开知识图谱。知识图谱的基础是大数据,从大数据上建立的大知识能使大数据真正的活起来。
目前国内很多媒体也在研究知识图谱,有了大数据、深度学习之后,领域有了很多新的突破。
拓尔思的实践:TRS CKM和TRS水晶球
1、关于拓尔思
2011年在创业板上市之后,投资了10个亿在相关领域,涉及到大数据的精准营销、征信、安全等等。包括大数据的基础平台,大数据的架构类似于hadoop、海贝、水晶、网络的基础软件;大数据的行业应用解决方案,涵盖政府、媒体、金融、安全四个领域;数据服务,互联网营销服务及大数据分析云平台,舆情分析、用户画像等等。
2、TRS CKM中文自然语言文本挖掘平台
如何从大数据的挖掘中挖掘大知识,如何从这些海量的文本数据挖掘出有真正价值的还是很关键的。
TRS CKM中文自然语言文本挖掘平台通过挖掘进行情感的分析,可以实现非结构化数据的结构化统一。比如公安系统的文件,可以把犯罪嫌疑人的名字、组织、车牌号、微信号、电话号码、银行卡号等等实体抽取。实时聚类新浪微博的热点(分钟级别),用新浪微博进行实时监测,进行舆情方面的情感分析可自动判断他的情感指数。自然语言写作机器人妙笔小思,通过分析来进行机器写作,是对传统行业的一种挑战。
3、TRS 水晶球大数据分析师平台
TRS 水晶球大数据分析师平台,从整合数据到知识图谱,主要是数据整合、检索发现、知识管理、协同工作,定位为中国版Palantir,全面取代i2。
总结
如何从大数据中,挖掘出、关联出真正有实效且有用的知识,主要还得从知识图谱、自然语言处理、新的人工智能等方面着手,才能在大数据应用场景的落地方面有所突破。从大数据到大知识,是把大数据活化一种路径。