1.数据从哪里来?
想做数据驱动前,先要做好数据收集。
积攒数据的方式大致分两类,一类是围绕用户,一类是围绕产品,将两者每次交易的数据都采集下来。在过程中要不断挑战自己的假设:用户将是谁?你希望他们将是谁?
采集过程主要有以下几种方式:
·从平时的经营过程中积累。如BAT本身就有大量的数据,地图、导航类移动入口APP,电信运营商等也拥有大量用户数据;
·直接通过第三方购买数据。国内成规模的此类数据交易平台如贵阳大数据交易所等;
·使用政府掌握的开放类统计数据。在国内,政府是最大规模数据的拥有者,中国各级政府在收集数据方面拥有发达国家政府难以想象的资源,从去年发布的《促进大数据发展行动纲要》来看,政府各部门已经建立了金税、金关、金财、金审、金盾、金宏、金保、金土、金农、金水、金质等信息系统。由于中国基础性行业又多为国有企业控制,如电力、通信、成品油销售等,这些行业数据实际也为政府所有,这意味着最具研究和监测的数据大多掌握在政府手中;
·行业内数据。比如医疗行业的病历数据,金融行业内部交易和支付数据,交通运输行业物流数据等。
2.是否一切从数据出发?
在设计产品之初,要考虑用户群体的反馈。通过数据分析工具去分析、设计产品,多维度利用和分析这些数据,可以在以后的改造中节省很多力气。
这样一来,即使是最初的不成熟的产品,你也可以从中观察用户和产品是如何相互影响的,而不是单纯拿一堆调查问题覆盖他们。
3.学会管理数据
将非结构化的数据变成结构化数据。
首先进行数据的初步处理,要建立自己的数据分析架构,明确适合公司的格式。之后把所有中间结果集中起来,汇总得出最终结果。
接下来就是最核心的数据挖掘。如何挖掘?可能需要用到以下十三种工具:
·统计技术
数据挖掘涉及的科学领域和技术很多,如统计技术。统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。
·关联规则
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之I司存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
·基于历史的MBR(Memory-based Reasoning)分析
先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR(Memory Based Reasoning)的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。
·遗传算法GA(Genetic Algorithms)
基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。典型情况下,规则的适合度(Fitness)用它对训练样本集的分类准确率评估。
·聚集检测
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的,距离是经常采用的度量方式。
·连接分析
连接分析,Link analysis,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式;同时将产生的概念应用于更广的用户群体中。
·决策树
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。
·神经网络
在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应—个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。
除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为—个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。
·粗糙集
粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现实世界数据,通常有些类不能被可用的属性区分。粗糙集就是用来近似或粗略地定义这种类。
·模糊集
模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的真值表示一个特定的值是一个给定成员的程度,而不是用类或集合的精确截断。模糊逻辑提供了在高抽象层处理的便利。
·回归分析
回归分析分为线性回归、多元回归和非线性同归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性同门模型。
·差别分析
差别分析的目的是试图发现数据中的异常情况,如噪音数据,欺诈数据等异常数据,从而获得有用信息。
·概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别,生成一个类的特征性描述只涉及该类对象中所有对象的共性。
4.你的流程是否够简化?
宏大繁杂的设计被一次次证明并不可行。通过快速敏捷的模式,我们不但做到从系统上满足业务的日常需求,还腾出时间和精力去思考新的选择、探索更多的可能替代策略。
按月或季度来计划流程,有助于提高公司的灵活性。首先解决那些最困难、最重要的问题,然后迭代产品,以免陷入繁复流程的怪圈。
5.想用数据解决什么问题?
也就是如何找到自己的商业模式。
发掘的大数据如同开采的石油原油,只有经过各种加工程序,炼制成为成品油,最终提供汽车的动力才有价值。(狗腿一点就写王叁寿和自来水)大数据也需要一整套复杂的清洗、建模、分析过程,才能真正实现商业价值。
因此,大数据只有和应用场景相结合,才能产生价值。首先确定你的用户,再理顺商业逻辑,如果没有跑通一条能使大数据变现的渠道,仅仅有创业的idea,是远远不够的。
6.二十一世纪最重要的是什么?
·人才
·团队第一,产品第二
最重要的是团队,其次才是产品,有好的团队才有可能做出好产品。
·雇佣时代已过去
真格基金创始人徐小平在近期的演讲中着重强调了合伙人的重要性,他表示“合伙人的重要性超过了商业模式和行业选择,比你是否处于风口上更重要。”雷军曾认真琢磨过阿里巴巴的十多年的创业历史,包括阿里的团队,阿里巴巴的合伙人制在黎万强书中也特意提及,想必影响颇深。
·寻找最合适的人:要有创业的心态
最合适,则是他要有创业心态,对所做的事情要极度喜欢。员工有创业心态就会自我燃烧,就会有更高主动性,这样就不需要设定一堆的管理制度或KPI考核什么的。
·天理即人欲:给足团队利益,让员工“爽”
团队的激励,就是一个“爽”字。让员工爽就好,不要追求什么条条框框,也不要生搬硬套。比如说小米的方法也许适合你,也许不适合你。其实最根本来讲,我们做企业的管理者,能不能真的把姿态放得更低一点,去跟你的员工打成一片,听听他们到底想怎么爽,怎么给予他们参与感、成就感,怎么给予他们足够的激励。无外乎就是爽,员工爽,他就会自我燃烧。
·解放团队:忘掉KPI,组织机构扁平化
我们要做整个互联网转型的时候,一定要由内而外,先把我们的产品架构和我们的组织结构给梳理好。
·让员工成为粉丝
粉丝文化首先让员工成为公司的粉丝。
·人比制度重要:让员工发自内心热爱工作
传统公司都强调制度,但是对于的新型企业,我认为,人比制度重要。
·人是环境的孩子:用环境塑造人
让员工身心愉悦不仅仅是给员工更好的福利这么简单。当员工在一个工作环境非常舒适漂亮的地方工作的时候,他有他自己漂亮的换衣间,高端大气上档次的咖啡壶,整洁明亮的内库,员工会从内心感觉到他所做的这份工作所需要的那种品质。