简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。
主要区别: “数据分析”的重点是观察数据,“数据挖掘”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database),数据统计的重点是参数估计和假设检验。 “数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。
“数据分析”需要人工建模,“数据挖掘”自动完成数学建模,“数据统计”则是把模糊估计变得准确而定量。可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。
举个简单的例子:有一些人总是不及时向电信运营商缴费,如何发现它们?
数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。
数据挖掘:通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因。发现家住在五环以外的人,由于居住环境偏远没有时间上营业厅缴费。结论就需要多设立一些营业厅或者自助缴费点。
数据统计:通过统计学推理方法组成样本的试验单元进行参数估计和假设检验,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。