前言
如今对大数据预测性分析可谓大肆宣传,人人都想在预测分析市场上分得一杯羹。周末和朋友喝茶聊天,谈到了这个话题。 预测的故事一个接着一个,然而一些关于预测性分析的价值的说法,似乎太过美好且不太真实。
当然,这个话题很大,可以谈的内容很多。我从“预测性分析”的定义谈起。 关于预测分析的定义有不少种版本,在被广泛接受的版本中,都围绕着三个共通的关键点:
从数据中提取信息。
预测潜在趋向或行为模式。
既关系着未来,也关系着当下和过去。
把这上述的三个核心特征点融合,我们可以看到预测性分析就是通过分析全面数据,包含了历史数据与实时数据,人类行为数据和机器数据等,预测潜在的结果或可能,而非宣布绝对的确定即将、会或已经发生什么。
在大数据讨论中,有一句经典的流行语录:大数据预测就好比算命。
大数据预测vs.算命占卜
占卜功能来源于《易经》,从来就是神秘高深,不可测。 而我们从《易经》中了解到,每个卦,每一爻都包含了“象”,“数”,“理”三种含义。就好比,我们在晚宴上,举起红酒杯,左右摇摆,这就是一个“象”, 而左右摇摆了多少度,多少秒钟摇摆一次,就有了它的“数”,为什么要摇摆?所以“理”就出现了。
宇宙间万事万物都有它的理,也必有它的象, 每个现象必有定数,这是必然的过程。这就是占卜预测的基础与科学。
中国人讲“旁观者清,当局者迷”。 “当局者迷”是因为自己看不清自己,所以我们要把自己的处境悬架起来,当作一面镜子,这就是卦。把自己的状态,自己的处境,让自己成为旁观者来做评判,这个过程就是算卦,其中对未来的展望就是占卜。
《易经》把360度的空间通过八八六十四卦,分成了64种情景。 这与大数据预测分析中提出的360度数字画像类似。可是,无论是占卜还是预测分析,我们并不知道自己现在处在哪一个卦或位,也不明白自己所处的情况,只能凭感觉。从占卜来讲,就是通过么一个场景,每一卦的每个一爻找到自己的定位。而大数据预测就需要聚焦到具体的行业应用的特定功能,这也是现代预测的定位要求。
预测分析的过去与现在
人处在这个世界上,与这个世界的关系不停地在变化,只要发生了变化,就包含了它的象,数,理。 人的智慧如果能够全面了解事物的象,数,理,就会知道事物的变化,就能够知变,预测未来,这就是《易经》的智慧。
从制造业预测分析工具来看,过去正是对高质量算法的需求驱动着预测性分析市场的发展。无论是对于库存优化、状态和可靠性维修,还是先进的基于模型的过程控制和过程优化,预测引擎的质量以及对过程或领域动态的了解是获得可靠且可盈利的结果的关键。这是“过去”式的预测分析。
“现在”的预测分析更象沃森技术。能够解的问题并没有框架,而且沃森可以处理缺损数据,并提供可靠结果的基于平台的计算预测性分析,功能着实强大,正在改变着预测性分析的局面。多种多样且结构不定的大数据促进数据库的制造者比如企业软件供应商和数据库供应商等提供配置功能强大的分析引擎。而强大的分析引擎反过来又使任何人都可以在几乎任何类型的数据基础上进行预测分析并获得可以比较满意的结果。
预测分析:准不准与信不信
占卜准不准? 很难讲。 预测准不准,也很难讲。 一件事让10个人来做,一定会有很多种不同的结果。算命或预测亦是如此。
如果卜出来的结果是好,大利,当然高兴。如果卜出的结果是大凶,不利,我们还要不要继续把工作或事情做下去么? 无论您的心里有多么强大,卜出来的结果多少都是会影响你。占卜是《易经》里面非常重要的内容。作为至圣先师的孔子,因为喜欢《易经》而韦编三绝,但他却忠告世人:不占而已。 既然占卜是《易经》的功能之一,为什么先师又劝我们不占呢?一定有很多种原因。 曾仕强教授认为熟悉卜卦的人,从一开始就知道第一爻到最后一爻,这当中的变化又多少,所以不可以完全相信占卜的结果应该是孔圣人不占的主要原因之一。
对于大多数企业而言,预测性分析主要是在现有数据的基础上,理解可能出现的可能性。预测的准确性取决于预测算法的好坏或准确性以及预测算法操作时所使用的数据的“质量”。
随着物联网技术的发展,采集数据的方式多样化,数据的总量显著增多。但是,数据可能质量的确不高。也就是说,数据其实并不精确,这也是大数据分析中讲的要拥抱混乱。如果利用这些不够精确的数据,不管预测算法或模型如何高明,预测结果的准确率都会下降。
另外一种情况就是数据基本准确,但不够完整。 当然,我们要采集足够的样本又有相当的精确度在现实生活中的难度非常高。预测算法在没有足够的完整数据样本前提下做出的预测,预测结果也不会好到哪里去。当然,如果算法本身有很多不足,不管数据质量多高,预测结果还是很可能有误。
未来的预测性分析
随着工业物联网(Industrial IoT) 的发展,传感器、系统、设备等产生的数据正在迅猛增长。过去依赖大量工程及特定领域的预测性分析解决方案将难以跟上如今不断扩大的数据云。云计算的计算与存储等功能将变得更加强大,拥有自学习型预测性分析解决方案的能力从而适应新的且不断变化的数据流,将对过去的预定义模型发起颠覆性的挑战。
然而,即便基于云的自学型系统提供的预测质量可以与专用解决方案作出的预测结果相媲美,但这还不是未来的预测分析。最终的预测分析的领导者必须符合下面这三个优势:
能够适应不断增长的复杂数据流的学习型预测分析解决方案。
可以为特定行业,特定领域,特定功能的模型提供高质量预测结果与创新思路。
所有企业都支付得起的预测解决方案。