经过前几年的炒作之后,大数据已经逐渐远离了媒体的焦点。这并不是说大数据已经失去势头,相反正是由于大数据应用之广泛已经到了几乎任何应用都离不开的地步,司空见惯了的东西所以就无人提及。但是大数据的应用普及仍然存在一些问题,主要的问题之一就是许多环节仍然离不开人工处理。比如最开始的数据抽取、处理与整合就需要大量人力——21世纪最性感的职业很大一部分精力都用在这些脏累活上面可一点都不吸引人。所以不少创业公司都把焦点放在解放数据科学家的事情上面,Paxata就是其中之一,在Intel Capital Global Summit上,这家大数据初创企业宣布获得了3350万美元的D轮融资。
Paxata是一家提供大数据转换平台的初创企业,成立于2012年,总部位于加州Redwood City。其平台为大型企业提供了一个自服务、可视化的信息管理渠道。在数据服务领域,存储和提供数据来源的数据管理系统(如Hadoop)和利用数据的分析应用之间普遍存在的一道鸿沟,即分析应用在对数据分析之前需要抽取、处理和整合多个来源的数据才能进行分析。这个数据准备的过程以往大都需要人工处理,耗时费力,Paxata的目的就是要填补这道鸿沟。他们的数据准备服务可以实现数据的连接、发掘、转换、合并、发布、协作控制等功能,可以将多来源多格式的数据接入并自动进行解释,客户使用人员只需知道使用EXCEL表,无需进行编程、写脚本或者采样即可完成数据准备的任务,这使得使用门槛大为降低。尽管Paxata在最新的大数据版图(见下图)中被定为为数据转换板块,但Paxata自己也提供有数据分析服务,可以利用机器学习与语义分析技术对清洗、整合后的数据进行即时的预测性分析。
对于拥有庞大数据但是缺乏数据科学家的企业来说,Paxata为他们提供了一个易用的信息管理平台。Dannon、Box、UBS、Pabst Brewing Company等均为Paxata的客户。
Paxata提供的服务与ClearStory有点类似,均能从不同的数据源抽取数据,但是Paxata还可以将多个数据源进一步整合为单一的数据集,从而更方便业务分析师和可视化工具的理解。此外,像Alteryx、Tamr以及Trifacta也提供了类似的自服务数据准备平台。鉴于人力是企业很大的一块成本支出,而数据科学家80%的工作都用在了数据清理上面,这个市场的前景还是非常可观的。当然,前提是在人工智能发展到足够程度之前,数据本身的质量还是要有一定保障。
此轮融资由Intel Capital领投(Paxata是这家基金这次投资峰会投资的12家初创企业之一),Microsoft Ventures、Cisco Investments、Deutsche Telekom Capital Partners、AirTree Ventures等新投资者以及EDBI、In-Q- Tel、Accel等原有投资者跟投,此轮融资过后,其总融资为6150万美元。Paxata 原来在纽约、华盛顿特区、俄亥俄州以及新加坡设有分支机构,此轮融资所得将用于公司在欧洲与亚洲的扩张。