关注 | 数据科学家在使用的十种程序语言和工具

2016-07-12 15:07 来源:天善智能
浏览量: 收藏:0 分享

R语言

R语言是数据科学家和分析师们常用的两种顶级工具中的一种。1995年 Ross Ihaka 和 Robert Gentleman 创造了R语言,对数据分析和数据可视化开放。R语言有活跃的使用群,因而就有了为特定问题分析所设计的语言压缩包。

在去年(2015年)微软已与R语言服务提供商 Revolution Analytics 达成收购协议。从微软官方得知,促使微软收购该公司的主要原因是:当前许多企业需要处理的数据量不断增长,并需要更多软件对这些数据进行分析、处理。而Revolution Analytics的主打产品是一款被称作R的统计分析类编程语言,通过R语言能够进一步加强微软云计算业务。另外,Revolution Analytics表示被收购之后,他们仍将持续支持R语言的开源项目并提供给客户订阅式的技术支持服务。


Python


数据科学家和数据分析师使用的另外一个顶级工具是 Python,它最早的版本出现在1990年,由 Guido Van Rossem 发明。如果你浏览程序科学家或者程序分析师的招聘启事,会发现首要的技能需求就是了解 R语言、Python语言或者是经常两种都要求了解。在 Datacamp网站,Python语言是程序开发初级人员公认的最好语言,而R语言则有一条陡峭的学习曲线。


Scala


Scala语言结合了职能性要求和目标导向程序要求,它和Java语言、Javascript语言一并工作。因为很多公司渴望研究实时的数据资料,所以Scala是现如今最热门的待学语言。Scala语言应用在很多技术中,能够使诸如Apache Spark和 Apache Kafka的数据流化。在某科技网站数据科技类薪水调查发现在2015年Scala语言的使用量增长了10%。


SQL


当不需要使用大量的数据时, SQL语言(结构性询问语言)不失为数据分析师使用的大热语言工具,调查发现,68%的受访者说他们使用SQL语言。很多传统企业的数据存储方式依然是关系型数据管理系统例如 Oracle,MySQL,SQL Server,所以对于企业型组织来说,SQL语言依然必不可少。


Excel


让我们一起面对它吧,即使在高水平语言辈出的年代,Excel工具仍旧被很多人所认可。调查发现59%的数据科学家和分析师使用 Excel 工具,这个数据几乎年年如此,少有变化。Excel 是经过检验的可靠的数据分析工具,它广泛存在,非程序人员也能便捷操作,所以大多数企业即使也使用其他工具,但 Excel 工具还是他们的不二选择。


SAS工具

高端分析所使用的高德纳公司魔力象限研究方法中,SAS工具是领导者之一;在商业精英和分析师平台所使用的魔力象限研究方法中,SAS是梦想家。SAS最开始发源于北卡罗来纳州立大学,1976年SAS的成套软件从学校分离出来进入公司。现如今,在数据分析师中,SAS依旧很流行,应用机器学习启动的Crowedflower数据处理方式,通过从数以千计的发到linkedIn上的招聘情况分析发现,15%-20%的工作职位要求候选者有使用SAS的经历。


Java


在大多数数据科学家的招聘启事中,要求应聘者掌握JAVA语言的需求更多,放到LinkedIn上的35%到40%的数据科学家招聘启事中,要求职位候选者有使用Java语言的经历。调查表明使用Java语言的人数从2014年的32%下降到2015年的23%,不过这也表明大约四分之一的受访者还在使用Java语言。


MatLab


Matlab是专利性程序语言,由MathWork团队研发,1984年投放市场,在学术和数学圈子里,这是个了不起的事件。Matlab之后一直被使用,因为它试用于数据归集和数学建模,在学术领域应用尤其多。调查发现 Matlab 的使用程度在降低,Crowdflower分析显示仅有10%到15%的招聘启事中需要Matlab技能。


SPSS

在Crowdflower分析中SPSS和Matlab打成了平手,正是SPSS使得IBM公司进入高德纳高端分析魔力象限中的领导领域,许多大学将SPSS作为分析学位项目的课程之一,2009年IBM公司获得SPSS,当前开发了一系列的相关产品。


Julia


Julia不是人人皆知,与其他人们耳熟能详的工具相比,它还比较新,不那么成熟。一年前,Julia的发明者开展了一些列的启动仪式:提供培训、需求商业支持,为有意愿使用此语言工具的人员提供咨询。与其他一些有专利的数据科学工具相比,Julia是一个免费替代品,而且根据VentureBeat的调查,Julia比诸如Python以及R语言更时髦。


标签:

责任编辑:admin
在线客服