大数据是企业技术、运营中的一部分,如何存储、管理数据和分析数据需要专业知识。现在大数据技能可以直接购买、租用或教授,但个人在寻找专业知识之前,就需要清楚地了解自身适合的大数据技能,以及已经具备的大数据技能都有什么。
市场专家预测大数据行业人才短缺已经有存在很长时间。麦肯锡曾预测,到2020年,大数据将成为推动生产总值(GDP)增长的五大“游戏规则改变者”之一。因为缺乏人才,拥有大数据技能的人才显得更加紧缺。
在这个数字化时代我们所需要关注的大数据技能都有哪些呢?
大数据是一个团队努力的结果,所以大数据专家(大数据从业者、数据科学家、数据分析师等等大数据岗位)将来自公司的所有部分。一个跨各个领域的团队将代表所有受益或受大数据影响的人,确定大数据项目的范围,审查数据源和潜在结果。然而,还需要由IT技术人员决定,将实践专业知识应用于数据技能将分为三个基本领域:基础架构,编程和分析。
为了支持分析,需要开发一个能够存储大量数据(不仅是tb,可能是pb)的企业基础设施。高速大数据处理所需的存储通常不是网络附加存储(NAS)或存储区域网络(san),而是分散在集群计算节点中的直接附加存储(DAS)。大数据系统必须是可伸缩的系统,并且能够随时添加存储,无论是在企业内部还是在云中。它还必须设计用于高速I/O处理、并行处理、虚拟化和高吞吐量等。
IT技术人员帮助管理存储的数据流。尽管大数据的数据量很大无法通过DBMS、RDBMS和ORDBMS等标准数据库管理系统,但这些数据库编程技能仍然很有用。从DBMS和RDBMS数据库中提取结构化数据并对其进行标记以进行分析,非结构化数据也是其中的一部分,多达80%的业务数据以word文件、电子表格、音频、视频和外部社交媒体的形式组成的非结构化的。数据库编程技能能够很好地适应MongoDb、Cassandra、Solr、Redis和Neo4j等大数据NoSQL编程平台。
而数据库程序员可以填补一些空白,填补转换数据进行分析,大部分负担将落在数据分析师等职业上。
数据分析师们负责构建和管理提供大数据见解的算法。 Apache Hadoop 已经成为最常见的大数据框架,大数据科学家擅长使用 Hadoop 进行分布式文件处理,以及使用开源工具,云计算资源和数据可视化工具。如果您无法找到这些任务的数据科学家,您可以尝试招聘具有数学背景的程序员,或者了解业务问题的统计员。
数据分析师负责建立和管理算法,交付大数据的见解。可能Apache Hadoop框架,是最常见的大数据和大数据分析师家们使用的软件,用Hadoop分布式文件处理,以及使用开源工具、云计算资源和数据可视化工具。
渐渐的Python脱颖而出,Python在程序中使用最少的代码进行工作而闻名。自动标识和关联数据类型,并遵循基于缩进的嵌套结构。总的来说,Python易于使用,并且在编码中使用的时间较短,数据处理也没有限制。可以在商品机器、笔记本电脑、云计算、桌面等等基本上到处都可以计算数据。早期的Python被认为比Java和Scala等同类语言要慢,随着Anaconda平台的发展,Python已经在速度上做到了反超,因此,它在开发和执行方面都是比较快速的。