大数据是现在非常热门的一种技术,学好了大数据也就意味着进入了有前景的IT行业。但大数据的内容太多了,对于众多初学者来说都不知道从哪入手。这就是小编写这篇文章的原因。本文将为您提供一条学习大数据的道路,帮助您尽快步入大数据领域。
大数据领域的技术涵盖了Linux操作系统、Hadoop、Hive、HBase、Zookeeper、Kafka、Scala、Spark、Flink等等。这么多的技术,我们从哪开始学起呢?这主要看我们对自己的定位是什么样的。
大数据行业细分了很多角色,但大体上分成了大数据工程师和大数据分析师。
大数据工程师的主要工作是海量数据的收集和存储,建立和维护大数据体系结构,集群的安装配置和维护。这些工作是进行大数据分析的前提和基础。大数据分析师则是在上面数据的基础上,运用统计方法和数据挖掘算法,找出数据之间的关系,为企业领导者提供有力的决策支撑。
现在,您已经了解了大数据行业,以及大数据行业不同角色的职责要求。让我们来看看要进入大数据行业,您应该走什么样的道路。
首先,您要熟悉linux和shell脚本。这是处理大数据的基本要求。
其次,我们必须掌握一门编程语言。大数据技术大多是用Java或Scala编写的。但是您可能对着两种语言都不熟悉。不要担心,除了Java和Scala,您还可以选择Python或者R语言,因为现在大多数大数据技术都广泛支持Python和R。因此,您可以从上面提到的任何一种语言开始。如果让我给出建议,我建议选择Java或Python。
再者,您需要了解分布式文件系统。现今流行的分布式文件系统是Hadoop分布式文件系统。
上面这三点是每个大数据工程师都必须要掌握的。
接下来,是您决定是使用数据流还是离线大量数据的时候了。
假设您决定使用数据流来开发实时或接近实时的分析系统。那么Spark Streaming或Flink将是我们的首选。在实时数据处理领域,这两个都各有千秋。
如果您处理的是离线数据,Spark Core和Spark SQL将是我们的首选,不论是结构化数据还是非结构化数据,Spark都可以轻松应对。并且相比较传统的MapReduce速度快了大约100倍。