Sqoop是一款开源的数据传输层工具,Sqoop的全称是sql to Hadoop。通过这个名称我们可以看出,Sqoop可以完成把关系型数据库如MySQL,Oracle等数据库中的信息导入到Hadoop文件存储体系中,或者把Hadoop文件导入到关系型数据库中。起到了一个非常好的桥梁作用。
Sqoop最早产生于2012 年 3 月,现在已经是Apache的一个顶级项目。Sqoop能够提供多种数据传输方式并且支持多种数据库,这也是Sqoop被广泛应用的原因。
下面,我们来看Sqoop的安装部署。
首先,我们在Sqoop安装之前,要确保已经安装好了Java和Hadoop。这个我们在前面的文章中已有介绍,不太熟悉的朋友可以先参考安装下哦。
已经安装过其他大数据组件的朋友应该能够看到,大数据生态圈组件的安装不外乎是这样的几步:
1. 下载安装包
2. 解压缩
3. 修改配置文件
对于Sqoop来说,也不例外。
1. 首先我们下载Sqoop的安装包,最新的稳定版本是1.4.7。我们可以从官网(http://sqoop.apache.org)下载,也可以从最近的一个镜像网站下载。我选用的下载地址是:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/ 。下载 sqoop-1.4.7.tar.gz压缩包。下载完成后上传到虚拟机。我上传目录是/opt/software。或者直接在虚拟机的客户端通过wget命令下载:
wget
https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.tar.gz
2.使用tar命令解压缩
tar –zxvf sqoop-1.4.7.tar.gz –C /opt/
3.修改配置文件
Sqoop的配置文件在Sqoop根目录下的conf目录下。配置文件的原有名称是sqooop-env-template.sh,我们拷贝一份,并将名称改为sqoop-env.sh。命令如下:
cp sqoop-env-template.sh sqoop-env.sh
在sqoop-env.sh中,修改如下内容:
4. 拷贝JDBC驱动
把JDBC驱动拷贝到Sqoop根目录下的lib目录下,命令如下:
cp mysql-connector-java-5.1.27-bin.jar /opt/sqoop-1.4.7/lib
5.因为到Sqoop-1.4.5及以后版本安装包的lib下就已经没有了sqoop-1.4.5.jar,Sqoop-1.4.7也没有sqoop-1.4.7.jar。对于此jar包我们必须单独下载,将其放到Sqoop根目录的lib目录下。
6. 测试Sqoop是否安装成功,使用Sqoop根目录的bin目录下的sqoop命令来测试。如:
如果能出现上面的信息,就说明Sqoop安装配置成功了。