sqoop1.4.7 介绍和下载

介绍

用于 关系型数据库 与 Hadoop生态数据库 之间同步数据

可以被 datax 替代

已停用

访问首页 https://sqoop.apache.org/ 可知,此项目已停用,显示下面提示:

This project has retired

sqoop1 和 sqoop2

有2个大版本号:

  • sqoop1,最新的稳定版本是1.4.7

  • sqoop2,最新版本是1.99.7。
    注意:与 1.4.7 不兼容,并且 功能不完整不适用于生产部署

版本选择

由于上面原因,这里只使用 1.4.7,是 2020-07-06 发布的

下载地址

http://archive.apache.org/dist/sqoop/1.4.7/

功能

  • Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。

  • Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。

工作的机制

将导入或导出命令翻译成 MapReduce 程序,MapReduce 中主要是对 InputFormatOutputFormat 进行定制

优点

  • 可以高效、可控的利用资源,可以通过调整任务数来控制任务的并发度。

  • 可以自动的完成数据映射和转换。由于导入数据库是有类型的,它可以自动根据数据库中的类型转换到Hadoop 中,当然用户也可以自定义它们之间的映射关系

  • 支持多种数据库,如mysql,orcale等数据库

参考

https://www.jianshu.com/p/ec9003d8918c
https://www.yiibai.com/sqoop/


原文出处:https://malaoshi.top/show_1IX3WlGuolW9.html