介绍
用于 关系型数据库 与 Hadoop生态数据库 之间同步数据
可以被 datax 替代
已停用
访问首页 https://sqoop.apache.org/ 可知,此项目已停用,显示下面提示:
This project has retired
sqoop1 和 sqoop2
有2个大版本号:
sqoop1,最新的稳定版本是1.4.7
sqoop2,最新版本是1.99.7。
注意:与 1.4.7 不兼容,并且 功能不完整,不适用于生产部署
版本选择
由于上面原因,这里只使用 1.4.7,是 2020-07-06 发布的
下载地址
http://archive.apache.org/dist/sqoop/1.4.7/
功能
Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。
工作的机制
将导入或导出命令翻译成 MapReduce
程序,MapReduce
中主要是对 InputFormat
和 OutputFormat
进行定制
优点
可以高效、可控的利用资源,可以通过调整任务数来控制任务的并发度。
可以自动的完成数据映射和转换。由于导入数据库是有类型的,它可以自动根据数据库中的类型转换到Hadoop 中,当然用户也可以自定义它们之间的映射关系
支持多种数据库,如mysql,orcale等数据库
参考
https://www.jianshu.com/p/ec9003d8918c
https://www.yiibai.com/sqoop/