为什么提出hive

通过 Hadoop ，已经实现了 存储数据 和计算，但实现 计算较困难，需要写 MapReduce 程序

很多时候，HDFS存储的数据是行列的，与关系型数据库（mysql、oracle）存储的数据相同，但是通过编写 MapReduce 程序进行查询统计，复杂且慢

于是想到了操作关系型数据库（mysql、oracle）的语言：SQL

Hive可以通过 类似 SQL 的语句，查询、统计分析 Hadoop中的文件（必须有固定格式）

底层是将 HSQL 转化成 MapReduce 程序，运行在 Yarn 上

创建表、删除表、select查询数据（不需要编写 MapReduce 程序）

百度百科

hive是 基于Hadoop 的一个 数据仓库工具，可以存储、查询和分析 Hadoop中的大数据

hive数据仓库工具能将 结构化的数据 文件映射为一张 数据库表，并提供 类似SQL 查询功能，将 类似SQL 语句转变成 MapReduce任务 来执行。

从 hive2 开始，不建议在 MapReduce 上运行，推荐 Spark 作为计算引擎