十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
这篇文章主要讲解了“hive的特点和要点总结”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hive的特点和要点总结”吧!
作为一家“创意+整合+营销”的成都网站建设机构,我们在业内良好的客户口碑。创新互联提供从前期的网站品牌分析策划、网站设计、成都做网站、成都网站设计、创意表现、网页制作、系统开发以及后续网站营销运营等一系列服务,帮助企业打造创新的互联网品牌经营模式与有效的网络营销方法,创造更大的价值。
一.什么是Hive与其特点
官网介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。 也就是说:hive数据仓库软件使用sql读取、写入和管理驻留在分布式存储中的大型数据集。说明Hive的开发语言是SQL,而实际我们常见的分布式计算框架也就spark,MapReduce,Storm等,那么Hive如何使用SQL语言去进行分布式计算呢?
1.1Hive可以看做是MapReduce的客户端
因为Hive的底层运算是MapReduce计算框架,Hive只是将可读性强,容易编程的SQL语句通过Hive软件转换成MR程序在集群上执行。hive可以看做mapreduce客户端,能用mapreduce程序完成的任务基本都可以对应的替换成hql(Hive SQL)编写的hive任务。所以因为hadoop和hdfs的本身设计的特点,也限制了hive所能胜任的工作特性。Hive最大的限制特点就是不支持基于行记录的更新,删除,增加。但是用户可以通过查询生成新表,或者将查询结果导入文件中来“实现”hive基于行记录的操作。
1.2.Hive是批处理系统
因为mapreduce是批处理系统,所以hive也是基于海量数据的批处理的。同样因为mapreduce具有高延迟(1.启动时间长2.中间结果放在本地而非内存中),造成hive执行也耗时过长。
1.3.hive不支持事物
所以不支持OLTP(连接事物处理),更适用与OLAP(联机分析处理),同样Hive还有不支持很多SQL的用法 ,后面会说。
二.hive和hdfs,MySQL,mapreduce之间的关系
1.举例说明hive,mysql和hdfs之间的关系
下面是一个完成的流程,从hive中创建表,到往表里导入数据,1-9说明了hive,mysql,hdfs之间的流程。
2.要点总结
1.Hive不存储数据,Hive需要分析计算的数据,以及计算结果后的数据实际存储在分布式系统上,如HDFS上。
2.Hive某种程度来说也不进行数据计算,只是个解释器,只是将用户需要对数据处理的逻辑,通过SQL编程提交后解释成MapReduce程序,然后将这个MR程序提交给Yarn进行调度执行。所以实际进行分布式运算的是MapReduce程序
3.因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。为了方便以后操作所以他需要将这些信息通过一张表存储起来,然后将这张表(元数据)存储到mysql中。为了啥存储到mysql里(实际是远程mysql),因为hive本身就是一个解释器,所以他不存储数据 ,为啥存到远程mysql里,后面会说。
mysql中的hive数据库是自己手动创建的,然后执行下面语句:
schematool -dbType mysql -initSchema
该语句的作用是在mysql的hive数据库下建立一大堆的表格.
------------下面是hive操作------------- hive> show databases; OK default hive Time taken: 0.018 seconds, Fetched: 2 row(s) ------------下面是mysql操作------------- mysql> use hive Database changed mysql> select * from DBS; +-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+ | DB_ID | DESC | DB_LOCATION_URI | NAME | OWNER_NAME | OWNER_TYPE | CTLG_NAME | +-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+ | 1 | Default Hive database | file:/user/hive/warehouse | default | public | ROLE | hive | | 11 | NULL | file:/user/hive/warehouse/hive.db | hive | appleyuchi | USER | hive | +-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+ 2 rows in set (0.00 sec)
感谢各位的阅读,以上就是“hive的特点和要点总结”的内容了,经过本文的学习后,相信大家对hive的特点和要点总结这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!