
Hive
文章平均质量分 73
axxbc123
这个作者很懒,什么都没留下…
展开
-
【Hive一】Hive入门
Hive安装与配置Hive的运行需要依赖于Hadoop,因此需要首先安装Hadoop2.5.2,并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive,在系统变量里配置如下变量HIVE_HOME和PATH...原创 2014-12-25 00:12:11 · 635 阅读 · 0 评论 -
【Hive十八】Hive QL中使用配置的变量
1. 使用set命令,设置参数hive>set XYZ=abchive>select * from t1 where line = '${hiveconf:XYZ}' 等价于 hive>set XYZ=’abc‘hive>select * from t1 where line = ${hiveconf:XYZ} 2.以hive --hi...原创 2016-05-27 13:21:40 · 227 阅读 · 0 评论 -
【Hive十七】Hive Thrift Server HA配置
<property> <name>hive.server2.support.dynamic.service.discovery</name> <value>true</value> </property> <property> <name>hive.server原创 2016-05-24 11:14:19 · 458 阅读 · 0 评论 -
【Hive十六】Hive SQL Standard Based Hive Authorization
启用授权选项,默认是false,后面的授权操作基于此选项为true进行set hive.security.authorization.enabled=true========================基于用户的授权===============================获取当前用户set system:user.name授权在指定库下面删除表grant drop on database...原创 2016-05-24 10:57:39 · 281 阅读 · 0 评论 -
【Hive十五】Hive IO相关
1. Hadoop配置压缩算法(Hadoop的配置属性,Hive读取core-site.xml文件中的配置,可以再hive-site.xml中配置以覆盖Hadoop中的配置)key: io.compression.codecsvalue:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCode...原创 2016-05-24 10:10:28 · 416 阅读 · 0 评论 -
【Hive十四】Hive读写Parquet格式的数据
1. 原始数据hive> select * from word; OK1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建保存为parquet格式的数据表 hive> CREATE TABLE parquet_table(age INT, name STRING)STORED AS PARQUET;...原创 2015-04-14 18:02:51 · 4897 阅读 · 0 评论 -
【Hive十三】Hive读写Avro格式的数据
1. 原始数据hive> select * from word; OK1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORED AS AVRO; 3. 数据表...原创 2015-04-14 17:25:15 · 1229 阅读 · 0 评论 -
【Hive十二】Hive服务
1. metastore[hadoop@hadoop bin]$ ./hive --service metastoreStarting Hive Metastore Server 访问:功能: 2. hiveserver2提供JDBC访问能力 jdbc:hive2://<host>:<port>org.apache.hive....原创 2015-04-08 15:36:52 · 168 阅读 · 0 评论 -
【Hive十一】Hive数据倾斜优化
什么是Hive数据倾斜问题 操作:join,group by,count distinct现象:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。原因:key分布不均匀倾斜度衡量:平均记录数超过50w且最大记录数是超过...原创 2015-04-08 15:03:25 · 237 阅读 · 0 评论 -
【Hive十】Programming Hive学习笔记
第二章 Getting Started1.Hive最大的局限性是什么?一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce),不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的?Hive persists table schemas and other system metadata....原创 2015-04-04 16:30:08 · 164 阅读 · 0 评论 -
【Spark八十一】Hive in the spark assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners:1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.) and comm...原创 2015-03-16 10:54:36 · 111 阅读 · 0 评论 -
【Hive八】Hive用户自定义生成表函数(UDTF)
1. 什么是UDTF UDTF,是User Defined Table-Generating Functions,一眼看上去,貌似是用户自定义生成表函数,这个生成表不应该理解为生成了一个HQL Table, 貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericU...原创 2015-03-11 11:30:57 · 298 阅读 · 0 评论 -
【Hive七】Hive用户自定义聚合函数(UDAF)
用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么? Double evaluate(Double a, Double b) 1.什么是U...原创 2015-03-11 11:12:00 · 917 阅读 · 0 评论 -
【Hive六】Hive用户自定义函数(UDF)
1. 什么是Hive UDFHive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言...原创 2015-03-10 15:08:49 · 675 阅读 · 0 评论 -
【Hive五】HQL查询
1. 查询语句组成 2. 查询语句关键字含义2.1 LIMIT类似于MySQL的LIMIT,用于限定查询记录数 2.2 WHERE类似于MySQL的WHERE,用于指定查询条件 2.3 GROUP BY分组查询 2.4 ORDER BY全局排序仅仅动一个reduce task速度可能会非常慢Strict模式下,必须与limit连...原创 2015-03-10 13:36:18 · 209 阅读 · 0 评论 -
【Hive四】HQL DML之LOAD和INSERT
1. HQL DML 数据加载语句 LOAD数据插入语句 INSERT数据查询语句 SELECT查看HQL执行计划 explain表/分区导入导出 export/Import2. LOAD LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename[PARTITION (par...原创 2015-03-10 12:55:33 · 338 阅读 · 0 评论 -
【Hive三】HQL DDL
1. DDL1.1 DDL语句同MySQL的DDL类似,HQL DDL操作的元素包括数据库、表、列、视图、索引、函数、授权操作以及列出、描述数据对象的语句 1.2 创建表语句通过EXTERNAL关键字可以创建外部表PARTITIONED BY子句用于根据字段名进行分区CLUSTERED BY子句SORTED BY子句SKEWED BY子句INTO...原创 2015-03-10 09:57:32 · 154 阅读 · 0 评论 -
【Hive二】Hive架构
1. 什么是Hive,Hive是用来做什么的Hive是Facebook开源的以SQL查询的方式对日志等结构化数据进行多维度进行分析构建于Hadoop之上的,把HQL查询转换为Hadoop Map Reduce作业,对HDFS上的结构化数据进行分析因为构建于Hadoop Map Reduce作业之上,因此只适合做离线分析。对分布式数据仓库中的数据进行分析典型应用场景是日志分...原创 2015-03-09 20:24:44 · 193 阅读 · 0 评论 -
【Hive十九】Hive JDBC URL for Kerberos secured cluster
对于如下的Hive JDBC连接串,!connect jdbc:hive2://hiverserver.node:10000/default;principal=hive/_HOST@HADOOP.JD;kerberosAuthType=kerberos;hive.server2.proxy.user=0e276318a87ced54171884ed765e9962; 使用hi...原创 2016-06-08 11:22:31 · 759 阅读 · 0 评论