
hive
mllhxn
这个作者很懒,什么都没留下…
展开
-
hive 优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务):需要满足以下条件转载 2014-10-17 00:40:08 · 415 阅读 · 0 评论 -
hive 实战笔记case3
– case3 ––========== f_orders ==========–/*11 2014-05-01 06:01:12.334+01 10703007267488 item8:2|item1:122 2014-05-01 07:28:12.342+01 10101043505096 item6:3|item3:233 2014-05-01 07:50:12.33+01原创 2015-08-07 22:01:34 · 549 阅读 · 0 评论 -
hive 实战笔记case2
– case2 ––========== click_log ==========–/*11 ad_101 2014-05-01 06:01:12.334+0122 ad_102 2014-05-01 07:28:12.342+0133 ad_103 2014-05-01 07:50:12.33+0111 ad_104 2014-05-01 09:27:12.33+0122原创 2015-08-07 21:59:50 · 549 阅读 · 0 评论 -
hive 实战笔记case1
– case1 ––========== order_created ==========–/*10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.33+0110103043501575 2014-05-原创 2015-08-07 21:56:56 · 541 阅读 · 0 评论 -
Hive与Hbase 整合
问题 1,创建带分区CREATE TABLE hbase_table_2(key int, value string) PARTITIONED BY (date String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WIT原创 2016-02-24 15:56:29 · 790 阅读 · 0 评论 -
Hive 基础(1):分区、桶、Sort Merge Bucket Join
转:Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 j转载 2016-05-13 17:32:23 · 727 阅读 · 0 评论 -
数据仓库中的 SQL 性能优化(Hive篇)
转:http://my.oschina.net/leejun2005/blog/308427一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR job)的优化转载 2016-05-13 17:33:46 · 697 阅读 · 0 评论 -
Hive 中的复合数据结构简介以及一些函数的用法说明
目前 hive 支持的复合数据类型有以下几种:arrays: ARRAY (Note: negative values and non-constant expressions are allowed as of Hive 0.14.) maps: MAP1、Array的使用创建数据库表,以array作为数据类型create table person(name string,work_locat转载 2017-04-10 15:14:29 · 871 阅读 · 0 评论 -
hive 实战笔记case5
desc formattedMSCK REPAIR TABLE tablenamealter table table_name set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表 alter table table_name set TBLPROPERTIES ('EXTERNAL'='FALSE'); /原创 2015-10-02 11:15:23 · 450 阅读 · 0 评论 -
hive 实战笔记case4
– case4 ––========== rates ==========–app0 1app1 2app2 2app3 3app4 3app5 3app6 5app7 5app8 5app9 5CREATE EXTERNAL TABLE rates ( app_name STRING , star_r原创 2015-08-07 22:04:01 · 406 阅读 · 0 评论 -
hive udf和udaf
UDF二、用法1、UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。2、编写UDF函数的时候需要注意一下几点:a)自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。b)需要实现evaluate函。c)evaluate函数支持重载。3、以下是两个数求和函数的UDF。evaluate转载 2014-11-14 17:33:00 · 570 阅读 · 0 评论 -
hive 交互
hive非交互模式1,可以将hive执行的sql语句保存到脚本文件中,通过-f选项制定脚本文件执行hive eg:hive -f script.sql 2,对于较短的sql语句,可以直接使用-e选项运行hive eg:hive -e 'select * from table a' 3,-S选项 hive执行过程中,会在终端上显示mapreduce的进度。如果不想显示进度转载 2015-05-27 19:54:50 · 716 阅读 · 0 评论 -
hive 全排序优化
Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义:CREATE TABLE if not exists t_order( id int, -- 订单编号 sale_id int, -- 销售ID customer_id int, -- 客户ID product _id int, -- 产品I转载 2015-10-18 21:51:40 · 726 阅读 · 0 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015转载 2015-11-05 19:52:50 · 441 阅读 · 0 评论 -
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:d1,user1,1000d1,user2,2000d1,user3,3000d2,user4,4000d2,user5,5000 CREATE EXTERNAL TABLE转载 2015-11-05 19:53:28 · 1174 阅读 · 0 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备:2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03转载 2015-11-05 19:55:02 · 462 阅读 · 0 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createti转载 2015-11-05 19:51:08 · 520 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3c转载 2015-11-05 19:54:27 · 693 阅读 · 0 评论 -
hive分区表增加字段新增字段值为空的bug
网上查了资料,提供了两种解决办法:1. 修改hive元数据SDS表的CD_ID字段,原因是修改表结构后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表分区下面对应的CD_ID还是原来表的CD_ID2.删除当前分区重建这两个办法都不太适应,办法1修改元数据库风险大,办法2可能会导致数据丢失。老大给的任务是其他办法workaround。通过测试发现如下规律,先给出结论:...转载 2018-07-18 18:00:09 · 773 阅读 · 0 评论