
mapjoin
文章平均质量分 65
csliuruidongdn
坚持自己的梦想。。。
展开
-
Hive中的mapjoin
1: 有一个极小的表 2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误 如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~ 根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况原创 2013-09-16 18:52:58 · 2458 阅读 · 0 评论 -
一个关于MapJoin的测试用例
hive> create table lpx_mapjoin as > SELECT '2012-04-17' as stat_date > ,b.admin_member_id > ,a.category_level2_id > ,b.keywords > ,sum(shownum转载 2013-09-16 18:55:41 · 1210 阅读 · 0 评论