- 博客(4)
- 收藏
- 关注
原创 Sprak combineByKey详解
1、背景 在数据分析中,处理Key,Value的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同类型,也可以是不同类型。这种数据处理操作并非单纯的对Pair的value进行map,而是针对不同的key值对原有的value进行联合(Combine)。因而,不仅类型可能不同,元素个数也可能不同。 com
2021-08-11 14:00:25
413
原创 hive sql 求所有用户和活跃用户的总数及平均年龄
hive sql 求所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)建表导入数据注意:这里都默认每个人的年龄是不变的,不考虑一个人的年龄增长的情况;用到的知识点有hive的 over()开窗函数、row_number()函数、lead()函数思路一1. 求所有用户的总数和平均年龄1)先求出每个用户的年龄2) 再求所有用户的总数和平均年龄2.求活跃用户总数和平均年龄(活跃用户指连续
2021-07-24 10:38:43
1503
1
原创 Hive Sql 查询最被喜欢的爱好的前三名
需求:查询最被喜欢的爱好的前三名。 (需求解析:最被喜欢的爱好,就是看哪个爱好的人数最多) user_hobbys表,数据如下、数据是制表符隔开的: name sex hobby john 男 打乒乓球,游泳,看电影 jack 男 打乒乓球,看电影 lucy 女 看书,购物 lili 女 游泳,看电影 create table if not exists user_hobbys( name string, sex string, hobby array ) row format delimited
2020-08-29 17:20:28
881
原创 Hive Sql 求每个用户连续登陆的最大天数
@[TOC]Hive Sql 求每个用户连续登陆的最大天数 uid,dt 1,2019-08-01 1,2019-08-02 1,2019-08-03 1,2019-08-04 1,2019-08-06 1,2019-08-07 2,2019-08-01 2,2019-08-02 3,2019-08-01 3,2019-08-03 4,2019-07-28 4,2019-07-29 4,2019-08-01 4,2019-08-02 4,2019-08-03 4,2019-08-04 4,2019-08-0
2020-08-29 15:41:14
1527
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人