Hive UDF

最新推荐文章于 2022-11-22 16:40:58 发布

Bee_Darker

最新推荐文章于 2022-11-22 16:40:58 发布

阅读量349

点赞数

分类专栏：大数据文章标签： hive 大数据 UDF

本文链接：https://blog.csdn.net/Bee_Darker/article/details/106560005

版权

本文介绍了如何在Hive中创建UDF，以满足从date字段中提取年份的需求。首先，环境配置包括Linux Ubuntu、Hive和Hadoop。接着，详细阐述了UDF的编写步骤，包括创建Java项目、编写YEAR类以及打包成jar。最后，将jar包添加到Hive的lib目录，创建临时函数并应用到buyer_favorite表中，成功实现了提取年份的功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

系统环境

Linux Ubuntu 16.04

jdk-7u75-linux-x64

hive-1.1.0-cdh5.4.5

hadoop-2.6.0-cdh5.4.5

任务内容

某电商有买家收藏夹（buyer_favorite）表，内含（buyer_id，goods_id，date）三个字段，需求是取出date字段中的年份。

我们编写UDF函数，实现需求。

初始数据如下：
在这里插入图片描述
目标数据如下：

任务步骤

1.在/data目录下创建/hive5文件夹

mkdir -p /data/hive5

2.切换到/data/hive5目录下，使用wget命令，下载http://192.168.1.100:60000/allfiles/hive5中的文件。

cd /data/hive5
wget http://192.168.1.100:60000/allfiles/hive5/udfjar.tar.gz
wget http://192.168.1.100:60000/allfiles/hive5/sydata

3.将udfjar.tar.gz解压到当前目录。

tar zxvf udfjar.tar.gz

4.输入jps检查Hadoop相关进程，是否已经启动。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。

jps  
cd /apps/hadoop/sbin  
./start-all.sh

5.开启Hive之前需要保证Mysql启动。执行以下命令，查看Mysql的运行状态。（密码：zhangyu）

sudo service mysql status

在这里插入图片描述
6.输出显示Mysql未启动。执行以下启动命令。

sudo service mysql start

7.开启Eclipse，新建Java项目，名为hiveudf。
在这里插入图片描述
8.新建包，名为hive.udf。

9.新建类，名为YEAR。

10.右键单击项目名，新建文件夹，名为udfjar用于存放所需jar包，将/data/hive5/udfjar中的jar包全部导入到文件夹