Hive批量删除表分区

docsz

已于 2025-04-21 22:06:37 修改

阅读量1.7k

点赞数 1

分类专栏： hive 文章标签： hive hadoop 数据仓库

于 2020-12-25 15:57:59 首次发布

本文链接：https://blog.csdn.net/docsz/article/details/111685972

版权

hive 专栏收录该内容

28 篇文章

订阅专栏

Hive批量删除表分区

shell脚本


#!/usr/bin/bash

#获取当前脚本所在路径
cur_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
cd ${cur_dir}

#导出所有hive数据库名
hive -e "show databases;" > ${cur_dir}/all_database.txt

#获取以src开头的库名
cat all_database.txt | awk '{print $2}' | awk '/^src_.*/{print}' > ${cur_dir}/src_database.txt

for database in `cat ${cur_dir}/src_database.txt`
do
    #获取表名
    hive -e "use ${database};show tables;" > ${cur_dir}/${database}_tbs.txt
	
	for table in `tail -n +3 ${cur_dir}/${database}_tbs.txt | awk '/[a-zA-Z]/{print $2}'`
	do
		echo -e "\e[36m -----${database}.${table}------ \e[0m"
		#获取表分区
		hive -e "show partitions ${database}.${table}" > ${cur_dir}/${database}.${table}_pts.txt
		#循环表的分区
		for partition in `tail -n +3 ${cur_dir}/${database}.${table}_pts.txt | awk '/[a-zA-Z0-9]/{print $2}' | awk '/^batch_no=202005.*/{print}'`
		do
			echo -e "\e[36m-----${partition}------\e[0m"
			#删除表的分区
			hive -e "alter table  ${database}.${table} drop if exists partition (${partition});"
		done
	done
done

HDFS清理回收站

hdfs dfs -du -h /user/hive/
hdfs dfs -rm -r -skipTrash /user/hive/.Trash

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

docsz

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive 批量删除表使用正则

yy的博客

07-26

3040

// 使用通配符批量删除hive表' // 注意这里是通配符不是正则. 通配符中星号相当于正则中的 .* 制作脚本 // eg: 删除ods下所有 ams开头的表名 # 开头 echo 'hive -e " ' > script.sh # 删除表的sql hive -e "SHOW TABLES IN ods LIKE 'ams*';" |xargs -I{} echo drop table ods.{}\; >> script.sh # 结尾 ...

大数据实践之路-数据仓库-hive批量删除/增加分区

数据包工头的博客

01-14

848

注意: 增加日期变量 p_date ，为了防止start_date在while循环过程中，发生变化，变为和end_date一样的值。 #! /bin/bash start_date=${1:-`date -d "-32 day" "+%Y-%m-%d"`} end_date=${2:-`date -d "-1 day" "+%Y-%m-%d"`} table_name="vn0c43l.mid_dim_hyper_shop_div_dept_day_v2" # hive 批量删除分区 sql_dp=

参与评论您还未登录，请先登录后发表或查看评论

HIVE表中分区的删除

大数据挖掘SparkExpert的博客

03-31

6万+

HIVE本身是不太支持更新的，要从其中删除某一行其实也是费劲的。不过HIVE本身还提供一种机制，可以删除其中的分区。只要某一条记录在某个分区中，就可以实现用个“转弯”的方式来实现，即先删除分区，再手动去掉这条记录，再导入到分区中。如首先查到某个表中有记录7904个，用这个命令：ALTER TABLE shphonefeature DROP IF EXISTS

Hive 删除分区的方法

热门推荐

HeatDeath的博客

05-25

6万+

ALTER TABLE table_name DROP IF EXISTS PARTITION(year = 2015, month = 10, day = 1); 1、HIVE表中分区的删除 https://blog.csdn.net/sparkexpert/article/details/51024392 2、hive如何删除分区一天的数据 http://www.about...

hive批量删除分区删除时间范围分区

黄大仙儿的专栏

12-10

2万+

hql： alter table tb_partition drop partition (etl_dt>='20181102',etl_dt<='20181104')

hive批量删除多个分区数据

chimchim66的博客

09-03

5780

举个栗子????：批量删除2019-01-01到2020-09-03号范围内的分区 alter table drop partition (ds<‘2020-09-03’,ds>‘2019-01-01’);

hive 批量添加，删除分区

张伟的专栏

03-26

7576

一.批量添加分区： use bigdata; alter table siebel_member add if not exists partition(dt='20180401') location '20180401' partition(dt='20180402') location '20180402' partition(dt='20180403') location '20...

批量删除hive表分区

fanlying的博客

12-01

1万+

执行shell脚本批量删除hive表分区 执行命令： sh delete_partitions.sh schema.table_name 2017-11-01 2017-12-01 delete_partitions.sh脚本如下： #!/bin/sh if [ $# == 3 ]; then begin_date=`date -d "+0 day $2" +%Y-...

Hive批量删除一段时间分区和动态分区更新数据

lv_hulk的博客

07-05

4829

Hive批量删除一段时间分区和动态分区更新数据 1.hive动态分区 -- 批量删除分区数据 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130') -- 开启动态分区 SET hive.exec.dynamic.partition=true; --开启动态分区，默认是false SET hive.exec.dynamic.partition.mode=non

Hive 批量删除表使用正则表达式编程

EadDeveloper的博客

09-18

273

请注意，在使用正则表达式时，要确保表名的匹配条件准确无误，以免删除了不应该删除的表。请注意，在使用正则表达式时，要确保表名的匹配条件准确无误，以免删除了不应该删除的表。在Hive中，如果我们需要批量删除多个表，可以使用正则表达式来匹配表名，并通过编程的方式进行删除。方法获取所有表名的列表。在这个方法中，我们创建了一个与Hive服务器的连接，并返回一个Hive Metastore客户端对象。在这个方法中，我们创建了一个与Hive服务器的连接，并返回一个Hive Metastore客户端对象。

Hive批量删除一段时间分区&&动态分区更新数据

流风雨情的博客

12-05

3094

alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')

hive 静态分区动态分区批量删除分区

licai_1001的博客

03-22

1862

1，首先在虚拟机的note-01的节点（也就是hive服务器所在的Linux电脑上）上创建一个user_partition.txt文件。 cd /root/hivefile vim user_partition.txt 向user_partition.txt文件添加如下内容 1,tom,usa,newyork 2,james,usa,newyork 3,jon,usa,newyo...

hive如何删除分区

别人笑我太疯癫，我笑他人看不穿。

09-25

4314

在Hive中，删除分区是一个常见的操作。你可以使用ALTER TABLE DROP PARTITION语句来删除一个或多个分区。

hive批量删除表

weixin_30673611的博客

07-10

2470

#!/bin/shhive -e "use csxuy;show tables;"|grep product_tour2 | while read linedoecho -n "drop table $line;">>temptables.txtdonetables=`cat temptables.txt`echo $tableshive -e "use csxuy;$tab...

hive上批量删除表

weixin_30520015的博客

05-10

1744

#!/bin/sh hive -e "use china_prod;show tables \"t_tag_political*\";" | while read line do echo "drop table $line;">>temptables.txt done hive -e "use china_prod;show tables \"tag*\";" | whi...

批量删除hive表

qq_20064763的博客

12-02

273

【代码】批量删除hive表。

ORACLE数据库批量删除表分区数据

a031516的博客

08-07

1678

ORACLE数据库批量删除表分区数据

hive数据库delete删除部分数据/删除分区内的数据

weixin_49114503的博客

11-17

1万+

在Hive中，删除部分数据是一个常见的操作，特别是当我们需要清除不再需要的数据或者进行数据更新时。Hive提供了多种方式来删除部分数据，本文将介绍其中几种常用的方法。

hive 批量删除二级分区

最新发布

04-24

<think>好的，我现在需要帮助用户解决在Hive中批量删除二级分区的问题。首先，我得回忆一下Hive的分区管理相关知识。用户提到的是“批量删除二级分区”，也就是需要删除具有两个分区键的分区，比如按日期和地区分区的表，可能需要同时删除多个这样的组合。首先，Hive本身支持ALTER TABLE ... DROP PARTITION语句，但默认情况下可能需要逐个指定分区，或者使用正则表达式来匹配多个分区。不过，二级分区的删除可能需要更复杂的条件。我需要确认Hive是否支持在DROP PARTITION时使用通配符或者更灵活的条件。根据引用[2]提到的，Hive修改分区结构时涉及到元数据库的操作，比如修改SDS表中的CD_ID。不过这可能更多是添加字段的情况，但删除分区可能涉及不同的元数据表，比如PARTITIONS和SDS。不过用户的问题是关于删除，而不是修改结构，所以可能需要不同的方法。通常，批量删除分区的方法可能有以下几种： 1. 使用ALTER TABLE ... DROP PARTITION多次，每次指定一个分区的键值组合。但对于大量分区来说，手动编写这些语句效率低下。 2. 使用Hive的动态分区或生成删除语句的脚本，比如通过Hive的元数据库（如MySQL）查询出符合条件的分区，然后生成对应的ALTER语句执行。这种方法需要访问元数据库，但可能在生产环境中需要权限，并且直接操作元数据库有风险，需谨慎。 3. 使用Hive的MSCK REPAIR TABLE命令，但这个命令通常用于修复分区元数据，比如添加分区，而不是删除。所以可能不适用。所以，可能的解决方案是编写Shell脚本或HiveQL脚本，动态生成需要删除的分区列表，然后逐个执行删除命令。例如，从Hive的元数据中查询出需要删除的分区，然后构造ALTER语句。例如，假设表名为mytable，一级分区为dt，二级分区为region，要删除所有dt='2023-01-01'且region以'NORTH'开头的分区。可以通过Hive的元数据表PARTITIONS来获取这些分区的信息，然后生成对应的删除命令。但用户可能没有权限直接访问元数据库，所以可能需要使用Hive内置的命令或脚本来实现。比如，使用SHOW PARTITIONS命令获取所有分区的列表，然后过滤出需要删除的，生成ALTER语句。比如： SHOW PARTITIONS mytable; 然后解析输出，提取出符合条件的分区，比如dt=2023-01-01/region=NORTH_AMERICA，然后循环执行ALTER TABLE mytable DROP PARTITION (dt='2023-01-01', region='NORTH_AMERICA')。但这种方法需要处理字符串解析，可能对于二级分区来说，分区的显示格式是dt=xxx/region=xxx，所以需要用shell脚本或Python脚本来分割字符串，提取出各个分区的键值，然后构造删除语句。此外，Hive是否支持在DROP PARTITION时使用类似通配符的方式？比如，对于一级分区可以使用dt>'2023-01-01'，但二级分区可能需要更复杂的条件。例如，ALTER TABLE ... DROP PARTITION (dt='2023-01-01', region LIKE 'NORTH%')，但需要确认Hive是否支持这种语法。查阅Hive文档，发现Hive的ALTER TABLE DROP PARTITION语句允许使用比较运算符，如=, <, >, <=, >=, !=，或者LIKE，但可能只适用于单个分区键。对于二级分区，可能需要每个分区键都指定条件。例如： ALTER TABLE mytable DROP PARTITION (dt='2023-01-01', region LIKE 'NORTH%'); 但不确定Hive是否支持这样的组合条件。如果支持的话，那这将是最直接的方法。否则，可能需要分别指定每个分区的具体键值。假设Hive不支持在二级分区中使用LIKE这样的操作符，那么就需要通过生成多个ALTER语句来批量删除。另一个方法是使用Hive的动态SQL，比如通过编程方式生成多个DROP PARTITION语句，并执行它们。例如，在Beeline中使用脚本： #!/bin/bash hive -e "SHOW PARTITIONS mytable" | grep "dt='2023-01-01'" | awk '{print "ALTER TABLE mytable DROP PARTITION (" $0 ");"}' | sed "s/\//, /g" | hive 这里，首先获取所有分区，过滤出需要删除的，然后通过awk生成ALTER语句，替换斜杠为逗号，构造正确的分区键值对，然后通过hive执行这些语句。不过需要注意的是，SHOW PARTITIONS输出的格式是dt=2023-01-01/region=EMEA，所以在替换的时候需要将其转换为(dt='2023-01-01', region='EMEA')的格式。例如，使用sed将dt=2023-01-01/region=EMEA转换为dt='2023-01-01', region='EMEA'，然后放入ALTER语句中。或者，使用更复杂的awk脚本解析分区键值，确保每个键都被正确引用。例如： SHOW PARTITIONS mytable | grep "dt='2023-01-01'" | awk -F'/' '{printf "ALTER TABLE mytable DROP PARTITION (%s, %s);\n", $1, $2}' | hive 但需要确保每个分区的键值都被正确分割，并且值被正确引用。可能还需要处理特殊字符的情况，比如分区值中包含空格或特殊符号，这时候需要引号。另一种方法是使用Hive的元数据库查询，比如在MySQL中查询PARTITIONS表，找到对应的分区，然后生成删除语句。例如，在MySQL中： SELECT CONCAT('ALTER TABLE mytable DROP PARTITION (dt=', "'", d.dt, "'", ', region=', "'", r.region, "'", ');') FROM ( SELECT DISTINCT PART_NAME FROM PARTITIONS WHERE TBL_ID = (SELECT TBL_ID FROM TBLS WHERE TBL_NAME='mytable') ) p WHERE ...; 但这种方法需要了解Hive元数据库的结构，并且需要权限，可能不适合所有用户。综合来看，对于普通用户而言，最可行的方法是通过SHOW PARTITIONS获取分区列表，然后用脚本处理生成ALTER语句，再执行这些语句。这不需要直接操作元数据库，相对安全。另外，需要考虑权限问题，执行DROP PARTITION需要有相应的权限。此外，删除分区会同时删除对应的数据目录，所以需要确认是否要同时删除数据，或者是否配置了外部表，此时数据可能不会被删除。总结步骤： 1. 使用SHOW PARTITIONS命令获取所有二级分区。 2. 使用grep或awk过滤出需要删除的分区。 3. 生成对应的ALTER TABLE ... DROP PARTITION语句。 4. 执行这些语句。用户可能需要具体的示例脚本，因此提供一个Shell脚本的例子会很有帮助。例如： #!/bin/bash table_name="mytable" partition_filter="dt='2023-01-01' AND region LIKE 'NORTH%'" hive -e "SHOW PARTITIONS ${table_name}" | grep "dt='2023-01-01'" | while read partition; do dt_part=$(echo "$partition" | cut -d'/' -f1) region_part=$(echo "$partition" | cut -d'/' -f2) region_value=$(echo "$region_part" | cut -d'=' -f2) if [[ "$region_value" == NORTH* ]]; then hive -e "ALTER TABLE ${table_name} DROP PARTITION (${dt_part}, ${region_part});" fi done 不过，这个脚本可能需要根据实际的分区键进行调整。例如，分区键是dt和region，那么分割后的变量需要对应。另外，如果分区键值中包含特殊字符，比如单引号，可能需要处理转义，但这种情况比较少见。因此，回答应该包括使用SHOW PARTITIONS结合脚本生成批量删除命令的方法，以及注意事项，比如权限、数据删除等。</think>在Hive中批量删除二级分区可以通过以下步骤实现，结合动态生成SQL语句和元数据操作两种方式： ### 方法一：使用HiveQL脚本动态生成删除语句 1. **通过`SHOW PARTITIONS`获取分区列表** ```shell # 获取符合条件的分区列表（示例：删除dt=2023-01-01且region以'NORTH'开头的分区） SHOW PARTITIONS my_table | grep "dt='2023-01-01'" | grep "region='NORTH" > partitions.txt ``` 2. **生成批量删除脚本** ```shell # 生成ALTER语句并执行 cat partitions.txt | awk -F'/' '{ printf "ALTER TABLE my_table DROP PARTITION (%s, %s);\n", $1, $2 }' > drop_partitions.hql hive -f drop_partitions.hql ``` ### 方法二：直接操作元数据库（需谨慎） 1. **查询MySQL元数据库获取分区信息** ```sql -- 查询分区名称对应的路径（需替换表名和条件） SELECT PART_NAME, SD_ID FROM PARTITIONS WHERE TBL_ID = (SELECT TBL_ID FROM TBLS WHERE TBL_NAME='my_table'); ``` 2. **生成删除语句并清理元数据** ```sql -- 根据查询结果生成ALTER语句（示例） SELECT CONCAT('ALTER TABLE my_table DROP PARTITION (dt=''', SUBSTRING_INDEX(SUBSTRING_INDEX(PART_NAME, '/', 1), '=', -1), ''', region=''', SUBSTRING_INDEX(SUBSTRING_INDEX(PART_NAME, '/', -1), '=', -1), ''');') FROM PARTITIONS WHERE PART_NAME LIKE 'dt=2023-01-01%region=NORTH%'; ``` ### 注意事项 1. **数据删除行为**：若为外部表，仅删除元数据不删除HDFS数据；若为内部表，元数据和存储数据会同时删除[^1] 2. **权限要求**：执行`ALTER TABLE`需要表级别的`DROP`权限 3. **原子性**：批量删除时建议分批操作，避免长时间锁定元数据库