spark sql hive sql join 之 using语法

最新推荐文章于 2025-03-07 14:30:08 发布

Thomas2143

最新推荐文章于 2025-03-07 14:30:08 发布

阅读量838

点赞数

分类专栏：总结文章标签： spark sql hive join using

本文链接：https://blog.csdn.net/qq_35515661/article/details/130570886

版权

总结专栏收录该内容

792 篇文章 ¥99.90 ¥299.90

订阅专栏

本文探讨了在Spark SQL和Hive SQL中使用JOIN using语法的情况，指出当连接条件两侧字段同名时可以使用。特别提醒，使用using会自动去除结果集中的重复关联列。文中通过示例展示了在不同环境中如何实现这一操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sql join using语法.

什么时候使用

join on条件的两侧字段同名就可以用:

SELECT
post.post_id,
title,
review
FROM post
INNER JOIN post_comment ON post.post_id = post_comment.post_id
ORDER BY post.post_id, post_comment_id

等效于:

SELECT
post_id,
title,
review
FROM post
INNER JOIN post_comment USING(post_id)
ORDER BY post_id, post_comment_id

注意事项: select * 使用Using 会去除重复的关联列

可以看到常规写法 * 会保留两侧的关联键 post_id

对应到spark-shell中 join(...,Seq(),...) 就是using语法,他会提出结果集中重复的关联字段.

SELECT *
FROM post
INNER JOIN post_comment ON post.post_id = post_com

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Thomas2143

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

大数据领域 Hive 与 Spark 的集成应用

AI天才研究院

05-10

874

随着企业数据量呈指数级增长，传统单一计算引擎已难以满足复杂的数据处理需求。Hive 作为基于 Hadoop 的分布式数据仓库，擅长离线批量数据处理和 SQL 语义支持；Spark 则以内存计算为核心，提供批处理、流处理、机器学习等统一计算框架。本文旨在解析两者集成的技术原理、实施路径及应用价值，覆盖从基础架构设计到性能优化的全流程，帮助读者掌握高效的数据处理解决方案。背景介绍：明确技术定位与读者对象核心概念与联系：剖析 Hive 与 Spark 的架构特征及集成逻辑核心集成原理与操作步骤。

spark操作hive（可解决绝大部分的问题）、sparksql操作hive

LaZY的博客

07-07

2万+

目标：想要完成使用spark在windows的idea下操作hive（对hive中的表查询等）最终代码（java）： import org.apache.spark.sql.SparkSession; import java.io.Serializable; /** * Created by Administrator on 2017/4/3. */ public class SQLH...

参与评论您还未登录，请先登录后发表或查看评论

Hive SQL查询参数优化

wangkuangood3200的专栏

12-07

1971

【参数一】 hive.fetch.task.conversion决定sql查询是否以集群模式运行查询sql ： select trans_params,trans_result from ods.tablename where trans_code=‘CF000078’ limit 10 耗时很长，期间没有走集群，查看日志查询会fetch HDFS每日数据分区查看执行计划： explain select trans_params,trans_result from ods.tablename w.

Spark SQL编程指南（Python）【转】

dianzhouyu2189的博客

05-14

525

转自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD：SchemaRDD。 SchemaRDD类似于传统关系型数据库的一张表，由两部分组成： Rows：数据行对象 Schem...

SQL中的using使用

weixin_57820664的博客

03-07

648

SQL中using用法

Using Catalyst in Spark SQL

不积跬步无以至千里

05-18

254

在SparkSQL中, 把一条SQL语句转化成对应的RDD任务, 完成这一过程(后续用"解析SQL到RDD"过程代替这一过程)全部在Catalyst框架实现. "解析SQL到RDD"这一过程, 主要包含了4个组成部分, 如下图所示 analyzing a logical plan to resolve references(分析逻辑计划用于解析引用) SparkSQL开始是一个待计算的关系, 要么是被SQL parser返回的abstract syntax...

Spark调优 | Spark SQL参数调优

热门推荐

沈颖的家

07-26

2万+

前言 Spark SQL里面有很多的参数，而且这些参数在Spark官网中没有明确的解释，可能是太多了吧，可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。本文讲解最近关于在参与hive往spark迁移过程中遇到的一些参数相关问题的调优。内容分为两部分，第一部分讲遇到异常，从而需要通过设置参数来解决的调优；第二部分讲用于提升性能而进行的调优。异常调优...

spark-sql create table using orc

花言简

03-30

5888

在分区表中使用不同建表方式，hive和spark-sql中insert overwrite data现象不同。 1.问题出现过程 1)spark-sql建表 CREATE TABLE t_using (`user_no` STRING, `tt_slotid_req` STRING, `ks_slotid_req` STRING ,`model` STRING , `follow_time` STRING, `bind_time` STRING, `reg_slotid` STRING , `geo_

Spark SQL操作Hive表

RonieWhite的博客

09-02

2987

Spark SQL支持从Hive存储中读写数据。然而，Hive存在很多的依赖，而这些依赖又不包含在默认的各类Spark发型版本中。如果将Hive的依赖放入classpath中，Spark将自动加载它们。值得注意的是，这些依赖必须在所有节点中都存在。因为他们需要通过Hive的序列化和反序列化库(SerDes)来访问存储在Hive中的数据。在Spark中配置Hive，需要将hive-site.xml, core-site.xml, hdfs-site.xml放置到Spark的conf/目录下。需要操作H

【小贪】数据库常用：MySQL, HQL, Spark SQL对比及常用语法

打瞌睡_的博客

04-08

870

近期致力于总结科研或者工作中用到的主要技术栈，从技术原理到常用语法，这次查缺补漏当作我的小百科。以下整理错误或者缺少的部分欢迎指正！！！

spark-sql 指定metastore地址、读取mysql

javaMylife的博客

08-01

1029

spark-sql --database src --hiveconf hive.metastore.uris=thrift://hdp02:9083 -e "select * from src_db2" --driver-java-options '-Djava.net.preferIPv4Stack=true'

Hive之常用join

freeRoad

07-24

546

Hive 有很多join，这里主要讲述常用的三种join。 0 Map Reduce 1 Common Join 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value ,..

HiveJoin操作

Piepis的博客

09-23

450

HiveJoin join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_condition | table_reference CROSS JOIN t

SQL--USING的使用

weixin_43421537的博客

01-19

4590

using最大的现实意义是简化表与表之间的连接条件假设两张表 my_test_user 中包含字段USERID，另一张表my_test_teacher 也包含USERID，两张表通过USERID来关联。 1、传统写法： select * from my_test_user a , my_test_teacher b where a.userid = b.userid; 2、使用using...

HiveSQL使用总结笔记

小超人的博客

04-29

1830

文章目录@[toc]DDL 操作建表`CREATE TABLE``EXTERNAL``LIKE``COMMENT``ROW FORMAT``STORED AS`创建简单表：创建外部表：建分区表建Bucket表创建表并创建分区字段ds复制一个空表例子显示所有表：修改表结构表添加一列：添加一列并增加列字段注释更改表名：删除表：增加、删除分区增加删除修改列的名字、类型、位置、注释：增加/更新列增加表的...

SparkSQL实例管理

u013721254的博客

05-23

564

Spark实例的创建和使用安装Spark：解压Spark安装包：tar -zxf /home/sdbadmin/soft/spark-2.4.4-bin-hadoop2.7.tar.gz -C /opt 添加驱动包：拷贝 SequoiaDB for Spark 的连接器到 Spark 的 jars 目录下：cp /opt/sequoiadb/spark/spark-sequoiadb_2.11-3.4.jar /opt/spark-2.4.4-bin-hadoop2.7/jars/ 拷贝 MySQL

SQL语句using的用法

dream__me的博客

11-23

9069

using等价于join操作中的on 使用using必须满足如下两个条件： 1. 查询必须是等值连接。 2. 等值连接中的列必须具有相同的名称和数据类型。【举例】：此为牛客网SQL进阶第14题表examination_info（exam_id试卷ID, tag试卷类别, difficulty试卷难度, duration考试时长, release_time发布时间）如下：表exam_record（uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time.

linux安装hive(Spark using hive)

一叶青天

01-10

674

我是在hadoop用户里安装hive，我安装hive是为了配合Spark的使用。安装hive之前我们要先配置好mysql 安装Mysql的教程请参考：http://blog.csdn.net/yl20175514/article/details/79009468 安装环境：系统是 centos7； 1.下载hive的linux的安装包，下载地址：https://hive.apache.org

sql中join类型_SQL Join类型概述和教程

culuo4781的博客

07-28

1668

sql中join类型 This article will provide an overview of the SQL Join and cover all of the SQL join types including inner, self, cross and outer. For inner joins we’ll be discussing Equi and Theta joins. ...

spark sql 的语法

最新发布

05-02

### Spark SQL 语法使用指南 Spark SQL 提供了一种强大的方式来处理结构化和半结构化数据，支持标准的 SQL 查询以及 DataFrame 和 Dataset API。以下是关于 Spark SQL 语法的一些核心概念和使用方法： #### 1. 创建表在 Spark SQL 中，可以通过多种方式创建临时视图或持久化的 Hive 表。 - **基于现有 RDD 或 DataFrames 创建临时视图** ```scala val df = spark.read.json("examples/src/main/resources/people.json") df.createOrReplaceTempView("people") // 创建一个名为 people 的临时视图[^1] ``` - **创建永久表 (Hive 支持)** 如果启用了 Hive 支持，则可以创建永久表。 ```sql CREATE TABLE IF NOT EXISTS employees ( name STRING, salary FLOAT ) USING PARQUET; ``` --- #### 2. 执行 SQL 查询一旦定义了表或视图，就可以通过 `spark.sql` 方法运行 SQL 查询。 - **基本查询** ```sql SELECT * FROM people WHERE age > 30; -- 基本过滤条件[^1] ``` - **聚合操作** ```sql SELECT department, COUNT(*) AS count FROM employees GROUP BY department ORDER BY count DESC; -- 聚合并排序[^1] ``` - **连接操作** ```sql SELECT e.name, d.department_name FROM employees e JOIN departments d ON e.dept_id = d.id; -- 连接两个表[^1] ``` --- #### 3. 参数设置与性能优化为了提高 Spark SQL 的执行效率，可以根据具体场景调整配置参数。 - **ORC 文件拆分策略** ```sql SET spark.hadoop.hive.exec.orc.split.strategy=ETL; -- 设置 ORC 文件拆分策略为 ETL[^2] ``` - **文件切片大小控制** ```sql SET spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=64000000; -- 控制最大切片大小为 64MB[^2] SET spark.hadoop.mapreduce.input.fileinputformat.split.minsize=64000000; -- 控制最小切片大小为 64MB[^2] ``` - **避免分区合并** ```sql SET spark.hadoopRDD.targetBytesInPartition=-1; -- 禁用目标字节数限制以防止不必要的分区合并[^2] ``` --- #### 4. UDF 定义与注册用户自定义函数（UDF）允许扩展内置功能。 - **Scala/Python 注册 UDF 示例** ```scala import org.apache.spark.sql.functions.udf // Scala 版本 val toUpperUdf = udf((str: String) => str.toUpperCase()) val resultDf = df.withColumn("upperName", toUpperUdf($"name")) // Python 版本 from pyspark.sql.functions import udf to_upper_udf = udf(lambda s: s.upper() if s is not None else "", StringType()) result_df = df.withColumn("upperName", to_upper_udf(df["name"])) ``` --- #### 5. 数据保存完成计算后，可将结果写入外部存储系统。 - **保存为 Parquet 格式** ```scala df.write.mode("overwrite").parquet("/path/to/output.parquet"); -- 将结果保存为 Parquet 文件 ``` - **保存为 CSV 格式** ```scala df.write.option("header", "true").csv("/path/to/output.csv"); -- 添加头部信息并将结果保存为 CSV 文件 ``` --- ### 总结以上介绍了 Spark SQL 的基础语法及其一些高级特性，包括如何创建表、执行复杂查询、优化性能以及定义 UDF 函数等内容。这些工具可以帮助开发人员更高效地利用 Spark 处理大规模数据集。