浊酒南街-CSDN博客

原创详解窗口函数中的RANGE BETWEEN子句

RANGE BETWEEN是一种基于数值或日期范围的窗口定义方式，非常适合于基于时间序列或数值范围的累积计算。使用时需要确保排序表达式的类型与边界表达式的类型兼容（数值类型用数字，日期类型用INTERVAL）。同时，注意重复值会导致窗口行数增多。

2025-10-17 17:49:48 895

原创 RPAD函数及LPAD函数介绍

RPAD 是 SQL 中的核心字符串操作函数，用于在字符串右侧添加填充字符直到达到指定长度。同理LPAD函数用于在字符串左侧添加填充字符直到达到指定长度；string：原始输入字符串length：结果字符串的总长度（整数）pad_string：用于填充的字符或字符串注意：只在字符串右侧添加字符,当目标长度小于原始长度时自动截断,任何参数为 NULL 返回 NULL,未指定填充字符时默认使用空格。

2025-10-13 15:57:45 342

原创 tablesample函数介绍

在 Spark SQL 中，TABLESAMPLE 函数用于从表中抽样数据。这对于大数据集上的快速近似查询非常有用。

2025-09-22 16:30:20 335

原创 Spark SQL 桶抽样（Bucket Sampling）

在Spark SQL中，桶抽样（Bucket Sampling）是一种基于哈希分桶的抽样方法，它可以将数据划分为若干个桶（bucket），然后抽取其中一个或多个桶的数据作为样本。桶抽样有两种主要形式：基于分桶列（Bucketed Column）的抽样：这种抽样要求表本身是分桶表（Bucketed Table），并且抽样是基于分桶时指定的列进行的。基于任意列的随机抽样：使用TABLESAMPLE语法，可以基于随机函数（如rand()）或指定列进行分桶抽样，即使表不是分桶表也可以使用。

2025-09-22 15:02:22 663

原创 map_from_arrays和map_from_entries函数

每个结构体通常包含两个字段：第一个字段作为键，第二个字段作为值。array_of_entries：一个数组，数组中的每个元素都是具有两个字段的结构体。MAP_FROM_ARRAYS函数用于从两个数组（一个作为键，一个作为值）创建一个Map。键数组不能包含null元素，且键必须是基本数据类型（不能是复杂类型如数组、映射、结构体）。如果存在重复的键，则后面的键值对会覆盖前面的（保留最后一个）。键不能为NULL，且必须是基本数据类型（不能是复杂类型）。keys: 一个数组，包含Map的键。

2025-09-20 14:42:10 221

原创 spark sql之from_json函数

在Spark SQL中，from_json函数用于解析包含JSON字符串的列，并将其转换为Spark SQL的结构化类型（如struct、map或array）

2025-09-11 19:41:56 457

原创 Pytorch基础入门4

下面讲一个小案例：使用自动微分机制配套使用SGD随机梯度下降来求函数最小值。

2025-09-10 16:23:15 324

原创 Pytorch基础入门3

这里主要介绍了求导的两种对象，标量Tensor和非标量Tensor的求导。两者的主要区别是非标量Tensor求导的主要区别是加了一个gradient的Tensor，其尺寸与自变量X的尺寸一致。最后还有一种使用标量的求导方式解决非标量求导，只需了解。神经网络依赖反向传播求梯度来更新网络的参数，求梯度是个非常复杂的过程，在Pytorch中，提供了两种求梯度的方式，一个是backward，将求得的结果保存在自变量的grad属性中，另外一种方式是torch.autograd.grad。

2025-09-09 17:24:46 176

原创 Pytorch基础入门2

stack为拼接函数，函数的第一个参数为需要拼接的Tensor，第二个参数为细分到哪个维度。所有的带_符号的函数都会对原数据进行修改。

2025-08-05 19:28:39 369

原创 Pytorch基础入门1

Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对 GPU 加速的深度神经网络（DNN）编程。Torch 是一个经典的对多维矩阵数据进行操作的张量（tensor ）库，在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同，pytorch的计算图是动态的，可以根据计算需要实时改变计算图。

2025-08-05 14:20:28 505

原创大数据之Hive:Hive中week相关的几个函数

dayofweek返回值为：1-7，1 = 星期日, 2 = 星期一, …, 7 = 星期六，从星期日开始。weekday返回值为：0-6，0 = 星期一, 1 = 星期二, …, 6= 星期日，从星期一开始。功能统计：某天为某年的第几周。功能：统计某天为星期几。功能：统计某天为星期几。

2025-07-22 19:37:19 517

原创 shell脚本总结19：awk命令的使用方法1

awk 是 Shell 中用于文本分析和数据处理的强大工具，兼具脚本语言的灵活性。它特别适合处理结构化数据（如日志、CSV 文件）。

2025-07-02 16:34:31 242

原创 Spark SQL to_json 函数介绍

在Apache Hive中，并没有内置的to_json函数。在Apache Spark SQL中确实有to_json函数,它可以用来将结构化数据（如结构化类型或MAP类型）转换为JSON字符串。这个功能对于需要将表格数据输出为JSON格式的场景非常有用。

2025-06-26 17:13:26 682

原创 FIND_IN_SET函数介绍及array_contains函数

【代码】FIND_IN_SET函数介绍。

2025-06-26 14:20:18 318

原创 shell脚本总结18：sed使用案例

将文件 test 中的所有逗号（,）和句点（.）替换为空格，并直接修改原文件。命令分解：以sed -i ‘s/,|./ /g’ test为例。2.实现：以下3种方法均可实现。

2025-06-24 16:51:03 263

原创 shell脚本总结17：sed命令的使用方法2

sed 是一种强大的命令行工具，用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。

2025-06-23 14:51:20 230

原创 shell脚本总结16：sed命令的使用方法1

sed 是一种强大的命令行工具，用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。

2025-06-18 11:28:23 169

原创 shell脚本总结15：grep命令的使用方法

grep 是一种在 shell 脚本中非常常用的命令行工具，用于搜索文件中的文本。它通过正则表达式来匹配并显示符合条件的文本行。

2025-06-10 20:07:16 349

原创 shell脚本总结14：awk命令的使用方法

awk 是 Shell 中用于文本分析和数据处理的强大工具，兼具脚本语言的灵活性。它特别适合处理结构化数据（如日志、CSV 文件）。

2025-06-04 16:54:45 213

原创 shell脚本总结13：head -c 和cut -c的区别

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-06-03 14:52:12 364

原创 shell脚本总结12:自定义函数

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-29 20:05:03 771

原创 shell脚本总结11

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-28 17:02:14 564

原创 shell脚本总结10：case … esac 多选择语句

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-28 11:23:45 458

原创 shell脚本总结9：until循环语句

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-27 16:40:18 350

原创 cron表达式详解

Cron表达式是一个字符串，字符串以5或6个空格隔开，分为6或7个域，每一个域代表一个含义，Cron有如下两种语法格式：（1） Seconds Minutes Hours DayofMonth Month DayofWeek Year（2）Seconds Minutes Hours DayofMonth Month DayofWeek字段允许值允许的特殊字符备注：DayofWeek中 1 ＝星期日；

2025-05-27 15:55:06 373

原创 shell脚本总结8：while循环语句

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-26 11:21:28 448

原创 shell脚本总结7：for循环语句

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-23 17:31:51 350

原创 shell脚本总结6：if条件判断语句案例

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-23 14:20:53 434

原创 shell脚本总结5：if 条件判断语句

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。If条件判断语句# If条件判断语句，通常以if开头，fi结尾。也可加入else或者elif进行多条件的判断 # 单分支语句 ---比较大小 if(条件表达式);then语句1fi # 双分支if 语句 if(表达式) 语句1 else 语句2。

2025-05-22 20:01:15 423

原创 shell脚本总结4：算术运算

今天主要回顾一下shell脚本中的算术运算

2025-05-22 16:19:02 300

原创 shell脚本总结3

shell 是一种脚本语言。脚本：本质是一个文件，文件里面存放的是特定格式的指令，系统可以使用脚本解析器翻译或解析指令并执行（它不需要编译）shell 既是应用程序又是一种脚本语言（应用程序解析脚本语言）。

2025-05-21 11:51:08 510

原创 TensorFlow之微分求导

在TensorFlow中，微分是个非常重要的概念。它们分别用于自动求导（计算梯度）和高效地处理数据。下面我将分别介绍这两个主题。

2025-05-13 16:44:12 466

原创 TensorFlow中数据集的创建

TensorFlow 的 tf.data.Dataset API 提供了一种灵活且高效的方式来加载和预处理数据

2025-05-09 17:11:23 528

原创 Keras模型保存、加载介绍

在TensorFlow中，保存和加载模型是机器学习工作流程中的重要步骤。这不仅有助于持久化训练好的模型以便后续使用，还可以实现模型的版本控制、部署和服务。SavedModel：推荐用于生产环境，因为它保存了完整的模型信息，并且具有良好的跨平台兼容性。HDF5：适用于简单的模型保存和加载需求，特别是当你需要与旧版本的 TensorFlow 或其他库兼容时。

2025-04-29 17:26:33 609

原创 Keras.datasets.fashion_mnist 函数介绍

keras.datasets.fashion_mnist是Keras中用于加载Fashion MNIST数据集的模块。Fashion MNIST数据集由Zalando公司提供，是一个用来替代经典MNIST手写数字数据集的图像数据集。与MNIST数据集中的数字图像不同，Fashion MNIST数据集包含的是服装相关的图像，更贴近实际应用场景。图像大小：每张图像为28x28像素的灰度图。类别数量：共有10个类别的服装。类别标签：T恤/上衣 (T-shirt/top)裤子 (Trouser)

2025-04-29 16:08:58 289

原创 TensorFlow中使用Keras

keras集成在tf.keras中。

2025-04-21 10:28:04 506

原创 REGEXP_REPLACE 函数的用法

参数说明source: string类型，要替换的原始字符串。pattern: string类型常量，要匹配的正则模式，pattern为空串时抛异常。replace_string:string，将匹配的pattern替换成的字符串。occurrence: bigint类型常量，必须大于等于0。大于0：表示将第几次匹配替换成replace_string。等于0：表示替换掉所有的匹配子串。其它类型或小于0抛异常。返回值。

2025-04-21 10:14:35 1026

原创 Keras函数式API

Sequential 顺序模型封装了太多东西,不够灵活,如果你想定义复杂模型可以使用Keras的函数式API。使用函数式API可以直接操作张量，也可以把层当做函数来使用，接收张量并返回张量。

2025-04-17 19:59:27 271

原创 Keras使用1

评估标准 metrics. 评估算法性能的衡量指标.对于分类问题, 建议设置为metrics =[‘accuracy’].评估标准可以是现有的标准的字符串标识符，也可以是自定义的评估标准函数。优化器 optimizer:可以是Keras定义好的优化器的字符串名字,比如’rmsprop’也可以是Optimizer类的实例对象.常见的优化器有: SGD,训练模型: 使用.fit()方法,将训练数据,训练次数(epoch), 批次尺寸(batch_size)传递给fit()方法即可.

2025-04-11 11:39:02 332

原创 Keras简介

Keras 是一个高级神经网络API，它以简单性和快速实验设计为目标。Keras 既可以作为独立工具使用，也可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 等后端的接口。

2025-04-10 16:50:09 617

代码.zip

空空如也