自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 数仓概念理解

数据库的大规模应用,使得信息行业的数据爆炸式的增长,为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用OLAP来为决策者进行分析,探究一些深层次的关系和信息。事实表为了更好地进行分析,往往会冗余一些维度属性,例如交易域的“购买商品”业务过程,会冗余店铺、商品、会员等维度信息,因此,我们还需要分析业务过程与维度的关联关系,这个时候,就要用到总线矩阵了。以及 业务过程与维度的关系。维度是用于分析数据的一个角度,一方面对维度进行可控管理, 另一方面指导维度表的设计,如地理维度,时间维度。

2025-01-02 18:58:13 1677

原创 Hive中常见的时间处理

format:yyyy-MM-dd HH:dd:ss.sss(毫秒)、yyyy-MM-dd HH:dd:ss(秒)、yyyy-MM-dd(日期)等。Java的date默认精度是毫秒,由date转换成的时间戳是13位的,而c,php生成的时间默认就是10位的,精度是秒。说明:转化UNIX时间戳(自1970年1月1日午夜(UTC)以来的秒数)到当前时区的时间格式。date_format主要针对yyyy-MM-dd的时间格式转化成其他格式的日期字符串。1、to_date函数,返回日期时间中的日期部分。

2024-12-02 18:59:27 1092

转载 hive任务执行进度卡在99%原因及解决(数据倾斜)

尽量使用上述的SQL语句调节进行优化。

2024-11-28 16:20:05 187

原创 决策树为主的集成学习

集成学习是一种机器学习范式,通过训练多个模型(通常称为“弱学习者”)来解决相同的问题,并将这些模型组合在一起,从而获得更好的结果。其核心假设是,当这些弱模型被合理地组合后,可以形成一个更准确、更稳健的模型。集成学习的目标是通过整合各个模型的优势,减少单个模型可能带来的偏差和方差,提高整体模型的预测性能和泛化能力。

2024-11-16 22:09:00 667

转载 Bitmap原理

这就是我们前面所说的了,int数组中的一个元素是4字节占32位,那么除以32就知道元素的下标,对32求余数(%32)就知道它在哪一位,如果该位是1,则表示存在。首先,5/32=0,5%32=5,也是说它应该在tmp[0]的第6个位置(对应下标为5),那我们把1向左移动5位,然后按位或。最后,遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的,时间复杂度O(n)。1左移6位,就到达6这个数字所代表的位,然后按位取反,最后与原数按位与,这样就把该位置为0了。

2024-09-12 17:51:26 229

原创 Flink问题记录

(“Transitive Uncontrolled Recursion” vulnerability with high severity 是一种安全漏洞,通常发生在应用程序中递归调用不受控制的情况下。这类漏洞可能导致栈溢出或拒绝服务(DoS)攻击,因为递归调用会占用大量内存和处理器资源。要彻底解决此问题,可以尝试替换安全的依赖版本,我与教程保持一致没有替换,防止后续bug。

2024-09-03 19:17:15 767

原创 Maven

是一个项目管理工具,在本地仓库维护项目需要的jar包重要的配置文件:pom.xml。

2024-07-27 12:46:55 274

原创 JAVA多维动态数组

ArrayList 类是一个可以动态修改的数组(队列),与普通数组的区别就是它是没有固定大小的限制,提供了相关的添加、删除、修改、遍历等功能。

2024-06-07 18:52:06 599

原创 大数据学习问题记录

它不显示我虚拟机的ip地址,查找后我发现是我的ens33这个网络没有了,但是ifcfg-ens33这个文件还在,且我配置的静态地址等信息也在。今天我打开虚拟机和xshell的时候,发现我的node1连接不上finalshell,但是node2、node3依旧可以链接,我在网上找了很多方法,但是是关于全部虚拟机连接不上finalshell,但是,我只有一个连接不上,然后我发现我在虚拟机上输入ifconfig的时候显示。systemctl stop NetworkManager//临时关闭网络。

2024-06-04 16:56:51 1098 1

原创 以力扣506题为例学习哈希表

运动员将根据得分 决定名次 ,其中名次第 1 的运动员得分最高,名次第 2 的运动员得分第 2 高,依此类推。(a, b) -> b[0] - a[0]:这是一个 lambda 表达式,表示一个比较器,用于定义排序的顺序。从名次第 4 到第 n 的运动员,只能获得他们的名次编号(即,名次第 x 的运动员获得编号 “x”)。arr:要排序的数组。如果 b[0] 大于 a[0],结果为正值,表示 b 应排在 a 之前。如果 b[0] 小于 a[0],结果为负值,表示 a 应排在 b 之前。

2024-06-03 01:21:02 791

原创 算法 java 排序和查找

参考: 排序算法总结这个过程就像水底的气泡一样从底部向上「冒泡」到水面,这也是冒泡排序法名字的由来。接下来,我们使用「冒泡」的方式来模拟一下这个过程。首先将数组想象是一排「泡泡」,元素值的大小与泡泡的大小成正比。然后从左到右依次比较相邻的两个「泡泡」:如果左侧泡泡大于右侧泡泡,则交换两个泡泡的位置。如果左侧泡泡小于等于右侧泡泡,则两个泡泡保持不变。这趟遍历完成之后,最大的泡泡就会放置到所有泡泡的最右侧,就像是「泡泡」从水底向上浮到了水面。选择排序(不稳定)算法步驟插入排序(稳定)算法步骤

2024-06-01 17:38:01 1093

原创 Java中String和int类型转换

类型转换

2024-05-31 16:47:32 680

原创 01.02 数组基础

数组(Array):一种线性表数据结构。它使用一组连续的内存空间,来存储一组具有相同类型的数据。线性表:线性表就是所有数据元素排成像一条线一样的结构,线性表上的数据元素都是相同类型,且每个数据元素最多只有前、后两个方向。数组就是一种线性表结构,此外,栈、队列、链表都是线性表结构。连续的内存空间:线性表有两种存储结构:「顺序存储结构」和「链式存储结构」。其中,「顺序存储结构」是指占用的内存空间是连续的,相邻数据元素之间,物理内存上的存储位置也相邻。数组也是采用了顺序存储结构,并且存储的数据都是相同类型的。

2024-04-18 22:14:48 777

原创 01.01.03 LeetCode 入门及攻略(第 02 天)

开源文档上介绍了很多刷题技巧:Datawhale开源文档推荐刷题顺序和目录如下:技巧:

2024-04-16 20:37:17 190 1

原创 01.01.01 数据结构与算法(第 01 天)

算法复杂度(Algorithm complexity):在问题的输入规模为 n的条件下,程序的时间使用情况和空间使用情况。时间复杂度(Time Complexity):在问题的输入规模为n的条件下,算法运行所需要花费的时间,可以记作为 T(n)。我们将基本操作次数作为时间复杂度的度量标准。换句话说,时间复杂度跟算法中基本操作次数的数量正相关。基本操作 :算法执行中的每一条语句。每一次基本操作都可在常数时间内完成。基本操作是一个运行时间不依赖于操作数的操作。

2024-04-16 20:22:54 751

转载 C++ length()、size()、sizeof()三者的区别

注意:获取字符数组长度时,使用strlen(a)和下面将要介绍的sizeof(a) / sizeof(a[0]) 得到的结果略有差别,sizeof(a) / sizeof(a[0]) 会把char数组的’\0’也算入在内。需要注意的是,如果不使用Vector作为数组进行参数传递,那么在传递数组引用是需要再传递一个数组的大小,否则在函数中无法根据首地址计算出数组大小。c++中,在获取字符串长度时,size()函数与length()函数作用相同。c++中,length()只是用来获取字符串的长度。

2024-01-12 16:56:17 2166

原创 pycharm遇到的问题记录

pycharm

2023-09-27 20:45:59 137

原创 卷积神经网络--动手学AI

实际上,我们对数据集是有先验知识的,会在一些很大的数据集上训练好一些模型,作为预训练模型进行微调,应用到自己的小数据集上。识别图像信息是经验所得,很难确定是用什么卷积核,和几层卷积才能得到想要的信息,通常需要多次,每个层只能识别一点点信息,然后下一层经过一次次精炼。假设我们的输入较大,并且想得到比较小的输出,我们需要很深的神经网络或很大的卷积核才行,这需要大量的计算。16个通道的每个通道都会对前6个通道的信息做融合,是按组合,加权的,是全连接映射的关系。一个特殊的卷积层,相当于一个全连接层。

2023-09-03 23:20:04 290

原创 深度学习计算、pytorch神经网络基础--动手学AI

神经网络基础,使用和购买GPU

2023-07-24 14:33:59 550

原创 论文(异常检测)概念理解

一种网络流量异常检测论文中的概念理解

2023-05-19 17:16:56 318

原创 离群点检测算法

LOF,DBSCAN,IFOREST等算法介绍

2023-03-28 16:30:51 3977

原创 多层感知机--动手学AI

多层感知机,模型选择,正则化(权重衰退,丢弃法,数值稳定性)

2023-03-24 22:11:21 566

原创 安装-动手学AI

安装torch问题记录

2023-03-13 11:29:25 115

原创 线性神经网络--动手学AI

线性回归+softmax

2023-03-13 11:24:03 152

原创 引言-动手学AI

动手学深度学习-引言

2023-03-10 16:33:25 632

转载 python中yield的用法详解

生成器中的yield

2023-03-02 20:45:55 167

转载 创建列表方法

创建列表

2023-03-02 11:20:37 4651

转载 数据类型(7)----可变和不可变类型

不可变数据类型

2023-02-25 20:29:58 2937

原创 2022吴恩达机器学习-总结

目录

2023-02-22 19:57:18 325

原创 2022吴恩达机器学习第3课week3

强化学习

2023-02-22 19:47:38 1020

原创 2022吴恩达机器学习第3课week2

推荐算法

2023-02-21 22:13:19 823 1

原创 2022吴恩达机器学习第3课week1

异常检测

2023-02-20 21:42:57 884 2

原创 2022吴恩达机器学习第2课week4

决策树

2023-02-19 21:38:45 597

原创 2022吴恩达机器学习第2课week3

机器学习模型

2023-02-18 17:44:27 603

转载 矩阵分析-内积

内积空间

2022-11-12 18:02:00 3092

转载 2022吴恩达机器学习课程学习笔记(第一课第三周)

逻辑回归

2022-11-08 22:33:02 611

转载 2022吴恩达机器学习课程学习笔记(第一课第二周)

多元线性回归

2022-11-08 22:31:02 600

转载 2022吴恩达机器学习第2课week2

Tensorflow

2022-11-08 10:45:30 1136

转载 2022吴恩达机器学习第2课week1

神经网络

2022-11-04 21:52:46 569

原创 week2第一章---多变量线性回归---吴恩达机器学习笔记

多变量线性回归模型

2022-08-25 17:57:07 570

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除