自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1263)
  • 收藏
  • 关注

原创 TensorFlow之微分求导

在TensorFlow中,微分是个非常重要的概念。它们分别用于自动求导(计算梯度)和高效地处理数据。下面我将分别介绍这两个主题。

2025-05-13 16:44:12 65

原创 TensorFlow中数据集的创建

TensorFlow 的 tf.data.Dataset API 提供了一种灵活且高效的方式来加载和预处理数据

2025-05-09 17:11:23 340

原创 Keras模型保存、加载介绍

在TensorFlow中,保存和加载模型是机器学习工作流程中的重要步骤。这不仅有助于持久化训练好的模型以便后续使用,还可以实现模型的版本控制、部署和服务。SavedModel:推荐用于生产环境,因为它保存了完整的模型信息,并且具有良好的跨平台兼容性。HDF5:适用于简单的模型保存和加载需求,特别是当你需要与旧版本的 TensorFlow 或其他库兼容时。

2025-04-29 17:26:33 375

原创 Keras.datasets.fashion_mnist 函数介绍

keras.datasets.fashion_mnist是Keras中用于加载Fashion MNIST数据集的模块。Fashion MNIST数据集由Zalando公司提供,是一个用来替代经典MNIST手写数字数据集的图像数据集。与MNIST数据集中的数字图像不同,Fashion MNIST数据集包含的是服装相关的图像,更贴近实际应用场景。图像大小:每张图像为28x28像素的灰度图。类别数量:共有10个类别的服装。类别标签:T恤/上衣 (T-shirt/top)裤子 (Trouser)

2025-04-29 16:08:58 146

原创 TensorFlow中使用Keras

keras集成在tf.keras中。

2025-04-21 10:28:04 412

原创 REGEXP_REPLACE 函数的用法

参数说明source: string类型,要替换的原始字符串。pattern: string类型常量,要匹配的正则模式,pattern为空串时抛异常。replace_string:string,将匹配的pattern替换成的字符串。occurrence: bigint类型常量,必须大于等于0。大于0:表示将第几次匹配替换成replace_string。等于0:表示替换掉所有的匹配子串。其它类型或小于0抛异常。返回值。

2025-04-21 10:14:35 409

原创 Keras函数式API

Sequential 顺序模型封装了太多东西,不够灵活,如果你想定义复杂模型可以使用Keras的函数式API。使用函数式API可以直接操作张量,也可以把层当做函数来使用,接收张量并返回张量。

2025-04-17 19:59:27 201

原创 Keras使用1

评估标准 metrics. 评估算法性能的衡量指标.对于分类问题, 建议设置为metrics =[‘accuracy’].评估标准可以是现有的标准的字符串标识符,也可以是自定义的评估标准函数。优化器 optimizer:可以是Keras定义好的优化器的字符串名字,比如’rmsprop’也可以是Optimizer类的实例对象.常见的优化器有: SGD,训练模型: 使用.fit()方法,将训练数据,训练次数(epoch), 批次尺寸(batch_size)传递给fit()方法即可.

2025-04-11 11:39:02 269

原创 Keras简介

Keras 是一个高级神经网络API,它以简单性和快速实验设计为目标。Keras 既可以作为独立工具使用,也可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 等后端的接口。

2025-04-10 16:50:09 434

原创 TensorFlow实现逻辑回归

实现逻辑回归的套路和实现线性回归差不多, 只不过逻辑回归的目标函数和损失函数不一样而已.

2025-04-02 16:21:48 480

原创 TensorFlow 字符串操作

表示 Python 中的字节字符串(而非 Unicode 字符串)。

2025-04-02 15:15:37 273

原创 使用tensorflow实现线性回归

实现一个算法主要从以下三步入手:找到这个算法的预测函数, 比如线性回归的预测函数形式为:y = wx + b,找到这个算法的损失函数 , 比如线性回归算法的损失函数为最小二乘法找到让损失函数求得最小值的时候的系数, 这时一般使用梯度下降法.

2025-03-28 16:40:15 565

原创 TensorFlow之ragged tensor

Ragged Tensor(不规则张量) 是一种特殊的多维数据结构,用于处理维度长度不固定的数据(例如变长序列)。与常规张量(所有维度长度相同)不同,Ragged Tensor允许不同维度(如行、列)的元素数量不一致,特别适合处理自然语言、时间序列等变长数据。

2025-03-28 11:45:11 382

原创 TensorFlow的数学运算

在TensorFlow中既可以使用数学运算符号进行数学运算也可以使用TensorFlow定义好的数学运算方法。

2025-03-26 14:09:58 536

原创 TensorFlow之变量的使用

变量和常量相对, 变量定义之后可以改变值。变量通过tf.Variable来定义。

2025-03-26 11:11:54 332

原创 TensorFlow之sparse tensor

sparse tensor 稀疏tensor, tensor中大部分元素是0, 少部分元素是非0.

2025-03-25 19:59:03 251

原创 TensorFlow之常量的使用1

TensorFlow中定义的数据叫做Tensor(张量), Tensor又分为常量和变量。常量一旦定义值不能改变。使用tf.constant定义常量。

2025-03-25 19:37:37 482

原创 TensorFlow之Session

会话(Session)是用来执行图中的运算的上下文。所有的运算必须在一个会话中执行。在 TensorFlow 2.x 中,会话的概念已经被简化,默认情况下,所有的操作都会立即执行。

2025-03-20 17:15:07 220

原创 TensorFlow简介

会话是用来执行图中的运算的上下文。所有的运算必须在一个会话中执行。在 TensorFlow 中,数据是以张量的形式存储的,张量可以看作是一个 n 维数组。例如,标量是一维张量,向量是二维张量,矩阵是三维张量,依此类推。数据流图中的数据叫做tensor, 表示张量, 即N维数据, tensor在数据流图中流动表示计算的过程, 这也是tensorflow名字的由来.TensorFlow 中的计算是在图中进行的,图由节点(Nodes)组成,节点代表数学运算,节点之间通过边(Edges)相连,边传递张量。

2025-03-20 14:41:41 358

原创 如何用collect_set等函数实现map结构的数据

【代码】如何用collect_set等函数实现map结构的数据。

2025-03-14 17:24:21 149

原创 xgboost模型预测信用卡欺诈

本文探究了在机器学习中,面对一个大型的人与人之间交易的数据集,如何尽快处理大量数据并区分某交易记录是正常的用户行为还是潜在的信用卡欺诈行为,最终通过构建分类模型来对欺诈交易进行分类区分,并通过恰当的方式对构建的模型进行评估,来解决上述问题。数据内容为2017年Kaggle网站上的案例Credit Card Fraud Detection这一部分的数据集,数据集文件名称为creditcard.csv。

2025-03-11 19:53:31 440

原创 AdaBoost模型预测之信用卡违约(下)

【代码】AdaBoost模型预测之信用卡违约(下)

2025-03-10 19:27:43 208

原创 AdaBoost模型预测之信用卡违约(上)

本文探讨了如何使用Python进行信用卡违约数据的预处理、类别不平衡处理、AdaBoost模型建立、参数调优及模型评估,包括准确率、ROC曲线和特征重要性分析。以信用卡违约数据为例,该数据集来源于UCI网站,一共包30000条记录和25个变量,其中自变量包含客户的性别、受教育水平、年龄、婚姻状况、信用额度、6个月的历史还款状态、账单金额以及还款金额,因变量y表示用户在下个月的信用卡还款中是否存在违约的情况(1表示违约,0表示不违约)。

2025-03-07 17:49:46 493

原创 GBDT的改进之XGBoost算法介绍

XGBoost是由传统的GBDT模型发展而来的,GBDT模型在求解最优化问题时应用了一阶导技术,而XGBoost则使用损失函数的一阶和二阶导,而且可以自定义损失函数,只要损失函数可一阶和二阶求导。XGBoost算法相比于GBDT算法还有其他优点,例如支持并行计算,大大提高算法的运行效率;XGBoost在损失函数中加入了正则项,用来控制模型的复杂度,进而可以防止模型的过拟合;XGBoost除了支持CART基础模型,还支持线性基础模型;

2025-03-07 11:46:17 655

原创 XGBClassifiler函数介绍

XGBClassifier 是 XGBoost 库中用于分类任务的类。XGBoost 是一种高效且灵活的梯度提升决策树(GBDT)实现,它在多种机器学习竞赛中表现出色,尤其擅长处理表格数据。max_depth;用于指定每个基础模型所包含的最大深度,默认为3层learning_rate:用于指定模型迭代的学习率或步长,默认为0.1;即对应的梯度提升模型FTxF_T(x)FT​xFTxFT−1xυftxFT​xFT−1​xυft​x。

2025-03-06 19:44:40 1012

原创 非平衡数据的处理

ratio:用于指定重抽样的比例,如果指定字符型的值,可以是’minority’(表示对少数类别的样本进行抽样)、‘majority’(表示对多数类别的样本进行抽样)、‘not minority’(表示采用欠采样方法)、‘all’(表示采用过采样方法),默认为’auto’,等同于’all’和’not minority’。的观测值为(2,3,10,7),从图中的5个近邻随机挑选两个样本点,它们的观测值分别为(1,1,5,8)和(2,1,7,6),3.对于每一个随机选中的样本点,构造新的样本点。

2025-03-04 20:07:25 759

原创 GBDT算法的介绍

梯度提升树算法实际上是提升算法的扩展版,在原始的提升算法中,如果损失函数为平方损失或指数损失,求解损失函数的最小值问题会非常简单,但如果损失函数为更一般的函数,目标值的求解就会相对复杂很多。GBDT就是用来解决这个问题,利用损失函数的负梯度值作为该轮基础模型损失值的近似,并利用这个近似值构建下一轮基础模型。

2025-03-04 16:05:09 343

原创 Adaboost算法介绍

提升树与线性回归模型的思想类似,所不同的是该算法实现了多颗基础决策树f(x)的加权运算,Fx∑m1MαmfmxFm−1xαmfmxFxm1∑M​αm​fm​xFm−1​xαm​fm​x其中,F(x)是由M棵基础决策树构成的最终提升树,Fm−1xF_{m-1}(x)Fm−1​x表示经过m-1轮迭代后的提升树,αm\alpha_mαm​为第m棵基础决策树所对应的权重,fmx。

2025-02-27 19:23:47 749

原创 GrandientBoostingClassifier函数介绍

GradientBoostingClassifier 是 Scikit-learn 库中的一个分类器,用于实现梯度提升决策树(Gradient Boosting Decision Trees,GBDT)算法。GBDT 是一种强大的集成学习方法,能够通过逐步构建一系列简单的决策树(通常是浅树)来提高模型的预测性能。它在多个机器学习竞赛中表现出色,是用于分类和回归任务的流行选择。

2025-02-26 17:14:46 552

原创 AdaBoostClassifier函数介绍

AdaBoostClassifier 是 Scikit-learn 库中的一个分类器,用于实现 AdaBoost 算法。AdaBoost,或称 “自适应增强”,是一种流行的用于提升分类算法性能的集成学习方法。它通过组合多个简单的弱分类器(通常是决策树桩,即深度为 1 的决策树)来构建一个强分类器。

2025-02-26 16:49:53 197

原创 DBscan算法实战

在密度聚类算法的实战部分,我们将使用国内31个省份的人口出生率和死亡率数据作为分析对象。

2025-02-20 20:17:18 529

原创 preprocessing.scale函数介绍

preprocessing.scale 是 scikit-learn 库中的一个函数,用于在数据预处理中对特征进行标准化(标准差缩放)。标准化是指将数据调整到均值为零,方差为一的分布。这个过程有助于提升某些机器学习算法的性能,特别是那些依赖距离计算的算法,如支持向量机、k-means 聚类等。参数介绍X:要进行标准化处理的数据数组或者矩阵。通常是一个二维数组,其中行代表样本,列代表特征。axis:指定沿哪个轴进行数据标准化。默认值为 0,即对每一列(特征)进行标准化。

2025-02-20 10:35:28 540

原创 make_moon函数介绍

make_moons 是 scikit-learn 中用于生成合成数据集的函数,专门用于创建两个交错的半月形(或新月形)数据集。这种数据集常用于演示聚类算法(如 DBSCAN)或分类算法(如 SVM)在处理非线性可分数据时的性能。noise=0.1,

2025-02-19 15:42:42 525

原创 cluster.DBSCAN函数介绍

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,能够发现任意形状的簇,并有效识别噪声点。在 scikit-learn 库中,cluster.DBSCAN 是该算法的实现。p=None,

2025-02-19 14:36:57 418

原创 DBscan算法实战1

【代码】DBscan算法实战1。

2025-02-17 19:30:56 207

原创 DBscan算法理论知识

本期将介绍另一种聚类算法,那就是基于密度聚类的算法。该算法的最大优点是可以将非球形簇实现恰到好处的聚类,如下图所示,即为一个非球形的典型图形:如上图所示,右上角的样本点为一个簇,呈现球形特征,但是左下角的两个样本簇,存在交合状态,并非球形分布。如果直接使用K均值聚类算法,将图形中的数据,聚为三类,将会形成下图的效果:如上图所示,K均值聚类的效果很显然存在差错。如果利用本文所接受的DBSCAN聚类算法,将不会出现这样的问题。

2025-02-17 15:37:22 1080

原创 DBscan和kmeans的区别

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和K-Means是两种不同的聚类算法,它们在处理数据的方式和适用场景上存在一些关键区别:K-Means:是基于中心的聚类算法。它假设数据集的每个点都是独立和彼此固定的,然后通过最小化点到其聚类中心的距离来进行聚类。K-Means需要预先指定簇的数量K。DBSCAN:是基于密度的聚类算法。不需要预先指定簇的数量,而是通过设置参数(如epsilon和最小点数minPts)来识别

2025-02-14 11:09:08 394

原创 KMeans聚类实战2

使用拐点法和轮廓系数法,选取最佳k值。

2025-02-08 17:24:12 340

原创 sns.lmplot函数介绍

sns.lmplot 是 Seaborn 库中的一个函数,用于绘制线性回归模型图。它主要用于可视化两个变量之间的关系,并拟合一条回归线来展示它们的线性趋势。lmplot 支持多种回归模型,并允许通过分组变量进行分组绘图。x=None,y=None,data=None,hue=None,col=None,row=None,height=5,aspect=1,x_ci='ci',ci=95,order=1,size=None主要参数说明。

2025-02-06 14:18:14 327

原创 KMeans聚类实战1

【代码】KMeans聚类实战1。

2025-02-05 16:00:46 132

代码.zip

代码.zip

2023-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除