- 博客(38)
- 收藏
- 关注
原创 DAY 26 训练
●任务: 编写一个名为 describe_shape 的函数,该函数接收图形的名称 shape_name (必需),一个可选的 color (默认 “black”),以及任意数量的描述该图形尺寸的关键字参数 (例如 radius=5 对于圆,length=10, width=4 对于矩形)。●任务: 编写一个名为 print_user_info 的函数,该函数接收一个必需的参数 user_id,以及任意数量的额外用户信息(作为关键字参数)。3.函数的参数类型:位置参数、默认参数、不定参数。
2025-05-20 16:45:08
333
原创 Day 25 训练
Python 的异常处理机制赋予了程序强大的容错能力。当程序运行时遭遇意外情况(即异常),它不会直接崩溃,而是可以按照设计优雅地处理这些错误,甚至继续执行后续逻辑或以可控方式结束。当异常发生时,Python 会创建一个异常对象(通常是 Exception 类的子类实例)。如果异常代码位于 try 语句块中,程序会寻找并跳转到匹配的 except 语句块来处理异常。
2025-05-19 16:17:09
753
原创 Day 24 训练
元组是一种有序且不可变的数据结构,与列表类似,但它不能被修改。这种特性使得元组在需要固定数据结构的场景中非常有用,例如在深度学习中,模型的参数和形状一旦定义,就不应该被随意修改。在 Python 编程中,元组和 OS 模块是两个非常重要的概念。元组作为一种不可变的数据结构,广泛应用于各种场景,尤其是在深度学习中。可迭代对象是 Python 中一个非常核心的概念,它指的是那些能够一次返回其成员的对象,可以在循环中遍历它们。中,每个步骤被定义为一个元组,包含步骤的名称和处理对象。函数获取元组的长度。
2025-05-18 18:40:03
507
原创 产品经理入门(2)产品体验报告
按照产品方向分析各个指标——包括有效使用时间,市场规模等。3. 用户分析——对用户通过各项指标画像。4.产品体验——对各项功能与设计的体验。可以从各大平台搜产品介绍。重点在产品体验——优点。
2025-05-17 20:14:35
236
原创 DAY 23 训练
)])])],print("\nColumnTransformer (预处理器) 定义完成。")通过使用 pipeline,我们可以将整个机器学习工作流程封装成一个简洁的流程,提高代码的可读性和可维护性。同时,pipeline 还可以帮助我们防止数据泄露,简化超参数调优,提高模型的性能和稳定性。在实际项目中,我们可以使用 pipeline 来构建复杂的机器学习工作流,提高我们的工作效率。希望今天的分享能够帮助大家更好地理解和使用机器学习管道。@浙大疏锦行。
2025-05-17 17:36:37
660
原创 产品经理入门——认识产品经理
2.能力素养:沟通能力,学习能力,提炼能力,用户洞察,IQ/EQ/AQ,抗压能力。1.专业技术:业务分析,需求挖掘,需求分析,产品规划,产品设计,数据分析。3.加分项:行业领悟,商业思维,市场能力,领导力,项目管理。大多为功能型产品经理。
2025-05-16 20:55:33
239
原创 Day 22 训练
泰坦尼克号沉船事件是历史上著名的海难事故。通过对乘客信息(如年龄、性别、船票等级等)进行分析,我们可以构建机器学习模型预测乘客的生存概率。这不仅是一个经典的机器学习案例,还能帮助我们理解不同因素对生存率的影响。
2025-05-16 18:34:40
631
原创 Day 21 训练
本文介绍了几种常见的降维算法,包括无监督的 PCA 和 t-SNE,以及有监督的 LDA。通过实际代码演示了它们的应用,并比较了它们在随机森林分类器上的性能。PCA 适用于线性数据,t-SNE 适用于高维数据的可视化,而 LDA 适用于有监督的分类任务。在实际应用中,可以根据数据的特点和任务的需求选择合适的降维算法。@浙大疏锦行。
2025-05-15 18:59:16
949
原创 DAY 20 训练
选取前 k 个奇异值后,相应地取 U 矩rix 的前 k 列、Σ 矩阵的前 k 个奇异值以及 VT 矩阵的前 k 行,构建近似矩阵 Ak=UkΣkVTk。正交矩阵是一类特殊矩阵,其列向量彼此正交且为单位向量。矩阵分解的本质是将复杂矩阵拆解为多个简单矩阵的乘积形式,它能挖掘数据的潜在结构,实现数据的降维、压缩以及特征提取,是众多数据分析与机器学习算法的核心环节。U 的列向量与 V 的列向量分别对应左右奇异向量,它们与奇异值配合,刻画出数据的主要模式与结构,是理解数据特征、挖掘数据价值的关键要素。
2025-05-14 16:20:01
859
原创 Day 19 训练
在本博客中,我们将通过一个信用违约数据集的实际案例,深入学习并实践六种常见的特征降维方法:方差筛选、皮尔逊相关系数筛选、Lasso筛选、树模型重要性筛选、SHAP重要性筛选以及递归特征消除(RFE)。其核心思想是:特征的方差反映了数据的变化程度,方差很小的特征几乎没有任何变化,对模型的预测帮助不大。SHAP重要性筛选后,模型的准确率保持在76%左右,正类的精确率和召回率与树模型重要性筛选相当。树模型重要性筛选后,模型的准确率保持在76%左右,正类的召回率有所下降,但精确率有所提高。对于分类问题,我们使用。
2025-05-13 16:29:40
793
原创 DAY 18 训练
第一个簇 - 优质信用稳健财务型特征总结:在债务合并用途上表现一致,几乎无破产记录,信用问题极少,资金用途集中且很少涉及特殊类别。财务状况稳定,信用良好,资金流向明确。定义依据:各项关键财务和信用指标表现优异,显示出良好的财务自律性和信用履约能力,所以定义为 “优质信用稳健财务型”。第二个簇 - 较稳健但信用有分化财务型特征总结:多数无债务合并需求,破产情况少见,但信用问题上存在个体差异,资金用途有一定分散性。整体财务状况相对稳定,但在信用和资金使用方向上不如第一个簇表现一致。定义依据。
2025-05-12 16:29:15
688
原创 DAY 17 训练
聚类算法是一种无监督学习方法,通过将相似的数据样本自动分组到不同的簇(cluster)中,使得同一簇内的样本相似度高而不同簇间的样本差异大。常见的聚类算法包括K-means(基于距离划分)、DBSCAN(基于密度划分)和层次聚类(基于树状结构划分),广泛应用于客户分群、异常检测、图像分割等领域。以下是三种常用的聚类效果评估指标,分别用于衡量聚类的质量和簇的分离与紧凑程度:KMeans 是一种基于距离的聚类算法,需要预先指定聚类个数,即 。其核心步骤如下:先对数据标准化对每个k值进行训练评估并用图像可视
2025-05-11 23:57:15
806
原创 Day 16 训练
NumPy 数组是数据处理的核心工具,其多维结构与丰富操作为数据预处理、特征工程等提供了便利。SHAP 值则是模型解释的关键方法,帮助我们理解复杂模型的决策逻辑。在数据科学实践中,二者相辅相成,共同助力数据分析与模型优化。掌握 NumPy 数组操作与 SHAP 值计算,对于深入探索数据科学领域具有重要意义。@浙大疏锦行。
2025-05-10 12:25:27
884
原创 Day 15 训练
这段代码完整地展示了从数据加载、预处理、模型训练、优化、评估到结果可视化的流程。通过贝叶斯优化提升了随机森林的性能,并通过SHAP解释了模型的预测结果,使整个机器学习过程更加透明和可解释。@浙大疏锦行。
2025-05-09 23:47:29
744
原创 Day 14 训练
旨在解释复杂机器学习模型(如随机森林、梯度提升树、神经网络等 “黑箱” 模型)对特定输入的预测原因。其核心基于合作博弈论中的 Shapley 值。这段代码是用于绘制SHAP(SHapley Additive exPlanations)特征重要性图的Python代码,主要使用了。
2025-05-08 21:55:00
1083
原创 Day 13 训练
处理不平衡数据集时,修改类别权重是一种有效的算法层面策略。其核心是在模型训练阶段调整不同类别样本对损失函数的贡献,尤其是提升少数类样本的权重,以解决模型对多数类的过度偏向问题。重点探讨了在的中通过参数实现这一目标的方法。参数的三种主要设置方式:所有类别权重相同,默认情况下模型不区分多数类和少数类,在不平衡数据上会导致模型偏向多数类。:算法自动根据训练数据中各类别的频率反比调整权重,使少数类样本获得更高权重,从而在训练中放大其重要性,促使模型提升对少数类的识别能力。:允许手动为每个类别指定权重,如。
2025-05-07 11:35:00
812
原创 python简易实现勒索病毒
本次实验主要使用Crypto库实现简易的加密解密定义了一个名为Descrypt的函数,接受一个参数filename,表示要解密的文件路径。
2025-05-06 19:39:57
782
原创 Day 12 训练
超参数调整专题21.三种启发式算法的示例代码:遗传算法、粒子群算法、退火算法2.学习优化算法的思路(避免浪费无效时间)作业:今天以自由探索的思路为主,尝试检索资料、视频、文档,用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑,帮助更深入的理解。
2025-05-06 17:12:45
811
原创 Day11 训练
今天我们要开始超参数调整的专题了,回归下之前课程说的几个核心知识点1.模型 = 算法 + 实例化设置的外参(超参数)+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证,就需要划分验证集和测试集,但是很多调参方法中都默认有交叉验证,所以实际中可以省去划分验证集和测试集的步骤。每个模型都有自己的超参数,每个超参数都有一定的意义。但是如果为了精度和科研 我们完全无需学习。只需要用好调参工具即可。
2025-05-05 15:01:26
576
原创 Day 10 训练
今日任务:把之前所有的处理手段都处理一遍,回顾一下全流程,以后就用处理好的部分直接完成开始机器学习建模(简单建模,不涉及调参)和评估。
2025-05-04 17:39:18
779
原创 Day 9 训练
热力图原理 :颜色映射:将数值大小映射到颜色梯度(如-1到1映射为蓝到红)矩阵展示:每个单元格代表两个变量的相关系数颜色强度:颜色越深(红/蓝)表示相关性越强对角线对称:变量与自身的相关性为1(对角线)关键参数说明 :annot=True :在单元格中显示具体数值cmap :指定颜色映射方案(coolwarm/RdBu等)vmin/vmax :设置颜色映射范围fmt :控制数值显示格式(如’.2f’保留两位小数)应用场景 :特征相关性分析数据聚类结果展示。
2025-05-03 15:39:46
396
原创 Day8 训练
从代码层面介绍dict对象常用函数以及操作dict.values() # 获取所有值dict.items() # 获取所有键值对dict.get(key) # 安全获取值dict.update() # 批量更新dict.pop(key) # 删除键值对。
2025-05-02 15:59:40
137
原创 Day4 训练
完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯。代码中特别展示了pandas处理数据缺失值的完整流程:从检查、分析到填充,这是实际数据分析项目中最常见的任务之一。按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值。1.打开数据(csv文件、excel文件)2.查看数据(尺寸信息、查看列名等方法)5.利用循环补全所有列的空值。4.众数、中位数填补空值。
2025-04-28 15:43:52
154
原创 DAY3 训练
1.创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。4.修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。1.定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。6.计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。2.获取列表中的第一个元素,并将其存储在变量 first_tech 中。
2025-04-27 15:24:40
634
原创 Day2 训练
题目: 定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。题目: 定义两个字符串变量,str1 赋值为 “Hello”,str2 赋值为 “Python”。
2025-04-26 17:13:32
389
原创 Day1 训练
这段代码演示了Python基础算术运算和格式化输出:首先定义num1=20和num2=8两个整数变量,然后进行加法、除法和取模运算,结果分别赋值给a、b、c变量,最后使用f-string将运算式和结果格式化输出,展示了20+8=28、20/8=2.5和20%8=4三种基本运算。这段代码展示了Python中字符串变量与格式化输出的三种方式:1) 使用f-string嵌入变量输出姓名和城市;然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。
2025-04-25 18:30:52
412
原创 pytorch -加载模型用于测试
这段代码的作用是对一张图片进行分类预测,使用了一个预先训练好的神经网络模型。:将模型设置为评估模式,关闭 Dropout 等训练时的行为。是 PyTorch 的计算机视觉扩展库,用于处理图像数据。是 Python 的图像处理库,用于打开和操作图像。用预测结果的索引从类别标签列表中找到对应的类别名称。应用预处理流程到图像,并打印预处理后的图像形状。:将图像转换为 PyTorch 的张量格式。打印预测的类别索引和对应的类别名称。获取最大值的索引(即分类结果)。,以便符合模型的输入要求(将图像张量的形状调整为。
2025-02-27 18:48:47
352
原创 pytorch-模型的加载,迁移学习,保存
代码的主要目的是加载预训练的 VGG16 模型,并修改其分类器部分以适配 CIFAR-10 数据集。修改后的模型可以直接用于 CIFAR-10 的分类任务,而无需重新训练整个 VGG16 模型。这段代码展示了两种不同的模型加载方式,并打印了模型的结构。
2025-02-27 18:07:23
1925
原创 剖解pytorch的CNN例子,了解函数Sequential,Conv2d,Maxpool2d,Flatten
数据加载:使用DataLoader加载 CIFAR-10 数据集,并分批处理。模型定义:定义了一个包含卷积层、池化层和全连接层的 CNN 模型。训练过程使用作为损失函数,SGD作为优化器。通过 10 个 epoch 的训练,模型逐渐优化。优化与可视化:每完成一个 epoch,打印当前的损失值,用于监控训练过程。这段代码是一个简单的深度学习训练示例,适用于初学者理解和学习 CNN 的基本原理和 PyTorch 的使用。解析函数Sequential 的使用场景和原理。
2025-02-27 17:02:07
848
原创 pytorch的dataloader函数
这段代码的主要目的是加载 CIFAR-10 数据集,并将数据集中的图像以批量的形式可视化到 TensorBoard 中。通过DataLoader和,可以方便地加载和可视化数据。TensorBoard 的数据可以使用以下命令查看:bash复制打开浏览器并访问即可查看可视化结果。DataLoader是一个便捷高效的工具,用于在深度学习任务中加载和管理数据。它通过批量加载、数据打乱、多线程支持等功能,满足了不同场景下的数据处理需求。
2025-02-27 16:26:54
1388
原创 pytorch的transfoms函数
torchvision.transforms` 中的变换方法(如 `ToTensor`、`Normalize`、`Resize` 等)都是 `torch.transforms` 模块中的类对象。- `transforms.ToTensor()` 背后实现的是将图像的像素值从 `[0, 255]` 转换为 `[0, 1]`,并将图像的通道顺序从 `(H, W, C)` 转换为 `(C, H, W)`。- **随机裁剪**:使用 `transforms.RandomCrop` 对图片进行随机裁剪。
2025-02-27 16:07:20
381
原创 简单的深度学习预测
这段代码实现了一个完整的深度学习流程,包括数据加载、模型定义、训练、验证和测试。它使用 PyTorch 框架,构建了一个简单的神经网络模型,用于处理 COVID-19 数据集。这段代码是一个完整的深度学习训练流程,用于处理COVID-19数据集,训练一个简单的神经网络模型,并对测试数据进行预测。:PyTorch 提供的优化器模块,用于更新模型参数。:对测试数据进行预测,并将结果保存到 CSV 文件中。:PyTorch 提供的工具,用于加载和处理数据集。遍历训练数据,计算损失,反向传播,更新参数。
2025-02-11 22:17:27
1607
原创 简单的线性回归模型
这段代码实现了一个完整的线性回归流程,包括数据生成、模型训练、损失计算和结果可视化。修正后的代码可以正确运行并展示训练后的线性拟合效果。
2025-02-09 11:13:38
630
1
空空如也
购买课程下架,怎么都看不了
2023-08-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人