自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~~~包你满意噢~~

这是聚焦算法技术的博客,分享机器学习、深度学习、优化算法等领域的经典解析与前沿实战,理论结合实战解析算法逻辑。面向不同阶段开发者,涵盖模型调参、算法优化等方向,致力于成为技术交流平台,助力各位算法技术成长与探索数据智能边界。

  • 博客(119)
  • 收藏
  • 关注

原创 融合Transformer与AutoEncoder的时间序列降维

本文提出了一种结合Transformer和AutoEncoder的时间序列降维方法。通过Transformer的自注意力机制捕捉时间序列中的长期依赖关系,再使用AutoEncoder将高维时间序列压缩为低维向量。实验采用三阶段合成数据验证,结果显示该方法能有效区分不同时间状态,重构误差较小。与PCA等线性方法相比,该非线性方法更适合处理复杂时间模式。文章详细介绍了模型架构、训练过程和可视化分析,可为读者们在时间序列的降维上提供了新思路。

2025-12-15 20:36:52 610

原创 一文总结及其机器学习十大距离公式!!

本文系统介绍了机器学习中常用的十大距离度量方法,将其分为四大类:1. 基于向量的距离(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离)2. 角度与方向相关(余弦距离)3. 概率分布相关(KL散度、JS散度、Wasserstein距离)4. 集合与离散数据(汉明距离、Jaccard距离)每种距离都配有数学定义、适用场景、Python实现和可视化示例,展示了它们在特征相似性计算、分类聚类、推荐系统等任务中的应用特点。文章特别强调了不同距离度量的几何意义和计算特性,帮助读者理解如何根据具体问题选择合适的距离度

2025-12-15 16:45:12 743

原创 CNN+BiLSTM !!最强序列建模组合!!!

CNN+BiLSTM组合模型在处理时序数据时展现出独特优势。该模型通过一维卷积提取局部特征,结合双向LSTM捕捉长程依赖,有效解决了序列建模中局部模式识别与全局关联分析的双重需求。实验结果表明,该组合在文本分类、生理信号分析等任务中性能优异,测试准确率达较高水平。可视化分析显示模型能学习到良好的特征表示空间,各类别区分明显。优化方向包括引入注意力机制、改进卷积结构等。该方案特别适用于中等长度、兼具局部特征和长程关联的序列任务。

2025-12-08 16:02:17 1270

原创 万字干货!如何利用pytorch搭建一个完整的深度学习项目?

本文为PyTorch深度学习初学者提供完整项目构建指南,包括6个核心模块:1. 数据集加载(Dataset/DataLoader)2. 数据预处理(transforms/Normalization)3. 模型构造(Module类继承)4. 模型训练(损失计算/反向传播)5. 模型保存与加载(.pt/.pth文件)6. 模型测试。重点讲解如何自定义数据集类、实现数据归一化、构建含参/不含参网络层,并提供了完整的训练测试代码模板。文章采用面包制作类比解释数据处理流程,适合Python基础薄弱但想快速入门。

2025-09-05 15:37:13 1003

原创 一文详解深度学习中神经网络的各层结构与功能!

本文介绍了深度学习中卷积神经网络的核心组件及其工作原理:1)卷积层通过局部连接和权重共享提取特征,采用不同卷积核可进行高通/低通滤波;2)池化层(最大/平均)实现特征降维和不变性;3)批归一化层解决梯度问题;4)激活函数(Sigmoid/Tanh/ReLU)引入非线性;5)全连接层将特征映射到分类空间。文章详细阐述了各层的数学原理、参数计算和应用场景,帮助理解CNN从特征提取到分类的完整流程。

2025-09-05 14:50:34 1440 1

原创 Llama v3 中的低秩自适应 (LoRA)

本文介绍了如何在消费级硬件上微调大语言模型(LLM)的实用方案。作者详细讲解了如何利用LoRA(低秩自适应)技术在RTX 4090笔记本上微调80亿参数的Llama 3模型,包括环境搭建、数据预处理、训练参数设置等关键步骤。文章特别区分了训练和推理的区别,指出LoRA技术通过仅训练参数映射关系而非全量参数,能大幅降低计算需求。实验部分展示了从模型加载、数据集创建到训练循环和模型保存的完整流程,并提供了调试技巧。最后通过推理测试验证了模型成功学习到自定义知识,同时解释了tokenization的工作原理。

2025-09-03 23:21:27 1482 1

原创 使用 Terraform、AWS 和 Python 构建无服务器实时数据管道

本文介绍了使用AWS无服务器服务构建实时数据管道的实践方案。通过整合S3、DynamoDB、Glue、DataBrew和Athena等服务,并使用Terraform进行基础设施即代码部署,构建了一个完整的实时数据处理流程。管道实现了从数据采集、去重清洗到查询分析的全流程自动化,特别是利用DynamoDB流触发Lambda函数实现实时数据处理。项目验证了通过删除重复email字段清洗数据的有效性,展现了AWS无服务器数据服务的强大功能与Terraform在云基础设施管理中的优势,为数据工程实践提供了价值

2025-09-03 22:58:08 1027

原创 突破超强回归模型,高斯过程回归!

本文以冰淇淋销量预测为例,通俗易懂地讲解了高斯过程回归(GPR)的核心原理。GPR不同于传统回归方法,它通过"先验-后验-预测"的贝叶斯框架,不仅能给出预测值,还能量化预测的不确定性。文章详细拆解了GPR的三个关键步骤:先验阶段用高斯过程定义函数可能形状;训练阶段用数据修正先验得到后验分布;预测阶段输出预测均值及置信区间。特别强调了核函数选择和不确定性度量的重要性,通过温度-销量预测的实例,展示了GPR在数据附近预测准确、远离数据时给出警告的智能特性,体现了其在实际应用中的优势。

2025-09-01 21:33:05 859

原创 一文通透!为什么 DBSCAN 能检测任意形状的簇 ?

DBSCAN算法能够检测任意形状的簇,主要基于其独特的密度聚类原理。与传统K-Means等基于中心距离的算法不同,DBSCAN通过定义ε-邻域和核心点来构建局部密度关系,利用密度可达和密度相连的概念将满足密度条件的点连接成簇。这种机制不依赖预设的簇形状或数量,只要数据点的局部密度能够形成连通路径,无论是环形、月牙形还是多分支结构,都能被完整识别为一个簇。实验显示,在相同月牙形数据集上,K-Means会产生直线分割而DBSCAN能准确识别原始形状。该算法的核心优势在于用密度连通性替代中心距离。

2025-09-01 20:49:03 1192

原创 数据标准化与归一化的区别与应用场景

数据标准化(Z-score 标准化)通过线性变换使数据均值为 0、标准差 1,保留原始分布形态,适用于依赖距离度量(如 KNN、SVM)或有异常值的数据。数据归一化(Min-Max 缩放)将数据压缩到固定区间(如 [0,1]),保持相对比例,适合神经网络和数值范围敏感的算法。主要区别在于标准化基于均值和标准差,归一化基于极值。标准化对异常值更稳健,而归一化保留物理意义。选择时需结合算法特性:标准化适合回归、PCA 等模型,归一化更适合神经网络和图像处理。

2025-08-09 22:55:21 945

原创 最强总结!十大非参数统计方法 (下)

本文介绍了5种机器学习核心算法原理与应用:1.支持向量机(SVM):基于最大间隔原则,通过核函数处理非线性数据,适用于高维分类/回归任务;2.最近邻图(NNG):构建数据相似性图结构,用于无监督学习中的聚类和降维;3.核主成分分析(KPCA):非线性PCA扩展,通过核技巧实现高维特征提取;4.自适应平滑法:动态调整局部平滑参数,适用于非均匀数据去噪;5.分位数回归:估计条件分位数而非均值,能分析变量在不同分布区间的异质性影响。这些方法各具特色,适用于不同数据特征的分析需求。

2025-08-09 20:49:10 842

原创 最强总结!十大非参数统计方法 (上)

非参数统计方法摘要 非参数统计方法不依赖数据分布假设,适用于未知分布、非正态数据或存在异常值的情况。本文介绍了K-近邻、核密度估计、非参数回归、决策树和随机森林等核心方法。K-近邻通过邻近样本投票预测,核密度估计用叠加核函数估计概率密度,非参数回归可拟合任意形状关系。决策树模拟人类决策过程,而随机森林通过多树集成提高准确性。这些方法灵活性高,能捕捉复杂模式,但计算成本较高。案例展示了各方法在分类、回归和特征分析中的应用,包括鸢尾花分类、数据密度估计和乳腺癌特征重要性分析。非参数方法在数据驱动的应用中日益重要

2025-08-08 23:24:50 1158

原创 从学讲透一个强大算法模型,LightGBM !!

本文详细介绍了LightGBM的原理、优化技术和应用案例。LightGBM是一种高效的梯度提升决策树框架,具有速度快、内存占用低、准确度高等特点。其核心原理包括加法模型、梯度下降和叶子节点优化,通过Leaf-wise生长策略、直方图优化、GOSS采样和EFB特征捆绑四大关键技术实现性能提升。文章以UCI Adult数据集为例,演示了从数据预处理、EDA分析到模型训练、评估和超参数调优的全流程。实验结果显示,优化后的模型在测试集上准确率达到0.87,AUC为0.92,并通过特征重要性分析识别出关键预测变量。

2025-08-08 22:46:11 2403

原创 什么是键值缓存?让 LLM 闪电般快速

KV缓存是大语言模型(LLMs)实现高效推理的关键技术。在自回归生成过程中,KV缓存通过存储历史token的键(K)和值(V)矩阵,避免了注意力机制中的重复计算,将时间复杂度从O(n²)优化到接近O(n),显著提升长文本生成效率。其核心原理是"计算新token+复用历史缓存",在保证输出一致性的同时大幅减少计算量。虽然会带来内存消耗增加的问题,但可通过滑动窗口、量化等技术进行优化。KV缓存已成为支撑聊天机器人、代码补全等实时交互应用的核心技术,是LLMs推理过程中不可或缺的。

2025-08-07 23:23:06 1009

原创 vLLM:彻底改变大型语言模型推理延迟和吞吐量

vLLM是一个突破性的开源库,专门用于优化大型语言模型(LLM)的推理和服务效率。它通过两项核心技术——分页注意力机制和连续批处理,解决了传统LLM部署中的关键瓶颈问题。分页注意力机制借鉴操作系统内存管理思想,将KV缓存划分为固定大小的块,显著减少90%的内存浪费;连续批处理则实现动态请求调度,最大化GPU利用率,使吞吐量提升高达24倍。该工具还提供OpenAI兼容API、广泛模型支持、多GPU部署等丰富功能,成为生产环境中部署LLM的理想选择,特别适合高吞吐量

2025-08-07 22:38:08 1452

原创 模型蒸馏(Distillation):原理、算法、应用

知识蒸馏是一种将复杂大模型(教师模型)的知识迁移到轻量小模型(学生模型)的技术,旨在解决大模型在边缘设备部署时面临的计算资源限制问题。该方法通过提取教师模型中的响应、特征和关系知识,采用离线、在线或自蒸馏等训练方案,结合对抗学习、多教师等算法,实现模型压缩而不显著损失性能。知识蒸馏已成功应用于图像识别、自然语言处理(如DistilBERT)和语音识别(如Amazon Alexa)等领域,显著提升了模型在资源受限设备上的部署效率。这一技术为深度学习模型的实际应用提供了高效解决方案。

2025-08-04 23:01:21 1909

原创 构建属于自己的第一个 MCP 服务器:初学者教程

MCP服务器作为AI与外部世界的桥梁,解决了大模型无法获取实时数据的问题。本文详细介绍了如何用TypeScript构建一个天气MCP服务器,包括项目初始化、工具定义、API集成等步骤。通过Open-Meteo API获取实时天气数据,并实现与VSCode和GitHub Copilot的集成,使AI能够回答实时天气查询。该方案不仅适用于天气查询,还可扩展至其他实时数据领域,为AI应用提供了更强大的功能支持。

2025-08-04 16:20:34 1086

原创 如何最简单、通俗地理解线性回归算法? 线性回归模型在非线性数据上拟合效果不佳,如何在保持模型简单性的同时改进拟合能力?

线性回归是统计学和机器学习领域的基础算法,通过构建变量间的线性关系模型实现预测分析。其核心是最小二乘法估计参数,并依赖误差项的正态性、同方差性等统计假设。模型评估采用决定系数、均方误差等指标,同时需警惕多重共线性和异常值问题。实际应用中包含数据清洗、特征工程、正则化处理等关键步骤。线性回归在统计推断与机器学习预测中均具重要价值,是理解复杂模型的基础,其偏差-方差权衡原理对构建稳健预测模型具有指导意义。

2025-08-01 21:37:07 687

原创 anaconda、conda、pip、pytorch、torch、tensorflow到底是什么?它们之间有何联系与区别?

本文系统梳理了科学计算和机器学习领域的关键工具链,重点分析了软件包管理器(conda与pip)、集成环境(Anaconda)及深度学习框架(PyTorch/TensorFlow)的技术特性与应用场景。文章指出conda在跨语言依赖管理和环境隔离方面的优势,对比pip的轻量级特点;解析Anaconda作为一站式科学计算平台的生态价值;深入比较PyTorch动态图与TensorFlow静态图的设计哲学及适用场景。通过阐述工具间的协同使用方法,为不同应用需求下的技术选型提供了实践指导.

2025-08-01 13:34:50 1059

原创 一文讲透一个强大算法模型-多项式回归 !!

多项式回归是一种非线性拟合方法,通过多项式函数描述变量间的非线性关系。本文以一个房价预测案例展开,对比了不同阶数多项式对非线性数据的拟合效果。核心步骤包括:1)确定多项式阶数;2)构造设计矩阵;3)最小二乘法求解参数;4)模型评估。结果表明,适当阶数的多项式能有效捕捉非线性趋势,但高阶易导致过拟合。通过交叉验证选择最佳阶数,并引入L1/L2正则化优化模型。该方法在数据呈现非线性特征时比线性回归更具优势,能实现更准确的预测建模。

2025-07-05 16:06:20 1130

原创 讲透一个强大算法模型,贝叶斯回归 !!

贝叶斯回归是一种基于贝叶斯思想的回归分析方法,它将模型参数视为随机变量而非固定值。与传统回归提供确定参数不同,贝叶斯回归输出参数的概率分布,既能估计变量间关系,又能量化预测的不确定性。其核心流程包括:设定参数的先验分布,通过观测数据计算似然函数,再结合两者得到后验分布。预测时综合考虑参数不确定性和观测噪声,给出预测值的概率分布。该方法特别适用于数据量小、噪声大的场景,可通过sklearn的BayesianRidge实现,并支持超参数自动优化。贝叶斯回归的优势在于提供预测置信区间,帮助评估模型可靠性。

2025-07-05 14:58:21 1309

原创 超全总结!Pythorch 构建Attention-lstm时序模型 !!

本文介绍了使用PyTorch构建Attention-LSTM时序模型的实践案例。文章首先阐述了LSTM网络的原理,包括输入门、遗忘门、输出门等核心机制,并讲解了Attention机制如何帮助模型聚焦关键信息。作者提供了完整的PyTorch实现代码,通过正弦波数据集进行时序预测,包含数据准备、模型构建、训练过程及结果可视化。实验结果显示,模型损失值虽然趋于收敛,但预测结果未能有效捕捉数据周期性特征。文章最后分析了可能的原因并建议优化方向,包括调整模型复杂度、超参数等,为读者提供了时序建模的实用参考。

2025-06-27 14:04:38 937

原创 FastAPI框架的10个重要知识点总结

1. 数据验证采用Pydantic实现自动化类型转换和复杂校验,支持嵌套模型和自定义验证器;2. 文档系统自动生成交互式API文档(Swagger/ReDoc);3. 依赖注入机制简化共享逻辑复用;4. 异步支持提升并发性能;5. 完善的中间件、异常处理和认证授权体系。该框架通过Starlette底层优化和Uvicorn部署支持,展现出媲美Go/Node.js的高性能特性,成为现代Python Web开发的优选方案。

2025-06-21 21:49:01 636

原创 时间序列预测、分类 | 图神经网络开源代码分享(上)

本文系统梳理了图神经网络(GNN)在时间序列预测、分类等任务中的最新研究进展。GNN通过构建节点和边的关系网络,能够有效捕捉时间序列中复杂的时空依赖关系:在多变量序列中建模变量间的相互影响,在时间维度上分析动态演化规律。文章从三个维度详细介绍了现有方法:1)空间依赖建模(谱GNN、空间GNN及混合方法);2)时间依赖建模(循环模型、卷积模型、注意力机制等);3)预测架构融合(离散与连续模型)。同时提供了多个典型模型的论文链接和开源代码资源。

2025-06-21 14:53:54 941

原创 如何使用 neptune.ai 优化模型训练期间的 GPU 使用率

GPU性能优化是深度学习训练的关键环节。GPU利用率、内存占用和功耗是评估性能的核心指标。通过混合精度训练、批次大小调整和数据流水线优化可以显著提升GPU效能。研究显示,不同深度学习框架的GPU利用率存在明显差异。使用Neptune等工具监控资源使用情况能够有效识别瓶颈,Brainly案例证明优化数据预处理流程可将GPU利用率从25%提升至更高水平。建议开发者关注内存使用、采用混合精度、分析CPU/GPU负载平衡,并系统评估各优化措施的实际效果。

2025-06-20 19:13:00 890

原创 Hugging Face 预训练模型:找到最适合你任务的模型

介绍了 Hugging Face 预训练模型在解决机器学习问题时的优势,其 2017 年上线后推出的 Transformers 库及 NLP 资源让高质量 NLP 模型更易使用。它专注于 NLP 任务,模型能理解语义和语境。博客还介绍了模型选择前要明确用例,可通过其平台筛选模型,以及设置环境的方法,还列举了支持的基本 NLP 任务,阐述了 Transformer 架构和 Hugging Face 的应用,最后以创建英德翻译器为例展示了模型使用、微调及评估过程。

2025-06-20 16:14:42 1352

原创 隐语杯--医疗大模型隐私微调竞赛全攻略:思路、代码与案例解析

本次医疗大模型隐私微调竞赛聚焦医疗AI领域的核心矛盾——模型精度与数据隐私的平衡。竞赛提供4万条医疗对话训练数据及两种验证集,要求参赛者在微调过程中兼顾下游任务精度和隐私保护。通过LoRA等高效微调方法减少计算资源消耗,结合数据匿名化、差分隐私和对抗训练等技术防止模型记忆敏感信息。示例代码展示了从数据处理到模型训练的全流程实现,包括隐私保护评估机制。参考案例(如约翰霍普金斯大学的差分隐私应用)验证了技术可行性。解决方案需在医疗语义理解、隐私风险量化等方面持续优化,推动医疗AI在隐私合规前提下落地应用。

2025-06-19 14:31:43 898 1

原创 注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

本文系统梳理了注意力机制在深度学习中的演进与应用。从2017年Transformer的突破性成果切入,详细解析了自注意力机制的计算流程及其在自然语言处理中的优势;继而阐述了多头注意力通过并行视角增强特征捕获能力的原理。在计算机视觉领域,重点剖析了通道注意力(SENet、ECA)和空间注意力(CBAM、STN)的技术特点,展示了如何通过权重分配聚焦关键信息。文章还对比了不同注意力机制的适用场景,如通道注意力筛选语义特征,空间注意力定位关键区域。

2025-06-18 21:55:27 2204

原创 一文搞清楚如何使用 LoRA 微调(LLM)

LoRA(低秩自适应)是一种高效的大型语言模型微调技术,通过仅调整少量关键参数而非全模型实现任务适配。本文演示了使用LoRA微调Gemma-2-9b-it模型生成名言标签的完整流程:1) 安装PEFT等库并加载8位量化模型;2) 冻结模型参数并注入LoRA适配器;3) 配置低秩矩阵参数(r=16)和注意力目标层;4) 预处理数据集并启动高效训练;5) 测试推理效果并分享轻量适配器。实验表明,LoRA只需训练原模型0.1%的参数即可获得优秀性能,大幅降低了计算资源需求。该方法通用性强,适用于各类大语言模型

2025-06-18 15:28:01 1221

原创 讲透 RNN 到 Transformer !!!

本文探讨了深度学习在序列数据处理中的演进历程,从RNN到Transformer的技术突破。RNN通过循环连接解决了序列时序依赖问题,但存在顺序处理效率低、长距离依赖难以捕捉等局限。Attention机制的引入打破了RNN的局限性,实现了全局信息交互。Transformer在此基础上完全摒弃循环结构,通过自注意力机制实现了并行计算和高效的长序列处理,其核心创新包括多头注意力、位置编码等模块。文章通过一个两位数加法任务案例,对比展示了RNN和Transformer的具体实现差异,突出了Transformer在结

2025-06-17 18:49:42 1022

原创 Pandas中merge、concat、join 区别 !!

详细解释了Pandas提供了三种数据合并方法:merge基于键连接数据(类似SQL JOIN),concat沿轴堆叠对象(无视连接键),join基于索引或列合并。merge最灵活但性能较差,concat适用于相同结构数据的高效堆叠,join擅长索引对齐的快速合并。实际应用中应根据数据结构、连接需求和性能考虑选择合适方法:复杂键连接用merge,简单堆叠用concat,索引对齐用join。优化技巧包括设置索引、过滤数据、一次合并等,合并时可通过suffixes处理重复列名。掌握三者差异可提升数据处理效率。

2025-06-17 16:11:31 1455

原创 PDF转Markdown基准测试

本文对比评测了5种PDF转Markdown工具的性能表现。测试采用结构化基准文件,重点评估格式保留、语义转换质量及处理效率。结果显示:PyMuPDF4LLM速度最快但表格处理不佳;ChatGPT-4o转换质量最佳但响应较慢;marker表格解析精准但依赖GPU加速;Docling表现不稳定;MarkItDown仅输出纯文本。实验证明,PDF的非结构化特性导致传统提取方法存在格式丢失问题,而Markdown的结构化优势能显著提升LLM处理效果,在RAG系统中使检索准确率提升27%,人工校对效率提高40%。

2025-06-14 21:59:02 1206 1

原创 AReaL-boba²:首个全异步强化学习训练系统它来了!!

清华大学与蚂蚁技术研究院联合开发的AReaL-boba²强化学习系统,实现了从同步到全异步训练范式的革新。该系统通过三层技术重构:1)异步训练引擎解耦数据生成与参数更新,GPU利用率提升至78%-89%;2)通信优化使跨节点延迟降低62%;3)显存管理策略减少32B模型显存碎片至11%。在代码任务中,14B模型在LiveCodeBench达到69.1分SOTA性能,训练效率提升2.77倍。系统支持多轮交互训练,通过对话历史缓冲区和动态策略更新机制

2025-06-14 14:23:37 1628

原创 讲透Transformer的5大核心优势 !!

Transformer凭借五大核心优势成为近十年最具影响力的模型架构。首先,其自注意力机制实现了高度并行计算,显著提升处理效率。其次,模型能直接捕捉序列中的长程依赖关系,优于传统RNN和CNN。第三,模块化设计带来强大可扩展性,支持参数和数据规模持续扩张。第四,通用序列处理能力使其成功应用于文本、图像、音频等多模态场景。最后,端到端学习机制简化了训练流程,实现信息的最优传播路径。这些优势源于Transformer对信息流动方式的革命性重构,使其成为推动AI技

2025-06-13 15:44:33 1233

原创 Python数据分析库 Pandas 四十个高频操作!!!

本文总结了40个Pandas数据处理的实用技巧,涵盖数据读取、预览、清洗、转换、聚合等全流程操作。核心功能包括:多格式数据读取(CSV/Excel/JSON等)、基础数据查看(head/info/describe)、行列选择与条件筛选、缺失值处理、排序与分组聚合、数据合并与导出。高级技巧涉及异常值检测(IQR法)、时间序列处理、内存优化、矢量化运算、大数据分块处理以及可视化辅助分析(热力图/缺失值矩阵)。特别强调了性能优化方法如延迟计算、类型转换,并提供了调试与内存报告工具。

2025-06-13 13:54:35 395

原创 Transformer 与 XGBoost 协同优化的时间序列建模

本文提出一种结合Transformer与XGBoost的时间序列协同建模方法。Transformer通过自注意力机制捕捉序列的长期依赖关系,XGBoost则专注于拟合Transformer的预测残差,捕捉非线性细节。模型采用分阶段训练:先预训练Transformer提取时序特征,再用其输出训练XGBoost,最后可选联合微调。实验表明,该方法能有效提升预测精度,误差分析显示预测值与实际值趋势吻合良好。文章还提供了参数优化建议和调参流程,案例为复杂时间序列预测任务提供了有效的解决方案。

2025-06-12 16:22:07 1432

原创 只用几十行PyTorch代码让GPU利用率猛涨!

摘要:北京大学校友张天远团队提出LaCT模型架构,通过大块更新策略(2000-100万tokens)显著提升GPU利用率至70%。该架构结合窗口注意力与大块测试时训练(LaCT),以无序集处理块内tokens并捕获局部依赖,增强并行性。实验表明,LaCT在百万级tokens的跨模态任务(如新视图合成、视频生成)中优于3D高斯泼溅等技术,且显存占用减少60%。开源代码显示其硬件效率突破(算力利用率65%-82%),为长上下文建模提供新范式。未来可拓展至动态块调整与多模态联合建模。

2025-06-11 13:43:15 1033

原创 统计学核心概念与现实应用精解(偏机器学习)

深入浅出地讲解了统计学的核心概念及其应用。统计学主要围绕概率分布和期望展开,概率分布描述随机变量的可能取值及其可能性,期望则是加权平均值,反映长期平均结果。文章详细介绍了离散和连续随机变量的概率质量函数(PMF)和概率密度函数(PDF),累积分布函数(CDF),以及联合分布与边缘分布的关系。在统计学的两大学派中,频率派通过假设检验和p值进行决策,适用于可重复事件;贝叶斯派则结合先验概率和似然函数更新信念,适用于唯一事件。似然函数作为数据与参数之间的桥梁,通过最大似然估计(MLE)推断参数。统计学方法如假设检

2025-06-10 16:39:13 1558

原创 L1和L2核心区别 !!--part 2

本文深入探讨了 L1 和 L2 正则化的核心区别,及其在机器学习模型优化中的应用。L1 正则化通过产生稀疏解实现特征选择,适用于高维稀疏数据;L2 正则化则通过收缩系数提升模型稳定性,适合处理多重共线性问题。Elastic Net 结合两者优势,兼顾特征选择和模型稳定性。正则化通过限制模型复杂度,有效缓解过拟合,提升泛化能力。从优化角度看,L1 导致的非光滑问题需要特殊算法解决。通过实验和图像对比,直观展示了不同正则化方法在特征系数、预测误差等方面的表现差异。

2025-06-09 15:27:13 1298

原创 彻底讲透,L1和L2核心区别 !!

本文通过代码和实验深入剖析了L1正则化(Lasso)和L2正则化(Ridge)的区别。L1正则化约束区域为菱形,易与损失等高线尖角相切,使部分参数为零,实现特征选择;L2正则化约束区域为圆形,使参数均匀收缩。实验中,对于只有3个真正有用特征的数据,Lasso将不重要特征系数压缩为零,而Ridge只是将系数收缩。L1适合特征选择,L2适合系数稳定化,Elastic Net结合两者优势。

2025-06-08 19:20:22 797

高效精准,LightGBM 重塑时间序列预测格局!!!

LightGBM数据集

2025-04-02

【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)

奶茶店订单数据集生成代码 首先定义了基础元素,包括日期范围,商品列表 然后确定业务逻辑-周末效应,天气促销等 对于每条订单,生成含脏数据的字段 最后将生成的数据保存为带业务场景的奶茶店订单.csv 字段为:日期、星期、商品、销量、客单价、优惠券(是否使用)、天气 超市小票数据集生成代码 首先定义了可能的商品信息,包括商品名称、分类和价格。 然后确定了日期范围,在这个日期范围内随机生成每天的购买记录。 对于每次购买,随机选择商品、数量、会员等级和是否促销。 最后将生成的数据保存为超市小票.csv文件。 电商复购数据集生成代码 定义了用户数量和日期范围,以及可能的商品列表。 对于每个用户,随机生成首次购买时间和首次购买的商品。 随机生成复购次数,根据复购次数计算最近复购时间和总消费金额。 最后将生成的数据保存为电商复购数据.csv文件。

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除