一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~包你满意噢

这是聚焦算法技术的博客，分享机器学习、深度学习、优化算法等领域的经典解析与前沿实战，理论结合实战解析算法逻辑。面向不同阶段开发者，涵盖模型调参、算法优化等方向，致力于成为技术交流平台，助力各位算法技术成长与探索数据智能边界。

原创融合Transformer与AutoEncoder的时间序列降维

本文提出了一种结合Transformer和AutoEncoder的时间序列降维方法。通过Transformer的自注意力机制捕捉时间序列中的长期依赖关系，再使用AutoEncoder将高维时间序列压缩为低维向量。实验采用三阶段合成数据验证，结果显示该方法能有效区分不同时间状态，重构误差较小。与PCA等线性方法相比，该非线性方法更适合处理复杂时间模式。文章详细介绍了模型架构、训练过程和可视化分析，可为读者们在时间序列的降维上提供了新思路。

2025-12-15 20:36:52 610

原创一文总结及其机器学习十大距离公式！！

本文系统介绍了机器学习中常用的十大距离度量方法，将其分为四大类：1. 基于向量的距离（欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离）2. 角度与方向相关（余弦距离）3. 概率分布相关（KL散度、JS散度、Wasserstein距离）4. 集合与离散数据（汉明距离、Jaccard距离）每种距离都配有数学定义、适用场景、Python实现和可视化示例，展示了它们在特征相似性计算、分类聚类、推荐系统等任务中的应用特点。文章特别强调了不同距离度量的几何意义和计算特性，帮助读者理解如何根据具体问题选择合适的距离度

2025-12-15 16:45:12 743

原创 CNN+BiLSTM ！！最强序列建模组合！！！

CNN+BiLSTM组合模型在处理时序数据时展现出独特优势。该模型通过一维卷积提取局部特征，结合双向LSTM捕捉长程依赖，有效解决了序列建模中局部模式识别与全局关联分析的双重需求。实验结果表明，该组合在文本分类、生理信号分析等任务中性能优异，测试准确率达较高水平。可视化分析显示模型能学习到良好的特征表示空间，各类别区分明显。优化方向包括引入注意力机制、改进卷积结构等。该方案特别适用于中等长度、兼具局部特征和长程关联的序列任务。

2025-12-08 16:02:17 1270

原创万字干货！如何利用pytorch搭建一个完整的深度学习项目？

本文为PyTorch深度学习初学者提供完整项目构建指南，包括6个核心模块：1. 数据集加载（Dataset/DataLoader）2. 数据预处理（transforms/Normalization）3. 模型构造（Module类继承）4. 模型训练（损失计算/反向传播）5. 模型保存与加载（.pt/.pth文件）6. 模型测试。重点讲解如何自定义数据集类、实现数据归一化、构建含参/不含参网络层，并提供了完整的训练测试代码模板。文章采用面包制作类比解释数据处理流程，适合Python基础薄弱但想快速入门。

2025-09-05 15:37:13 1003

原创一文详解深度学习中神经网络的各层结构与功能！

本文介绍了深度学习中卷积神经网络的核心组件及其工作原理：1）卷积层通过局部连接和权重共享提取特征，采用不同卷积核可进行高通/低通滤波；2）池化层（最大/平均）实现特征降维和不变性；3）批归一化层解决梯度问题；4）激活函数（Sigmoid/Tanh/ReLU）引入非线性；5）全连接层将特征映射到分类空间。文章详细阐述了各层的数学原理、参数计算和应用场景，帮助理解CNN从特征提取到分类的完整流程。

2025-09-05 14:50:34 1440 1

原创 Llama v3 中的低秩自适应 (LoRA)

本文介绍了如何在消费级硬件上微调大语言模型（LLM）的实用方案。作者详细讲解了如何利用LoRA（低秩自适应）技术在RTX 4090笔记本上微调80亿参数的Llama 3模型，包括环境搭建、数据预处理、训练参数设置等关键步骤。文章特别区分了训练和推理的区别，指出LoRA技术通过仅训练参数映射关系而非全量参数，能大幅降低计算需求。实验部分展示了从模型加载、数据集创建到训练循环和模型保存的完整流程，并提供了调试技巧。最后通过推理测试验证了模型成功学习到自定义知识，同时解释了tokenization的工作原理。

2025-09-03 23:21:27 1482 1

原创使用 Terraform、AWS 和 Python 构建无服务器实时数据管道

本文介绍了使用AWS无服务器服务构建实时数据管道的实践方案。通过整合S3、DynamoDB、Glue、DataBrew和Athena等服务，并使用Terraform进行基础设施即代码部署，构建了一个完整的实时数据处理流程。管道实现了从数据采集、去重清洗到查询分析的全流程自动化，特别是利用DynamoDB流触发Lambda函数实现实时数据处理。项目验证了通过删除重复email字段清洗数据的有效性，展现了AWS无服务器数据服务的强大功能与Terraform在云基础设施管理中的优势，为数据工程实践提供了价值

2025-09-03 22:58:08 1027

原创突破超强回归模型，高斯过程回归！

本文以冰淇淋销量预测为例，通俗易懂地讲解了高斯过程回归(GPR)的核心原理。GPR不同于传统回归方法，它通过"先验-后验-预测"的贝叶斯框架，不仅能给出预测值，还能量化预测的不确定性。文章详细拆解了GPR的三个关键步骤：先验阶段用高斯过程定义函数可能形状；训练阶段用数据修正先验得到后验分布；预测阶段输出预测均值及置信区间。特别强调了核函数选择和不确定性度量的重要性，通过温度-销量预测的实例，展示了GPR在数据附近预测准确、远离数据时给出警告的智能特性，体现了其在实际应用中的优势。

2025-09-01 21:33:05 859

原创一文通透！为什么 DBSCAN 能检测任意形状的簇？

DBSCAN算法能够检测任意形状的簇，主要基于其独特的密度聚类原理。与传统K-Means等基于中心距离的算法不同，DBSCAN通过定义ε-邻域和核心点来构建局部密度关系，利用密度可达和密度相连的概念将满足密度条件的点连接成簇。这种机制不依赖预设的簇形状或数量，只要数据点的局部密度能够形成连通路径，无论是环形、月牙形还是多分支结构，都能被完整识别为一个簇。实验显示，在相同月牙形数据集上，K-Means会产生直线分割而DBSCAN能准确识别原始形状。该算法的核心优势在于用密度连通性替代中心距离。

2025-09-01 20:49:03 1192

原创数据标准化与归一化的区别与应用场景

数据标准化（Z-score 标准化）通过线性变换使数据均值为 0、标准差 1，保留原始分布形态，适用于依赖距离度量（如 KNN、SVM）或有异常值的数据。数据归一化（Min-Max 缩放）将数据压缩到固定区间（如 [0,1]），保持相对比例，适合神经网络和数值范围敏感的算法。主要区别在于标准化基于均值和标准差，归一化基于极值。标准化对异常值更稳健，而归一化保留物理意义。选择时需结合算法特性：标准化适合回归、PCA 等模型，归一化更适合神经网络和图像处理。

2025-08-09 22:55:21 945

原创最强总结！十大非参数统计方法 (下)

本文介绍了5种机器学习核心算法原理与应用：1.支持向量机(SVM)：基于最大间隔原则，通过核函数处理非线性数据，适用于高维分类/回归任务；2.最近邻图(NNG)：构建数据相似性图结构，用于无监督学习中的聚类和降维；3.核主成分分析(KPCA)：非线性PCA扩展，通过核技巧实现高维特征提取；4.自适应平滑法：动态调整局部平滑参数，适用于非均匀数据去噪；5.分位数回归：估计条件分位数而非均值，能分析变量在不同分布区间的异质性影响。这些方法各具特色，适用于不同数据特征的分析需求。

2025-08-09 20:49:10 842

原创最强总结！十大非参数统计方法 (上)

非参数统计方法摘要非参数统计方法不依赖数据分布假设，适用于未知分布、非正态数据或存在异常值的情况。本文介绍了K-近邻、核密度估计、非参数回归、决策树和随机森林等核心方法。K-近邻通过邻近样本投票预测，核密度估计用叠加核函数估计概率密度，非参数回归可拟合任意形状关系。决策树模拟人类决策过程，而随机森林通过多树集成提高准确性。这些方法灵活性高，能捕捉复杂模式，但计算成本较高。案例展示了各方法在分类、回归和特征分析中的应用，包括鸢尾花分类、数据密度估计和乳腺癌特征重要性分析。非参数方法在数据驱动的应用中日益重要

2025-08-08 23:24:50 1158

原创从学讲透一个强大算法模型，LightGBM ！！

本文详细介绍了LightGBM的原理、优化技术和应用案例。LightGBM是一种高效的梯度提升决策树框架，具有速度快、内存占用低、准确度高等特点。其核心原理包括加法模型、梯度下降和叶子节点优化，通过Leaf-wise生长策略、直方图优化、GOSS采样和EFB特征捆绑四大关键技术实现性能提升。文章以UCI Adult数据集为例，演示了从数据预处理、EDA分析到模型训练、评估和超参数调优的全流程。实验结果显示，优化后的模型在测试集上准确率达到0.87，AUC为0.92，并通过特征重要性分析识别出关键预测变量。

2025-08-08 22:46:11 2403

原创什么是键值缓存？让 LLM 闪电般快速

KV缓存是大语言模型(LLMs)实现高效推理的关键技术。在自回归生成过程中，KV缓存通过存储历史token的键(K)和值(V)矩阵，避免了注意力机制中的重复计算，将时间复杂度从O(n²)优化到接近O(n)，显著提升长文本生成效率。其核心原理是"计算新token+复用历史缓存"，在保证输出一致性的同时大幅减少计算量。虽然会带来内存消耗增加的问题，但可通过滑动窗口、量化等技术进行优化。KV缓存已成为支撑聊天机器人、代码补全等实时交互应用的核心技术，是LLMs推理过程中不可或缺的。

2025-08-07 23:23:06 1009

原创 vLLM：彻底改变大型语言模型推理延迟和吞吐量

vLLM是一个突破性的开源库，专门用于优化大型语言模型(LLM)的推理和服务效率。它通过两项核心技术——分页注意力机制和连续批处理，解决了传统LLM部署中的关键瓶颈问题。分页注意力机制借鉴操作系统内存管理思想，将KV缓存划分为固定大小的块，显著减少90%的内存浪费；连续批处理则实现动态请求调度，最大化GPU利用率，使吞吐量提升高达24倍。该工具还提供OpenAI兼容API、广泛模型支持、多GPU部署等丰富功能，成为生产环境中部署LLM的理想选择，特别适合高吞吐量

2025-08-07 22:38:08 1452

原创模型蒸馏(Distillation)：原理、算法、应用

知识蒸馏是一种将复杂大模型（教师模型）的知识迁移到轻量小模型（学生模型）的技术，旨在解决大模型在边缘设备部署时面临的计算资源限制问题。该方法通过提取教师模型中的响应、特征和关系知识，采用离线、在线或自蒸馏等训练方案，结合对抗学习、多教师等算法，实现模型压缩而不显著损失性能。知识蒸馏已成功应用于图像识别、自然语言处理（如DistilBERT）和语音识别（如Amazon Alexa）等领域，显著提升了模型在资源受限设备上的部署效率。这一技术为深度学习模型的实际应用提供了高效解决方案。

2025-08-04 23:01:21 1909

原创构建属于自己的第一个 MCP 服务器：初学者教程

MCP服务器作为AI与外部世界的桥梁，解决了大模型无法获取实时数据的问题。本文详细介绍了如何用TypeScript构建一个天气MCP服务器，包括项目初始化、工具定义、API集成等步骤。通过Open-Meteo API获取实时天气数据，并实现与VSCode和GitHub Copilot的集成，使AI能够回答实时天气查询。该方案不仅适用于天气查询，还可扩展至其他实时数据领域，为AI应用提供了更强大的功能支持。

2025-08-04 16:20:34 1086

原创如何最简单、通俗地理解线性回归算法？线性回归模型在非线性数据上拟合效果不佳，如何在保持模型简单性的同时改进拟合能力？

线性回归是统计学和机器学习领域的基础算法，通过构建变量间的线性关系模型实现预测分析。其核心是最小二乘法估计参数，并依赖误差项的正态性、同方差性等统计假设。模型评估采用决定系数、均方误差等指标，同时需警惕多重共线性和异常值问题。实际应用中包含数据清洗、特征工程、正则化处理等关键步骤。线性回归在统计推断与机器学习预测中均具重要价值，是理解复杂模型的基础，其偏差-方差权衡原理对构建稳健预测模型具有指导意义。

2025-08-01 21:37:07 687

原创 anaconda、conda、pip、pytorch、torch、tensorflow到底是什么？它们之间有何联系与区别？

本文系统梳理了科学计算和机器学习领域的关键工具链，重点分析了软件包管理器（conda与pip）、集成环境（Anaconda）及深度学习框架（PyTorch/TensorFlow）的技术特性与应用场景。文章指出conda在跨语言依赖管理和环境隔离方面的优势，对比pip的轻量级特点；解析Anaconda作为一站式科学计算平台的生态价值；深入比较PyTorch动态图与TensorFlow静态图的设计哲学及适用场景。通过阐述工具间的协同使用方法，为不同应用需求下的技术选型提供了实践指导.

2025-08-01 13:34:50 1059

原创一文讲透一个强大算法模型-多项式回归！！

多项式回归是一种非线性拟合方法，通过多项式函数描述变量间的非线性关系。本文以一个房价预测案例展开，对比了不同阶数多项式对非线性数据的拟合效果。核心步骤包括：1)确定多项式阶数；2)构造设计矩阵；3)最小二乘法求解参数；4)模型评估。结果表明，适当阶数的多项式能有效捕捉非线性趋势，但高阶易导致过拟合。通过交叉验证选择最佳阶数，并引入L1/L2正则化优化模型。该方法在数据呈现非线性特征时比线性回归更具优势，能实现更准确的预测建模。

2025-07-05 16:06:20 1130

原创讲透一个强大算法模型，贝叶斯回归！！

贝叶斯回归是一种基于贝叶斯思想的回归分析方法，它将模型参数视为随机变量而非固定值。与传统回归提供确定参数不同，贝叶斯回归输出参数的概率分布，既能估计变量间关系，又能量化预测的不确定性。其核心流程包括：设定参数的先验分布，通过观测数据计算似然函数，再结合两者得到后验分布。预测时综合考虑参数不确定性和观测噪声，给出预测值的概率分布。该方法特别适用于数据量小、噪声大的场景，可通过sklearn的BayesianRidge实现，并支持超参数自动优化。贝叶斯回归的优势在于提供预测置信区间，帮助评估模型可靠性。

2025-07-05 14:58:21 1309

原创超全总结！Pythorch 构建Attention-lstm时序模型！！

本文介绍了使用PyTorch构建Attention-LSTM时序模型的实践案例。文章首先阐述了LSTM网络的原理，包括输入门、遗忘门、输出门等核心机制，并讲解了Attention机制如何帮助模型聚焦关键信息。作者提供了完整的PyTorch实现代码，通过正弦波数据集进行时序预测，包含数据准备、模型构建、训练过程及结果可视化。实验结果显示，模型损失值虽然趋于收敛，但预测结果未能有效捕捉数据周期性特征。文章最后分析了可能的原因并建议优化方向，包括调整模型复杂度、超参数等，为读者提供了时序建模的实用参考。

2025-06-27 14:04:38 937

原创 FastAPI框架的10个重要知识点总结

1. 数据验证采用Pydantic实现自动化类型转换和复杂校验，支持嵌套模型和自定义验证器；2. 文档系统自动生成交互式API文档（Swagger/ReDoc）；3. 依赖注入机制简化共享逻辑复用；4. 异步支持提升并发性能；5. 完善的中间件、异常处理和认证授权体系。该框架通过Starlette底层优化和Uvicorn部署支持，展现出媲美Go/Node.js的高性能特性，成为现代Python Web开发的优选方案。

2025-06-21 21:49:01 636

原创时间序列预测、分类 | 图神经网络开源代码分享（上）

本文系统梳理了图神经网络(GNN)在时间序列预测、分类等任务中的最新研究进展。GNN通过构建节点和边的关系网络，能够有效捕捉时间序列中复杂的时空依赖关系：在多变量序列中建模变量间的相互影响，在时间维度上分析动态演化规律。文章从三个维度详细介绍了现有方法：1)空间依赖建模(谱GNN、空间GNN及混合方法)；2)时间依赖建模(循环模型、卷积模型、注意力机制等)；3)预测架构融合(离散与连续模型)。同时提供了多个典型模型的论文链接和开源代码资源。

2025-06-21 14:53:54 941

原创如何使用 neptune.ai 优化模型训练期间的 GPU 使用率

GPU性能优化是深度学习训练的关键环节。GPU利用率、内存占用和功耗是评估性能的核心指标。通过混合精度训练、批次大小调整和数据流水线优化可以显著提升GPU效能。研究显示，不同深度学习框架的GPU利用率存在明显差异。使用Neptune等工具监控资源使用情况能够有效识别瓶颈，Brainly案例证明优化数据预处理流程可将GPU利用率从25%提升至更高水平。建议开发者关注内存使用、采用混合精度、分析CPU/GPU负载平衡，并系统评估各优化措施的实际效果。

2025-06-20 19:13:00 890

原创 Hugging Face 预训练模型：找到最适合你任务的模型

介绍了 Hugging Face 预训练模型在解决机器学习问题时的优势，其 2017 年上线后推出的 Transformers 库及 NLP 资源让高质量 NLP 模型更易使用。它专注于 NLP 任务，模型能理解语义和语境。博客还介绍了模型选择前要明确用例，可通过其平台筛选模型，以及设置环境的方法，还列举了支持的基本 NLP 任务，阐述了 Transformer 架构和 Hugging Face 的应用，最后以创建英德翻译器为例展示了模型使用、微调及评估过程。

2025-06-20 16:14:42 1352

原创隐语杯--医疗大模型隐私微调竞赛全攻略：思路、代码与案例解析

本次医疗大模型隐私微调竞赛聚焦医疗AI领域的核心矛盾——模型精度与数据隐私的平衡。竞赛提供4万条医疗对话训练数据及两种验证集，要求参赛者在微调过程中兼顾下游任务精度和隐私保护。通过LoRA等高效微调方法减少计算资源消耗，结合数据匿名化、差分隐私和对抗训练等技术防止模型记忆敏感信息。示例代码展示了从数据处理到模型训练的全流程实现，包括隐私保护评估机制。参考案例（如约翰霍普金斯大学的差分隐私应用）验证了技术可行性。解决方案需在医疗语义理解、隐私风险量化等方面持续优化，推动医疗AI在隐私合规前提下落地应用。

2025-06-19 14:31:43 898 1

原创注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

本文系统梳理了注意力机制在深度学习中的演进与应用。从2017年Transformer的突破性成果切入，详细解析了自注意力机制的计算流程及其在自然语言处理中的优势；继而阐述了多头注意力通过并行视角增强特征捕获能力的原理。在计算机视觉领域，重点剖析了通道注意力(SENet、ECA)和空间注意力(CBAM、STN)的技术特点，展示了如何通过权重分配聚焦关键信息。文章还对比了不同注意力机制的适用场景，如通道注意力筛选语义特征，空间注意力定位关键区域。

2025-06-18 21:55:27 2204

原创一文搞清楚如何使用 LoRA 微调(LLM)

LoRA（低秩自适应）是一种高效的大型语言模型微调技术，通过仅调整少量关键参数而非全模型实现任务适配。本文演示了使用LoRA微调Gemma-2-9b-it模型生成名言标签的完整流程：1) 安装PEFT等库并加载8位量化模型；2) 冻结模型参数并注入LoRA适配器；3) 配置低秩矩阵参数（r=16）和注意力目标层；4) 预处理数据集并启动高效训练；5) 测试推理效果并分享轻量适配器。实验表明，LoRA只需训练原模型0.1%的参数即可获得优秀性能，大幅降低了计算资源需求。该方法通用性强，适用于各类大语言模型

2025-06-18 15:28:01 1221

原创讲透 RNN 到 Transformer ！！！

本文探讨了深度学习在序列数据处理中的演进历程，从RNN到Transformer的技术突破。RNN通过循环连接解决了序列时序依赖问题，但存在顺序处理效率低、长距离依赖难以捕捉等局限。Attention机制的引入打破了RNN的局限性，实现了全局信息交互。Transformer在此基础上完全摒弃循环结构，通过自注意力机制实现了并行计算和高效的长序列处理，其核心创新包括多头注意力、位置编码等模块。文章通过一个两位数加法任务案例，对比展示了RNN和Transformer的具体实现差异，突出了Transformer在结

2025-06-17 18:49:42 1022

原创 Pandas中merge、concat、join 区别！！

详细解释了Pandas提供了三种数据合并方法：merge基于键连接数据（类似SQL JOIN），concat沿轴堆叠对象（无视连接键），join基于索引或列合并。merge最灵活但性能较差，concat适用于相同结构数据的高效堆叠，join擅长索引对齐的快速合并。实际应用中应根据数据结构、连接需求和性能考虑选择合适方法：复杂键连接用merge，简单堆叠用concat，索引对齐用join。优化技巧包括设置索引、过滤数据、一次合并等，合并时可通过suffixes处理重复列名。掌握三者差异可提升数据处理效率。

2025-06-17 16:11:31 1455

原创 PDF转Markdown基准测试

本文对比评测了5种PDF转Markdown工具的性能表现。测试采用结构化基准文件，重点评估格式保留、语义转换质量及处理效率。结果显示：PyMuPDF4LLM速度最快但表格处理不佳；ChatGPT-4o转换质量最佳但响应较慢；marker表格解析精准但依赖GPU加速；Docling表现不稳定；MarkItDown仅输出纯文本。实验证明，PDF的非结构化特性导致传统提取方法存在格式丢失问题，而Markdown的结构化优势能显著提升LLM处理效果，在RAG系统中使检索准确率提升27%，人工校对效率提高40%。

2025-06-14 21:59:02 1206 1

原创 AReaL-boba²：首个全异步强化学习训练系统它来了！！

清华大学与蚂蚁技术研究院联合开发的AReaL-boba²强化学习系统，实现了从同步到全异步训练范式的革新。该系统通过三层技术重构：1)异步训练引擎解耦数据生成与参数更新，GPU利用率提升至78%-89%；2)通信优化使跨节点延迟降低62%；3)显存管理策略减少32B模型显存碎片至11%。在代码任务中，14B模型在LiveCodeBench达到69.1分SOTA性能，训练效率提升2.77倍。系统支持多轮交互训练，通过对话历史缓冲区和动态策略更新机制

2025-06-14 14:23:37 1628

原创讲透Transformer的5大核心优势！！

Transformer凭借五大核心优势成为近十年最具影响力的模型架构。首先，其自注意力机制实现了高度并行计算，显著提升处理效率。其次，模型能直接捕捉序列中的长程依赖关系，优于传统RNN和CNN。第三，模块化设计带来强大可扩展性，支持参数和数据规模持续扩张。第四，通用序列处理能力使其成功应用于文本、图像、音频等多模态场景。最后，端到端学习机制简化了训练流程，实现信息的最优传播路径。这些优势源于Transformer对信息流动方式的革命性重构，使其成为推动AI技

2025-06-13 15:44:33 1233

原创 Python数据分析库 Pandas 四十个高频操作！！！

本文总结了40个Pandas数据处理的实用技巧，涵盖数据读取、预览、清洗、转换、聚合等全流程操作。核心功能包括：多格式数据读取（CSV/Excel/JSON等）、基础数据查看（head/info/describe）、行列选择与条件筛选、缺失值处理、排序与分组聚合、数据合并与导出。高级技巧涉及异常值检测（IQR法）、时间序列处理、内存优化、矢量化运算、大数据分块处理以及可视化辅助分析（热力图/缺失值矩阵）。特别强调了性能优化方法如延迟计算、类型转换，并提供了调试与内存报告工具。

2025-06-13 13:54:35 395

原创 Transformer 与 XGBoost 协同优化的时间序列建模

本文提出一种结合Transformer与XGBoost的时间序列协同建模方法。Transformer通过自注意力机制捕捉序列的长期依赖关系，XGBoost则专注于拟合Transformer的预测残差，捕捉非线性细节。模型采用分阶段训练：先预训练Transformer提取时序特征，再用其输出训练XGBoost，最后可选联合微调。实验表明，该方法能有效提升预测精度，误差分析显示预测值与实际值趋势吻合良好。文章还提供了参数优化建议和调参流程，案例为复杂时间序列预测任务提供了有效的解决方案。

2025-06-12 16:22:07 1432

原创只用几十行PyTorch代码让GPU利用率猛涨！

摘要：北京大学校友张天远团队提出LaCT模型架构，通过大块更新策略（2000-100万tokens）显著提升GPU利用率至70%。该架构结合窗口注意力与大块测试时训练（LaCT），以无序集处理块内tokens并捕获局部依赖，增强并行性。实验表明，LaCT在百万级tokens的跨模态任务（如新视图合成、视频生成）中优于3D高斯泼溅等技术，且显存占用减少60%。开源代码显示其硬件效率突破（算力利用率65%-82%），为长上下文建模提供新范式。未来可拓展至动态块调整与多模态联合建模。

2025-06-11 13:43:15 1033

原创统计学核心概念与现实应用精解（偏机器学习）

深入浅出地讲解了统计学的核心概念及其应用。统计学主要围绕概率分布和期望展开，概率分布描述随机变量的可能取值及其可能性，期望则是加权平均值，反映长期平均结果。文章详细介绍了离散和连续随机变量的概率质量函数（PMF）和概率密度函数（PDF），累积分布函数（CDF），以及联合分布与边缘分布的关系。在统计学的两大学派中，频率派通过假设检验和p值进行决策，适用于可重复事件；贝叶斯派则结合先验概率和似然函数更新信念，适用于唯一事件。似然函数作为数据与参数之间的桥梁，通过最大似然估计（MLE）推断参数。统计学方法如假设检

2025-06-10 16:39:13 1558

原创 L1和L2核心区别！！--part 2

本文深入探讨了 L1 和 L2 正则化的核心区别，及其在机器学习模型优化中的应用。L1 正则化通过产生稀疏解实现特征选择，适用于高维稀疏数据；L2 正则化则通过收缩系数提升模型稳定性，适合处理多重共线性问题。Elastic Net 结合两者优势，兼顾特征选择和模型稳定性。正则化通过限制模型复杂度，有效缓解过拟合，提升泛化能力。从优化角度看，L1 导致的非光滑问题需要特殊算法解决。通过实验和图像对比，直观展示了不同正则化方法在特征系数、预测误差等方面的表现差异。

2025-06-09 15:27:13 1298

原创彻底讲透，L1和L2核心区别！！

本文通过代码和实验深入剖析了L1正则化（Lasso）和L2正则化（Ridge）的区别。L1正则化约束区域为菱形，易与损失等高线尖角相切，使部分参数为零，实现特征选择；L2正则化约束区域为圆形，使参数均匀收缩。实验中，对于只有3个真正有用特征的数据，Lasso将不重要特征系数压缩为零，而Ridge只是将系数收缩。L1适合特征选择，L2适合系数稳定化，Elastic Net结合两者优势。

2025-06-08 19:20:22 797

高效精准，LightGBM 重塑时间序列预测格局！！！

LightGBM数据集

2025-04-02

【0 基础也能懂！】系列超市小票 + 奶茶订单：自创5 个生活场景数据集（含脏数据）

奶茶店订单数据集生成代码首先定义了基础元素，包括日期范围，商品列表然后确定业务逻辑-周末效应，天气促销等对于每条订单，生成含脏数据的字段最后将生成的数据保存为带业务场景的奶茶店订单.csv 字段为：日期、星期、商品、销量、客单价、优惠券（是否使用）、天气超市小票数据集生成代码首先定义了可能的商品信息，包括商品名称、分类和价格。然后确定了日期范围，在这个日期范围内随机生成每天的购买记录。对于每次购买，随机选择商品、数量、会员等级和是否促销。最后将生成的数据保存为超市小票.csv文件。电商复购数据集生成代码定义了用户数量和日期范围，以及可能的商品列表。对于每个用户，随机生成首次购买时间和首次购买的商品。随机生成复购次数，根据复购次数计算最近复购时间和总消费金额。最后将生成的数据保存为电商复购数据.csv文件。

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人