机智的小神仙儿-CSDN博客

原创 Multi-head Latent Attention (MLA) 多头潜在注意力

Multi-head Latent Attention (MLA) 在保持多头注意力强大表达能力的同时，通过引入潜在空间显著降低了计算复杂度。其灵活、高效的设计为注意力机制的创新与发展提供了重要思路。

2025-01-10 16:14:29 4073 7

原创基于ResNet的CIFAR-10分类实现与分析

ResNet的核心在于残差连接（Residual Block）。每个残差块包括两个卷积层和批标准化层，同时对于不同维度的输入输出使用downsample操作进行匹配。

2025-01-08 10:01:08 1125

原创基于深度可分离卷积的MNIST手势识别

基于深度可分离膨胀卷积的MNIST手写体识别，模型在MNIST数据集上的分类准确率达到了接近98.7%的水平。

2024-12-28 11:11:58 849

UNet是深度学习领域中用于图像分割任务的代表性模型，最初由Ronneberger等人于2015年提出。其设计初衷是应对生物医学图像分割问题，但由于其卓越的上下文信息整合和特征提取能力，已广泛应用于其他领域的分割任务。本文将从网络结构模型特点和应用场景三个方面对UNet进行详述。作为深度学习分割任务的经典模型，UNet不仅在生物医学图像分割中发挥了重要作用，还在其他需要精确像素级分割的任务中展现了强大的适应性与稳定性。通过高效的上下文信息捕获与特征整合能力，UNet已成为分割领域不可或缺的工具。

2024-12-16 09:06:31 1163

原创 InstructGPT——AI 模型的对齐革命

Reinforcement Learning with Human Feedback, RLHF

2024-11-25 18:06:34 592

原创 RoPE——Transformer 的旋转位置编码

RoPE（Rotary Position Embedding，旋转位置编码）是一种新型的位置编码方法，专为 Transformer 架构设计。它通过引入旋转矩阵，将位置信息直接嵌入到词向量中，与传统方法相比更高效且自然地捕捉了相对位置关系。与传统位置编码不同，RoPE 不需要额外的参数，也不直接依赖加法来嵌入位置信息。它通过对每个词向量进行旋转，隐式地在自注意力机制中捕捉相对位置。RoPE（旋转位置编码）通过旋转矩阵的引入，在 Transformer 的位置编码中实现了新的突破。

2024-11-24 17:14:08 1453

原创 GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格：

2024-11-21 21:42:32 813

原创 GPT1.0 和 GPT2.0 的联系与区别

GPT1.0与GPT2.0的浅析。

2024-11-21 20:08:18 1470

原创 XLNet——打破 BERT 局限的预训练语言模型

XLNet，通过引入排列语言建模（Permuted Language Modeling, PLM）和 Transformer-XL 结构，打破了 BERT 的瓶颈，并在多个 NLP 任务中实现了超越。

2024-11-20 18:29:54 1616

原创 Query Processing——搜索与推荐系统的核心基础

Query Processing（查询处理）是搜索与推荐系统中不可或缺的模块，旨在将用户输入的自然语言查询转化为结构化或语义化的表达形式，使得系统可以高效地处理这些查询。通过高度优化的 Query Processing，系统能够更精准地捕捉和理解用户需求，进而提供更加相关的检索结果。Query Processing 涉及到对查询的深度理解和转换，要求对用户的语言习惯、查询目的及上下文进行充分的分析。

2024-11-18 11:26:00 590

原创搜索推荐中的点击率 (CTR) 预估模型

CTR点击率模型

2024-11-18 10:25:44 1885

原创 Q-Learning -- 用迷宫问题带你全面掌握

作为一种经典的强化学习算法，是初学者入门的绝佳选择。在这篇文章中，我们将通过一个简单的迷宫问题，带你深入理解 Q-Learning 的核心思想和应用。通过这篇文章，相信你已经掌握了 Q-Learning 的核心原理和实际应用！如果你有任何问题，欢迎留言讨论！训练完成后，Q 表记录了所有状态下的动作价值。智能体会选择 Q 值最大的动作，用于学习如何在一个环境中行动，以最大化智能体能够获得的累积奖励。

2024-11-17 10:12:33 727

原创基于BERT的情感分析

情感分析（Sentiment Analysis）是自然语言处理的重要应用之一，用于判断文本的情感倾向，如正面、负面或中性。随着深度学习的发展，预训练语言模型如BERT在各种自然语言处理任务中取得了显著的效果。本项目利用预训练语言模型BERT，构建一个能够对文本进行情感分类的模型。

2024-11-16 17:17:52 1887

原创基于BERT的命名体识别（NER）

命名实体识别（Named Entity Recognition，NER）是自然语言处理（NLP）中的基础任务之一，旨在从非结构化文本中自动识别并分类出具有特定意义的实体，例如人名、地名、组织机构名等。本项目基于BERT模型，完成对文本的序列标注，实现命名实体识别。本项目基于BERT模型，成功地实现了命名实体识别任务，完整展示了从数据预处理、模型训练、模型评估到模型推理的全过程。通过使用预训练语言模型，模型在NER任务中取得了较好的性能，证明了BERT在序列标注任务中的强大能力。安装项目所需的依赖包。

2024-11-16 16:46:34 1168

原创 xLSTM —— LSTM 焕发新生的创新之作（附代码）

xLSTM 是对传统 LSTM 模型的一个重要扩展，结合了指数门控、矩阵记忆和残差堆叠架构，使得其在长序列建模方面具有显著的优势。xLSTM 的出现，不仅让 LSTM 在与 Transformer 等模型的竞争中焕发新生，也为未来的 AI 应用提供了新的思路。随着模型规模的进一步扩展，xLSTM 有望在自然语言处理、时间序列分析等领域发挥更大的作用，为深度学习技术的进步贡献力量。

2024-11-05 09:50:02 2868

原创二叉树详解：类型、特性与应用

二叉树及其衍生结构在计算机科学中扮演了不可或缺的角色。从基本的二叉树到高度优化的平衡树，再到各种特化树如哈夫曼树和线段树，每一种结构都有其特定的应用场景和技术优势。理解这些树形结构不仅是数据结构学习的核心内容，也能为解决现实中的复杂问题提供强有力的支持。掌握这些二叉树类型有助于提高算法设计和问题求解的能力，从而在实际应用中获得更好的性能和效率。希望本文为你在数据结构的学习与应用上提供了深刻的启发。

2024-10-27 21:02:37 1423

原创距离度量方法介绍与应用

本篇博客介绍了几种常见的距离度量方法，包括曼哈顿距离、欧氏距离、切比雪夫距离和明科夫斯基距离，及其具体计算和应用场景。同时，进一步扩展到其他距离度量及其 Python 实现。

2024-10-27 20:54:57 936

原创 AIGC底层技术逻辑

AIGC的底层技术逻辑是基于深度学习模型，结合生成对抗网络（GAN）、自注意力机制（如Transformer）、自回归模型（如GPT）、扩散模型（Diffusion）等多种方法实现的。通过大规模数据训练、模型优化和多模态融合，AIGC能够生成高质量的文本、图像、视频等内容，并在多个领域中得到广泛应用。

2024-10-24 17:28:50 1138

原创 YOLO的更新迭代

YOLO（You Only Look Once）系列模型是目标检测领域中非常著名的模型，它的设计思想是将目标检测问题作为一个单次回归问题来解决。随着时间的推移，YOLO模型逐渐演化为多个版本，每个版本都进行了不同程度的优化和改进。

2024-10-17 09:31:03 769

原创车辆路径规划问题（VRP）优化方案

通过遗传算法解决车辆路径规划问题的全过程。

2024-10-09 21:55:35 1730

原创 GPT-2 的 Transformer Block 设计与基础 Transformer 的比较

基础 Transformer 和 GPT-2 的 Transformer Block 在 Layer Normalization 的位置上存在显著差异。基础 Transformer 使用的是Post-Norm架构（LayerNorm 在残差连接之后），而 GPT-2 采用了Pre-Norm架构（LayerNorm 在残差连接之前）。这种设计选择上的改进，使得 GPT-2 能在更深、更复杂的模型中训练更加稳定，性能更加出色。

2024-10-09 00:50:25 943

原创推荐系统中的协同过滤

在推荐系统中，协同过滤是通过用户的历史行为数据来预测用户偏好的重要技术。基于用户和物品的协同过滤结合矩阵分解等方法，使得推荐系统能够更加精准和个性化。希望这篇文章对协同过滤的基本概念、示例以及计算过程做了清晰的阐述，如有任何问题或建议，欢迎讨论交流！

2024-10-07 11:50:50 866

原创推荐系统中的AB测试

AB测试是一种随机对照实验（Randomized Controlled Trial, RCT），用于比较两个或多个版本（通常是A版本和B版本）在用户体验或商业指标上的表现差异。在推荐系统中，通常将现有系统的推荐算法作为A组，新版本的推荐算法作为B组，通过分析两组用户的行为数据来评估新算法是否优于现有系统。举例来说，假设你正在运行一个视频推荐平台，想验证新的推荐策略是否能增加用户的观看时长。你可以将用户随机分为两组，一组用户看到的是现有推荐算法的结果，另一组用户看到的是新推荐算法。

2024-10-07 11:10:14 1457

原创使用 K-Means 进行客户分群分析

Online Retail 数据集InvoiceNo: 每笔交易的唯一发票编号。如果发票编号以 “C” 开头，则表示该交易为退货记录。StockCode: 唯一标识每种产品的代码。: 产品的描述信息。Quantity: 每笔交易中购买的产品数量。: 交易的日期和时间。UnitPrice: 单价（英镑）。CustomerID: 客户的唯一标识符。Country: 客户所在国家。

2024-10-04 15:53:38 1128

原创 Precision@K 和 Recall@K 在推荐系统中的应用

Precision@K 和 Recall@K

2024-10-02 17:13:53 1611

原创使用皮尔逊相关系数实现推荐系统

皮尔逊相关系数（Pearson Correlation Coefficient）是一种常用的统计量，用来衡量两个变量之间的线性相关性。

2024-10-02 17:04:28 1311

原创电影推荐系统

基于内容推荐、基于协同过滤推荐、基于混合推荐的电影推荐系统。

2024-10-02 11:21:16 1878

原创基于 Transformer 的中英文翻译项目

本项目旨在使用 PyTorch 从零实现一个基于 Transformer 的中英文翻译模型。我们将手写实现 Transformer 的各个组件，包括多头注意力机制、前馈神经网络、编码器和解码器等，最终实现一个能够将英文句子翻译为中文的模型。数据预处理：从数据集中提取英文和中文句子，并进行初步清洗和保存。数据加载与分词：将预处理后的数据加载进内存，进行分词处理，并构建词汇表。模型构建：手写实现 Transformer 模型的各个组件，包括多头注意力、前馈神经网络、编码器、解码器等。模型训练与验证。

2024-10-01 19:36:54 3249 3

原创基于 Seq2Seq 的中英文翻译项目（pytorch）

本项目旨在使用 PyTorch 构建一个基于 Seq2Seq（编码器-解码器架构）的中英文翻译模型。我们将使用双语句子对的数据进行训练，最终实现一个能够将英文句子翻译为中文的模型。

2024-10-01 19:04:13 2964 10

原创 XGBoost、LightGBM、随机森林、GBDT和AdaBoost的记忆法

记忆法

2024-09-23 12:43:21 341

原创集成学习XGB、LGB、RF、GBDT的魔法大战（记忆法）

集成学习的理解与记忆

2024-09-23 12:41:07 1230

原创时间序列知识蒸馏论文——Advancing Anomaly Detection in Time Series Data: A Knowledge Distillation Approach ……

这篇论文致力于通过深度学习技术提高时间序列数据的异常检测。具体来说，它研究了将知识蒸馏与基于LSTM的模型相结合，以提高异常检测的精度效率和可解释性。论文主要目标包括数据预处理开发LSTM知识蒸馏框架、与GrafanaInfluxDBFlask API以及Docker集成，并评估模型性能。结果显示，知识蒸馏可以有效提升学生模型的性能。实验结果显示，使用知识蒸馏的学生模型在异常检测性能方面有显著提升。与未使用知识蒸馏的学生模型相比，使用知识蒸馏的模型在精度召回率和F1得分方面均有提高。

2024-09-19 15:58:37 1018

原创时间序列知识蒸馏论文——Time Series Prediction of Battery EOL with Intermediate State Knowledge Distillation

这篇论文提出了一种新的知识蒸馏方法，称为中间状态知识蒸馏（Intermediate-State Knowledge Distillation，ISKD），用于时间序列模型的压缩。知识蒸馏是一种训练学生模型的方法，使其能够模仿教师模型的输出。然而，仅使用教师模型的最终输出可能不足以训练学生模型。为此，本文提出了ISKD，通过在时间序列预测中加入模型的中间状态作为知识蒸馏的指导。实验表明，该方法在电池寿命预测任务中，相比传统的知识蒸馏方法，误差降低了最多1.04%，并减少了模型参数数量和延迟。

2024-09-19 15:45:03 1099

原创融合知识图谱与高级NLP技术的创新型语义新闻检索系统

随着互联网信息的爆炸式增长，海量的新闻数据给用户带来了信息过载的问题。传统的关键词检索方式无法充分理解用户意图，导致检索结果相关性不高。本文提出了一种融合知识图谱与高级自然语言处理（NLP）技术的创新型语义新闻检索系统。该系统利用预训练的BERT模型获取新闻文本的深层语义表示，并结合知识图谱增强语义理解能力。通过引入FAISS进行高效的向量检索，实现了对大规模新闻数据的实时、精确检索。实验结果表明，该系统在检索效率和准确性方面均有显著提升。

2024-09-13 11:49:21 1566