00&00-CSDN博客

原创中文情感分析实验

摘要：本研究对比了RNN（LSTM）和BERT模型在中文情感分析任务中的性能差异。实验采用公开数据集ChnSentiCorp，评估指标包括准确率和F1-score。结果显示，LSTM基线准确率为82%，而BERT模型达到91%，F1-score显著提升。研究表明，BERT凭借多头注意力机制和双向上下文编码，在长依赖语义建模和小样本任务泛化方面优于传统RNN。PyTorch实现展示了BERT在中文情感分析中的优势，为自然语言处理任务提供了更优解决方案。（150字）

2025-09-05 17:08:57 566

原创汽车零部件识别

本文研究基于深度学习的汽车零部件图像识别方法。通过构建卷积神经网络(CNN)模型，结合数据增强和多尺度特征提取技术，有效提升了零部件识别准确率。实验表明，基础CNN模型准确率达85%，加入数据增强后提升至90%，引入FPN多尺度特征提取后进一步提升至93%，特别改善了小零件识别效果。研究验证了数据增强和多尺度特征在工业视觉任务中的重要性，为智能制造中的零部件自动化识别提供了可行方案。

2025-09-05 17:04:12 498

原创客户流失预测（Churn Prediction）

摘要：本文针对客户流失预测中的类别不平衡和特征多样性问题，采用机器学习方法构建预测模型。研究发现单一模型存在欠拟合或过拟合问题，而软投票集成方法（融合逻辑回归和随机森林）显著提升预测性能：AUC提升至0.91（提高5%），召回率提升至0.74，有效降低流失客户漏判风险。实验表明集成学习在客户流失预测中具有明显优势，尤其适合注重召回率的业务场景。代码实现采用Scikit-learn框架，包含完整的数据预处理、模型训练和评估流程。

2025-09-05 16:59:42 305

原创 Face_Recognition：AI 让机器“看懂”你的脸

人脸识别技术已广泛应用于手机解锁、智能门禁等领域。Python的face_recognition库基于深度学习，提供人脸检测、关键点定位和特征比对等功能，通过简单API实现快速开发。其核心原理是将人脸映射到128维特征空间进行相似度计算。虽然该库易用性强，适合学习和原型开发，但在复杂环境和精度要求高的场景下仍存在局限。未来人脸识别将向3D识别、多模态融合和隐私合规等方向发展。该技术正朝着更智能、更安全的方向演进，成为AI应用的重要领域。

2025-08-31 16:31:37 571

原创人脸识别中的 AdaBoost：从弱分类器到强大的检测器

AdaBoost算法在人脸识别发展史上具有里程碑意义。作为Viola-Jones人脸检测器的核心，它通过组合弱分类器构建强分类器，实现了首次实时人脸检测。该算法利用Haar特征和积分图技术，结合级联分类器结构，解决了早期人脸检测在实时性、鲁棒性方面的局限。虽然深度学习已取代其主流地位，但AdaBoost的特征选择思想仍具影响力，且在资源有限场景中仍有应用价值。Python中基于OpenCV的实现展示了其经典应用，揭示了这一算法在人机交互技术发展中的奠基作用。

2025-08-29 21:35:56 635

原创 AdaBoost：让弱学习器变强的魔法算法

摘要：AdaBoost是一种自适应增强的集成学习算法，通过组合多个弱分类器（如决策树桩）构建强分类器。其核心机制是迭代训练：初始化样本权重后，每轮训练调整权重，使后续分类器更关注错误样本，最终加权投票输出结果。该算法具有自适应性好、泛化能力强、实现简单等优点，广泛应用于人脸检测、信用评估等领域。Python示例显示其在鸢尾花分类中准确率达90%以上。虽然被后续Boosting算法超越，但AdaBoost的"弱模型协同增效"思想仍深刻影响机器学习发展。

2025-08-29 17:08:33 776

原创 FER-2013 Dataset：人工智能如何读懂人类表情？

FER-2013数据集是表情识别领域的重要基准，包含35,887张48×48像素的灰度人脸图像，标注为7种情绪类别。作为AI学习的"启蒙教材"，它具有标准化程度高、公开可用等优势，广泛应用于人机交互、智能安防等领域。虽然存在分辨率低、类别不平衡等挑战，但通过基础的CNN模型就能实现约60%的准确率。未来需要结合多模态数据才能更准确地理解人类复杂情绪。该数据集为表情识别研究奠定了重要基础，推动了AI对人类表情的理解能力。

2025-08-29 10:53:16 794

原创你真的会用景别剪片子吗？

景别（Shot Size）是影视创作中用来描述镜头画面范围和人物所占比例的术语。它不仅决定画面的视觉信息量，也承担着情绪传达和叙事推进的功能。远景（Long Shot）：展现环境为主，人物较小。用于交代地点、氛围。全景（Full Shot）：完整展现人物全身，同时带有背景信息。中景（Medium Shot）：通常从腰部以上到头顶。适合对话场景，兼顾环境和人物表情。近景（Medium Close-up）：胸部以上，强化表情和情绪。特写（Close-up）：聚焦脸部或物体细节，用于情绪高潮或重点刻画。

2025-08-03 12:37:22 1089

原创论《 Andrew Ng演讲的＜人工智能如何赋能任何企业＞》

但 Ng 强调，通过构建标准化的“AI 工程师”角色，类似过去的信息化或工业自动化浪潮，未来 AI 也可以变成像“水电煤气”一样的通用基础设施。他用一系列接地气的案例说明了“AI 下沉”的可行性。对大众观众来说，Ng 的演讲传达了一个乐观而理性的愿景：AI 不再只是科研舞台上的明星，也不只是“取代岗位”的幽灵，它可以是每个普通企业提升竞争力的工具，是每位员工学习成长的助力器。他用清晰的数据、务实的方案和亲民的案例，展现了 AI 落地的多种路径，也让人看到一个不被巨头垄断、更加公平和多样的技术未来。

2025-07-26 23:21:48 317

原创论《 Max Jaderberg演讲的＜人工智能如何节省人类数十亿年的研究时间＞》

Jaderberg 的立场并非盲目乐观，而是鼓励大众理性理解 AI 的能力与局限，并呼吁开放、合作的科技未来。他讲述的不是科幻小说中的未来，而是正在发生的现实——AI 正在通过算法优化，为人类节省“亿万年”的研究时间。更重要的是，这项研究揭示了 AI 不再只是处理数据、识别图像或生成文本的工具，它正在迈向“创造知识”的新阶段。他在演讲中坦言，目前的 AI 系统虽然强大，但依旧依赖于大量的算力训练，难以解释其推理路径，也不具备人类常识或伦理判断力。在他看来，AI 不应是替代者，而是放大人类智慧的加速器。

2025-07-22 17:13:01 563

原创卡尔曼滤波器

状态向量描述系统在时刻 $k$ 的状态，例如物体的位置、速度等。观测向量我们能实际测量到的值（如图像坐标），通常为状态的某种投影。状态转移矩阵描述状态从到的预测模型。观测矩阵将状态投影到观测空间。状态协方差矩阵描述状态的不确定性。过程噪声协方差矩阵模型自身的误差来源（如加速度变化引起的误差）。观测噪声协方差矩阵来自传感器观测的不准确性。卡尔曼增益矩阵结合预测与测量时用的加权因子。

2025-07-22 16:41:50 717

原创候选框表示及相互转换

在多目标跟踪（MOT）或目标检测任务中，**候选框（Bounding Box）**是用于表示目标位置的关键数据结构。候选框的表示形式有多种，不同算法、库或阶段（如训练、推理）可能会采用不同形式。理解这些表示及其相互转换非常重要。

2025-07-21 12:05:03 473

原创论《 Joon Sung Park演讲的＜由人工智能驱动的人类现实模拟＞》

Park 的讲述没有过度推崇或贬低技术，而是提供了一个冷静、启发性的观察视角，适合大众读者理解AI如何以意想不到的方式重构我们对“人类本质”的认知。在人工智能的研究与应用日益扩展的背景下，Joon Sung Park 在其 TED 演讲《A simulation of human reality — powered by AI》中所展示的实验，引发了观众对现实与虚拟交界的全新思考。“人类的行为”是否真的那么独特？他指出，该实验并非在打造一个“更真实的人类”，而是在探索人类行为的边界：哪些行为是可被模拟的？

2025-07-20 23:18:01 961

原创多目标跟踪算法

多目标跟踪（Multi-Object Tracking，MOT）算法的目标是在视频中（如行人、车辆等），并为每个目标分配一致的 ID。。

2025-07-20 23:16:59 999

原创多目标跟踪：运动模型

运动模型是一个基于时间序列的目标位置预测方法。它尝试基于目标的历史状态（如位置、速度）来预测其在下一帧中的位置。位置（t） + 速度 → 预测位置（t+1）模型适合场景优点缺点匀速简单场景快速、实现容易不鲁棒Kalman常规视频MOT精度较高、可更新对遮挡敏感粒子滤波高遮挡、非线性鲁棒性高速度慢加速度模型快速运动目标更真实建模参数复杂。

2025-07-20 21:50:40 779

原创多目标跟踪

多目标跟踪（MOT）是计算机视觉的核心任务，旨在视频中持续跟踪多个目标并保持ID一致。主要流程包括目标检测（YOLO等模型）、目标关联（基于距离、特征等）和轨迹维护。常用算法分为基于检测器+关联器（如DeepSORT、ByteTrack）和端到端深度学习两类。DeepSORT结合外观特征与卡尔曼滤波实现鲁棒跟踪。评估指标包括MOTA、IDF1等，常用数据集有MOT17、UA-DETRAC等，广泛应用于安防、交通分析等领域。代码示例展示了YOLOv5+DeepSORT的行人跟踪实现。

2025-07-20 21:35:37 528

原创 OpenCV ： cv2.dnn 模块

cv2.dnn是 OpenCV 的，用于在，执行多种深度学习模型的推理任务。

2025-07-20 16:58:13 612

原创 imutils 工具包

项目内容名称imutils类型图像处理工具库依赖OpenCV (cv2), NumPy作用简化 OpenCV 中常见的图像变换操作安装优点：简化常见图像处理任务（调整大小、旋转、边缘检测等）避免 OpenCV 中冗长调用支持常用图像识别流程（如透视矫正、轮廓排序）限制：不能替代 OpenCV，只是封装部分功能对复杂任务（如图像分割、检测）无直接帮助。

2025-07-20 13:20:44 310

原创 numba即时编译器

属性内容名称numba类型Python 的 JIT 编译器支持后端LLVM（低级虚拟机）适用场景数组计算、循环、数值算法编译方式@jit或@njit装饰器优势代码加速，兼容性高，接近 C 的运行速度Numba 是提升 NumPy 和 Python 计算效率的强力工具：简单易用性能提升巨大支持多线程、GPU不适合数据分析类工具直接加速。

2025-07-19 16:54:35 405

原创莎士比亚风格的文本生成任务

摘要：莎士比亚风格文本生成是NLP中的风格迁移任务，需模仿其古英语词汇（thou/thee）、倒装句式和五音步韵律等特征。实现方法包括：1）微调GPT等预训练模型；2）基于LSTM从零训练字符级模型。建议使用Project Gutenberg的莎士比亚语料，并加入韵律控制模块增强效果。典型输出如"Thy love hath made mine eyes forget thy sight"，展现伊丽莎白时代的诗性语言特征。关键挑战在于准确捕捉早期现代英语的语法变异和戏剧性修辞。

2025-07-18 16:58:31 536

原创 CRF模型

摘要：条件随机场（CRF）是一种序列标注概率图模型，通过全局建模输出标签序列的条件概率，克服了HMM和MEMM的局限性。它在NLP任务中表现优异，支持多种特征组合，但依赖特征工程且训练较慢。现代方法常将CRF与BiLSTM、BERT等神经网络结合，如BiLSTM-CRF和BERT-CRF模型，通过深度特征提取提升性能。典型应用包括命名实体识别，Python实现可使用sklearn-crfsuite库，需自定义特征函数。CRF的核心优势在于序列建模能力，但面临特征工程复杂、计算成本高等挑战。（149字）

2025-07-18 16:54:18 475

原创 DeepSeek-R1：开源推理模型的突破

DeepSeek-R1 是一款基于混合专家（MoE）架构的大语言模型，基于 DeepSeek-V3 开发，拥有6710 亿参数，但每次推理仅激活 370 亿参数，极大地优化了计算效率。它的设计目标是解决复杂推理任务，例如数学问题、编程挑战和逻辑推理，性能可媲美 OpenAI 的 o1 模型。与基础模型 DeepSeek-V3 不同，R1 通过纯强化学习（RL）和多阶段训练（包括两个 RL 阶段和两个监督微调阶段）进行了优化，显著提升了输出的可读性和一致性。DeepSeek-R1 的训练采用了。

2025-07-17 20:01:32 1037

原创 DeepSeek

DeepSeek是一家中国 AI 创企，成立于 2023 年，发布了一系列开源的、大规模且低成本的语言模型(自 2023 年底发布首个基础版本以来，DeepSeek 快速迭代，已成为全球开源 LLM（大语言模型）中的领军者。优点内容说明性能领先MMLU、数学、代码等 benchmark 上超越多数开源与闭源模型高度可扩展MoE 架构仅激活部分专家，降低推理成本长文本处理能力强支持高达 128K tokens 文本输入开源与透明度高模型和论文开放供社区使用与研究训练与运行成本低。

2025-07-17 19:51:00 1049

原创 GPT-3预训练模型

项目内容发布机构OpenAI发布时间2020 年 6 月模型结构Transformer Decoder-only（仅使用解码器结构）输入方式自回归方式（基于上下文预测下一个 token）预训练任务无监督语言建模（language modeling）主要特点大规模预训练 + 零/少样本泛化能力 + 通用任务提示适应能力（prompting）GPT-3 不仅在自然语言生成方面表现优异，还在翻译、问答、编程、摘要、逻辑推理等多种任务上均具备能力。

2025-07-17 19:43:40 1174

原创 GPT-2预训练模型

摘要：GPT-2是OpenAI于2019年发布的Transformer架构自回归语言模型，参数量从1.17亿到15亿不等，具有强大的文本生成能力。它采用Decoder-only结构，支持零样本推理，适用于文本生成、问答等任务，但存在输入长度限制和缺乏双向理解等不足。尽管后续GPT-3等模型性能更强，GPT-2凭借开源特性仍是轻量级应用的首选。HuggingFace平台提供了便捷的调用接口，支持直接使用和领域微调。

2025-07-17 19:38:15 1008

原创 XLNet 预训练模型

属性内容模型名称XLNet提出机构发布时间2019 年基础架构Transformer-XL（带有相对位置编码）最大特点Permutation Language Modeling（排列语言建模）主要目标结合 BERT（MLM）和 GPT（Auto-regressive）的优点项目内容模型类型自回归 + 自编码混合型 Transformer特点Permutation LM、Transformer-XL 架构优势保留词序、无信息泄露、捕捉更丰富上下文应用效果。

2025-07-16 21:28:59 701

原创 ERNIE预训练模型

项目内容全称提出者百度 Baidu首次发布2019 年模型结构BERT 改进型，使用 Transformer Encoder 架构主要目标融合先验知识（如实体、词组、句法）进行预训练应用场景分类、匹配、问答、抽取等各类 NLP 任务模型特点内容架构类型主要创新实体级 mask、多任务知识融合代表性任务中文 NLP（分类、匹配、问答）性能表现中文任务优于 BERT 等基础模型是否开源是，部分模型参数可在 Hugging Face 获取。

2025-07-16 21:24:46 773

原创 DeBERTa预训练模型

特性内容全称提出者发布时间2021 年基础架构主要特点解耦注意力机制 + 相对位置编码 + 解码增强模型开源项目内容模型名称DeBERTa提出单位架构类型Encoder-only (BERT 类 Transformer)创新点解耦注意力机制 + 相对位置编码优势精度更高，泛化更强使用推荐推荐用于高精度自然语言理解任务。

2025-07-16 21:20:51 784

原创 T5预训练模型

特性内容提出团队Google Research (Colin Raffel 等)论文名称架构基于 Transformer 的 Encoder-Decoder统一方式输入、输出全部是文本模型名称项目内容核心理念所有 NLP 任务皆转为 Text-to-Text架构预训练应用分类、生成、翻译、摘要、问答、句子重写等工具库支持良好，可直接部署。

2025-07-16 21:16:19 779

原创长文本预测任务使用BERT构造训练样本

场景推荐策略关键信息在前直接截断前 512信息分布均匀滑动窗口前后重要，中间可舍首尾拼接结构清晰、长文层次式 BERT高效高性能需求Longformer、BigBird、RoBERTa 等。

2025-07-16 20:54:36 499

原创 BERT的MLM任务采用80% 10% 10%的策略的原因

BERT 采用 80%[MASK]模拟真实语言环境，避免模型只学会猜[MASK]提高泛化能力与鲁棒性提供更丰富的学习信号，提高语义建模能力这种比例已被实践验证，在 NLP 预训练中是个极具代表性的设计。如果你有兴趣，我还可以展示一下用 PyTorch 实现这个 masking 策略的代码。是否需要？

2025-07-16 20:48:33 777

原创 GPT-4预训练模型

GPT-4全称为，由 OpenAI 于 2023 年 3 月发布。其核心思想仍然基于自回归 Transformer 解码器架构，但在训练数据、模型参数、能力边界、稳定性和推理能力方面做了大幅优化。项目描述发布机构OpenAI架构类型Transformer Decoder（自回归）支持模态文本 + 图像（多模态）能力类型语言生成、代码生成、数学推理、视觉理解等支持语言多达 26 种以上，表现更均衡项目GPT-4 总览模型定位通用 AI 能力平台代表特征多模态、强逻辑、长上下文。

2025-07-15 23:18:56 1172

原创 GPT预训练模型

GPT是一种基于Transformer架构的自回归语言模型，由OpenAI开发。它采用"预训练+微调"模式，在文本生成、对话等NLP任务中表现优异。核心架构为Decoder-Only Transformer，通过自注意力机制建模语言规律。GPT系列从最初的1.1亿参数发展到GPT-4的多模态版本，具备few-shot学习能力。优势包括强大的生成能力和任务泛化性，但也存在计算资源消耗大、长文处理受限等不足。典型应用涵盖对话系统、代码生成等领域，可通过HuggingFace等工具快速部署。相

2025-07-15 21:48:18 1332

原创 ELMo模型

属性ELMo 模型解释模型结构双向语言模型（BiLSTM + char-CNN）表达方式每个词根据上下文获得不同的向量应用方式作为词向量输入给下游模型（不可微调参数）优势上下文感知、无 OOV、支持多层加权组合不足模型较重，训练慢，不支持端到端 fine-tunes_j%5Cgamma。

2025-07-15 17:10:02 588

原创 Transformer可以代替seq2seq的原因

Transformer 能够全面替代传统的，主要是因为它在建模能力、效率和可扩展性上全面优于基于 RNN 的 Seq2Seq。以下是原因的详细解析。

2025-07-15 15:02:16 612

原创 Transformer 相比于传统的 RNN优势

Transformer在NLP领域展现出比RNN/LSTM/GRU更强的性能优势。其核心优势包括：完全并行计算能力、更好的长距离依赖建模、多头注意力机制带来的多维语义表达、以及更适合大规模预训练的特性。通过自注意力机制，Transformer能同时处理整个序列，克服了RNN的顺序计算限制，显著提升了训练效率和模型表达能力。这些优势使得Transformer成为BERT、GPT等现代NLP模型的基础架构，并成功应用于机器翻译、文本生成等任务。

2025-07-15 14:56:59 1237

原创 Transformer：采用Multi-head Attention的原因和计算规则

h: 注意力头的个数（例如 8）d_k: 每个头的维度，通常总体输出维度保持为d_model名称说明注意力头数 h一般为 8 或 12每个头的维度 dₖ通常 dₖ = d_model / h计算过程对每个头单独计算 Self-Attention并行性所有头同时计算，适合 GPU 并行加速优点多角度理解 token 关系，增强表达力Multi-Head Attention = 多个不同“角度”的 Self-Attention + 拼接 + 映射整合。

2025-07-15 11:51:54 1019

原创 Transformer ：Self-Attention（自注意力机制）

特性说明全局上下文每个词都能与所有其他词交互位置无关不依赖相对/绝对位置，可与位置编码组合使用并行计算所有 token 同时处理，速度快灵活建模根据不同输入动态学习注意力分布Self-Attention 是 Transformer 模型的核心灵魂，既实现了强大的表达能力，又兼顾了效率。掌握了它，就为理解整个 Transformer 奠定了基础。

2025-07-15 11:05:00 1007

原创 Transformer：结构中的Decoder端具体输入

模块输入来源说明左移后的目标序列用于构建输入 token 表示位置索引编码 token 顺序Decoder 自己生成的 token 序列加掩码，防止看未来Encoder 的输出引入源语言语义信息上一步注意力机制的输出非线性转换，提升表达能力。

2025-07-15 10:51:42 709

原创 Transformer：结构及各个子模块的作用

模块作用多头注意力机制提取不同位置之间的依赖关系前馈全连接层对每个 token 向量做非线性加工残差连接保留原始信息，缓解深度训练问题层归一化（LayerNorm）提高训练稳定性，加速模型收敛位置编码添加顺序信息，保留位置信息编码器-解码器注意力解码器获取输入的全局语义表示%20b_2。

2025-07-15 10:40:46 1031

matlab-R2024b-Windows.exe 安装包

pycharm 2018.3.5 安装包

空空如也