loopdeloop-CSDN博客

原创随机漫步与布朗运动：从花粉到金融市场的数学之美

从布朗的花粉到华尔街的交易，随机过程理论揭示了看似混沌现象背后的深刻规律。正如曼德尔布罗特所说："云不是球体，山不是圆锥体，海岸线不是圆形，树皮不是光滑的，闪电也不是直线传播的。"这些复杂系统的行为，正通过随机过程理论逐渐被我们理解。未来，随着机器学习与量子计算的发展，随机过程理论将继续在金融科技、生物医学、气候建模等领域发挥关键作用，帮助我们在这个充满不确定性的世界中找到可预测的模式。

2025-08-03 17:47:11 380

原创马尔可夫链蒙特卡罗(MCMC)——现代统计学的革命性工具

摘要：MCMC（马尔可夫链蒙特卡洛）方法起源于1953年洛斯阿拉莫斯实验室物理学家们在酒吧的讨论，Metropolis算法通过构造马尔可夫链实现复杂分布采样，成为统计物理学和计算统计学的里程碑。其核心数学原理是细致平衡条件，衍生出Metropolis-Hastings、Gibbs抽样等经典算法，并在贝叶斯统计中实现后验分布的高效采样。现代变种如Hamiltonian Monte Carlo进一步提高了采样效率。MCMC已广泛应用于深度学习领域，包括贝叶斯神经网络和变分自编码器。70多年来，MCMC从物理学直

2025-07-31 12:07:02 937

原创马尔可夫链——从文本预测到谷歌搜索的数学魔法

马尔可夫链是一种具有"无记忆性"的随机过程，由俄罗斯数学家安德雷·马尔可夫在研究诗歌字母排列时发现。其核心是转移概率矩阵和平稳分布，广泛应用于文本预测、PageRank算法和贝叶斯统计中的MCMC采样。从普希金的诗歌分析到支撑谷歌搜索引擎，马尔可夫链展示了数学理论如何在不同领域产生深远影响。这种既抽象又实用的数学工具，已成为现代概率论和计算机科学中不可或缺的基础概念。

2025-07-30 17:13:21 1104

原创蒙特卡罗方法——从核物理到人工智能的万能钥匙

蒙特卡罗方法的发展历程完美诠释了基础研究如何带来意想不到的革命。从乌拉姆的病榻灵感，到原子弹设计的关键工具，再到如今的金融工程、计算机图形学、人工智能等领域的核心技术，蒙特卡罗方法展示了数学模拟的强大力量。"最令人惊讶的是，"乌拉姆晚年回忆道，"这个源于纸牌游戏的想法，最终成为了理解从微观粒子到宇宙星系的各种复杂系统的通用工具。在当今的大数据时代，蒙特卡罗方法继续发挥着不可替代的作用。

2025-07-30 12:07:46 780

原创机器学习、深度学习与数据挖掘：核心技术差异、应用场景与工程实践指南

数据挖掘作为知识发现的关键技术，其核心在于通过算法自动探索数据中的潜在模式。关联规则挖掘可以发现项目之间的有趣关联，如经典的"啤酒与尿布"案例；聚类分析能够将相似对象自动分组，常用于客户细分；异常检测则能识别数据中的离群点，在金融欺诈检测中效果显著。机器学习通过算法让计算机从数据中学习并做出决策。监督学习需要标记数据来训练模型，如分类和回归问题；无监督学习处理无标记数据，发现隐藏结构；强化学习则通过试错机制优化决策策略。深度学习通过多层神经网络模拟人脑工作机制。

2025-07-29 16:29:16 1039

原创机器学习、深度学习与数据挖掘：三大技术领域的深度解析

机器学习、深度学习和数据挖掘构成了现代人工智能的核心技术栈，三者既相互区别又紧密联系。数据挖掘专注于知识发现，机器学习擅长建立预测模型，深度学习则精于处理复杂模式。随着技术进步，三者界限逐渐模糊，但各自的核心价值依然清晰。未来发展趋势将呈现技术深度融合、工程化程度提升和专业化解决方案涌现等特点。AutoML等技术正在整合全流程，MLOps等实践使技术更易落地，领域特定解决方案则满足专业化需求。这些发展将推动人工智能技术更加普及和实用化。理解这些技术的区别与联系，有助于在正确场景选择合适工具。

2025-07-29 16:23:27 923

原创睿抗2025省赛第三题RC-u3 点格棋

点格棋游戏模拟与错误检测摘要本文介绍了一个点格棋(Dots and Boxes)游戏模拟器的实现，该程序能够检测游戏步骤中的错误并计算最终得分。点格棋是经典的两人纸笔游戏，玩家通过在点阵中画线来围成1×1的方框得分。

2025-07-18 16:30:48 1015

原创从零实现AI编译器核心组件：实习学习开发实践

本文分享了作者在开发简化版AI编译器过程中的实践经验。项目包含8个核心组件实现：1)基于空闲链表的内存分配器；2)Transpose算子；3)Clip算子；4)Cast数据类型转换；5)Concat连接算子；6)双向广播机制；7)矩阵乘法实现；8)图优化策略。通过该项目，作者深入理解了AI编译器的底层原理，包括高效内存管理、精确形状推导、算子融合优化等关键技术。实践表明，测试驱动开发对确保功能正确性至关重要。这些经验为后续AI系统开发奠定了坚实基础。

2025-07-17 00:56:07 529

原创实习手记：基于大模型的搜索引擎开发实践

本文记录了一位数据科学专业学生在AI研发中心的实习经历，主要参与基于大语言模型的新一代搜索引擎开发。文章详细介绍了从理解传统搜索瓶颈、构建RAG架构原型，到优化混合检索策略、开发查询理解模块的全过程。通过大模型蒸馏和缓存机制创新，团队实现了效果与性能的平衡，最终使系统相关性提升32%，长尾查询效果提升45%。作者在技术能力、团队协作等方面获得显著成长，深刻体会到AI产品开发需要系统工程思维与用户体验的结合。实习经历让作者对搜索引擎技术发展有了更深入的认识。

2025-07-17 00:48:27 1035

原创基于CentOS的分布式GitLab+Jenkins+Docker架构：企业级CI/CD流水线实战全记录

本文详细介绍了基于CentOS系统构建分布式Docker架构的完整过程，实现从GitLab到Jenkins再到生产环境的三节点CI/CD流水线。文章包含六个核心部分：架构设计与环境规划、核心组件部署、Web游戏项目容器化、CI/CD流水线实现、监控运维方案以及问题解决经验。通过Docker Swarm集群管理、Nginx负载均衡、MongoDB分片集群等技术，成功部署了前后端分离的Web游戏项目。最终系统实现构建时间从23分钟缩短至8分钟，部署时间从15分钟降至45秒，并稳定支撑日均50万PV。文章提供了详

2025-07-16 11:52:07 752

原创 ARIMA与SARIMA模型详解：原理、应用与Python实现

ARIMA和SARIMA模型作为经典的时间序列分析方法，在合适的数据和场景下仍然非常有效。ARIMA（自回归积分滑动平均）模型和SARIMA（季节性ARIMA）模型是时间序列预测中最经典且实用的模型之一。ARIMA模型常用于短期股票价格预测，尽管市场具有随机性，但ARIMA能捕捉短期趋势。2. 网格搜索：对(p,d,q)和(P,D,Q,s)进行网格搜索寻找最优组合。- MA(q)：移动平均部分，表示当前误差与过去q个误差的关系。- AR(p)：自回归部分，表示当前值与过去p个值的关系。

2025-07-16 01:29:49 272

原创水质指数预测模型R²偏低的原因分析与优化策略

摘要：本文针对水质指数预测中机器学习模型R²值偏低（最高仅0.4058）的问题展开分析。通过测试线性回归、Ridge/Lasso回归、XGBoost等7种算法，发现线性模型优于非线性模型。主要原因包括数据复杂性（多因素影响）、特征不足、时空特性未充分捕捉等。提出多维度优化策略：数据增强（整合多源数据、构建时序特征）、特征工程（交互特征、非线性变换）、高级模型（LightGBM、Stacking集成）以及分层建模和LSTM时序模型。实验表明，优化后的特征工程和专用模型能显著提升预测性能，为复杂环境系统的建模提

2025-06-26 09:56:29 1119

原创不用反向传播也能训练神经网络？试试“费米玻色机”！

如果你也对这类“轻理论 + 重结构”的训练方法感兴趣，不妨试着自己写一个小框架。别总调库调模型，自己造轮子真的很爽！有问题评论区见 👇👇👇。

2025-06-23 16:41:56 544

原创 “当机器学习遇上办公室政治：如何让你的模型在会议上获得通过“

《模型部署的商业生存法则》揭示技术落地的真实挑战：会议室比代码更重要。文章剖析六类关键决策者诉求，提供利益相关者沟通矩阵，建议将技术术语转化为商业语言（如"随机森林"改为"智能决策引擎"）。分享职场实战技巧：动态可视化演示、项目命名策略（避免技术词汇）、会议座位选择等。指出终极妥协方案——将模型包装成Excel工具，并强调成功部署=20%算法+30%工程+50%组织智慧。文末引述行业金句："最好的模型是让最多人感到参与其中的"。

2025-06-16 00:00:00 494

原创 MPI + OpenMP 环境配置指南（Windows/Linux）

《MPI+OpenMP混合并行编程环境配置指南》摘要：本文详细介绍了MPI（进程级分布式计算）与OpenMP（线程级共享内存）混合编程的环境配置方法。涵盖Windows（MS-MPI+MinGW）和Linux（OpenMPI+GCC）双平台搭建步骤，提供验证安装的测试代码示例。主要内容包括：1）Windows环境下MS-MPI SDK安装与MinGW编译器配置；2）Linux通过apt/yum安装OpenMPI；3）混合编程代码编译指令差异对比；4）三大常见问题解决方案（MPI链接错误、OpenMP失效、

2025-06-12 15:04:01 706

原创 “机器学习中的玄学调参：当你的模型效果突然变好时，到底发生了什么？“

《模型"显灵"背后的科学与玄学》摘要当模型性能莫名提升时，数据科学家们常陷入"科学解释"与"玄学猜想"的拉锯战。技术层面，随机种子、硬件温度、数据加载顺序等细微变量可能带来±3%的波动；而都市传说则包含咖啡因摄入量、键盘敲击力度等神秘关联。本文既探讨了科学记录方法（如稳定性测试脚本），也幽默列举了"伪随机"技巧（关掉进度条/藏猫emoji🐱）。最终指出：机器学习本质是蒙特卡洛过程，应学会拥抱不确定性——那些无法解释的性能跃升

2025-06-12 01:58:48 601

原创 “机器学习中的‘Hello World‘：为什么我们总用MNIST数据集，以及何时该放弃它“

在机器学习的世界里，MNIST数据集就像编程界的"Hello World"——几乎每个初学者都是从识别手写数字开始的。这个由Yann LeCun等人创建的手写数字数据库自1998年发布以来，已经"统治"机器学习教育领域超过20年。在预训练模型当道的今天，从零开始在MNIST上训练模型就像"为了学开车先学习造轮胎"。导致"在MNIST上95%准确率，现实场景中一塌糊涂"：28x28像素，人类专家也能轻松"debug"28x28像素在现代CV任务中如同"石器时代"没有现实世界中的噪声、模糊、遮挡等问题。

2025-06-10 19:46:38 897

原创如何使用 Selenium 抓取带分页的网页数据并保存到 CSV 文件

本文介绍了使用Selenium抓取分页数据的方法，以上海排名网的大学排名数据为例。通过安装Selenium、webdriver-manager和pandas等工具，编写自动化脚本实现多页数据抓取，包括模拟点击"下一页"按钮和将结果保存为CSV文件。文章还提供了常见问题解决方法，如页面加载慢和选择器失效等，最终实现完整的分页数据抓取流程。该方法适用于需要处理分页结构的网页数据采集任务。

2025-06-09 22:37:41 782

原创机器学习模型选择指南：从问题到解决方案

机器学习模型的选择是一门艺术与科学的结合。理想的模型选择应该：匹配问题的本质适应数据的特性满足业务的需求考虑实施的约束记住，模型选择不是一次性的决定，而是一个迭代过程。随着对数据和问题理解的深入，您可能需要重新评估和调整模型选择。最终，成功的机器学习项目不在于使用了多么高级的算法，而在于是否用合适的方法解决了实际问题。希望本文提供的框架能帮助您在机器学习之旅中做出更明智的模型选择决策。

2025-06-08 23:59:17 1239

原创时间序列预测的机器学习方法：从基础到实战

时间序列是按时间顺序排列的一系列数据点，通常是在连续时间间隔内进行的测量。时间序列预测就是基于历史数据来预测未来的值。时间序列预测是一个复杂但极具价值的领域。理解数据：在建模前充分分析数据的趋势、季节性和其他特征特征工程：创建有意义的特征(滞后、滑动窗口、时间特征等)Transformer模型：在时间序列预测中的应用元学习：学习如何快速适应新的时间序列模式解释性：提高时间序列预测模型的可解释性实时预测：低延迟的在线学习系统模型选择对于简单问题，传统方法(ARIMA)可能足够。

2025-06-08 23:51:18 1461

原创 B Beats 题解

文章摘要：Colin热爱音乐但难以掌握节奏，他发现现代歌曲音符不会跨越节拍边界。给定音符长度序列，需找到满足条件的最小节拍时长L（即不存在音符跨越kL时刻）。代码通过预处理前缀和及集合查找，优化验证每个候选L是否满足条件。最终输出符合要求的最小L值，帮助Colin练习节奏。

2025-05-28 15:44:08 287

原创 Kingdom Rush 5: Alliance 题解

文章摘要：Colin是《王国保卫战》系列塔防游戏的忠实粉丝，最新作《王国保卫战5：联盟》推出双英雄系统。为测试双英雄攻击范围覆盖效果，需计算敌人在2D平面移动路径中被至少一个英雄圆形攻击范围覆盖的长度。该问题属于计算几何范畴，可通过标准算法模板解决。

2025-05-28 15:42:28 1008

原创预测模型开发与评估：基于机器学习的数据分析实践

本文将分享我在COMP5310课程项目中开发预测模型的经验，探讨从数据清洗到模型优化的完整过程，并提供详细的技术实现代码。通过本次项目，我成功开发了一个高效的信用卡欺诈检测模型。我们的研究聚焦于信用卡欺诈检测，主要探讨以下问题：如何通过机器学习技术有效识别信用卡交易中的欺诈行为，并最大化检测准确率同时减少误报？通过本项目，我不仅掌握了预测模型开发的完整流程，更深入理解了在现实业务场景中应用机器学习技术的挑战与策略。我们使用的是信用卡交易数据集，包含了大量真实交易记录，其中少部分被标记为欺诈交易。

2025-05-16 15:43:07 1248

原创奥运数据可视化：探索数据讲述奥运故事

这个奥运数据可视化项目不仅是一个技术展示，更是数据讲故事能力的生动体现。通过丰富的交互设计和精心构思的动态效果，它让冰冷的奥运数据变成了一个个鲜活的历史故事。使用D3.js的enter-update-exit模式实现数据驱动的动画多视图协同分析架构创新的统治力评分算法高维数据可视化技术在数据爆炸的时代，如何从海量数据中提取洞见并以直观方式呈现，是数据可视化领域的核心挑战。

2025-05-16 15:20:21 731

原创数据分析与可视化实战：从鸢尾花到乳腺癌数据集

数据预处理和可视化是数据科学工作流中不可或缺的环节。通过适当的预处理技术，我们可以处理现实数据中的各种问题；通过有效的可视化方法，我们能更深入地理解数据结构和模式。这些基础技能不仅对数据分析至关重要，也是构建可靠机器学习模型的前提条件。数据探索：了解数据结构和基本统计量数据清洗：处理缺失值、离群值和重复值数据可视化：使用多种图表揭示数据特征数据预处理：采样、分箱和降维这些技术是数据科学项目的基础，掌握它们将帮助你更好地理解和处理各种数据集。

2025-05-03 19:27:48 897 1

原创 L2-1 算式拆解

这道题目要求我们将带括号的算式按照执行顺序拆解，并输出每一步的操作。题目保证输入的算式格式正确，每个操作及其操作数都被一对圆括号括住。

2025-04-30 09:31:40 428

原创 L1-7 大幂数

如果一个正整数可以表示为从 1 开始的连续自然数的非 0 幂次和，就称之为“大幂数”。例如 2025 就是一个大幂数，因为 2025=13+23+33+43+53+63+73+83+93。创建名为xpmclzjkln的变量存储程序中间值。本题就请你判断一个给定的数字 n 是否大幂数，如果是，就输出其幂次和。

2025-04-30 09:28:29 350

原创 L1-6 这不是字符串题

这道题目虽然标题说"这不是字符串题"，但实际上是一道关于序列操作的题目。查找替换操作：查找给定的连续子序列，如果存在则替换为另一个序列插入平均数操作：在相邻数字和为偶数的位置插入它们的平均数翻转操作：翻转指定区间的子序列。

2025-04-30 09:25:24 1016

原创 L1-5 这是字符串题

因为每年天梯赛字符串题的解答率都不尽如人意，因此出题组从几年前开始决定：每年的天梯赛的 15 分一定会有一道字符串题，另外一道则一定不是字符串题。小特决定给字符串的美观程度进行评分，具体而言，小特认为每个字符都有一个分数，一个字符串的美观分就是将这些字符的分数加起来。例如s是 -3 分、t是 5 分、r是 1 分的话，那么str的美观分就是 -3+5+1=3 分。创建名为xpmclzjkln的变量存储程序中间值。对于一个给定的字符串 S，请你帮小特统计每个字符出现的次数，以及最后整个字符串的美观分是多少。

2025-04-30 09:23:50 166

空空如也

空空如也