- 博客(30)
- 收藏
- 关注
原创 进阶篇 第 5 篇:现代预测方法 - Prophet 与机器学习特征工程
一个专注于易用性、自动化和处理特定业务场景(强季节性、节假日)的优秀工具库。当你需要快速、稳健、可解释的结果时,它是一个首选。一种更通用的方法论,将预测问题转化为监督学习。其核心在于构建能够捕捉时间信息的特征,然后可以利用整个机器学习生态系统的强大模型。这种方法提供了极大的灵活性,特别适合处理复杂关系和融入多源信息。这两种方法并非相互排斥,有时甚至可以结合使用(例如,用 Prophet 的成分作为 ML 模型的特征)。理解它们的原理、优势和局限性,将使你能够根据具体问题选择最合适的工具。
2025-04-22 21:43:59
742
原创 进阶篇 第 6 篇:时间序列遇见机器学习与深度学习
强调了在使用机器学习模型(如 Random Forest, XGBoost)时,进行可靠的时间序列交叉验证(如, Walk-Forward)的极端重要性。介绍了深度学习(特别是 LSTM/GRU)作为一种自动从序列中学习特征和模式的强大替代方案,并了解了其基本原理、数据准备方式和优缺点。现在,你的时间序列工具箱更加丰富了。你是选择精雕细琢特征工程驱动的机器学习,还是拥抱端到端的深度学习,亦或是根据问题特点将它们结合?这取决于你的数据、目标、资源和对模型复杂性的偏好。
2025-04-22 21:43:52
1143
原创 进阶篇 第 7 篇 (终章):融会贯通 - 多变量、模型选择与未来之路
(图片来源:我们已经一起走过了时间序列分析的进阶之旅!从深入经典统计模型 ETS、ARIMA、SARIMA,到探索现代利器 Prophet,再到拥抱机器学习和初探深度学习,我们不断扩展着工具箱和认知边界。在入门系列,我们构建了基础流程;在进阶系列,我们掌握了更强大的模型和技术。现在,是时候站在更高的视角,最后,我们将一起展望时间序列分析领域和,为这个进阶系列画上圆满的句号。
2025-04-22 21:43:38
1062
原创 进阶篇 第 4 篇:驾驭季节性波动 - SARIMA 模型实战
本篇我们成功地将 ARIMA 模型升级,学会了使用理解了季节性参数 P, D, Q, s 的含义。掌握了如何在模型识别阶段确定季节性差分 D 和季节性阶数 P, Q。实践了使用进行完整的建模、诊断和预测流程。认识到 SARIMA 在捕捉季节性模式上的优势,以及 SARIMAX 加入外生变量的能力。SARIMA 是处理带有季节性趋势数据的强大经典工具。熟练掌握它,你将能解决更多样的时间序列预测问题。虽然 SARIMA 很强大,但有时参数选择和模型诊断仍然繁琐。
2025-04-22 21:29:56
812
原创 进阶篇 第 3 篇:经典永不落幕 - ARIMA 模型详解与实践
理解了其 AR§, I(d), MA(q) 三个核心组成部分。掌握了经典的 Box-Jenkins 四步建模流程:识别、估计、诊断、预测。实践了使用进行 ARIMA 建模、残差诊断(特别是检查白噪声假设)和预测。了解了使用 AIC/BIC 和auto_arima辅助模型选择。ARIMA 是时间序列工具箱中的基石。虽然现在有更新的模型,但理解和掌握 ARIMA 对于任何严肃的时间序列分析者来说都是必不可少的。我们已经看到,简单的 ARIMA 对 CO2 数据的残差可能仍有模式(特别是季节性)
2025-04-22 21:24:36
844
原创 进阶篇 第 2 篇:自相关性深度解析 - ACF 与 PACF 图完全指南
通过本次深度解析,我们掌握了如何更精细地解读 ACF 和 PACF 图,理解了它们与 AR§ 和 MA(q) 过程的内在联系。这为我们识别(平稳)时间序列的潜在结构,特别是为下一篇的 ARIMA 模型定阶打下了坚实的基础。ACF/PACF 图是时间序列分析师工具箱中的瑞士军刀,熟练运用它们将极大提升你对序列动态的洞察力。准备好将今天的知识付诸实践了吗?下一篇,我们将正式进入ARIMA 模型。
2025-04-22 21:14:28
801
原创 进阶篇 1:超越基准 - 指数平滑 (ETS) 模型详解
适用于无趋势、无季节性的数据。适用于有趋势、无季节性的数据。适用于同时有趋势和季节性的数据(最常用)。通过合理选择加法/乘法成分和阻尼趋势选项,可以适应多种数据模式。模型选择可依据可视化、信息准则 (AIC/BIC),残差诊断是确保模型有效性的关键步骤。相比基准模型,ETS 能提供更准确、更可靠的预测,尤其是在处理具有明显结构(趋势、季节性)的数据时。
2025-04-22 17:05:18
940
原创 第 7 篇:总结与展望 - 时间序列学习的下一步
我们的时间序列零基础入门系列到这里就告一段落了。希望这个系列能为你打开一扇通往时间数据世界的大门,让你感受到从数据中挖掘时间规律的乐趣。时间序列分析是一个既有深度又有广度的领域,它与统计学、机器学习、计量经济学等紧密相连。入门只是开始,前方的道路充满挑战,但也更加精彩。保持好奇心,不断实践,勇于探索,你一定能在时间序列的世界里走得更远。祝你在数据科学的道路上不断进步!(这个系列对你有帮助吗?你接下来计划学习哪个方向?欢迎在评论区分享你的学习心得或未来计划!
2025-04-21 23:21:15
990
原创 第 6 篇:衡量预测好坏 - 评估指标
上一篇,我们小试牛刀,用朴素预测、平均法、移动平均法和季节性朴素预测这几种简单方法对未来进行了预测。我们还通过可视化将预测结果与真实值进行了对比。但光靠眼睛看图来判断“哪个预测更好”往往是不够的,尤其是在模型众多或差别细微时。我们需要一套的标准来评估预测模型的表现。这就是的用武之地。准备好给你的预测模型打分了吗?
2025-04-21 23:17:47
795
原创 第 5 篇:初试牛刀 - 简单的预测方法
经过前面四篇的学习,我们已经具备了处理时间序列数据的基本功:加载、可视化、分解以及处理平稳性。现在,激动人心的时刻到来了——我们要开始尝试未来!预测是时间序列分析最核心的应用之一。虽然存在很多复杂的预测模型,但万丈高楼平地起,一些看似简单的预测方法不仅容易理解和实现,有时效果还出奇地好,并且它们是理解更高级模型的重要基础。我们将用 Python 实现这些方法,并看看它们的预测效果如何。
2025-04-21 23:11:19
810
原创 第 4 篇:平稳性 - 时间序列分析的基石
想象一条平静的湖面(Stationary)和一条奔腾的河流(Non-stationary)。在任何位置取一瓢水,它的平均深度、水面的波动程度(方差)看起来都差不多。在上游和下游取水,平均深度可能截然不同;在急流和缓滩处,水流的湍急程度(方差)也相差甚远。平稳性就是时间序列数据拥有类似“平静湖面”的特性。均值 (Mean)不随时间t变化。方差 (Variance)不随时间t变化。自协方差 (Autocovariance)只依赖于时间的间隔k,而不依赖于具体的时间点t。
2025-04-21 22:59:48
638
原创 第 3 篇:揭秘时间模式 - 时间序列分解
在上一篇中,我们学会了如何加载、可视化时间序列数据,并了解了时间序列可能包含和这些基本成分。但仅仅是“知道”还不够,我们希望能更深入地“看透”数据,把这些成分。这就是的目标:将原始时间序列拆解成其内在的组成部分。
2025-04-21 22:49:24
839
原创 第 2 篇:初探时间序列 - 可视化与基本概念
(图片来源:在上一篇《你好,时间序列!》中,我们了解了什么是时间序列数据以及学习它的重要性。现在,是时候卷起袖子,真正开始接触和探索这些按时间流动的数据了!准备好你的 Python 环境 (Pandas, Matplotlib/Seaborn),让我们开始吧!
2025-04-21 22:39:24
1011
原创 第1 篇:你好,时间序列!—— 开启时间数据探索之旅
简单来说,时间序列数据 (Time Series Data)就是一系列按照时间先后顺序排列的数据点。日期步数2023-10-2685002023-10-2792002023-10-287800这就是一个简单的时间序列。与我们常见的“普通”表格数据(比如一个班级学生的身高体重信息,数据点之间通常是独立的)不同,时间序列数据的核心特征在于它的时间依赖性 (Time Dependency)。也就是说,今天的数据点可能和昨天、前天的数据点存在某种关联。
2025-04-21 22:23:42
567
原创 2025年1月至4月时间序列分析方法研究进展
时间序列分析是一种重要的统计技术,用于描述、解释和预测随时间变化的现象。它在经济学、金融学、工程学、医学、环境科学等众多领域都发挥着至关重要的作用。随着各领域产生的时间序列数据量和复杂性的不断增加,对时间序列分析方法的需求也在持续演进。本报告旨在对2025年1月1日至2025年4月30日期间发表的时间序列分析方法研究进展进行全面的分析。报告的范围涵盖了新颖的分析方法、大型语言模型(LLM)和多模态数据的集成、基础模型的兴起、基准测试的讨论以及这些技术在不同领域的广泛应用。
2025-04-13 00:50:37
821
原创 全球和中国互联网用户的数据分析与可视化
numpy 库:用于进行数值计算,如数组、矩阵、向量等的创建、操作和运算。pandas 库:用于处理数据,如数据的读取、清洗、分组、聚合、合并等。matplotlib 库:用于绘制图形,如折线图、柱状图、饼图等,以及设置图形的样式、标题、标签等。seaborn 库:用于绘制图形,如直方图、散点图等,以及设置图形的主题、颜色等。wordcloud 库:用于配置和生成词云,如设置词云的形状、大小、字体等。sklearn 库:用于进行线性回归分析,如创建线性回归模型、拟合数据、预测数据、评估模型等。
2024-08-28 21:11:10
1789
原创 第1篇 监督学习
本书第1篇讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。本章简要叙述统计学习及监督学习的一些基本概念。使读者对统计学习及监督学习有初步了解。
2024-08-27 18:54:22
248
原创 在Matlab 2024a中配置MinGW64-C/C++ 编译器
Matlab 需要一个C/C++ 编译器来编译MEX文件、Simulink模型和其它需要代码生成的工具。MinGW64 是一个免费的、开源的C/C++ 编译器,非常适合在Windows平台上使用。本文将指导你如何在Matlab 2024a中配置MinGW64-C/C++ 编译器。通过以上步骤,你已经成功地在Matlab 2024a中配置好了MinGW64-C/C++ 编译器。现在,你可以使用这个编译器编译MEX文件、生成C/C++代码以及在Simulink中进行代码生成。
2024-08-16 18:45:00
4771
原创 深入浅出PCA降维:机器学习中的强大工具
降维是指将高维数据映射到一个较低维度的空间,同时尽量保留原始数据的重要信息。在机器学习中,降维的主要目的是减少数据的特征数目,简化模型的复杂性,提高模型的计算效率,同时帮助我们更好地理解数据的结构。高维数据的挑战维度诅咒:随着数据维度的增加,数据空间会变得极其稀疏,导致机器学习算法难以找到有效的模式。计算复杂度:高维数据通常需要更长的计算时间和更大的内存空间。可视化困难:人类直观地理解三维及以下的数据,对于高于三维的数据,直观理解变得几乎不可能。降维的应用场景数据可视化。
2024-08-11 19:33:58
2029
原创 第九天:K-Means算法
K-Means算法是一种简单而有效的聚类方法,但它也有一些缺点,如对初始质心的选择敏感,可能会陷入局部最优解。为了解决这些问题,可以使用多次初始化(K-Means++)等改进方法。通过合理选择K的值和适当的初始质心,K-Means算法可以为数据分析和模式识别提供有效的支持。希望这篇博客能帮助你更好地理解K-Means算法及其应用。如果你有任何问题或建议,请随时联系我!
2024-08-08 09:22:28
1249
原创 第八天:机器学习:支持向量机SVM
支持向量机是一种强大的分类算法,通过最大化间隔来提高分类性能。SVM 的理论基础包括超平面、间隔最大化和软间隔等概念。通过实际的 Python 代码实现,我们可以可视化 SVM 的决策边界,帮助理解其工作原理。希望本文对你理解 SVM 有所帮助。如果有任何问题或需要进一步的讨论,请随时联系我!
2024-08-08 09:15:43
2120
原创 第七天:机器学习:神经网络-正向传播算法
输入层:接受原始数据输入,通常不进行计算,只是简单地传递数据。隐藏层:包含多个神经元,对输入数据进行复杂的特征提取和处理。隐藏层可以有多层,这使得神经网络具备强大的学习能力。输出层:将最后一层隐藏层的输出进行处理,生成最终的预测结果。正向传播是神经网络中的基本过程,通过将输入数据逐层传递和计算,最终得到输出结果。激活函数在正向传播中起到了关键作用,使神经网络能够学习和表达复杂的非线性关系。通过理解和实现正向传播算法,初学者可以深入理解神经网络的工作原理,为进一步学习和应用打下坚实基础。
2024-08-03 02:22:41
955
原创 第七天:机器学习:神经网络-反向传播算法
梯度下降是一种优化算法,用于通过最小化损失函数来更新神经网络的参数。随机梯度下降(SGD):每次使用一个样本进行梯度更新。批量梯度下降(Batch Gradient Descent):每次使用整个训练集进行梯度更新。小批量梯度下降(Mini-Batch Gradient Descent):每次使用一部分训练集进行梯度更新。Adam优化算法:结合了动量和自适应学习率的方法。反向传播是神经网络训练中的核心算法,它通过计算误差梯度来调整神经网络的权重和偏置,从而逐步优化模型性能。
2024-08-03 02:20:31
1343
原创 第六天:机器学习:神经网络
通过上述介绍,我们了解了神经网络的基本结构和工作原理,包括神经元、权重、层、前向传播、反向传播、激活函数、训练过程及正则化方法。神经网络在实际应用中的重要性不断提升,是机器学习研究和应用的重要方向。
2024-08-02 17:28:58
910
原创 第五天:机器学习中的正则化:防止过拟合的艺术
在机器学习中,我们经常面临过拟合的问题,即模型在训练数据上表现良好,但在未见过的数据上表现不佳。正则化是一种减少过拟合风险的技术,通过在模型的损失函数中添加一个额外的项来实现。
2024-08-02 16:45:53
1107
原创 第四天:逻辑回归:机器学习中的分类利器
逻辑回归是一种预测二元结果的统计方法。它通过使用逻辑函数将线性回归的输出映射到0和1之间,从而预测事件发生的概率。
2024-08-02 16:32:51
1164
原创 第三天:多元线性回归
多元线性回归是一种统计方法,用于分析两个或两个以上自变量(解释变量)与一个因变量(响应变量)之间的线性关系。其一般形式可以表示为: y=β0+β1x1+β2x2+…+βnxn+ϵy=β0+β1x1+β2x2+…+βnxn+ϵ 其中,yy 是因变量,x1,x2,…,xnx1,x2,…,xn 是自变量,β0,β1,…,βnβ0,β1,…,βn 是模型参数,而 ϵϵ 是误差项。
2024-07-31 10:59:09
550
原创 第二天:单变量线性回归
单变量线性回归是一种基本的预测模型,它通过分析一个自变量(X)和一个因变量(Y)之间的线性关系,来预测未来的值。这种关系可以用以下的线性方程表示: y=β0+β1xy=β0+β1x单变量线性回归是理解机器学习基本概念的一个很好的起点。通过这个模型,我们可以开始探索数据之间的关系,并为更复杂的机器学习算法打下基础。
2024-07-31 10:54:12
471
7:K-means+PCA.zip
2024-08-13
8:异常检测与推荐系统.zip
2024-08-13
4:神经网络(下).zip
2024-08-13
5:机器学习系统设计.zip
2024-08-13
6:SVM.zip
2024-08-13
3:神经网络(上).zip
2024-08-13
1:线性回归.zip
2024-08-13
2:逻辑回归+正则化.zip
2024-08-13
grokking deep learning 深度学习图解 (美 安德鲁·特拉斯克(Andrew W. Trask) ).pdf
2024-08-13
机器学习/深度学习/计算机视觉+python+Pytorch常用函数手册
2024-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人