机器学习与深度学习基础精要
第一章 数据预处理
1.1 特征放缩理论
在时间序列建模学习过程中,笔者发现一则具有启发意义的观点[1],特此摘录,以供进一步研究与深入理解数据归一化的本质。
本章节阐述了最大最小归一化(Max-Min Scaling)与标准化(Normalization)之间的区别。其中,最大最小归一化仅调整数据的取值范围,保持原有数据分布不变;而标准化不仅改变数据范围,同时可能引起数据分布的变化。
1.1.1 数据归一化处理
归一化是通过对原始数据进行线性变换,将其数值映射至区间
[
0
,
1
]
[0, 1]
[0,1]。常采用最大最小归一化(Max-Min Scaling)方法,具体变换公式如下所示:
X
′
=
x
−
min
x
max
x
−
min
x
X^{'} = \frac{x-\min{x}}{\max{x}-\min{x}}
X′=maxx−minxx−minx
1.1.2 数据标准化处理
标准化是将原始数据变换到均值
μ
\mu
μ为0,方差
σ
\sigma
σ为1的范围内。变换公式如下所示。
X
′
=
x
−
x
‾
σ
X^{'} = \frac{x-\overline{x}}{\sigma}
X′=σx−x
尽管归一化与标准化在调整数据量纲的过程中均旨在尽可能保持数据分布的基本形态,但二者在处理机制上存在差异。归一化主要依赖于数据的最大值与最小值进行线性缩放,而标准化则基于数据的整体分布特性(如均值与标准差)进行调整。相较而言,标准化对异常值(outliers)具有更强的鲁棒性,因此在大多数应用场景中,通常优先采用标准化方法[2]。
1.1.3 仿真实验
为验证归一化与标准化处理是否对数据分布产生影响,本节以某变电站的 CO₂ 检测数据作为研究对象。将数据划分为 20 个区间,并绘制柱状图进行直观比较。下图分别展示了原始数据、归一化处理数据及标准化处理数据的分布特征。
![]() 图 1-1 原始数据柱状图 | ![]() 图 1-2 归一化处理后的柱状图 | ![]() 图 1-3 标准化处理后的柱状图 |
从图1-1至图1-3可以观察到,原始数据与经过Max-Min归一化和标准化处理后的数据在整体形状上高度相似,但位置不同,尚不足以严格证明它们来源于同一分布。为进一步验证三组数据分布的一致性,本文通过统计假设检验方法,分别对各组数据进行两两分布一致性检验。实验结果如下所示。
原始数据 | 归一化数据 | 标准化数据 | |
原始数据 | 1.0 | 1.374847725366806e-48 | 1.374847725366806e-48 |
归一化数据 | 1.374847725366806e-48 | 1.0 | 9.241815513088363e-09 |
标准化数据 | 1.374847725366806e-48 | 9.241815513088363e-09 | 1.0 |
原始数据 | 归一化数据 | 标准化数据 | |
原始数据 | 1.0 | 3.927331793107669e-10 | 3.927331793107669e-10 |
归一化数据 | 3.927331793107669e-10 | 1.0 | 1.0689814614606163e-06 |
标准化数据 | 3.927331793107669e-10 | 1.0689814614606163e-06 | 1.0 |
参考文献
[1] Marco Peixeiro. Time Series Forecasting in Python[M]. 北京:机械出版社,2024.4.
[2] 鲍亮,崔江涛,李倩. 实战机器学习[M]. 北京:清华大学出版社,2021.6.