机器学习与深度学习基础精要

置顶编码雪人

已于 2025-04-28 23:22:57 修改

阅读量544

点赞数 1

分类专栏：机器学习文章标签： python 机器学习人工智能

于 2023-08-13 02:24:17 首次发布

本文链接：https://blog.csdn.net/EncodingLee/article/details/132250214

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

机器学习与深度学习基础精要

第一章数据预处理
- 1.1 特征放缩理论
参考文献

第一章数据预处理

1.1 特征放缩理论

在时间序列建模学习过程中，笔者发现一则具有启发意义的观点[1]，特此摘录，以供进一步研究与深入理解数据归一化的本质。
在这里插入图片描述
本章节阐述了最大最小归一化（Max-Min Scaling）与标准化（Normalization）之间的区别。其中，最大最小归一化仅调整数据的取值范围，保持原有数据分布不变；而标准化不仅改变数据范围，同时可能引起数据分布的变化。

1.1.1 数据归一化处理

归一化是通过对原始数据进行线性变换，将其数值映射至区间 $[0, 1]$ 。常采用最大最小归一化（Max-Min Scaling）方法，具体变换公式如下所示：
$X^{'} = \frac{x-\min{x}}{\max{x}-\min{x}}$

1.1.2 数据标准化处理

标准化是将原始数据变换到均值 $\mu$ 为0，方差 $\sigma$ 为1的范围内。变换公式如下所示。
$X^{'} = \frac{x-\overline{x}}{\sigma}$
尽管归一化与标准化在调整数据量纲的过程中均旨在尽可能保持数据分布的基本形态，但二者在处理机制上存在差异。归一化主要依赖于数据的最大值与最小值进行线性缩放，而标准化则基于数据的整体分布特性（如均值与标准差）进行调整。相较而言，标准化对异常值（outliers）具有更强的鲁棒性，因此在大多数应用场景中，通常优先采用标准化方法[2]。

1.1.3 仿真实验

为验证归一化与标准化处理是否对数据分布产生影响，本节以某变电站的 CO₂ 检测数据作为研究对象。将数据划分为 20 个区间，并绘制柱状图进行直观比较。下图分别展示了原始数据、归一化处理数据及标准化处理数据的分布特征。

图 1-1 原始数据柱状图

图 1-2 归一化处理后的柱状图

图 1-3 标准化处理后的柱状图

从图1-1至图1-3可以观察到，原始数据与经过Max-Min归一化和标准化处理后的数据在整体形状上高度相似，但位置不同，尚不足以严格证明它们来源于同一分布。为进一步验证三组数据分布的一致性，本文通过统计假设检验方法，分别对各组数据进行两两分布一致性检验。实验结果如下所示。

**表 1-1 Kolmogorov-Smirnov 检验**
	原始数据	归一化数据	标准化数据
原始数据	1.0	1.374847725366806e-48	1.374847725366806e-48
归一化数据	1.374847725366806e-48	1.0	9.241815513088363e-09
标准化数据	1.374847725366806e-48	9.241815513088363e-09	1.0

**表 1-2 Cramér-von Mises 检验**
	原始数据	归一化数据	标准化数据
原始数据	1.0	3.927331793107669e-10	3.927331793107669e-10
归一化数据	3.927331793107669e-10	1.0	1.0689814614606163e-06
标准化数据	3.927331793107669e-10	1.0689814614606163e-06	1.0