欢迎来到Introzo百科

Introzo百科

当前位置：网站首页 > 技术 > 数据处理方法：归一化与标准化处理

数据处理方法：归一化与标准化处理

日期：2023-09-21 10:10

在数据挖掘中，在建模前需要对数据进行预处理，预处理方法包括归一化与标准化，对数据进行缩放。

1.归一化（Normalization）

将数据缩放到0-1之间
线性（常用）归一化：最大最小值归一化， $y=\frac{x - min(x)}{max(x) - min(x)}$
其他或者非线性

2.标准化（Standardization）

将数据按比例缩放，使之落入一个小的特定区间
z-score方法：去均值除标准差 $y=\frac{x - \mu}{\sigma} = \frac{x - np.mean(x)}{np.std(x)}$
该方法使得数据被标准化到均值为0，方差为1的标准正态分布，非常适合统计学中满足各种条件
而z-score本身也有特定的含义，是一种可以看出某分数在分布中相对位置的方法
对数标准化 $\frac{1}{1 + e^{-x}}$

3. 归一化与标准化的区别与优缺点

归一化与标准化的相同点：

联系:归一化广义上是包含标准化的,Z-Score方法也是归一化的方法之一,在这里主要是从狭义上,区分两者
本质上都是进行特征提取,方便最终的数据比较认识.都通过先平移(分子相减)后缩放(分母)进行进行提取;
都是为了缩小范围.便于后续的数据处理. 作用:(重点)
i) 加快梯度下降,损失函数收敛—速度上
ii) 提升模型精度–也就是分类准确率.(消除不同量纲,便于综合指标评价,提高分类准确率)—质量上
iii) 防止梯度爆炸(消除因为数据输入差距(1和2000)过大,而带来的输出差距过大(0.8,999),进而在反向传播的过程当中,导致梯度过大(因为反向传播的过程当中进行梯度计算,会使用的之前对应层的输入x),从而形成梯度爆炸)—稳定性上

归一化场景

A. 除非本来各维数据的分布范围就比较接近，否则必须进行标准化，以免模型参数被分布范围较大或较小的数据支配
B. 数据分布差异比较大–标准化和奇异数据(单个有影响的也要)–归一化

特征/数据需要归一化的场景①logistic regression模型:逻辑回归,虽然迭代若几次没有影响,但实际当中远不止若干次,这样就会导致逻辑回归模型的目标函数过于扁化,导致梯度很难下降,不容易得到较好的模型参数.②SVM模型:因为涉及到向量/数据的距离(向量之间差异过大/过小,就会导致最佳分离超平面可能会由最大/远或者最小/近的几个向量支配,导致鲁棒性较差,因此需要进行标准化—可以保留向量间的模型)③NeuralNetwork模型:初始输入值过大,反向传播时容易梯度爆炸(上面有解释)④SGD:加快梯度下降.

不需要归一化的场景

0/1取值的特征通常不需要归一化，归一化会破坏它的稀疏性
决策树，原因详见：https://www.introzo.com/question/big/kp_id/23/ques_id/923
基于平方损失的最小二乘法OLS不需要归一化(因为本质上是一个抛物线,强凸函数,下降速度快.)

相关文章

最近发表

猜你喜欢

关灯