请停止对分类变量进行独热编码！

本文作者： AI研习社-译站

2020-09-03 14:56

导语：从机器学习的角度来看，独热编码对于分类变量编码并不是一个很好的选择。

请停止对分类变量进行独热编码！

字幕组双语原文：请停止对分类变量进行独热编码！

英语原文：Stop One-Hot Encoding Your Categorical Variables.

翻译：雷锋字幕组（chenx2ovo、wiige）

独热编码，又称虚拟变量，是一种将分类变量转换为若干二进制列的方法，其中1表示存在属于该类别的那一行。

请停止对分类变量进行独热编码！

很显然，从机器学习的角度来看，它并不是一个对分类变量编码的很好的选择。

一般来说，维度的数量越低越好，而这种方法很明显增加了大量的维度。例如，如果我们要有一列代表美国的州（比如加州、纽约州），独热编码就会增加五十个维度。

它不仅给数据集增加了大量的维度，而且冗余信息太多——1偶尔点缀在零的海洋中。这个异常稀疏的矩阵，使得它很难处理优化问题。对于神经网络来说尤其如此，这几十个空的维度使得神经网络的优化器在错误空间中寻找最优解时就会遇到许多麻烦。

更糟糕的是，每一个信息稀疏的列之间都有线性关系。这意味着一个变量可以很容易地使用其他变量进行预测，高维度下这会造成的并行性和多线性问题。

请停止对分类变量进行独热编码！

最优的数据集由独立且包含有价值信息的特征组成，而独热编码张成的空间却不是这样的。

当然，如果只有三个或四个类别，独热编码可能还不是那么糟糕，但根据数据集的相对大小，探索其他选择也是值得。

目标编码是表示分类列的一种非常有效的方法，只占用一个特征的空间。其又称均值编码，列中的每个值都用该类别的目标均值代替。这样可以更直接地表示分类变量和目标变量之间的关系，是一种非常流行的技术（尤其是在Kaggle比赛上）。

请停止对分类变量进行独热编码！

这种编码方法有一些缺点。首先，它使模型更难学习均值编码变量和另一变量之间的关系，它只根据一列变量与目标变量的关系来得出相似性，这既可能是个优点也可能是个缺点。

但主要的是，这种编码方法会对变量y非常敏感，从而影响模型提取编码信息的能力。

由于类别的每一个值都被替换为相同的数值，模型可能会倾向于过拟合它所见的编码值（比如将0.8与0.79联系成完全不同的东西）。这就是将连续值视为大量重复类的影响。

因此，需要仔细监控y变量是否存在异常值。

要实现这一点，可以使用category_encoders库。由于目标编码器是一种监督方法，所以它需要包含x和y两个值才能训练。

请停止对分类变量进行独热编码！

留一法编码试图弥补这种对y变量的依赖，并通过排除当前行的数值来计算平均值作为编码，使数值更加多样化。这种方法可以消除离群值的影响，并生成了更多样化的编码值。

请停止对分类变量进行独热编码！

由于该方法显示了每个编码类相同的数值和范围，因此他可以学到更好的泛化能力。

与其他方法一样，留一法编码可以通过category_encoders库中的LeaveOneOutEncoder来进行实现。

请停止对分类变量进行独热编码！

另一种能实现类似效果的方法是在编码中加入正态分布的噪声，其中正态分布的标准差是一个可调节的参数。

贝叶斯标签编码是一种更偏向数学的方法，将标签作为一种编码方法。只使用平均数作为度量可能存在一定的欺骗性，因此贝叶斯标签编码寻求纳入标签变量分布的其他统计量，例如它的方差或偏度--被称为 "高矩"。

然后通过贝叶斯模型将这些分布的属性纳入其中，从而能够产生一个更了解类别标签分布的编码。但是，这种方法结果可解释性较差。

证据权重是对分类独立变量和因变量之间的关系的另一种微妙的表现。WoE是从信用评分领域演变而来的。它用于衡量违约客户和还款客户之间的差异。证据权重的数学定义是几率比的自然对数：

ln (% of non events / % of events)

WoE越高，表明事件发生的可能性越大。'非事件'是那些不在某个类别中的事件发生的百分比。对于逻辑回归来说，使用证据权重建立与因变量的单调关系（永远不会停止向一个方向发展），并确保逻辑尺度上的类别，这是很自然的一件事。WoE还是另一个度量指标 "信息值 "的关键组成部分，它可以衡量一个特征能为预测提供的信息量大小。

请停止对分类变量进行独热编码！