machine-learning - 回归分析中的分类和有序特征数据差异？

Question

在进行回归分析时，我试图完全理解分类数据和有序数据之间的差异。现在，有什么是清楚的：

分类特征和数据示例：
颜色：红色、白色、黑色
为什么分类：red < white < black逻辑上不正确

序数特征和数据示例：
条件：旧、翻新、新
为什么序数：old < renovated < new逻辑上正确

Categorical-to-numeric 和 ordinal-to-numeric 编码方法：
分类数据的 One-Hot 编码
序数数据的任意数字

分类示例：

data = {'color': ['blue', 'green', 'green', 'red']}

One-Hot 编码后的数值格式：

   color_blue  color_green  color_red
0           1            0          0
1           0            1          0
2           0            1          0
3           0            0          1

序数示例：

data = {'con': ['old', 'new', 'new', 'renovated']}

使用映射后的数字格式：Old < renovated < new → 0, 1, 2

在我的数据中，随着条件从“旧”变为“新”，价格会上涨。数字中的“旧”被编码为“0”。数字中的“新”被编码为“2”。因此，随着条件的增加，价格也会上涨。正确的。
现在让我们看一下“颜色”功能。就我而言，不同的颜色也会影响价格。例如，“黑色”将比“白色”更贵。但是从上面提到的分类数据的数字表示来看，我没有看到像使用“条件”功能那样增加依赖性。这是否意味着如果使用 one-hot 编码，颜色的变化不会影响回归模型中的价格？如果它不影响价格，为什么要使用 one-hot 编码进行回归？你能澄清一下吗？

更新问题：
首先我介绍线性回归的公式：让我们看一下颜色的数据表示：让我们使用两种数据表示的公式来预测第一个和第二个项目的价格：单热编码： 在这种情况下不同将存在不同颜色的 theta，预测将是：

Price (1 item) = 0 + 20*1 + 50*0 + 100*0 = 20$  (thetas are assumed for example)
Price (2 item) = 0 + 20*0 + 50*1 + 100*0 = 50$  (thetas are assumed for example)

颜色的序号编码： 在这种情况下，所有颜色都有共同的 theta，但乘数不同：

Price (1 item) = 0 + 20*10 = 200$  (theta assumed for example)
Price (2 item) = 0 + 20*20 = 400$  (theta assumed for example)

在我的模型中，价格为白色 < 红色 < 黑色。似乎这两种情况都是合乎逻辑的预测。对于序数和分类表示。因此，无论数据类型（分类或序数）如何，我都可以对回归使用任何编码？这种划分只是约定和面向软件的表示的问题，而不是回归逻辑本身的问题？

score 3 · Accepted Answer

你会看到没有增加依赖。正如您已经指出的那样，这种区分的全部意义在于，颜色不是您可以有意义地放在连续统一体上的特征。

one-hot编码使得软件分析这个维度非常方便。您拥有一组布尔（存在/不存在）特性，而不是具有列出值的特性“颜色”。例如，上面的第 0 行具有 color_blue = true、color_green = false 和 color_red = false 的特征。

您获得的预测数据应将这些数据显示为单独的维度。例如，color_blue 的存在可能价值 200 美元，而绿色是 -100 美元。

总结：不要寻找跨越（不存在的）颜色轴的线性回归线；相反，寻找 color_* 因素，每种颜色一个。就您的分析算法而言，这些是完全独立的特征；“one-hot”编码（来自数字电路设计的一个术语）只是我们处理这个问题的惯例。

这对你的理解有帮助吗？

在您于 2015 年 12 月 4 日 02:03 Z 编辑问题后：

不，您的假设不正确：这两种表示不仅仅是为了方便。颜色的顺序适用于这个例子——因为效果恰好是所选编码的简洁线性函数。正如您的示例所示，您更简单的编码假设白到红到黑的定价是线性的。当绿色、蓝色和棕色都是 25 美元，稀有的黄色价值 500 美元，透明降低价格 1000 美元时，你会怎么做？

还有，你怎么事先知道黑比白更值钱，反过来又比红更值钱？

考虑基于小学学区的房价案例，该地区有 50 个学区。如果您使用数字编码——学区编号、字母顺序位置或其他任意顺序——回归软件将很难找到该数字与房价之间的相关性。PS 107 是比 PS 32 或 PS 15 更贵的地区吗？与联合城和文图拉相比，Addington 和 Bendemeer 更受欢迎吗？

在 one-hot 原则下将这些特征拆分为 50 个不同的特征，可以将特征与编码分离，并允许分析软件以数学上有意义的方式处理它们。无论如何，它都不是完美的——例如，从 20 个功能扩展到 70 个意味着需要更长的时间才能收敛——但我们确实为学区获得了有意义的结果。

如果您愿意，您现在可以按预期的值顺序对该特征进行编码，并获得合理的拟合，而准确性几乎没有损失，并且模型的预测速度更快（变量更少）。

score 2 · Accepted Answer

对于顺序无关紧要的分类变量，您不能使用序数编码。建立回归模型的主要目的是查看一个变量有多少变化对响应变量有多大影响。当您获得回归公式时，您会这样阅读它：“变量 X 的 1 个单位变化导致theta_x响应变量的变化”。

例如，假设你建立了一个房价回归模型，你得到了：price = 1000 + (-50)*age_of_house. 这意味着房子的年龄增加 1 年会导致价格下降 50。

当您有一个分类变量时，您不能提及该变量中的单位更改。您不能说颜色增加/减少 1 个单位......等等。因此，正如Prune他/她的回答中所说，单热编码只是处理分类变量的约定。它允许您解释结果，例如，如果房子是白色的，当最终模型中的 color_white 系数为 +200 时，它会增加 200 美元的值。如果房子不是白色的，则该变量对您的响应变量没有影响，因为该值将为 0。

不要忘记“线性回归”模型只能解释变量之间的线性关系。

我希望这有帮助。

machine-learning - 回归分析中的分类和有序特征数据差异？

2 回答 2

这对你的理解有帮助吗？

Related