machine-learning - 具有文本特征的数据集的逻辑回归

Question

我有一个类似的数据集：

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

让我们说这是三列。我想提一下，第 1 列和第 2 列是文本特征，而不是数字数据。我的输入数据将包含 15-20 种不同的类型category 1。每个 in 类型都category 1可以有一个 in 类型category 2。例如。X可以有a两次或三次类型的条目和b两次类型的条目。第三列是输出。我想在这样的数据集上训练一个模型，最后在模型训练完之后，我想通过任何一个category 1& category 2，例如：X& a- 这应该给我一个1or的预测输出0。我打算为此目的使用逻辑回归。

问题：

既然我有文本数据，我应该使用假人并为每种类型创建一个列吗？（例如，既然我有X, Y，Z我应该创建三个不同的列并分配 a1或 a 0。
我可以为此使用逻辑回归还是它不适合我的应用程序？（我更愿意得到预测的概率1）

任何的意见都将会有帮助。

score 3 · Accepted Answer

如果您的分类基于每个类别中的对数几率，则逻辑回归适合。对于二元分类，它与可比较方法的结果差别不大。

是的，您应该将“假人”用于分类数据。这被称为“单热编码”，来自一种电气设计技术，在该技术中，在任何给定时间，集群中恰好有一根电线将是“热的”（有电流）。对于您发布的数据，类别 1 有三列，类别 2 至少有四列（a、b、d、f）。

machine-learning - 具有文本特征的数据集的逻辑回归

1 回答 1

Related

Reference