0

我有一个类似的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

让我们说这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含 15-20 种不同的类型category 1。每个 in 类型都category 1可以有一个 in 类型category 2。例如。X可以有a两次或三次类型的条目和b两次类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完之后,我想通过任何一个category 1& category 2,例如:X& a- 这应该给我一个1or的预测输出0。我打算为此目的使用逻辑回归。

问题:

  1. 既然我有文本数据,我应该使用假人并为每种类型创建一个列吗?(例如,既然我有X, YZ我应该创建三个不同的列并分配 a1或 a 0

  2. 我可以为此使用逻辑回归还是它不适合我的应用程序?(我更愿意得到预测的概率1

任何的意见都将会有帮助。

4

1 回答 1

3

如果您的分类基于每个类别中的对数几率,则逻辑回归适合。对于二元分类,它与可比较方法的结果差别不大。

是的,您应该将“假人”用于分类数据。这被称为“单热编码”,来自一种电气设计技术,在该技术中,在任何给定时间,集群中恰好有一根电线将是“热的”(有电流)。对于您发布的数据,类别 1 有三列,类别 2 至少有四列(a、b、d、f)。

于 2018-08-14T23:05:16.907 回答