我有一个类似的数据集:
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
让我们说这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含 15-20 种不同的类型category 1
。每个 in 类型都category 1
可以有一个 in 类型category 2
。例如。X
可以有a
两次或三次类型的条目和b
两次类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完之后,我想通过任何一个category 1
& category 2
,例如:X
& a
- 这应该给我一个1
or的预测输出0
。我打算为此目的使用逻辑回归。
问题:
既然我有文本数据,我应该使用假人并为每种类型创建一个列吗?(例如,既然我有
X
,Y
,Z
我应该创建三个不同的列并分配 a1
或 a0
。我可以为此使用逻辑回归还是它不适合我的应用程序?(我更愿意得到预测的概率
1
)
任何的意见都将会有帮助。