我有一个类似的数据集:
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
让我们说这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含 15-20 种不同的类型category 1。每个 in 类型都category 1可以有一个 in 类型category 2。例如。X可以有a两次或三次类型的条目和b两次类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完之后,我想通过任何一个category 1& category 2,例如:X& a- 这应该给我一个1or的预测输出0。我打算为此目的使用逻辑回归。
问题:
既然我有文本数据,我应该使用假人并为每种类型创建一个列吗?(例如,既然我有
X,Y,Z我应该创建三个不同的列并分配 a1或 a0。我可以为此使用逻辑回归还是它不适合我的应用程序?(我更愿意得到预测的概率
1)
任何的意见都将会有帮助。