2

目前,我正在从事必须对餐厅评论数据进行分类的项目。我正在使用多项朴素贝叶斯算法。我有点困惑,我的问题与多类或多标签有关。

审查示例-

请像对待客户一样对待您的客户,而不是狗。.我永远不会去或建议任何人去Naivedyam,Hauz Khas。他们是病态的完全商人。食物味道很差,但是地方和工作人员太脏了

它包含三个不同的类,例如

Bad Experience
Staff Behavior
food quality

如何创建训练数据集?

我应该使用多标签并创建训练数据集,如

ID Content                    Tags
1, "content of the review#1", Bad Experience,Staff Behavior,food quality

或者

就像在多类中

 Review          Tags
above review, Bad Experience
above review, Staff Behavior
above review, food quality

任何建议

4

1 回答 1

0

您的问题是一个多标签分类示例。

一种方法是将每个输出响应视为单独的二元分类问题

   X           Y1    Y2 
0  1.438161    0     1
1 -0.283780    1     1
2  0.552564    1     0
3  1.931332    0     1
4  1.656010    0     1
5  0.944862    1     0

其中 Y1、Y2 是“不良体验”或“员工行为”是否发生的单热编码。

您可以在scikit-learn 文档中找到多标签分类的示例。

于 2017-09-18T14:57:34.040 回答