编辑:我正在尝试将新用户评论分类为预定义的一组标签。每条评论都可以有多个与之关联的标签。
我已将我的数据库用户评论映射到 15 个类别,以下示例显示了文本,推理映射的类别
USER_REVIEWS | 类别
“pizza
有史以来最好的,我们真的很喜欢这个地方,our kids
......” | “食物,家庭”
“The ATV tour was extreme
和nature was beautiful
……” | “活跃,家庭”
pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature
编辑: 我尝试了两种训练数据方法:
第一个包括单个文件中的所有类别,如下所示:
"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."
第二种方法是将训练数据拆分为 15 个单独的文件,如下所示:
family_training_data.csv:
"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."
以上都不是结论性的,并且大多数时候都错过了标记。
以下是我在试验时提出的一些问题:
- 我的一些评论很长(超过 300 字),我是否应该限制我的训练数据文件上的字数,使其与平均评论字数(80)相匹配?
- 最好是将数据分成15个训练数据文件,用TRUE/FALSE选项,意思是:(是特定类别的评论文本),还是将所有类别混合在一个训练数据文件中?
- 如何训练模型以找到同义词或相关关键字,以便它可以标记“
motorbike
骑行很棒”,就像active
训练数据有ATV
骑行记录一样
我尝试了上述一些方法,但没有任何好的结果。
问:什么训练数据格式会产生最好的结果?