2

编辑:我正在尝试将新用户评论分类为预定义的一组标签。每条评论都可以有多个与之关联的标签。

我已将我的数据库用户评论映射到 15 个类别,以下示例显示了文本,推理映射的类别


USER_REVIEWS | 类别
pizza有史以来最好的,我们真的很喜欢这个地方,our kids......” | “食物,家庭”
The ATV tour was extremenature was beautiful……” | “活跃,家庭”

pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature


编辑: 我尝试了两种训练数据方法:

第一个包括单个文件中的所有类别,如下所示:

"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."

第二种方法是将训练数据拆分为 15 个单独的文件,如下所示:

family_training_data.csv:

"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."

以上都不是结论性的,并且大多数时候都错过了标记。


以下是我在试验时提出的一些问题:

  1. 我的一些评论很长(超过 300 字),我是否应该限制我的训练数据文件上的字数,使其与平均评论字数(80)相匹配?
  2. 最好是将数据分成15个训练数据文件,用TRUE/FALSE选项,意思是:(是特定类别的评论文本),还是将所有类别混合在一个训练数据文件中?
  3. 如何训练模型以找到同义词或相关关键字,以便它可以标记“motorbike骑行很棒”,就像active训练数据有ATV骑行记录一样

我尝试了上述一些方法,但没有任何好的结果。
:什么训练数据格式会产生最好的结果?

4

2 回答 2

2

我将从我可以用给定信息回答的部分开始。也许我们可以从那里完善您的问题。

问题 3:在没有上下文支持的情况下,您无法训练模型识别新词汇。不仅仅是“motorbike”不在训练集中,而且“ride”也不在训练集中,并且评论中的其他词与运输无关。您寻求的认知信息根本不在您提供的数据中。

问题 2:这取决于您正在考虑的培训方法。您可以将每个标签作为具有真/假值的单独特征列。这在功能上相当于 15 个单独的数据文件,每个文件都有一个真/假值。单文件方法使您有机会稍后扩展到类别之间的某些上下文支持。

问题 1:长度本身并不是特别相关,除了删除非生产性单词将有助于集中训练——你不会从偶然的相关性中得到几乎一样多的虚假分类。你有办法以编程方式减小大小吗?你能把它应用到你想要分类的新输入吗?如果没有,那么我不确定这是否值得。


开放式问题

你有什么经验证据表明给定数据可以达到 80% 的准确率?如果训练数据不包含准确标记该数据所需的理论信息,那么您就没有机会获得您想要的模型。

您选择的应用程序是否有足够的智能将评论分解成文字?是否对词序或语义有任何认识——你需要吗?

于 2015-10-19T21:40:40.530 回答
1

在遇到类似问题后,以下是我对您的问题的见解:

  1. 根据 WATSON Natural Language Classifier文档,最好将输入文本的长度限制在 60 个单词以下,所以我猜使用平均 80 个单词会产生更好的结果
  2. 您可以采用任何一种方式,但单独的文件会产生更明确的结果
  3. 正如建议的那样,创建同义词图将是一个很好的起点,WATSON 旨在回答更复杂的认知解决方案。

WATSON 指南中的一些其他帮助提示:

  • 将输入文本的长度限制为少于 60 个单词。
  • 将班级数量限制在数百个班级。对更多类的支持可能包含在服务的更高版本中。
  • 当每个文本记录只有一个类时,确保每个类至少匹配 5 - 10 条记录,以提供对该类的足够培训。
  • 决定是否为文本包含多个类可能很困难。驱动多个类的两个常见原因:
    • 当文本含糊不清时,识别单个类并不总是很清楚。
    • 当专家以不同的方式解释文本时,多个类支持这些解释。
  • 但是,如果您的训练数据中的许多文本包含多个类,或者如果某些文本具有三个以上的类,则您可能需要细化这些类。例如,查看类是否是分层的。如果它们是分层的,则包含叶节点作为类。
于 2015-10-25T14:10:48.423 回答