classification - 没有训练数据时如何对聊天文本进行分类？

Question

我有一个要对聊天文本进行分类的用例。我想在 Apache OpenNLP 中使用 DocumentCategorizer 对聊天进行分类。但为此，我必须拥有应该已经分类聊天的训练数据。我是否必须手动对数百个聊天进行分类以准备训练和测试数据？我还可以做些什么？我打算将聊天类别与服务相关的问题。然后，此类别列表将是特定于域的。该数据的提供者是否应该向我提供分类的聊天数据？提前致谢。

score 3 · Accepted Answer

根据定义，没有标记数据就不可能有分类问题。有人标记（至少部分）数据，或者您应该尝试以不同的方式解决问题。

-- 编辑添加了一些如何在不分类的情况下解决问题的示例：

一般来说，根据具体任务，您可以尝试通过聚类或/和文档或术语匹配来解决“分类”问题。聚类将与同一主题相关的文档组合在一起，而术语匹配将观察引用特定术语的文档。如果没有可用的训练数据，但您对问题有一些了解，则任何一种方法或它们之间的组合都可能足以满足您的信息需求。

对于您的具体问题，我将开始尝试对聊天进行集群。

score 0 · Accepted Answer

虽然聚类可以让您对文本进行分类并识别其中的主题，但无监督方法通常会降低控制分类性能的灵活性，但如果您没有标记数据，它们仍然是最好的工具。

然而，零样本和少样本学习的最新进展可以让您使用很少（100 - 200 个训练数据）或根本没有训练数据来构建分类器。您的分类器仍保留有监督分类器的所有优点，并为您提供对类别的所有控制。

我已经构建了一个这样的系统，您可以根据自己的类别和数据尝试演示，以查看系统的运行情况。

其他资源：

classification - 没有训练数据时如何对聊天文本进行分类？

2 回答 2

Related

Reference