1

在训练分类器时需要一些关于如何自动标记主题的想法。我的数据集大约有 50000 个文本,并且需要为每个文本分配预定义的主题,有没有自动执行此操作的?

4

2 回答 2

1

如果您可以自动执行此操作,那么为什么需要您的分类器呢?

所以答案是:如果你真的想生成真实数据,没有自动的方法。

如果可能,您应该寻找预先准备好的、标记的数据集。否则,您将手动标记所有数据,对不起。

于 2012-11-06T18:29:57.157 回答
0

您需要一些分类器的训练数据,这是您的意思吗?

我最近实际上遇到了同样的问题,所以我最终做的是我得到了一个简单的类别和子类别列表,我对它们进行了迭代,并尝试自动为每个类别提取一篇维基百科文章。

对于类别分类法本身,请查看http://rdf.dmoz.org/rdf/,有一个 categories.txt 文件,您可以将其精简为所需的级别数。(我使用了两个级别,所以只有类别和直接子类别)

对于文章提取,您可以使用Goose,它是一个非常易于使用的 Python 库,可以提取文档的 HTML 并从中剥离文章主体。

因为我遇到了完全相同的事情,所以我创建了一个小脚本来完成所有这些,在这里查看

于 2012-11-07T16:06:02.330 回答