0

我需要开发自定义文本分类解决方案,它不使用输入文本作为一组特征,而是使用一些派生参数,例如文本中的 URL 数量、代表不同语音部分的单词数量、平均单词长度等。(假设我们能够推导出给定输入文档的一组特征)。

最初我考虑使用 OpenNLP 为我进行分类(通过 DocumentCategorizerME),但我看到它仅使用文本字符串作为可能的特征,并且不可能使用非谨慎的特征(例如表示平均字长的浮点数)。

所以问题是:

  1. 我错过了什么吗?是否真的可以调整 OpenNLP 以将其与整数或浮点特征一起使用以进行分类
  2. 如果不是,我应该使用什么建议的库/工具包?
4

2 回答 2

1

您应该尝试使用Mallet来使用自己的特征训练自己的分类器。是一个帮助您入门的教程。

于 2013-06-13T14:40:20.390 回答
0

如果您像我一样从 Google 出现,您可能会注意到 OpenNLP 在分类方法中有一个 extraInformation 参数。不幸的是,它根本没有使用:(

这意味着雷诺给出的建议,也许是最好的选择。

或者,如果您必须使用 OpenNLP,您可以通过在数据中包含一个新词(在训练和预测中)来包含新功能。如:XAverageWordLengthX。我并不是说它是一个很好的解决方案,但可以帮助你的算法。

于 2019-08-15T16:32:16.697 回答