我需要开发自定义文本分类解决方案,它不使用输入文本作为一组特征,而是使用一些派生参数,例如文本中的 URL 数量、代表不同语音部分的单词数量、平均单词长度等。(假设我们能够推导出给定输入文档的一组特征)。
最初我考虑使用 OpenNLP 为我进行分类(通过 DocumentCategorizerME),但我看到它仅使用文本字符串作为可能的特征,并且不可能使用非谨慎的特征(例如表示平均字长的浮点数)。
所以问题是:
- 我错过了什么吗?是否真的可以调整 OpenNLP 以将其与整数或浮点特征一起使用以进行分类
- 如果不是,我应该使用什么建议的库/工具包?