0

是否有任何工具可以用来从我的数据集中修剪高频和低频术语?

4

2 回答 2

0

停用词是在自然语言处理中消除(非常)高频词的常用技术。

低频词通常很有趣。你真的想消灭它们吗?

于 2014-02-02T21:53:23.950 回答
0

一个常用的算法是Grubbs 的测试。我真的不知道 Java 中的实现,但如果您愿意用不同的语言进行预处理,那么 R 中的异常值包包含 Grubbs 的测试等。要消除多个异常值,您可以重复应用 Grubbs 检验。

编辑:

我刚刚看到我错过了文本分类标签。如果您只是想避免过于频繁的术语扭曲您的结果,那么您可能会对TF-IDF感兴趣。这当然不会降低维度。

于 2014-02-02T21:47:53.277 回答