machine-learning - 如何从数据集中修剪低频和高频词？

Question

是否有任何工具可以用来从我的数据集中修剪高频和低频术语？

score 0 · Accepted Answer

停用词是在自然语言处理中消除（非常）高频词的常用技术。

低频词通常很有趣。你真的想消灭它们吗？

score 0 · Accepted Answer

一个常用的算法是Grubbs 的测试。我真的不知道 Java 中的实现，但如果您愿意用不同的语言进行预处理，那么 R 中的异常值包包含 Grubbs 的测试等。要消除多个异常值，您可以重复应用 Grubbs 检验。

编辑：

我刚刚看到我错过了文本分类标签。如果您只是想避免过于频繁的术语扭曲您的结果，那么您可能会对TF-IDF感兴趣。这当然不会降低维度。

2 回答 2